什么是文本提取器?
文本提取器是一款强大的工具,可自动识别并从任何文本中提取特定类型的数据。无论您有一份充满联系信息的文档、一个包含分散链接的网页,还是包含各种模式的原始数据,此工具都能帮助您在几秒钟内准确提取所需内容。
可以提取什么?
该工具内置8 种模式类型,涵盖最常见的提取需求:
电子邮件
URL
电话号码
话题标签
提及
IP 地址
日期
数字
谁需要这个工具?
营销人员
从文档和营销活动中收集联系信息
研究人员
从文本来源和研究中提取数据点
开发人员
测试正则表达式模式或高效解析数据
数据分析师
清理和整理非结构化文本数据
任何人
需要快速在文本中查找特定模式的人
如何使用文本提取器
从文本中提取数据非常简单。按照以下步骤快速获取结果。
输入文本
将文本粘贴或输入到左侧的输入区域。该工具接受任何纯文本,包括:
- 从网站复制的内容
- 电子邮件线程和文档
- 日志文件和数据导出
- 社交媒体帖子
您也可以点击粘贴按钮快速从剪贴板粘贴。
选择要提取的内容
默认情况下,所有 8 种模式类型都已启用。点击任意模式标签可切换其开关状态:
- 已启用的模式显示找到的匹配数量
- 已禁用的模式显示为灰色且不会提取
启用仅唯一值可从结果中删除重复值。
查看和使用结果
结果即时显示在右侧面板中,按类型组织。每个结果显示:
- 提取的值
- 用于复制单个项目的复制按钮
- 显示每种类型总匹配数的计数徽章
导出数据
选择您喜欢的导出格式:
- 列表 - 每行一个值(默认)
- CSV - 用逗号分隔的值
- JSON - 供开发人员使用的数组格式
然后使用:
- 每个组上的复制按钮复制该类型的结果
- 下载按钮将结果保存为文件
- 全部复制一次性复制所有内容
使用自定义正则表达式
对于高级模式匹配,展开自定义正则表达式部分:
输入模式
输入您的正则表达式模式(不带两侧的斜杠)
切换标志
i 表示不区分大小写,m 表示多行
查看结果
结果显示在"自定义"部分
保存模式
点击保存以存储模式供以后使用
功能特性
核心提取功能
智能模式检测
该工具使用精心设计的正则表达式来准确检测每种模式类型。它智能处理重叠模式——例如,像 [email protected] 这样的电子邮件地址不会被错误地拆分为单独的提及(@example)。
实时高亮显示
当您输入或粘贴文本时,匹配项会在输入区域中即时高亮显示。不同的模式类型可以在视觉上区分,让您一目了然地看到正在提取的内容。
点击定位
点击任意提取结果可:
- 跳转到并高亮显示其在源文本中的位置
- 选择文本以便轻松复制或验证
- 如果匹配项不在视图中,则滚动输入区域
高级提取选项
灵活的导出选项
以多种格式导出提取的数据:
列表格式
CSV 格式
JSON 格式
每个结果组都可以单独复制或下载,或使用全部复制获取所有内容。
自定义正则表达式模式
除了 8 种预设模式外,您还可以为特定提取需求定义自己的正则表达式模式:
- 输入任何有效的 JavaScript 正则表达式模式
- 应用不区分大小写或多行标志
- 将常用模式保存到本地存储
- 点击已保存的模式即可立即加载
内置正则指南
正则表达式新手?可展开的指南显示:
- 基本语法:
.、\d、\w、\s - 量词:
*、+、?、{n,m} - 分组和范围:
[abc]、[a-z]、^、$ - 可点击的示例,您可以立即尝试
去重功能
启用仅唯一值可自动从结果中删除重复值。该工具仍会在源文本中高亮显示所有出现的位置,但结果列表仅显示每个唯一值一次。
隐私与持久化设置
完整的隐私保护
基于服务器的处理
- 将文本上传到远程服务器
- 数据存储在数据库中
- 潜在的隐私风险
- 需要互联网连接
仅浏览器处理
- 所有处理都在本地进行
- 无数据上传或存储
- 100% 私密和安全
- 加载后可离线工作
持久化设置
您的偏好设置会自动保存:
- 模式切换状态
- 导出格式选择
- 自定义正则表达式标志
- 已保存的自定义模式
返回工具时可从上次离开的地方继续。
常见问题
支持哪些文本格式?
该工具适用于任何纯文本。只需粘贴来自网站、文档、电子邮件或任何其他来源的内容。格式将被去除,仅保留文本用于提取。
为什么我的电话号码没有被检测到?
电话号码模式旨在匹配至少包含 9 位数字的号码,可能包括空格、破折号、括号或前导加号。非常短的号码或格式不寻常的号码可能无法被检测到。
可以提取预设列表中没有的数据吗?
可以!使用自定义正则表达式功能定义您自己的模式。例如:
\d{3}-\d{4}用于提取像 123-4567 这样的电话分机[A-Z]{2,3}\d+用于提取像 AB123 或 XYZ99 这样的代码#[a-fA-F0-9]{6}用于提取像 #FF5733 这样的十六进制颜色代码
正则表达式标志有什么作用?
有两个可选标志:
i(不区分大小写)
abc 将匹配 "ABC"、"abc"、"AbC" 等。m(多行)
^ 和 $ 匹配每行的开始/结束,而不仅仅是整个文本。为什么有些匹配会重叠?
该工具会自动处理重叠模式。例如,在 [email protected] 中,@domain 部分匹配提及模式,但由于整个字符串是电子邮件,因此只提取电子邮件。
更长、更具体的匹配优先。
我的文本会被存储在某处吗?
不会。所有处理完全在您的浏览器中使用 JavaScript 进行。您的文本永远不会离开您的设备,也不会发送到任何服务器。
可以保存提取的结果吗?
可以,有两种方式:
- 复制 - 使用复制按钮将结果复制到剪贴板,然后粘贴到任何地方
- 下载 - 点击任意结果组上的下载按钮,将其保存为文件(.txt、.csv 或 .json,取决于您的导出格式设置)
支持哪些浏览器?
文本提取器适用于所有现代浏览器,包括:
- Google Chrome
- Mozilla Firefox
- Safari
- Microsoft Edge
文本大小有限制吗?
没有硬性限制,但非常大的文本(超过 100,000 个字符)可能会减慢实时高亮显示的速度。无论文本大小如何,提取本身都保持快速。
还没有评论,快来发表第一条!