语言
English English Vietnamese (Tiếng Việt) Vietnamese (Tiếng Việt) Chinese (简体中文) Chinese (简体中文) Portuguese (Brazil) (Português do Brasil) Portuguese (Brazil) (Português do Brasil) Spanish (Español) Spanish (Español) Indonesian (Bahasa Indonesia) Indonesian (Bahasa Indonesia)

文本提取器

从任何文本中提取电子邮件、URL、电话号码、IP 地址、日期、话题标签和提及。使用预设模式或自定义正则表达式。

什么是文本提取器?

文本提取器是一款强大的工具,可自动识别并从任何文本中提取特定类型的数据。无论您有一份充满联系信息的文档、一个包含分散链接的网页,还是包含各种模式的原始数据,此工具都能帮助您在几秒钟内准确提取所需内容。

100% 隐私保障:所有文本处理完全在您的浏览器中进行。您的数据永远不会离开您的设备——无上传、无服务器处理、无跟踪。

可以提取什么?

该工具内置8 种模式类型,涵盖最常见的提取需求:

电子邮件

提取电子邮件地址,如 [email protected]

URL

查找以 http://、https:// 或 www. 开头的网页链接

电话号码

检测各种格式的电话号码

话题标签

查找社交媒体话题标签,如 #trending

提及

检测 @username 提及

IP 地址

提取 IPv4 地址,如 192.168.1.1

日期

查找常见格式的日期(DD/MM/YYYY、MM-DD-YYYY)

数字

提取整数和小数

谁需要这个工具?

营销人员

从文档和营销活动中收集联系信息

研究人员

从文本来源和研究中提取数据点

开发人员

测试正则表达式模式或高效解析数据

数据分析师

清理和整理非结构化文本数据

任何人

需要快速在文本中查找特定模式的人

如何使用文本提取器

从文本中提取数据非常简单。按照以下步骤快速获取结果。

1

输入文本

将文本粘贴或输入到左侧的输入区域。该工具接受任何纯文本,包括:

  • 从网站复制的内容
  • 电子邮件线程和文档
  • 日志文件和数据导出
  • 社交媒体帖子

您也可以点击粘贴按钮快速从剪贴板粘贴。

2

选择要提取的内容

默认情况下,所有 8 种模式类型都已启用。点击任意模式标签可切换其开关状态:

  • 已启用的模式显示找到的匹配数量
  • 已禁用的模式显示为灰色且不会提取

启用仅唯一值可从结果中删除重复值。

3

查看和使用结果

结果即时显示在右侧面板中,按类型组织。每个结果显示:

  • 提取的值
  • 用于复制单个项目的复制按钮
  • 显示每种类型总匹配数的计数徽章
专业提示:点击任意结果可在源文本中高亮显示其位置。
4

导出数据

选择您喜欢的导出格式:

  • 列表 - 每行一个值(默认)
  • CSV - 用逗号分隔的值
  • JSON - 供开发人员使用的数组格式

然后使用:

  • 每个组上的复制按钮复制该类型的结果
  • 下载按钮将结果保存为文件
  • 全部复制一次性复制所有内容

使用自定义正则表达式

对于高级模式匹配,展开自定义正则表达式部分:

1

输入模式

输入您的正则表达式模式(不带两侧的斜杠)

2

切换标志

i 表示不区分大小写,m 表示多行

3

查看结果

结果显示在"自定义"部分

4

保存模式

点击保存以存储模式供以后使用

提供正则指南:使用正则指南按钮查看常见模式和示例,您可以点击尝试。

功能特性

核心提取功能

智能模式检测

该工具使用精心设计的正则表达式来准确检测每种模式类型。它智能处理重叠模式——例如,像 [email protected] 这样的电子邮件地址不会被错误地拆分为单独的提及(@example)。

实时高亮显示

当您输入或粘贴文本时,匹配项会在输入区域中即时高亮显示。不同的模式类型可以在视觉上区分,让您一目了然地看到正在提取的内容。

点击定位

点击任意提取结果可:

  • 跳转到并高亮显示其在源文本中的位置
  • 选择文本以便轻松复制或验证
  • 如果匹配项不在视图中,则滚动输入区域

高级提取选项

灵活的导出选项

以多种格式导出提取的数据:

列表格式

简洁,每行一项,非常适合粘贴到电子表格中

CSV 格式

逗号分隔值,可直接导入数据工具

JSON 格式

数组结构,供开发人员和自动化处理使用

每个结果组都可以单独复制或下载,或使用全部复制获取所有内容。

自定义正则表达式模式

除了 8 种预设模式外,您还可以为特定提取需求定义自己的正则表达式模式:

  • 输入任何有效的 JavaScript 正则表达式模式
  • 应用不区分大小写或多行标志
  • 将常用模式保存到本地存储
  • 点击已保存的模式即可立即加载

内置正则指南

正则表达式新手?可展开的指南显示:

  • 基本语法:.\d\w\s
  • 量词:*+?{n,m}
  • 分组和范围:[abc][a-z]^$
  • 可点击的示例,您可以立即尝试

去重功能

启用仅唯一值可自动从结果中删除重复值。该工具仍会在源文本中高亮显示所有出现的位置,但结果列表仅显示每个唯一值一次。

隐私与持久化设置

完整的隐私保护

传统工具

基于服务器的处理

  • 将文本上传到远程服务器
  • 数据存储在数据库中
  • 潜在的隐私风险
  • 需要互联网连接
文本提取器

仅浏览器处理

  • 所有处理都在本地进行
  • 无数据上传或存储
  • 100% 私密和安全
  • 加载后可离线工作

持久化设置

您的偏好设置会自动保存:

  • 模式切换状态
  • 导出格式选择
  • 自定义正则表达式标志
  • 已保存的自定义模式

返回工具时可从上次离开的地方继续。

常见问题

支持哪些文本格式?

该工具适用于任何纯文本。只需粘贴来自网站、文档、电子邮件或任何其他来源的内容。格式将被去除,仅保留文本用于提取。

为什么我的电话号码没有被检测到?

电话号码模式旨在匹配至少包含 9 位数字的号码,可能包括空格、破折号、括号或前导加号。非常短的号码或格式不寻常的号码可能无法被检测到。

解决方案:尝试使用自定义正则表达式功能来匹配特定的电话格式。

可以提取预设列表中没有的数据吗?

可以!使用自定义正则表达式功能定义您自己的模式。例如:

  • \d{3}-\d{4} 用于提取像 123-4567 这样的电话分机
  • [A-Z]{2,3}\d+ 用于提取像 AB123 或 XYZ99 这样的代码
  • #[a-fA-F0-9]{6} 用于提取像 #FF5733 这样的十六进制颜色代码

正则表达式标志有什么作用?

有两个可选标志:

i(不区分大小写)

无论大小写都匹配。模式 abc 将匹配 "ABC"、"abc"、"AbC" 等。

m(多行)

使 ^$ 匹配每行的开始/结束,而不仅仅是整个文本。

为什么有些匹配会重叠?

该工具会自动处理重叠模式。例如,在 [email protected] 中,@domain 部分匹配提及模式,但由于整个字符串是电子邮件,因此只提取电子邮件。

更长、更具体的匹配优先。

我的文本会被存储在某处吗?

不会。所有处理完全在您的浏览器中使用 JavaScript 进行。您的文本永远不会离开您的设备,也不会发送到任何服务器。

适用于敏感内容:这使得该工具可以安全地用于机密或私人信息。

可以保存提取的结果吗?

可以,有两种方式:

  • 复制 - 使用复制按钮将结果复制到剪贴板,然后粘贴到任何地方
  • 下载 - 点击任意结果组上的下载按钮,将其保存为文件(.txt、.csv 或 .json,取决于您的导出格式设置)

支持哪些浏览器?

文本提取器适用于所有现代浏览器,包括:

  • Google Chrome
  • Mozilla Firefox
  • Safari
  • Microsoft Edge
要求:必须启用 JavaScript。

文本大小有限制吗?

没有硬性限制,但非常大的文本(超过 100,000 个字符)可能会减慢实时高亮显示的速度。无论文本大小如何,提取本身都保持快速。

小到中等文本(0-5万字符) 100%
大型文本(5万-10万字符) 85%
超大型文本(10万+字符) 60%
输入文本
结果 0

请输入文本以提取数据

提取类型
/ /g
已保存模式
基础
. 任意字符
\d 数字 (0-9)
\w 单词字符
\s 空白字符
量词
* 零次或多次
+ 一次或多次
? 可选
{n,m} n 到 m 次
分组
[abc] a,b,c 中任意一个
[a-z] 范围
^ 开始
$ 结束
示例:
粘贴文本后结果即时显示
切换模式类型以筛选要提取的内容
使用自定义正则表达式进行高级模式匹配
点击任意结果可在源文本中高亮显示
导出为列表、CSV 或 JSON格式
所有处理都在浏览器中进行 - 不向服务器发送数据
想了解更多? 阅读文档 →
1/7
开始输入以搜索...
搜索中...
未找到结果
请尝试使用不同的关键词搜索