Trích Xuất Văn Bản là gì?
Trích Xuất Văn Bản là công cụ mạnh mẽ tự động nhận diện và trích xuất các loại dữ liệu cụ thể từ bất kỳ văn bản nào. Cho dù bạn có một tài liệu đầy thông tin liên hệ, một trang web với các liên kết rải rác, hay dữ liệu thô chứa nhiều mẫu khác nhau, công cụ này giúp bạn lấy ra chính xác những gì bạn cần chỉ trong vài giây.
Bạn Có Thể Trích Xuất Gì?
Công cụ đi kèm với 8 loại mẫu tích hợp sẵn bao gồm các nhu cầu trích xuất phổ biến nhất:
URL
Số Điện Thoại
Hashtag
Mention
Địa Chỉ IP
Ngày Tháng
Số
Ai Cần Công Cụ Này?
Nhà Tiếp Thị
Thu thập thông tin liên hệ từ tài liệu và chiến dịch
Nhà Nghiên Cứu
Trích xuất điểm dữ liệu từ nguồn văn bản và nghiên cứu
Lập Trình Viên
Kiểm tra mẫu regex hoặc phân tích dữ liệu hiệu quả
Chuyên Gia Phân Tích Dữ Liệu
Làm sạch và tổ chức dữ liệu văn bản phi cấu trúc
Bất Kỳ Ai
Cần nhanh chóng tìm các mẫu cụ thể trong văn bản
- 1. Trích Xuất Văn Bản là gì?
- 2. Cách Sử Dụng Trích Xuất Văn Bản
- 3. Tính Năng
- 3.1. Tính Năng Trích Xuất Cốt Lõi
- 3.2. Phát Hiện Mẫu Thông Minh
- 3.3. Làm Nổi Bật Theo Thời Gian Thực
- 3.4. Nhấp Để Định Vị
- 3.5. Tùy Chọn Trích Xuất Nâng Cao
- 3.6. Tùy Chọn Xuất Linh Hoạt
- 3.7. Mẫu Regex Tùy Chỉnh
- 3.8. Hướng Dẫn Regex Tích Hợp
- 3.9. Loại Bỏ Trùng Lặp
- 3.10. Bảo Mật & Cài Đặt Lâu Dài
- 3.11. Bảo Vệ Bảo Mật Hoàn Toàn
- 3.12. Lưu Cài Đặt Tự Động
- 4. Câu Hỏi Thường Gặp
- 4.1. Những định dạng văn bản nào được hỗ trợ?
- 4.2. Tại sao số điện thoại của tôi không được phát hiện?
- 4.3. Tôi có thể trích xuất dữ liệu không có trong danh sách có sẵn không?
- 4.4. Các cờ regex làm gì?
- 4.5. Tại sao một số kết quả khớp chồng chéo?
- 4.6. Văn bản của tôi có được lưu trữ ở đâu không?
- 4.7. Tôi có thể lưu kết quả đã trích xuất không?
- 4.8. Những trình duyệt nào được hỗ trợ?
- 4.9. Có giới hạn về kích thước văn bản không?
Cách Sử Dụng Trích Xuất Văn Bản
Trích xuất dữ liệu từ văn bản rất đơn giản. Làm theo các bước sau để nhận kết quả nhanh chóng.
Nhập Văn Bản Của Bạn
Dán hoặc nhập văn bản của bạn vào khu vực nhập liệu bên trái. Công cụ chấp nhận bất kỳ văn bản thuần nào, bao gồm:
- Nội dung sao chép từ trang web
- Chuỗi email và tài liệu
- File log và dữ liệu xuất
- Bài đăng mạng xã hội
Bạn cũng có thể nhấp vào nút Dán để nhanh chóng dán từ clipboard.
Chọn Nội Dung Cần Trích Xuất
Mặc định, tất cả 8 loại mẫu đều được bật. Nhấp vào bất kỳ chip mẫu nào để bật hoặc tắt:
- Mẫu đã bật hiển thị số lượng kết quả tìm thấy
- Mẫu đã tắt bị làm mờ và sẽ không trích xuất
Bật Chỉ giá trị duy nhất để loại bỏ các giá trị trùng lặp khỏi kết quả.
Xem và Sử Dụng Kết Quả
Kết quả hiển thị ngay lập tức trong bảng bên phải, được sắp xếp theo loại. Mỗi kết quả hiển thị:
- Giá trị được trích xuất
- Nút sao chép để sao chép từng mục riêng lẻ
- Huy hiệu đếm hiển thị tổng số kết quả khớp cho mỗi loại
Xuất Dữ Liệu Của Bạn
Chọn định dạng xuất ưa thích của bạn:
- Danh sách - Một giá trị mỗi dòng (mặc định)
- CSV - Các giá trị được phân tách bằng dấu phẩy
- JSON - Định dạng mảng cho lập trình viên
Sau đó sử dụng:
- Nút Sao chép trên mỗi nhóm để sao chép kết quả của loại đó
- Nút Tải xuống để lưu kết quả dưới dạng file
- Sao Chép Tất Cả để sao chép mọi thứ cùng một lúc
Sử Dụng Regex Tùy Chỉnh
Để khớp mẫu nâng cao, mở rộng phần Regex Tùy Chỉnh:
Nhập Mẫu
Nhập mẫu regex của bạn (không có dấu gạch chéo bao quanh)
Bật/Tắt Cờ
i cho không phân biệt chữ hoa chữ thường, m cho nhiều dòng
Xem Kết Quả
Kết quả xuất hiện trong phần "Tùy chỉnh"
Lưu Mẫu
Nhấp Lưu để lưu trữ mẫu cho lần sử dụng sau
Tính Năng
Tính Năng Trích Xuất Cốt Lõi
Phát Hiện Mẫu Thông Minh
Công cụ sử dụng các biểu thức chính quy được thiết kế cẩn thận để phát hiện chính xác từng loại mẫu. Nó xử lý các mẫu chồng chéo một cách thông minh—ví dụ, một địa chỉ email như [email protected] sẽ không bị tách nhầm thành một mention riêng biệt (@example).
Làm Nổi Bật Theo Thời Gian Thực
Khi bạn nhập hoặc dán văn bản, các kết quả khớp được làm nổi bật ngay lập tức trong khu vực nhập liệu. Các loại mẫu khác nhau có thể được phân biệt trực quan, giúp dễ dàng nhìn thấy những gì đang được trích xuất chỉ trong nháy mắt.
Nhấp Để Định Vị
Nhấp vào bất kỳ kết quả được trích xuất nào để:
- Nhảy đến và làm nổi bật vị trí của nó trong văn bản nguồn
- Chọn văn bản để dễ dàng sao chép hoặc xác minh
- Cuộn khu vực nhập liệu nếu kết quả khớp nằm ngoài tầm nhìn
Tùy Chọn Trích Xuất Nâng Cao
Tùy Chọn Xuất Linh Hoạt
Xuất dữ liệu đã trích xuất của bạn ở nhiều định dạng:
Định Dạng Danh Sách
Định Dạng CSV
Định Dạng JSON
Mỗi nhóm kết quả có thể được sao chép hoặc tải xuống riêng biệt, hoặc sử dụng Sao Chép Tất Cả cho mọi thứ.
Mẫu Regex Tùy Chỉnh
Ngoài 8 mẫu có sẵn, bạn có thể định nghĩa các mẫu regex của riêng mình cho nhu cầu trích xuất cụ thể:
- Nhập bất kỳ mẫu regex JavaScript hợp lệ nào
- Áp dụng cờ không phân biệt chữ hoa chữ thường hoặc nhiều dòng
- Lưu các mẫu thường dùng vào localStorage
- Nhấp vào các mẫu đã lưu để tải chúng ngay lập tức
Hướng Dẫn Regex Tích Hợp
Mới với regex? Hướng dẫn có thể mở rộng hiển thị:
- Cú pháp cơ bản:
.,\d,\w,\s - Bộ định lượng:
*,+,?,{n,m} - Nhóm và phạm vi:
[abc],[a-z],^,$ - Các ví dụ có thể nhấp mà bạn có thể thử ngay lập tức
Loại Bỏ Trùng Lặp
Bật Chỉ giá trị duy nhất để tự động loại bỏ các giá trị trùng lặp khỏi kết quả của bạn. Công cụ vẫn làm nổi bật tất cả các lần xuất hiện trong văn bản nguồn, nhưng danh sách kết quả chỉ hiển thị mỗi giá trị duy nhất một lần.
Bảo Mật & Cài Đặt Lâu Dài
Bảo Vệ Bảo Mật Hoàn Toàn
Xử Lý Trên Máy Chủ
- Tải văn bản lên máy chủ từ xa
- Dữ liệu được lưu trong cơ sở dữ liệu
- Rủi ro bảo mật tiềm ẩn
- Yêu cầu kết nối internet
Xử Lý Chỉ Trên Trình Duyệt
- Mọi xử lý diễn ra cục bộ
- Không tải lên hoặc lưu trữ dữ liệu
- Riêng tư và an toàn 100%
- Hoạt động ngoại tuyến sau khi tải
Lưu Cài Đặt Tự Động
Tùy chọn của bạn được lưu tự động:
- Trạng thái bật/tắt mẫu
- Lựa chọn định dạng xuất
- Cờ regex tùy chỉnh
- Các mẫu tùy chỉnh đã lưu
Quay lại công cụ và tiếp tục ngay từ nơi bạn đã dừng lại.
Câu Hỏi Thường Gặp
Những định dạng văn bản nào được hỗ trợ?
Công cụ hoạt động với bất kỳ văn bản thuần nào. Chỉ cần dán nội dung từ trang web, tài liệu, email hoặc bất kỳ nguồn nào khác. Định dạng sẽ bị loại bỏ, chỉ để lại văn bản để trích xuất.
Tại sao số điện thoại của tôi không được phát hiện?
Mẫu số điện thoại được thiết kế để khớp với các số có ít nhất 9 chữ số có thể bao gồm khoảng trắng, dấu gạch ngang, dấu ngoặc đơn hoặc dấu cộng ở đầu. Các số rất ngắn hoặc số ở định dạng bất thường có thể không được phát hiện.
Tôi có thể trích xuất dữ liệu không có trong danh sách có sẵn không?
Có! Sử dụng tính năng Regex Tùy Chỉnh để định nghĩa các mẫu của riêng bạn. Ví dụ:
\d{3}-\d{4}cho số máy lẻ điện thoại như 123-4567[A-Z]{2,3}\d+cho mã như AB123 hoặc XYZ99#[a-fA-F0-9]{6}cho mã màu hex như #FF5733
Các cờ regex làm gì?
Có hai cờ tùy chọn:
i (không phân biệt chữ hoa chữ thường)
abc sẽ khớp "ABC", "abc", "AbC", v.v.m (nhiều dòng)
^ và $ khớp với đầu/cuối của mỗi dòng, không chỉ toàn bộ văn bản.Tại sao một số kết quả khớp chồng chéo?
Công cụ tự động xử lý các mẫu chồng chéo. Ví dụ, trong [email protected], phần @domain khớp với mẫu Mention, nhưng vì toàn bộ chuỗi là một email, nên chỉ email được trích xuất.
Kết quả khớp dài hơn, cụ thể hơn được ưu tiên.
Văn bản của tôi có được lưu trữ ở đâu không?
Không. Mọi xử lý diễn ra hoàn toàn trong trình duyệt của bạn bằng JavaScript. Văn bản của bạn không bao giờ rời khỏi thiết bị và không có gì được gửi đến bất kỳ máy chủ nào.
Tôi có thể lưu kết quả đã trích xuất không?
Có, theo hai cách:
- Sao chép - Sử dụng các nút sao chép để sao chép kết quả vào clipboard của bạn, sau đó dán ở bất kỳ đâu
- Tải xuống - Nhấp vào nút tải xuống trên bất kỳ nhóm kết quả nào để lưu dưới dạng file (.txt, .csv hoặc .json tùy thuộc vào cài đặt định dạng xuất của bạn)
Những trình duyệt nào được hỗ trợ?
Trích Xuất Văn Bản hoạt động trên tất cả các trình duyệt hiện đại bao gồm:
- Google Chrome
- Mozilla Firefox
- Safari
- Microsoft Edge
Có giới hạn về kích thước văn bản không?
Không có giới hạn cứng, nhưng văn bản rất lớn (trên 100.000 ký tự) có thể làm chậm việc làm nổi bật theo thời gian thực. Bản thân việc trích xuất vẫn nhanh bất kể kích thước văn bản.
Chưa có bình luận nào. Hãy là người đầu tiên!