Tệp Robots.txt là gì?

Tệp robots.txt là một công cụ SEO quan trọng giúp hướng dẫn các trình thu thập dữ liệu của công cụ tìm kiếm biết những trang hoặc phần nào của trang web của bạn mà chúng có thể hoặc không thể truy cập. Nằm ở thư mục gốc của tên miền của bạn (ví dụ: https://example.com/robots.txt), đây là một trong những tệp đầu tiên mà các trình thu thập dữ liệu kiểm tra trước khi lập chỉ mục trang web của bạn.

Công Cụ Này Làm Gì: Xây dựng tệp robots.txt của bạn một cách trực quan mà không cần ghi nhớ cú pháp phức tạp. Chọn user-agents, cấu hình các quy tắc allow/disallow, thêm sitemaps và tải xuống tệp sẵn sàng sử dụng ngay lập tức.

Tại Sao Bạn Cần Tệp Robots.txt?

Kiểm Soát Quá Trình Thu Thập

Ngăn các bot truy cập các khu vực nhạy cảm như bảng điều khiển quản trị, trang đăng nhập hoặc API nội bộ

Tiết Kiệm Ngân Sách Thu Thập

Hướng dẫn các trình thu thập dữ liệu đến các trang quan trọng của bạn thay vì lãng phí tài nguyên cho các URL có giá trị thấp

Chặn Các Trình Quét AI

Dừng các bot AI như GPTBot và CCBot sử dụng nội dung của bạn để huấn luyện dữ liệu

Cải Thiện SEO

Giúp các công cụ tìm kiếm tập trung vào các trang bạn muốn xếp hạng trong kết quả tìm kiếm

Table of Contents

1. Tệp Robots.txt là gì?
- 1.1. Tại Sao Bạn Cần Tệp Robots.txt?
2. Cách Sử Dụng Trình Tạo Này
3. Các Tính Năng
4. Các Câu Hỏi Thường Gặp

Cách Sử Dụng Trình Tạo Này

Bắt Đầu Nhanh với Mẫu Sẵn Có

Nhấp vào một trong các nút mẫu sẵn có ở trên cùng để tải một cấu hình phổ biến ngay lập tức:

Standard

Chặn các thư mục admin, private, tmp và API — lý tưởng cho hầu hết các trang web

Allow All

Cho phép tất cả các trình thu thập dữ liệu truy cập mọi thứ trên trang web của bạn

Block All

Ngăn tất cả các trình thu thập dữ liệu truy cập bất kỳ trang nào — sử dụng trong quá trình phát triển

Block AI Bots

Cho phép các công cụ tìm kiếm nhưng chặn các trình thu thập AI (GPTBot, ChatGPT-User, CCBot, v.v.)

E-commerce

Chặn các trang giỏ hàng, thanh toán, tài khoản và bộ lọc để tối ưu hóa ngân sách thu thập

Blank

Mẫu trống để xây dựng cấu hình tùy chỉnh của bạn từ đầu

Xây Dựng Quy Tắc Tùy Chỉnh

Chọn User-Agent

Chọn từ danh sách thả xuống (ví dụ: Googlebot, Bingbot) hoặc nhập tên bot tùy chỉnh để nhắm mục tiêu các trình thu thập dữ liệu cụ thể

Thêm Quy Tắc

Đặt các đường dẫn là Allow hoặc Disallow. Sử dụng các gợi ý đường dẫn cho các thư mục phổ biến như /admin/, /wp-content/ hoặc /api/

Đặt Crawl-Delay

Tùy chọn chỉ định bao nhiêu giây một bot nên chờ giữa các yêu cầu để giảm tải máy chủ

Thêm Sitemaps

Nhập các URL sitemap của bạn (ví dụ: https://example.com/sitemap.xml) để giúp các trình thu thập dữ liệu khám phá nội dung của bạn một cách hiệu quả

Sao Chép hoặc Tải Xuống

Sử dụng nút Sao Chép để dán trực tiếp vào tệp của bạn hoặc tải xuống tệp robots.txt sẵn sàng tải lên

Nhập Tệp Hiện Có

Nhấp vào Nhập Tệp Hiện Có, dán nội dung robots.txt hiện tại của bạn và nhấp Áp Dụng. Công cụ sẽ phân tích nó thành các nhóm quy tắc có thể chỉnh sửa để bạn có thể thực hiện các thay đổi một cách trực quan mà không cần chỉnh sửa cú pháp thủ công.

Mẹo Chuyên Nghiệp: Nhập tệp hiện có của bạn để nhanh chóng cập nhật hoặc tối ưu hóa cấu hình hiện tại của bạn mà không cần bắt đầu từ đầu.

Các Tính Năng

Trình Xây Dựng Quy Tắc Trực Quan

Xây dựng các quy tắc robots.txt thông qua giao diện trực quan không cần mã. Mỗi nhóm quy tắc bao gồm bộ chọn user-agent, các đường dẫn allow/disallow và cài đặt crawl-delay tùy chọn. Thêm hoặc xóa các nhóm và quy tắc chỉ bằng một cú nhấp chuột — không cần kiến thức cú pháp.

Phương Pháp Truyền Thống

Chỉnh Sửa Thủ Công

Ghi nhớ các quy tắc cú pháp
Rủi ro lỗi định dạng
Kiểm tra tốn thời gian
Khó hình dung cấu trúc

Với Công Cụ Này

Giao Diện Trực Quan

Cấu hình bằng cách nhấp chuột
Xác thực cú pháp tự động
Xem trước theo thời gian thực
Tổ chức quy tắc rõ ràng

Thư Viện Bot Toàn Diện

Chọn từ 19 user-agents được cấu hình sẵn bao gồm các công cụ tìm kiếm chính, nền tảng xã hội và các trình thu thập AI:

Các Công Cụ Tìm Kiếm Chính

Googlebot — Trình thu thập web chính của Google
Bingbot — Trình thu thập của Microsoft Bing
Yandex — Công cụ tìm kiếm hàng đầu của Nga
Baiduspider — Trình thu thập tìm kiếm chiếm ưu thế của Trung Quốc
DuckDuckBot — Công cụ tìm kiếm tập trung vào quyền riêng tư
Slurp — Trình thu thập web của Yahoo

Trình Thu Thập Phương Tiện Xã Hội

facebookexternalhit — Trình thu thập xem trước liên kết của Facebook
Twitterbot — Bot thẻ Twitter và xem trước
LinkedInBot — Trình thu thập nội dung LinkedIn

Bot Huấn Luyện AI

GPTBot — Trình thu thập web của OpenAI để huấn luyện ChatGPT
ChatGPT-User — Bot tính năng duyệt web của ChatGPT
Google-Extended — Trình thu thập huấn luyện AI của Google
CCBot — Bot thu thập dữ liệu Common Crawl
anthropic-ai — Trình thu thập AI Claude của Anthropic
Claude-Web — Bot duyệt web Claude
Bytespider — Trình thu thập huấn luyện AI của ByteDance

Trình Thu Thập Chuyên Biệt

Googlebot-Image — Bot lập chỉ mục hình ảnh của Google
Googlebot-News — Trình thu thập Google News
Tên bot tùy chỉnh — Nhập bất kỳ chuỗi user-agent nào

Gợi Ý Đường Dẫn Thông Minh

Khi nhập một đường dẫn, công cụ gợi ý các thư mục và mẫu phổ biến để tăng tốc độ cấu hình. Hỗ trợ các mẫu ký tự đại diện để kiểm soát nâng cao.

Thư Mục Phổ Biến

/admin/, /wp-admin/, /api/, /cart/, /checkout/, /private/, /tmp/

Mẫu Ký Tự Đại Diện

/*.pdf$ (chặn PDF), /search?* (chặn truy vấn tìm kiếm), /*?sort=* (chặn tham số sắp xếp)

Xem Trước Trực Tiếp với Tô Sáng Cú Pháp

Xem đầu ra robots.txt của bạn cập nhật theo thời gian thực khi bạn thực hiện các thay đổi. Các chỉ thị, giá trị và URL sitemap được mã hóa màu để dễ đọc và xác thực. Phát hiện lỗi hoặc vấn đề định dạng ngay lập tức trước khi tải xuống.

Xác Thực Theo Thời Gian Thực: Bảng xem trước làm nổi bật các lỗi cú pháp và cung cấp phản hồi tức thì, đảm bảo tệp robots.txt của bạn được định dạng đúng trước khi triển khai.

Nhập và Chỉnh Sửa

Dán một tệp robots.txt hiện có để phân tích nó thành các nhóm quy tắc trực quan. Chỉnh sửa các quy tắc trong giao diện thân thiện với người dùng, thêm các chỉ thị mới hoặc sắp xếp lại các chỉ thị hiện có. Xuất phiên bản cập nhật khi hoàn tất — hoàn hảo để duy trì và tối ưu hóa các cấu hình hiện có.

Các Câu Hỏi Thường Gặp

Tôi đặt tệp robots.txt ở đâu?

Tải nó lên thư mục gốc của trang web của bạn để nó có thể truy cập được tại https://yourdomain.com/robots.txt. Các công cụ tìm kiếm kiểm tra URL cụ thể này trước khi quét trang web của bạn.

Quan Trọng: Tệp phải được đặt tên chính xác là robots.txt (chữ thường) và đặt trong thư mục gốc — không phải trong thư mục con hoặc với tên khác.

Robots.txt có chặn các trang khỏi xuất hiện trong kết quả tìm kiếm không?

Không chính xác. Robots.txt ngăn các trình thu thập dữ liệu truy cập một trang, nhưng URL vẫn có thể xuất hiện trong kết quả tìm kiếm nếu các trang khác liên kết đến nó. Để hoàn toàn chặn một trang khỏi kết quả tìm kiếm, hãy sử dụng thẻ meta noindex hoặc tiêu đề HTTP X-Robots-Tag thay thế.

Nếu bạn muốn chặn một URL khỏi kết quả Tìm kiếm Google, hãy sử dụng noindex. Đừng sử dụng robots.txt cho mục đích này, vì nó vẫn có thể xuất hiện trong kết quả tìm kiếm mà không có mô tả.
— Tài Liệu Google Search Central

"Disallow: /" có nghĩa là gì?

Nó yêu cầu bot được chỉ định không quét bất kỳ trang nào trên trang web của bạn. Sử dụng điều này một cách cẩn thận — nó thực tế ẩn toàn bộ trang web của bạn khỏi trình thu thập dữ liệu đó.

Ví Dụ: Chặn Tất Cả Quá Trình Thu Thập

User-agent: *
Disallow: /

Cảnh Báo: Cấu hình này chặn tất cả các công cụ tìm kiếm khỏi quét toàn bộ trang web của bạn. Chỉ sử dụng trong quá trình phát triển hoặc cho các trang web riêng tư.

Crawl-delay là gì?

Crawl-delay yêu cầu một bot chờ một số giây được chỉ định giữa các yêu cầu. Điều này có thể giảm tải máy chủ từ các trình thu thập dữ liệu tích cực.

Lưu Ý: Googlebot không hỗ trợ crawl-delay. Để kiểm soát tốc độ quét của Google, hãy sử dụng Google Search Console thay thế.

Ví Dụ: Đặt Độ Trễ 10 Giây

User-agent: Bingbot
Crawl-delay: 10

Làm cách nào để chặn các bot AI quét nội dung của tôi?

Sử dụng mẫu Chặn Bot AI, tạo các quy tắc Disallow cho GPTBot, ChatGPT-User, Google-Extended, CCBot, anthropic-ai, Claude-Web và Bytespider trong khi vẫn cho phép các công cụ tìm kiếm thông thường quét trang web của bạn.

Ví Dụ: Chặn Trình Thu Thập AI

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Bytespider
Disallow: /

Cấu hình này bảo vệ nội dung của bạn khỏi bị sử dụng để huấn luyện AI trong khi duy trì khả năng hiển thị trong các công cụ tìm kiếm.

Tôi có thể sử dụng ký tự đại diện trong các đường dẫn robots.txt không?

Có, hầu hết các trình thu thập dữ liệu hiện đại hỗ trợ * (khớp bất kỳ chuỗi nào) và $ (khớp cuối URL). Những ký tự đại diện này cho phép khớp mẫu mạnh mẽ cho các quy tắc phức tạp.

Mẫu	Ý Nghĩa	Ví Dụ
`*`	Khớp bất kỳ chuỗi ký tự nào	`/search?*` chặn tất cả các truy vấn tìm kiếm
`$`	Khớp cuối URL	`/*.pdf$` chặn tất cả các tệp PDF
`*$`	Mẫu kết hợp	`/?sort=$` chặn các URL có tham số sắp xếp

Mẹo Chuyên Nghiệp: Sử dụng ký tự đại diện để chặn toàn bộ danh mục URL một cách hiệu quả, chẳng hạn như tất cả các trang sản phẩm được lọc hoặc các biến thể kết quả tìm kiếm.

Dữ liệu của tôi có an toàn không?

100% Riêng Tư: Công cụ này chạy hoàn toàn trong trình duyệt của bạn bằng JavaScript phía máy khách. Không có dữ liệu nào được gửi đến bất kỳ máy chủ nào — nội dung robots.txt của bạn vẫn ở trên thiết bị của bạn.

Không tải lên máy chủ hoặc truyền dữ liệu
Không theo dõi hoặc phân tích nội dung của bạn
Không lưu trữ cấu hình của bạn
Quyền riêng tư và bảo mật hoàn toàn