Apa itu File Robots.txt?
File robots.txt adalah alat SEO penting yang menginstruksikan crawler mesin pencari halaman atau bagian mana dari situs web Anda yang dapat atau tidak dapat diakses. Terletak di root domain Anda (misalnya, https://example.com/robots.txt), ini adalah salah satu file pertama yang diperiksa crawler sebelum mengindeks situs Anda.
Mengapa Anda Membutuhkan File Robots.txt?
Kontrol Crawling
Cegah bot mengakses area sensitif seperti panel admin, halaman login, atau API internal
Hemat Crawl Budget
Arahkan crawler ke halaman penting Anda alih-alih membuang sumber daya pada URL bernilai rendah
Blokir Scraper AI
Hentikan bot AI seperti GPTBot dan CCBot dari menggunakan konten Anda untuk data pelatihan
Tingkatkan SEO
Bantu mesin pencari fokus pada halaman yang ingin Anda rangking di hasil pencarian
- 1. Apa itu File Robots.txt?
- 2. Cara Menggunakan Pembuat Ini
- 3. Fitur
- 4. Pertanyaan yang Sering Diajukan
- 4.1. Di mana saya menempatkan file robots.txt?
- 4.2. Apakah robots.txt mencegah halaman muncul di hasil pencarian?
- 4.3. Apa arti "Disallow: /"?
- 4.4. Apa itu Crawl-delay?
- 4.5. Bagaimana cara memblokir bot AI dari mengikis konten saya?
- 4.6. Bisakah saya menggunakan wildcard dalam jalur robots.txt?
- 4.7. Apakah data saya aman?
Cara Menggunakan Pembuat Ini
Mulai Cepat dengan Template
Klik salah satu tombol template siap pakai di bagian atas untuk memuat konfigurasi umum secara instan:
Standard
Izinkan Semua
Blokir Semua
Blokir Bot AI
E-commerce
Kosong
Membangun Aturan Khusus
Pilih User-Agent
Pilih dari dropdown (misalnya, Googlebot, Bingbot) atau masukkan nama bot khusus untuk menargetkan crawler tertentu
Tambahkan Aturan
Atur jalur sebagai Allow atau Disallow. Gunakan saran jalur untuk direktori umum seperti /admin/, /wp-content/, atau /api/
Atur Crawl-Delay
Secara opsional tentukan berapa detik bot harus menunggu antara permintaan untuk mengurangi beban server
Tambahkan Sitemap
Masukkan URL sitemap Anda (misalnya, https://example.com/sitemap.xml) untuk membantu crawler menemukan konten Anda secara efisien
Salin atau Unduh
Gunakan tombol Salin untuk menempel langsung ke file Anda, atau unduh file robots.txt siap unggah
Impor File yang Ada
Klik Impor yang Ada, tempel konten robots.txt saat ini, dan klik Terapkan. Alat akan menguraikannya menjadi grup aturan yang dapat diedit sehingga Anda dapat membuat perubahan secara visual tanpa pengeditan sintaks manual.
Fitur
Pembuat Aturan Visual
Buat aturan robots.txt melalui antarmuka intuitif tanpa kode. Setiap grup aturan mencakup pemilih user-agent, jalur allow/disallow, dan pengaturan crawl-delay opsional. Tambahkan atau hapus grup dan aturan dengan satu klik — tidak diperlukan pengetahuan sintaks.
Pengeditan Manual
- Menghafal aturan sintaks
- Risiko kesalahan pemformatan
- Pengujian memakan waktu
- Sulit memvisualisasikan struktur
Antarmuka Visual
- Konfigurasi klik-dan-pilih
- Validasi sintaks otomatis
- Pratinjau real-time
- Organisasi aturan yang jelas
Perpustakaan Bot Komprehensif
Pilih dari 19 user-agent yang telah dikonfigurasi sebelumnya mencakup mesin pencari utama, platform media sosial, dan crawler AI:
Mesin Pencari Utama
- Googlebot — Crawler web utama Google
- Bingbot — Crawler Microsoft Bing
- Yandex — Mesin pencari terkemuka Rusia
- Baiduspider — Crawler pencarian dominan China
- DuckDuckBot — Mesin pencari yang berfokus pada privasi
- Slurp — Crawler web Yahoo
Crawler Media Sosial
- facebookexternalhit — Crawler pratinjau tautan Facebook
- Twitterbot — Bot kartu Twitter dan pratinjau
- LinkedInBot — Crawler konten LinkedIn
Bot Pelatihan AI
- GPTBot — Crawler web OpenAI untuk pelatihan ChatGPT
- ChatGPT-User — Bot fitur browsing ChatGPT
- Google-Extended — Crawler pelatihan AI Google
- CCBot — Bot pengumpulan data Common Crawl
- anthropic-ai — Crawler AI Claude Anthropic
- Claude-Web — Bot browsing web Claude
- Bytespider — Crawler pelatihan AI ByteDance
Crawler Khusus
- Googlebot-Image — Bot pengindeksan gambar Google
- Googlebot-News — Crawler Google News
- Nama bot khusus — Masukkan string user-agent apa pun
Saran Jalur Cerdas
Saat mengetik jalur, alat menyarankan direktori dan pola umum untuk mempercepat konfigurasi. Mendukung pola wildcard untuk kontrol lanjutan.
Direktori Umum
/admin/, /wp-admin/, /api/, /cart/, /checkout/, /private/, /tmp/Pola Wildcard
/*.pdf$ (blokir PDF), /search?* (blokir kueri pencarian), /*?sort=* (blokir parameter pengurutan)Pratinjau Langsung dengan Syntax Highlighting
Lihat output robots.txt Anda diperbarui secara real-time saat Anda membuat perubahan. Direktif, nilai, dan URL sitemap dikodekan warna untuk membaca dan validasi yang mudah. Segera temukan kesalahan atau masalah pemformatan sebelum mengunduh.
Impor dan Edit
Tempel file robots.txt yang ada untuk menguraikannya menjadi grup aturan visual. Edit aturan di antarmuka yang ramah pengguna, tambahkan direktif baru, atau atur ulang yang sudah ada. Ekspor versi yang diperbarui saat selesai — sempurna untuk memelihara dan mengoptimalkan konfigurasi yang ada.
Pertanyaan yang Sering Diajukan
Di mana saya menempatkan file robots.txt?
Unggah ke direktori root situs web Anda sehingga dapat diakses di https://yourdomain.com/robots.txt. Mesin pencari memeriksa URL spesifik ini sebelum merayapi situs Anda.
robots.txt (huruf kecil) dan ditempatkan di direktori root — bukan di subdirektori atau dengan nama berbeda.Apakah robots.txt mencegah halaman muncul di hasil pencarian?
Tidak persis. Robots.txt mencegah crawler mengakses halaman, tetapi URL masih dapat muncul di hasil pencarian jika halaman lain menautkannya. Untuk sepenuhnya memblokir halaman dari hasil pencarian, gunakan tag meta noindex atau header HTTP X-Robots-Tag sebagai gantinya.
Jika Anda ingin memblokir URL dari hasil Google Search, gunakan noindex. Jangan gunakan robots.txt untuk tujuan ini, karena mungkin masih muncul di hasil pencarian tanpa deskripsi.
— Dokumentasi Google Search Central
Apa arti "Disallow: /"?
Ini memberitahu bot yang ditentukan untuk tidak merayapi halaman apa pun di situs Anda. Gunakan ini dengan hati-hati — ini secara efektif menyembunyikan seluruh situs Anda dari crawler tersebut.
User-agent: *
Disallow: /
Peringatan: Konfigurasi ini memblokir semua mesin pencari dari merayapi seluruh situs web Anda. Hanya gunakan selama pengembangan atau untuk situs pribadi.
Apa itu Crawl-delay?
Crawl-delay memberitahu bot untuk menunggu jumlah detik yang ditentukan antara permintaan. Ini dapat mengurangi beban server dari crawler yang agresif.
User-agent: Bingbot
Crawl-delay: 10
Bagaimana cara memblokir bot AI dari mengikis konten saya?
Gunakan preset Blokir Bot AI, yang membuat aturan Disallow untuk GPTBot, ChatGPT-User, Google-Extended, CCBot, anthropic-ai, Claude-Web, dan Bytespider sambil tetap mengizinkan mesin pencari biasa merayapi situs Anda.
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Bytespider
Disallow: /
Konfigurasi ini melindungi konten Anda dari digunakan untuk pelatihan AI sambil mempertahankan visibilitas di mesin pencari.
Bisakah saya menggunakan wildcard dalam jalur robots.txt?
Ya, sebagian besar crawler modern mendukung * (cocok dengan urutan apa pun) dan $ (cocok dengan akhir URL). Wildcard ini memungkinkan pencocokan pola yang kuat untuk aturan kompleks.
| Pola | Arti | Contoh |
|---|---|---|
* |
Cocok dengan urutan karakter apa pun | /search?* memblokir semua kueri pencarian |
$ |
Cocok dengan akhir URL | /*.pdf$ memblokir semua file PDF |
*$ |
Pola gabungan | /*?sort=*$ memblokir URL dengan parameter pengurutan |
Apakah data saya aman?
100% Pribadi: Alat ini berjalan sepenuhnya di browser Anda menggunakan JavaScript sisi klien. Tidak ada data yang dikirim ke server mana pun — konten robots.txt Anda tetap berada di perangkat Anda.
- Tidak ada unggahan server atau transmisi data
- Tidak ada pelacakan atau analitik pada konten Anda
- Tidak ada penyimpanan konfigurasi Anda
- Privasi dan keamanan lengkap
Belum ada komentar. Jadilah yang pertama berkomentar!