Pada tahun 1994, sebuah protokol yang disebut REP (Robots Exclusion Standard Protocol) diperkenalkan. Protokol ini menyatakan bahwa semua crawler mesin pencari (agen pengguna) pertama-tama harus mencari file robots.txt di direktori home domain dan membaca instruksi di dalamnya. Ini memungkinkan bot untuk mulai mengindeks halaman web. File ini harus ditempatkan langsung di direktori dasar domain dan harus ditulis dalam huruf kecil. Ini karena bot membaca file robots.txt dan instruksinya peka huruf besar/kecil. Sayangnya, tidak semua robot mesin pencari mengikuti aturan ini. Setidaknya file robot.txt bekerja dengan baik dengan mesin pencari seperti Bing, Yahoo, dan Google. Robot pencari dari mesin pencari ini secara ketat mengikuti instruksi di REP dan robots.txt. Siapa pun yang ingin melakukan crawling dan mengindeks SEO pasti tahu cara menggunakan file ini. Simak penjelasan artikel berikut ini.
Robots.txt adalah file yang berisi sekumpulan instruksi untuk menjalankan bot mesin telusur. File robots.txt ditujukan untuk mengatur aktivitas bot seperti web crawler. Bot jahat tidak mengikuti instruksi atau perintah yang diberikan kepada mereka. File robots.txt seperti ketertiban dalam kehidupan manusia. Aturan ini tidak memiliki wewenang untuk menegakkan aturan yang tercantum, tetapi bot "baik" selalu mengikutinya. Di sisi lain, "orang jahat" lebih cenderung melanggar aturan dan akan dihukum dengan cepat. Bot adalah program komputer otomatis yang berinteraksi dengan situs web atau aplikasi. Ada bot yang baik dan bot yang buruk, dan satu bot yang sangat bagus dikenal sebagai bot crawler web. Bot ini "merangkak" situs web Anda dan mengindeks konten untuk muncul di halaman hasil mesin pencari. File robots.txt membantu mengontrol aktivitas crawler web ini dan mencegahnya membebani server web yang menghosting situs web atau halaman indeks non-publik.
File robots.txt hanyalah file teks tanpa kode markup HTML (maka ekstensi .txt). File robots.txt di-host di server web Anda, sama seperti file lain di situs web Anda. Faktanya, pada file robots.txt biasanya dapat dilihat di situs web tertentu dengan memasukkan URL beranda situs web dan kemudian menambahkan /robots.txt (mis. https://yourwebsite.com/robots.TXT). File ini tidak ditautkan ke halaman lain di situs. Oleh karena itu, pengguna tidak dapat menemukan file ini, tetapi sebagian besar bot crawler web mencari file ini terlebih dahulu sebelum merayapi situs web. File robots.txt berisi instruksi untuk bot, tetapi ini hanya instruksi atau petunjuk untuk bot. Bot yang baik, seperti web crawler atau bot news feed, akan mengunjungi file robots.txt Anda terlebih dahulu, kemudian melihat halaman lain di domain Anda dan mengikuti perintah Anda. Bot berbahaya mengabaikan pada file robots.txt atau memprosesnya untuk menemukan situs web yang diblokir. Bot crawler web mengikuti instruksi khusus dalam file robots.txt ini. Jika file berisi perintah yang bertentangan, bot akan mengikuti perintah yang lebih detail. Satu hal penting yang perlu diperhatikan adalah bahwa setiap subdomain harus memiliki file robots.txt sendiri. Misalnya, jika Anda memiliki situs web bernama www.yourwebsite.com dengan filenya sendiri, Anda juga harus menggunakan robots.txt pada subdomain yang Anda miliki (blog.yourwebsite.com, community.yourwebsite.com, dan lain lain).
Sebagian besar situs web tidak memerlukan file robots.txt. Ini karena Google biasanya dapat secara otomatis mendeteksi dan mengindeks semua halaman penting di situs web Anda. Google tidak akan mengindeks halaman yang dianggap tidak penting atau yang menduplikasi halaman lain. Namun, ada tiga alasan utama mengapa Anda harus menggunakan file robots.txt. 1. Memblokir Halaman Non-Publik Terkadang Anda, mungkin ada halaman di situs Anda yang tidak ingin Anda indeks. Katakanlah Anda memiliki halaman yang masih dalam pengembangan awal, atau halaman untuk halaman login. Misalkan halaman ini masih dibutuhkan pada website, tetapi tidak ada yang mau mengaksesnya. Ini benar jika Anda menggunakan robots.txt untuk memblokir halaman ini dari crawler dan bot mesin pencari. 2. Maksimalkan Crawler Budget Jika Anda mengalami masalah dalam mengindeks semua halaman situs Anda, Anda mungkin memiliki masalah dengan anggaran crawler Anda. Dengan menggunakan robots.txt untuk memblokir halaman yang tidak penting, bot Google dapat mengalihkan pekerjaannya untuk merayapi anggaran Anda di halaman yang lebih penting. 3. Mencegah Pengindeksan pada Sumber Daya Lainnya Perintah meta berfungsi seperti Robots.txt untuk mencegah pengindeksan halaman. Namun, perintah meta tidak bekerja dengan baik dengan sumber daya multimedia seperti PDF dan file gambar. Di sinilah file robots.txt berperan. Pada dasarnya, file robots.txt memberi tahu spider mesin pencari untuk tidak merayapi halaman tertentu di situs Anda. Anda dapat menggunakan Google Search Console untuk melihat berapa banyak halaman yang diindeks. Jika nomornya cocok dengan jumlah halaman yang ingin Anda indeks, jangan gunakan file robots.txt. Namun, jika angka ini lebih tinggi dari yang diharapkan (terutama jika Anda tidak ingin URL Anda diindeks), saatnya membuat file robots.txt untuk situs web Anda.
Dilihat dari pentingnya SEO dan robots.txt itu sendiri, mereka hampir sepenuhnya berbeda. SEO adalah singkatan dari Search Engine Optimization atau Pengoptimal. Ini adalah proses yang berfungsi sebagai salah satu faktor terpenting dalam meningkatkan visibilitas atau visibilitas situs web yang Anda kelola. Secara keseluruhan, jika Anda ingin situs web yang Anda kelola muncul sebagai salah satu ulasan teratas di Google...maka Anda perlu mengoptimalkan SEO dari artikel yang Anda terbitkan di halaman online Anda. robots.txt adalah kumpulan kode tekstual yang bertindak sebagai pengontrol instruksi untuk bot mesin pencari. Anda dapat menggunakannya untuk berinteraksi dengan situs web dan blog yang Anda kelola. Jelas sekali bahwa robot.txt berkaitan erat dengan SEO website Anda. Yaitu, untuk menyediakan layanan manajemen konten untuk aksesibilitas konten situs web.
Mengingat pentingnya fitur SEO dalam menentukan ramai atau tidaknya sebuah website, maka memaksimalkan semua pada komponen SEO sangat membantu sebuah website bertahan. Ini akan menjadi salah satu situs web yang paling sering dikunjungi pelanggan Anda dan situs nomor satu yang akan ditemukan pelanggan Anda. Tanpa SEO atau robots.txt, situs web Anda praktis dapat diakses oleh siapa saja. Namun, fitur tersebut hanya akan muncul jika Anda mengisi lebih banyak detail situs web daripada yang diperlukan. Ini rumit dan sedikit membosankan. Penggunaan SEO yang tidak optimal menghasilkan promosi penjualan dan strategi pemasaran yang buruk. Menjual produk merupakan ancaman yang lemah karena tidak memiliki banyak penggemar seperti yang diharapkan.
1. Menggunakan Yoast SEO Berdasarkan pengalaman, setelah lama berkecimpung di dunia penulisan SEO, tidak semua pemilik situs WordPress membiarkan admin melihat Yoast SEO dari kontennya, namun Anda tidak serta merta harus bisa mengoptimasi struktur SEO Yoast. Ini sangat tergantung pada pengaturan robots.txt dari situs itu sendiri. Yoast SEO adalah kumpulan plugin terkait SEO yang bertujuan untuk mengoptimalkan konten posting situs web Anda agar lebih mudah ditemukan oleh mesin pencari. Membuat robot.txt dengan Yoast SEO sangat mudah karena sangat sederhana dan mudah dipahami oleh siapa saja. Anda dapat bekerja dengan robot.txt di situs WordPress Anda dengan membuka bagian Editor File pada tab Opsi tools. 2. Menggunakan Plugin All in One SEO Pack Mungkin opsi kedua ini tidak banyak berguna bagi mereka yang baru belajar menggunakan robot.txt dan SEO, tetapi plugin ini mirip dengan Yoast SEO tetapi menawarkan fitur yang jauh lebih menarik. Harap diperhatikan secara khusus. Anda dapat mengaktifkan plugin All in One SEO Pack saat membuka panel Feature Manager untuk melihat opsi yang ditawarkan. Sebelum mengaktifkan opsi apa pun, Anda harus memilih opsi yang cocok untuk Anda. Menggunakan plugin ini jauh lebih mudah daripada Yoast SEO yang 100% kode yang ditulis pengguna. Paket SEO memudahkan Anda untuk memilih tindakan dan perintah yang Anda inginkan. Anda tidak perlu repot menulis ulang "allo" atau "disallow" untuk setiap perintah yang Anda masukkan. Kelemahan pada plugin ini mungkin terletak pada perbedaannya dengan Yoast SEO. Yoast SEO jauh lebih sederhana dan memungkinkan Anda untuk mengubah seluruh robot.txt dari situs WordPress Anda dalam sekejap. Opsi lain untuk mengaktifkan atau menonaktifkan plugin ini jika Anda lebih suka menulis robot.txt secara manual adalah salah satu manfaat lain dari One SEO Pack.
Robot.txt WordPress mudah diakses oleh pengguna yang membuat situs web WordPress mereka sendiri. Untuk menemukan string robots.txt untuk WordPress yang Anda buat, cukup navigasikan ke folder server utama Anda. Atau, masukkan kata kunci langsung sebelum dan sesudah nama situs web dalam format "/robots.text". Misalnya, jika Anda memiliki situs web bernama "halo.id" dan ingin menampilkan robot.text dari situs web yang Anda bangun, tambahkan saja akhiran "halo.id/robots.text" dan secara otomatis akan: Anda akan diarahkan ke URL. Folder utama di server Anda yang berisi sekumpulan file robots.txt untuk situs web Anda. Kode sederhana untuk mereka yang baru belajar tentang robot.txt dapat ditemukan dalam petunjuk di bawah ini. 1. User-agent: * 2. Disallow: /wp-admin/ 3. Disallow: /wp-includes/ Di bagian atas setiap robots.txt di WordPress Anda akan melihat sebuah kode yang ditampilkan yang pertama. Setelah kata "user-agent" itu berisi kode untuk bot yang menampilkan atau menerapkan pengaturan terhadap situs. Tanda bintang dapat diartikan sebagai pengaturan universal yang membuat pengaturan, berlaku untuk semua bot. Kata "disallow" pada angka 2 dan 3 menunjukkan bahwa bot dilarang merayap ke bagian "wp - admin" dan "wp - includes". dapat diakses. Hanya administrator dan beberapa pengguna yang diberikan izin untuk mengunjungi atau memasuki bagian tertentu dari situs. Di sini, jika tidak ada apa pun setelah kata "larang", ini dapat diartikan bahwa seluruh konten situs web dapat diakses dan tidak ada halaman atau konten yang diblokir. Tanda '/' setelah kata "disallow" menunjukkan bahwa pada situs tersebut benar-benar diblokir dan tidak ada yang dapat mengaksesnya.
Kesempatan lowongan magang terbaru di tahun 2024
Baca Selengkapnya..