robot.txt Nedir, Nasıl Kullanılır?

Robot.txt Nedir, Nasıl Kullanılır?

robot.txt Nedir, Nasıl Kullanılır?

robot.txt nedir: robot.txt dosyası sitenizin Root, yani anadizini içerisinde bulunur. Anadizin; Cpanel kullanan kişiler için public_html klasörünün içerisi, Plesk panel kullanan kişiler için ise httpdocs klasörünün içerisidir. Bu dosya sitenizi ziyaret eden arama motoru örümceklerinin (botların) sunucunuz içerisindeki hangi klasörleri ve siteniz içerisindeki hangi sayfaları tarayıp taramayacaklarını söyleyen bir başka çok önemli dosyadır.

Web sitenizi ziyaret eden arama motoru botları ilk önce sunucunuzda bir robot.txt dosyası olup olmadığına bakar. Eğer varsa ziyaret ederek nereleri indexleyip, nereleri pas geçmesi gerektiğini öğrenir. Eğer suncunuzda bu dosya yoksa bot her şeyi indexler.


robot.txt Dosyası Bende Yok, Ne olur?

Freelance Web Tasarım yaptığınızı, sürekli yeni bir şeyleri sunucunuzun farklı klasörlerine kurup kaldırdığınızı, demo sitelerinizi sunucunuzda açtığınız bir klasör içerisine kurup müşteriye teslim ettikten 10 gün sonra sildiğinizi varsayalım. robot.txt dosyanız yoksa bu durumu örümcekler, sitemde ne varsa indexle, hafızana al olarak kabul edeceklerdir. Sizin sitenize geçici olarak kurduğunuz tüm dosyaları arama motoru örümcekleri indexleyecek (hafızasına alacak) ve siz bu sayfaları sildiğinizde sitenize giden ve önceden arama motoru botları (örümcekleri) tarafından hafızaya alınan bu sayfalar erişilemiyor olacak. Bir başka ifadeyle sitenizdeki 404 Bulunamadı hatası veren sayfa sayısı coşacaktır. Bu durum da sitenizin SERP (Search Engine Results Pages) durumunu olumsuz etkileyecektir.

404 Sayfaları Toplu Kaldırma başlıklı yazımızı incelemenizi tavsiye ederiz.


Önemli Hatırlatma!

robot.txt dosyanınızın içerisine en alt satıra ya da en üst satıra web sitenizin site harita URL’sini eklemeniz sitenizin indexlenme hızını artıracaktır. Eğer sitenizin birden fazla site haritası varsa (örneğin yazılarınız için ayrı, sayfalarınız içi ayrı site haritası) her bir satıra bir site harita URL’niz gelecek şekilde aşağıdaki gibi ekleyiniz:

Sitemap: https://webdeyeral.net/post-sitemap.xml
Sitemap: https://webdeyeral.net/page-sitemap.xml


robot.txt Dosya Komutları ve Anlamları

robot.txt kullanımına örnekler vermeden önce içerisinde kullanacağımız komutların ne anlama geldiğine kısaca değinelim.

User-agent: * | Bu alandaki yıldız girilen parametrenin tüm Arama Motoru Botları için geçerli olduğunu belirtir.

Disallow: | Bu komut, belirtilen adresin ve içerisindekilerin taranmasına ve indexlenmesine izin vermediğinizi ifade eder.

Allow: | Bu komut ise belirtilen adresin ve içerisindekilerin taranmasını istediğimizi belirtir.


robot.txt Kullanım Örnekleri

Öncelikle bir robot.txt dosyası oluşturalım. Klasik bir metin belgesi oluşturuyoruz ve adını robot.txt yapıyoruz ve içerisine aşağıdaki örneklerdeki gibi gerekli kodları ekleyip, dosyamızı kaydettikten sonra sitemizin anadizinine upload ediyoruz.

Örnek 1

User-agent: *
Allow: /

Yukarıdaki kod satırlarımızın ilk satırındaki * olan alanda GoogleBot’ların adı yazmalıydı. Eğer * işareti koyarsak bu kod tüm GoogleBotları kapsayacaktır ve sitenizin içeriği tamamen indexlenecektir.


Örnek 2

User-agent: *
Disallow: /

Yukarıdaki kod ile GoogleBot’ların sitenizi indekslemesini engellemiş olmaktasınız.


Örnek 3

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /dosyalarim/

Yukarıdaki örnekte GoogleBotların anadizininizde yer alan cgi-bin, images, tmp ve dosyalarim klasörlerinin indexlenmeyeceğini, bunların duşında kalan dosyaların indexleneceğini belirtmiş oluyoruz.


Örnek 4

User-agent: DeepCrawl
Disallow: /private/

Yukarıdaki örnekte DeepCrawl isimli GoogleBotu’nun anadizindeki private klasörünü indexlemeyeceğini, bunun dışında kalan tüm klasörlerin ve içeriğin indexleneceği anlamına gelmektedir.


Örnek 5

User-agent: *
Disallow: /dosyam/musteri-telefonlari.html

Yuakarıdaki örnekte GoogleBotların anadizinde bulunan dosyam klasörü içerisindeki müşteri telefonlarınızı kaydettiğiniz muster-telefonlari.html dosyasını indexlemeyeceğini ama bu dosya içerisindeki diğer şeylerin ve sitenizin geriye kalan tüm dosyalarının indexleneceğini ifade etmektedir.


Örnek 6

User-agent: *
Allow: /dosya1/baglantilarim.html
Disallow: /dosya1/

Yukarıdaki örnekte GoogleBotların dosya1 klasörü içerisinin indexlenmemesi için blok konulmuş ama aynı zamanda aynı klasör içerisindeki baglantilarim.html dosyasının taranıp indexlenmesi için istisna oluşturulmuş. Bunlar haricideki her şey indexlenecektir.


GoogleBot Engelleme Alternatif Yöntem

Google Arama sonuçlarında görüntülenmesini istemediğiniz gizli ya da özel içeriğiniz varsa, bu tür URL’lerin görüntülenmesini engellemenin en kolay ve etkili yolu bunları sitenizin sunucusunda şifre korumalı bir dizinde bulundurmaktır. Googlebot ve diğer web tarayıcıları şifre korumalı dizinlerdeki içeriğe erişemezler.

WordPress İçin En İdeal Robot.txt

WordPress için en optimize robot.txt ayarları aşağıdaki gibidir. Bu kodlara ek olarak kişisel eklemeniz gereken adresleri siz ekstra olarak ekleyebilirsiniz. Site harita adresinizi eklemeyi unutmayın.

User-agent: *
Allow: /?display=wide
Disallow: /wp-admin/
Disallow: */comments/
Disallow: /icerik/plugins/
Disallow: /icerik/cache/
Disallow: /icerik/themes/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /readme.html

Sitemap: http://siteadresiniz.com/sitemap.xml


Yazımızı faydalı bulduysanız beğenmeyi, paylaşmayı, aklınıza takılan konuları yorum ekleyerek iletmeyi ihmal etmeyiniz.

İyi günler dileklerimizle,

Webdeyeral