Yayınlanma Tarihi: 29.03.2025

Başlık: Arama motoru robotları veya web tarayıcıları Kelime Sayısı: 1240 Özet: Arama motoru robotları veya web tarayıcıları Anahtar Kelimeler: SEO, SEM, Arama Motoru Optimizasyonu, Dinamik Sayfa, Robotlar, Robots

Başlık: Arama motoru robotları veya web tarayıcıları Kelime Sayısı: 1240 Özet: Arama motoru robotları veya web tarayıcıları Anahtar Kelimeler: SEO, SEM, Arama Motoru Optimizasyonu, Dinamik Sayfa, Robotlar, Robots.txt Makale Vücudu: Ortak kullanıcıların veya ziyaretçilerin çoğu, ihtiyaç duydukları bilgileri aramak için farklı mevcut arama motorları kullanır.Ancak bu bilgiler arama motorları tarafından nasıl sağlanır?Bu bilgileri nereden topladılar?Temel olarak bu arama motorlarının çoğu kendi bilgi veritabanını korur.Bu veritabanı, Web dünyasında mevcut olan siteleri içerir ve bu da mevcut her siteler için ayrıntı web sayfaları bilgilerini korur.Temel olarak arama motoru, bilgi toplamak ve veritabanını korumak için robotlar kullanarak bazı arka plan çalışmaları yapın.Toplanan bilgileri katalog yaparlar ve daha sonra özel kullanım için kamuya veya zaman zamanları sunarlar.

Bu makalede, küresel internet ortamında loiter olan varlıklar hakkında tartışacağız ya da Netspace'de hareket eden web tarayıcıları hakkında olacağız.Öğreneceğiz · Ne hakkında ve hangi amaca hizmet ediyorlar? · Bu varlıkları kullanmanın artıları ve eksileri. · Sayfalarımızı tarayıcılardan nasıl uzak tutabiliriz?

· Ortak tarayıcılar ve robotlar arasındaki farklılıklar. Aşağıdaki bölümde tüm araştırma çalışmalarını aşağıdaki iki bölümün altına böleceğiz: I. Arama Motoru Örümcek: Robots.txt.

İi

İi.Arama motoru robotları: Meta-etiketler açıklandı. I. Arama Motoru Örümcek: Robots.txt Robots.txt dosyası nedir?

Web robotu, siteleri düzenli ve otomatik olarak ziyaret eden ve bir belgeyi getirerek web’in hipermetin yapısı boyunca tarayan ve referans alınan tüm belgeleri tekrarlayan bir şekilde alarak bir program veya arama motoru yazılımıdır.Bazen site sahipleri tüm site sayfalarının web robotları tarafından taranmasını istemez.Bu nedenle, bazı standart temsilciler kullanarak robotlar tarafından taranan sayfalarının birkaçını hariç tutabilirler.Dolayısıyla robotların çoğu, robot davranışını kısıtlayan bir dizi kısıtlama olan 'Robotlar Dışlama Standardı'na uyuyor.

"Robot Dışlama Standardı", site yöneticisi tarafından robotların hareketini kontrol etmek için kullanılan bir protokoldür.Arama motoru robotları bir siteye geldiğinde, sitenin kök alanında robots.txt adlı bir dosya arayacaktır ( http://turkiyespot.com/ http://turkiyespot.com/anydomain.com/robots.txt) </a> </a>.Bu, dosyaların dizinleri içindeki belirli dosyaları izin vererek veya izin vererek 'robotların hariç tutma protokollerini' uygulayan düz bir metin dosyasıdır.Site Yöneticisi, Robot Kullanıcı Aracı Adları belirleyerek CGI, geçici veya özel dizinlere erişime izin vermeyebilir.

Robot

Robot.txt dosyasının biçimi çok basittir.İki alandan oluşur: kullanıcı ajanı ve bir veya daha fazla izin vermemek. Kullanıcı ajanı nedir? Bu, dünya çapında ağ ortamında bir programlama kavramlarının teknik adıdır ve robots.txt dosyasındaki belirli arama motoru robotundan bahsetmek için kullanılır.

Örneğin : Kullanıcı ajanı: Googlebot Tüm robotları belirtmek için joker karakter “*” de kullanabiliriz: Kullanıcı ajanı: * Tüm robotların ziyarete gelmesine izin verildiği anlamına gelir. İhalat nedir? Robot.txt dosyasında İkinci alan izin veriliyor: Bu çizgiler, dosyanın taranması veya olmaması gereken robotları yönlendirir.Örneğin, e -posta indirilmesini önlemek için.htm sözdizimi şu olacaktır: İzin Ver: E -posta.htm Dizinler aracılığıyla taramayı önleyin Sözdizimi şunlar olacaktır: İzin Verme: /CGI-BIN / Beyaz Alan ve Yorumlar: Robots.txt dosyasındaki herhangi bir satırın başlangıcında # kullanma yalnızca yorum olarak kabul edilecek ve aşağıdaki örnek gibi robots.txt'in başında # kullanılarak hangi URL'nin taranmasını gerektirir.

# robots.txt için http://turkiyespot.com/anydomain.com </a> Robots.txt için Giriş Ayrıntıları: 1) Kullanıcı ajanı: * İzin vermemek: Kullanıcı ajanı alanındaki yıldız işareti (*) “tüm robotlar” ın davet edildiğini ifade eder.Hiçbir şey izin verilmediğinden, tüm robotlar taramakta özgürdür. 2) Kullanıcı ajanı: * İzin Verme: /CGI-BIN / İzin Verme: /sıcaklık / İzin Verme: /Özel / Tüm robotların CGI-bin, sıcaklık ve özel dosya hariç tüm dosyalarda taramasına izin verilir.

3) Kullanıcı ajanı: Dangerbot İzin Verme: / Dangerbot'un herhangi bir dizinden geçmesine izin verilmez

3) Kullanıcı ajanı: Dangerbot İzin Verme: / Dangerbot'un herhangi bir dizinden geçmesine izin verilmez.“/” Tüm dizinleri anlamına gelir. 4) Kullanıcı ajanı: Dangerbot İzin Verme: / Kullanıcı ajanı: * İzin Verme: /sıcaklık / Boş satır, yeni kullanıcı ajanı kayıtlarının başlatıldığını gösterir.DangerBot hariç, diğer tüm botların “sıcaklık” dizinleri hariç tüm dizinlerden geçmesine izin verilir.

5) Kullanıcı ajanı: Dangerbot İzin Ver: /links/listing.html Kullanıcı ajanı: * İzin Ver: /Email.html/ DangerBot'un Links Dizini Listeleme sayfası için izin verilmez, aksi takdirde e -posta gönderme hariç tüm robotlara tüm dizinler için izin verilir. 6) Kullanıcı ajanı: abcbot İzin Ver: /*.Gif$ Tüm dosyaları belirli bir dosya türünden (örn.

.Gif) kaldırmak için yukarıdaki robots.txt girişini kullanacağız. 7) Kullanıcı ajanı: abcbot İzin Verme: /*? Web tarayıcısını sürünerek dinamik sayfalardan kısıtlamak için yukarıdaki robots.txt girişini kullanacağız.

Not: Alana izin vermemek, herhangi bir karakter dizisini takip etmek için “*” içerebilir ve adın sonunu belirtmek için “$” ile bitebilir

Not: Alana izin vermemek, herhangi bir karakter dizisini takip etmek için “*” içerebilir ve adın sonunu belirtmek için “$” ile bitebilir. Örn: Tüm GIF dosyalarını hariç tutmak için görüntü dosyaları içinde, ancak diğerlerinin Google'ın taramasına izin vermesi Kullanıcı Ajanı: Googlebot-Image İzin Ver: /*.Gif$ Robotların Dezavantajları.txt: Alana izin vermeyle ilgili sorun: İzin Verme: /CSS / /CGI-BIN / /IMAGES / Farklı örümcek yukarıdaki alanı farklı şekilde okuyacaktır.Bazıları boşlukları görmezden gelecektir ve/CSS // CGI-BIN // Images/ve yalnızca/Images/veya//CSS/diğerlerini görmezden gelmeyi düşünebilir.

Doğru sözdizimi şu olmalıdır: İzin Verme: /CSS / İzin Verme: /CGI-BIN / İzin Verme: /Görüntüler / Tüm dosya listesi: Bir dizin içindeki her bir dosya adını belirtmek en yaygın olarak kullanılan hatadır İzin Ver: /ab/cdef.html İzin Ver: /ab/ghij.html İzin Ver: /ab/klmn.html İzin Ver: /op/qrst.html İzin Ver: /op/uvwx.html Üst kısım şu şekilde yazılabilir: İzin Verme: /AB / İzin Verme: /OP / Sonrası bir eğik çizgi, bir dizinin offlimits olduğu anlamına gelir.

Büyük harf kullanımı: Kullanıcı ajanı: Redbot İzin vermemek: Alanlar büyük / küçük harfe duyarlı değil, dizinler gibi veriler, dosya adları büyük / küçük harfe duyarlıdır. Çelişkili Sözdizimi: Kullanıcı ajanı: * İzin Verme: / # Kullanıcı ajanı: Redbot İzin vermemek: Ne olacak?Redbot'un her şeyi taramasına izin verilir, ancak bu izin izin verme alanını geçersiz kılar mı yoksa izin vermeyecek.

İi

İi.Arama Motoru Robotları: Meta-etiket açıklandı: Robot meta etiketi nedir? Robots.txt arama motorunun yanı sıra web sayfalarından taramak için başka bir araç da var.Bu, Web Spider'a bir sayfayı dizine eklemesini ve üzerindeki bağlantıları izlemesini söyleyen meta etiketidir, bu da bazı durumlarda daha yararlı olabilir, çünkü sayfa bazında kullanılabilir.Ayrıca, robots.txt dosyasını kontrol etmek için Sunucular Kök Dizinine erişmek için gerekli izniniz olmadığı da yararlıdır.

Bu etiketi HTML'nin başlık kısmına yerleştirirdik. Robotlar meta etiketinin formatı: HTML belgesinde kafa bölümüne yerleştirilir. HTML KAFA Meta name = ”robots” içeriği = ”dizin, takip edin” Meta name = ”açıklama” içeriği = ”hoş geldiniz …….” Başlık …………… başlık KAFA vücut Robotlar Meta Etiket Seçenekleri: Meta robotların içerik bölümünde kullanılabilecek dört seçenek vardır.Bunlar dizin, noindex, takip, nofollow.

Bu etiket, arama motoru robotlarının belirli bir sayfayı dizine eklemesine izin veren ve üzerinde bulunan tüm bağlantıyı izleyebilir.Site yöneticisi herhangi bir sayfanın dizine eklenmesini veya herhangi bir bağlantının izlenmesini istemiyorsa, “dizin, takip” ü “noindex, nofollow” ile değiştirebilirler.

Gereksinimlere göre, site yöneticisi robotları aşağıdaki farklı seçeneklerde kullanabilir: Meta Name = ”Robots” Content = ”Dizin, Takip Et”> Bu sayfa dizini, bu sayfadaki bağlantıları izleyin

Gereksinimlere göre, site yöneticisi robotları aşağıdaki farklı seçeneklerde kullanabilir: Meta Name = ”Robots” Content = ”Dizin, Takip Et”> Bu sayfa dizini, bu sayfadaki bağlantıları izleyin. Meta name = ”robots” içeriği = ”noindex, takip”> Bu sayfayı dizine eklemeyin, ancak bu sayfadan bağlantıyı takip edin.

Meta Name = ”Robots” Content = ”Dizin, Nofollow”> Bu sayfa dizin ancak bu sayfadaki bağlantıları takip etmeyin Meta Name = ”Robots” içeriği = ”NoindEx, Nofollow”> Bu sayfayı dizine eklemeyin, bu sayfadaki bağlantıları takip etmeyin.

Profesyonel hizmetlerimiz hakkında daha fazla bilgi için hemen iletişime geçin!

Profesyonel Web Çözümleri İçin