• 2024-12-03

Definiția Web Spidering și Crawlerele Web

Web Crawlers e arquivo robots.txt

Web Crawlers e arquivo robots.txt

Cuprins:

Anonim

Spiders sunt programe (sau scripturi automate) care "accesează cu crawlere" pe Web căutând date. Păianjenii călătoresc prin intermediul adreselor URL ale site-urilor web și pot trage date din pagini web cum ar fi adrese de e-mail. Spider-urile sunt, de asemenea, utilizate pentru a alimenta informațiile găsite pe site-urile motoarelor de căutare.

Spider-urile, care sunt denumite și "crawlere web", caută pe Web și nu toate sunt prietenoase în intenția lor.

Site-uri Spammers Spider pentru a colecta informații

Google, Yahoo! și alte motoare de căutare nu sunt singurele care sunt interesate de accesarea cu crawlere a site-urilor Web - așa sunt escrocii și spam-ul.

Spider-urile și alte instrumente automate sunt utilizate de către spammerii pentru a găsi adrese de e-mail (pe internet această practică este adesea denumită "recoltare") pe site-uri web și apoi folosiți-le pentru a crea liste de spam.

Spider-urile sunt, de asemenea, un instrument folosit de motoarele de căutare pentru a afla mai multe informații despre site-ul dvs., dar lăsat necontrolat, un site fără instrucțiuni (sau "permisiuni") despre cum să acceseze cu crawlere site-ul dvs. poate prezenta riscuri majore de securitate a informațiilor. Păianjenii călătoresc prin următoarele linkuri și sunt foarte abilitați să găsească linkuri către baze de date, fișiere de programe și alte informații la care este posibil să nu doriți ca aceștia să aibă acces.

Webmasterii pot vizualiza jurnalele pentru a vedea ce păianjeni și alți roboți au vizitat site-urile lor. Aceste informații ajută webmasterii să știe cine indexează site-ul și cât de des.

Aceste informații sunt utile deoarece permit webmasterilor să își regleze SEO și să actualizeze fișierele robot.txt pentru a interzice anumitor roboți să acceseze cu crawlere site-ul lor în viitor.

Sfaturi privind protejarea site-ului dvs. de la crawlerele robot nedorite

Există o modalitate destul de simplă de a păstra crawlerele nedorite din site-ul dvs. web. Chiar dacă nu sunteți preocupat de păianjenii rău-veniți cu crawlere pe site-ul dvs. (nu vă protejați adresa de e-mail de cele mai multe crawlere), trebuie să furnizați instrucțiuni importante motoarelor de căutare.

Toate site-urile web ar trebui să aibă un fișier situat în directorul rădăcină numit fișier robots.txt. Acest fișier vă permite să instruiți crawlerele web unde doriți ca acestea să caute pagini de index (dacă nu se specifică altfel într-o meta-dată a unei anumite pagini pentru a fi indexată) dacă acestea sunt un motor de căutare.

Așa cum puteți spune crawlerele dorite unde vreți să le parcurgeți, puteți să le spuneți și unde ar putea să nu meargă și chiar să blocheze crawlerele specifice de pe întregul dvs. site web.

Este important să rețineți că un fișier robots.txt bine construit va avea o valoare extraordinară pentru motoarele de căutare și ar putea fi chiar un element-cheie în îmbunătățirea performanței site-ului dvs., dar unele crawlere robot vor ignora instrucțiunile. Din acest motiv, este important să țineți la curent tot software-ul, pluginurile și aplicațiile.

Articole și informații înrudite

Datorită prevalenței recoltării informațiilor utilizate în scopuri nefaste (spam), a fost adoptată o legislație în 2003 pentru a face anumite practici ilegale. Aceste legi privind protecția consumatorilor intră sub incidența legii CAN-SPAM din 2003.

Este important să vă acordați timp pentru a citi versiunea CAN-SPAM Act în cazul în care afacerea dvs. se angajează în orice posta de masă sau culegerea de informații.

Puteți afla mai multe despre legile anti-spam și despre modul de abordare a spam-urilor și despre ceea ce dvs., în calitate de proprietar de afaceri, nu le puteți face, citiți următoarele articole:

  • CAN-SPAM Act 2003
  • CAN-SPAM Act de reglementare pentru non-profit
  • 5 Reguli CAN-SPAM Aveți nevoie să înțelegeți proprietarii de afaceri mici

Articole interesante

Întrebări să nu întrebați un angajator în timpul unui interviu de angajare

Întrebări să nu întrebați un angajator în timpul unui interviu de angajare

Când vi se întreabă dacă aveți întrebări în timpul unui interviu de angajare, există câteva întrebări pe care nu trebuie să le întrebați niciodată angajatorului.

Înmânarea unei cereri de locuri de muncă după termenul limită

Înmânarea unei cereri de locuri de muncă după termenul limită

Veniți la data de închidere a unui loc de muncă (sau a trecut?) Și intenționați să vă adresați oricum? Determinați dacă merită o încercare.

Întrebări interviu despre primele 30 de zile într-un nou loc de muncă

Întrebări interviu despre primele 30 de zile într-un nou loc de muncă

Cum să răspundeți la întrebările interviului despre ceea ce vedeți voi în decursul primelor 30 de zile de la începerea unui loc de muncă, cu exemple de cele mai bune răspunsuri.

Întrebări adresate unui absolvent despre școala de grad

Întrebări adresate unui absolvent despre școala de grad

Una dintre cele mai bune modalități de a afla despre o școală absolventă este de a vorbi cu cineva care a finalizat programul. Alegeți creierul cu aceste întrebări.

Întrebări adresate unui angajator în timpul unui interviu

Întrebări adresate unui angajator în timpul unui interviu

Aflați ce întrebări să adresați în timpul unui interviu de stagiu, deoarece poate fi la fel de important ca răspunsul corect la întrebările unui intervievator.

Solicitarea întrebărilor corecte pentru a face vânzarea

Solicitarea întrebărilor corecte pentru a face vânzarea

Solicitarea perspectivelor dvs. o serie de întrebări deschise poate duce perspectivele dvs. să se vândă singure. Aceste exemple vă vor ajuta să începeți.