Opredelitev Spideringa in spletnih pajkov

Pajki in spletni pajki: kaj morate vedeti, da zaščitite podatke o spletnem mestu

Pajki so programi (ali samodejni skripti), ki "poiščejo" po spletu iščejo podatke. Pajki potujejo preko URL-jev spletnega mesta in lahko vlečejo podatke s spletnih strani, kot so e-poštni naslovi. Pajki se uporabljajo tudi za hranjenje informacij na spletnih mestih za iskalnike.

Pajki, ki jih imenujemo tudi spletni pajki, iščejo splet in niso vsi prijazni v svojem namenu.

Spletne strani neželene pošte za neželene pošte za zbiranje informacij

Google, Yahoo!

in drugi iskalniki niso edini, ki jih zanimajo pajkanje spletnih mest - tako so scammers in spammers.

Pajki in druga samodejna orodja uporabljajo spamere za iskanje e-poštnih naslovov (na spletu se ta praksa na spletnih mestih pogosto imenuje »nabiranje«), nato pa jih uporabite za ustvarjanje seznamov neželene pošte.

Pajki so tudi orodje, ki ga uporabljajo iskalniki, če želite izvedeti več informacij o vaši spletni strani, vendar niste omenjali, spletno mesto brez navodil (ali "dovoljenja") o tem, kako pajkati vaše spletno mesto, lahko predstavlja glavna tveganja za varnost informacij. Pajki potujejo po povezavah in so zelo spretni pri iskanju povezav do podatkovnih baz, programskih datotek in drugih informacij, do katerih morda ne želite, da imajo dostop.

Spletna skrbniki si lahko ogledajo dnevnike in si ogledajo, kaj so pajki in drugi roboti obiskali svoja spletna mesta. Te informacije spletnim skrbnikom pomagajo vedeti, kdo indeksira svojo spletno stran in kako pogosto.

Te informacije so uporabne, ker spletnim skrbnikom omogočajo, da natančno prilagodijo svoj SEO in posodabljajo datoteke robot.txt, da nekaterim robotom prepovejo, da bodo v prihodnosti plazile svoje spletno mesto.

Nasveti za zaščito vaše spletne strani pred neželenimi robotskimi pajki

Obstaja precej preprost način, da nezaželene gosenice odstranite iz vaše spletne strani. Tudi če vas ne skrbi za zlonamerne pajke, ki pajkajo vaše spletno mesto (neupoštevanje e-poštnega naslova vas ne bo zaščitilo pred večino pajkov), morate iskalnim orodjem še vedno zagotoviti pomembna navodila.

Vse spletne strani morajo imeti datoteko, ki se nahaja v korenskem imeniku, imenovani datoteka robots.txt. Ta datoteka vam omogoča poučevanje spletnih pajkov, kjer želite, da si ogledujejo strani (če ni drugače navedeno v meta podatkih določene strani, ki jih ni treba indeksirati), če so iskalnik.

Tako kot lahko poveste želene pajke, kjer jih želite brskati, jih lahko tudi povejte, kam naj ne bi šli in celo blokirali določene pajke na celotnem spletnem mestu.

Pomembno je upoštevati, da bo dobro ustvarjena datoteka robots.txt imela izjemno vrednost za iskalnike in bi lahko bila celo ključni element pri izboljšanju uspešnosti vašega spletnega mesta, vendar bodo nekateri robotski iskalniki še vedno ignorirali vaša navodila. Iz tega razloga je pomembno, da so vse vaše programske opreme, vtičnikov in aplikacij vedno posodobljene.

Sorodni členi in informacije

Zaradi razširjenosti zbiranja informacij, ki se uporablja za škodljive namene (spam), je bila leta 2003 sprejeta zakonodaja, s katero so nekatera ravnanja nezakonita. Ti zakoni o varstvu potrošnikov spadajo pod CAN-SPAM Act iz leta 2003.

Pomembno je, da si vzamete čas, da preberete na CAN-SPAM Act, če se vaše podjetje ukvarja s kakršnim koli množičnim pošiljanjem ali zbiranjem informacij.

Več o zakonih o neželeni elektronski pošti in o tem, kako ravnati s pošiljatelji neželene elektronske pošte, ne morete izvedeti, kar vam kot lastnik podjetja ne more storiti, tako da preberete naslednje članke: