Cuprins:
Definiție - Ce înseamnă Spider?
În contextul internetului, un păianjen este un software specializat conceput pentru a crawlea și naviga în mod sistematic pe World Wide Web, de obicei, în scopul indexării paginilor Web, pentru a le oferi drept rezultate de căutare pentru interogările de căutare ale utilizatorilor. Cel mai cunoscut dintre astfel de păianjeni este Googlebot, principalul crawler Google, care ajută să se asigure că rezultatele relevante sunt returnate pentru interogările de căutare.
Păianjenii sunt, de asemenea, cunoscuți sub numele de crawlere web, roboți de căutare sau pur și simplu bot.
Techopedia explică Spider
Un păianjen este, în esență, un program folosit pentru recoltarea informațiilor de pe World Wide Web. Se glisează prin paginile site-urilor web extrăgând informații și indexându-le pentru o utilizare ulterioară, de obicei pentru rezultatele motoarelor de căutare. Păianjenul vizitează site-urile web și paginile lor prin diferitele link-uri către și din pagini, astfel încât o pagină fără o singură legătură către ea va fi dificil de indexat și poate fi clasată într-adevăr scăzută pe pagina rezultatelor căutării. Și dacă există o mulțime de link-uri îndreptate către o pagină, aceasta ar însemna că pagina este populară și ar apărea mai sus în rezultatele căutării.
Pașii implicați în ramparea web:
- Păianjenul găsește un site și începe să își croiască paginile.
- Păianjenul indexează cuvintele și conținutul site-ului.
- Păianjenul vizitează linkurile găsite pe site.
Păianjenii sau browserele web sunt doar programe și, ca atare, respectă regulile sistematice stabilite de programatori. Proprietarii de site-uri web pot intra de asemenea în această situație, spunându-i păianjenului ce porțiuni ale site-ului trebuie să indice și care nu. Acest lucru se realizează prin crearea unui fișier "robots.txt" care conține instrucțiuni pentru păianjen cu privire la ce porțiuni de indexat și link-uri care trebuie urmate și care ar trebui să le ignore. Cele mai semnificative păianjeni de acolo sunt cele deținute de motoarele de căutare majore, precum Google, Bing și Yahoo, și cele destinate mineritului și cercetării datelor, dar există și unele păianjeni rău intenționate scrise pentru a găsi și colecta e-mailuri pentru ca utilizatorul să-l vândă companiilor. sau pentru a găsi vulnerabilități în securitatea Web.