Back to Question Center
0

Scraping web amb expert Semalt

1 answers:

El raspat web, també conegut com a recol·lecció web, és una tècnica utilitzada per extreure dades de llocs web. El programari de collita web pot accedir a una web directament mitjançant HTTP o un navegador web. Tot i que un usuari de programari pot implementar el procés manualment, la tècnica implica generalment un procés automatitzat implementat mitjançant un rastrejador web o un bot.

El raspat web és un procés quan les dades estructurades es copien de la web en una base de dades local per a revisions i recuperació. Es tracta d'obtenir una pàgina web i extreure el seu contingut. El contingut de la pàgina es pot analitzar, cercar, reestructurar i copiar les seves dades en un dispositiu d'emmagatzematge local.

Les pàgines web generalment estan construïdes amb llenguatges de marques basats en text com ara XHTML i HTML, que contenen una gran quantitat de dades útils en forma de text. Tanmateix, molts d'aquests llocs web s'han dissenyat per a usuaris finals humans i no per a ús automatitzat. Aquesta és la raó per la qual es va crear el programari de raspat.

Hi ha moltes tècniques que es poden utilitzar per a la realització de rascades efectives. Alguns d'ells s'han elaborat a continuació:

1. Human Copy-and-paste

De tant en tant, fins i tot la millor eina de raspat web no es pot reemplaçar la precisió i l'eficàcia del manual d'un home copiar i enganxar..Això és més aplicable en situacions en què els llocs web configuren barreres per evitar la automatització de la màquina.

2. Patronatge de text Matching

Aquest és un enfocament bastant simple però potent que s'utilitza per extreure dades de pàgines web. Es pot basar en l'ordre grep UNIX o només en una instal·lació d'expressió regular d'un llenguatge de programació determinat, per exemple, Python o Perl.

3. Programació HTTP

La programació HTTP es pot utilitzar tant per a pàgines web estàtiques com dinàmiques. Les dades s'extreuen mitjançant la publicació de sol · licituds HTTP a un servidor web remot fent servir la programació de socket.

4. Enumeració d'HTML

Molts llocs web tendeixen a tenir una àmplia col · lecció de pàgines creades dinàmicament a partir d'una estructura d'estructura subjacent, com ara una base de dades. Aquí, les dades que pertanyen a una categoria similar es codifiquen en pàgines similars. En l'anàlisi d'HTML, un programa en general detecta aquesta plantilla en una font particular d'informació, recupera els seus continguts i la tradueix en un formulari d'afiliat, denominat contenidor.

5. DOM parsing

En aquesta tècnica, un programa s'emmarca en un navegador web com ara Mozilla Firefox o Internet Explorer per recuperar el contingut dinàmic generat per l'script del costat del client. Aquests navegadors també poden analitzar pàgines web en un arbre DOM depenent dels programes que puguin extreure parts de les pàgines.

6. Reconeixement de la notació semàntica

Les pàgines que es proposen interrompre poden abraçar marcs i anotacions semàntiques o metadades, que es poden utilitzar per localitzar fragments de dades específics. Si aquestes anotacions estan incrustades a les pàgines, aquesta tècnica es pot veure com un cas especial d'anàlisi de DOM. Aquestes anotacions també es poden organitzar en una capa sintàctica, i després s'emmagatzemen i es gestionen de manera separada de les pàgines web. Permet que els raspadors recuperin l'esquema de dades i les ordres d'aquesta capa abans de retallar les pàgines.

December 6, 2017
Scraping web amb expert Semalt
Reply