Back to Question Center
0

Tutorial del rascador web de Chrome de Semalt Expert

1 answers:

Si utilitzeu Google Chrome, hi ha una extensió per al navegador que pot ajudar a rascar pàgines web. Es coneix com Scrapper, i es pot utilitzar sense problemes. Scrapper us ajudarà a fregar el contingut d'un lloc web i carregar els resultats als documents de Google.

Com esborrar un lloc web amb l'extensió del rascador?

1. Seleccioneu Chrome Web Store a Google Chrome;

2. En les extensions, feu una cerca de '' Scrapper '';

3. El primer resultat de la cerca és l'extensió coneguda com '' Scrapper '';

4. Seleccioneu el botó que es mostra com "Afegeix a Chrome";

5. Torneu a la llista dels diputats del Regne Unit;

6. Feu clic al següent link ;

7. Ara busqueu un MP i assegureu-vos que l'entrada està marcada;

8. Feu clic amb el botó dret del ratolí per triar el "Scrap Similar ... "option;

9. La consola de scrapper apareixerà en una altra finestra;

10. Veure el contingut raspat en el raspador consola;

11. Per assegurar que el contingut es desa com a full de càlcul de Google, seleccioneu "Desa a Google Docs ..."

Raspallat ampli

Abans d'enganxar a aquesta recepta , és útil comprendre els conceptes bàsics de l'HTML. Per exemple, podeu llegir una breu introducció a HTML a través d'aquest enllaç

Imaginem que estem interessats en totes les pel·lícules que van protagonitzar Àsia Argento, una famosa actriu italiana.

1. Hi ha un arxiu molt detallat d'actors a IMDB. El lloc d'Asia Argento és: https://www.imdb.com/name/nm0000782/;

2. Aquí podeu veure tots els rols interpretats per l'actriu..Comencem a desglossar la informació en què estem interessats;

3. Intenta raspar-lo de la manera descrita anteriorment;

4. Veureu que la llista és una mica distorsionada. Això es deu al fet que la llista aquí es pot estructurar de manera diferent;

5. Cap a la consola del raspador. A dalt a l'esquerra, veureu la petita caixa que diu XPath;

6. Xpath és un tipus de llenguatge de consulta que treballa per XML i HTML;

7. XPath pot ajudar a localitzar les parts de la pàgina en què interessa. El següent és trobar un element adequat i escriure XPath per a això;

8. Ara organitzem la nostra taula;

9. Veureu que el nostre XPath existent, que té totes les dades necessàries, és "// div [3] / div [3] / div [2] / div";

10. XPath informa al sistema per visualitzar el document HTML i triar el tercer element, després el segon element i després tots;

11. Però, volem que les nostres dades estiguin separades;

12. Utilitzeu la secció de columnes de la consola per al desballestador per fer-ho;

13. Per primer cop, trobeu el títol РІР,“ Utilitzeu l'element Inspect per veure el títol;

14. Comproveu el títol d'una etiqueta. Afegiu l'etiqueta al XPath;

15. L'expressió sembla funcionar de manera adequada, així que és la nostra primera columna;

16. A la secció "Columnes", substituïu el nom de la primera columna per "títol";

17. Afegiu-hi XPath;

18. A la secció de la columna, els XPaths són relatius i vol dir que "./b" triarà l'element

19. A la XPath per a la columna de títol, afegiu "./b" i seleccioneu "raspar";

20. Ara continuem un any. Els anys es poden trobar dins d'un sol abast;

21. Creeu una columna nova si seleccioneu el petit més al costat de la columna del vostre títol;

22. Utilitzant XPath "./span", creeu una columna per "any";

23. Feu clic a raspar i veure com s'ha afegit l'any;

24. Fet!

December 6, 2017
Tutorial del rascador web de Chrome de Semalt Expert
Reply