(parte ii) · web scraping “rascar” datos de webs con sus cuestiones técnicas y sus cuestiones...
TRANSCRIPT
![Page 1: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/1.jpg)
Angel Pablo Hinojosa
Obtención de Datos
(Parte II)
![Page 2: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/2.jpg)
Orígenes de Datos
Open Data (y transparencia)
![Page 3: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/3.jpg)
Orígenes de Datos
CKAN, Datasets y APIs
http://opendata.ugr.es
(Y licencias)
![Page 4: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/4.jpg)
Orígenes de Datos
Catálogo nacional:
http://datos.gob.es/catalogo
![Page 5: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/5.jpg)
Orígenes de Datos
Catálogo europeo:
http://open-data.europa.eu/es/data/
![Page 6: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/6.jpg)
Orígenes de Datos
Catálogo USA:
http://open-data.europa.eu/es/data/
![Page 7: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/7.jpg)
Orígenes de Datos
Mapa de orígenes:
http://eip.lcc.uma.es/opendata/
(poco actualizado)
![Page 8: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/8.jpg)
Web Scraping
“Rascar” datos de Webs
Con sus cuestiones técnicas
Y sus cuestiones Legales
![Page 9: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/9.jpg)
Web Scraping
HTML
La materia de la que están hechas las webs
http://www.psicobyte.com/html/curso/
(Tutorial de HTML)
![Page 10: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/10.jpg)
Web Scraping
Import.io
Rudimentario, pero a veces basta
https://import.io/
![Page 11: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/11.jpg)
Web Scraping
Usando Google Docs
https://docs.google.com
(Google Spreadsheets, concretamente)
![Page 12: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/12.jpg)
Web Scraping
Usando Google Docs (importar feeds)
=IMPORTFEED(“URL”)
Espera ¿Qué es un “feed”?
![Page 13: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/13.jpg)
Web Scraping
Usando Google Docs (importar feeds)
http://osl.ugr.es/feed/
![Page 14: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/14.jpg)
Web Scraping
Usando Google Docs (importar HTML -listas-)
=IMPORTHTML(URL,”list”,N)
![Page 15: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/15.jpg)
Web Scraping
Usando Google Docs (importar HTML -listas-)
http://www.dmoz.org/Computers/Internet/
![Page 16: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/16.jpg)
Web Scraping
Usando Google Docs (importar HTML -tablas-)
=IMPORTHTML(URL,”table”,N)
![Page 17: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/17.jpg)
Web Scraping
Caso práctico:
¿Buscamos radares?
http://www.dgt.es/es/el-trafico/control-de-velocidad/granada/
![Page 18: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/18.jpg)
Web Scraping
Usando Google Docs (importar XML)
=IMPORTXML(URL,”table”,N)
(en realidad, HTML con XPath)
![Page 19: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/19.jpg)
Web Scraping
Usando Google Docs (importar XML)
http://osl.ugr.es
//h2
//a/@href
//h2/a/@href
![Page 20: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/20.jpg)
Ejemplos
Usando scraping:
http://quiencobralaobra.es/
![Page 21: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/21.jpg)
Ejemplos
Usando scraping:
http://www.elindultometro.es/index.html
![Page 22: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/22.jpg)
Ejemplos
Usando scraping:
http://dondevanmisimpuestos.es/
![Page 23: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/23.jpg)
Ejemplos
Usando datos propios:
https://www.theguardian.com/technology/2016/apr/12/the-dark-side-of-guardian-comments
![Page 24: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/24.jpg)
Ejemplos
Usando datos propios ¡de la UGR!:
http://livemetrics.ugr.es/
![Page 25: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/25.jpg)
Ejemplos
Usando APIs:
http://tecnologia.elpais.com/tecnologia/2016/04/11/actualidad/1460361324_475730.html
https://github.com/rinze/spotify-moods
![Page 26: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/26.jpg)
Ejemplos
Usando APIs:
http://git.io/top-gh
https://github.com/JJ/top-github-users-data
![Page 27: (Parte II) · Web Scraping “Rascar” datos de Webs Con sus cuestiones técnicas Y sus cuestiones Legales](https://reader035.vdocuments.us/reader035/viewer/2022081614/5fc6b978263429664044ce05/html5/thumbnails/27.jpg)
Gracias
(Ruegos y preguntas)
© 2016 Angel Pablo Hinojosa.
http://www.psicobyte.com/descargas/ODPAS3.pdf