data scraping in government websites

36
elleth.org Raspagem de dados em websites governamentais // Data scraping in government websites Fernando de Assis Rodrigues, PhD

Upload: fernando-de-assis-rodrigues

Post on 23-Jan-2018

263 views

Category:

Science


2 download

TRANSCRIPT

elleth.org

Raspagem de dados em websites governamentais // Data scraping in government websites

Fernando de Assis Rodrigues, PhD

O que é raspagem de dados?// What is data scraping?

A raspagem de dados está relacionada ao processo de coleta automatizada de

conjuntos de dados contidos em websites e outras formas de

visualizações. // Data scraping is related to automated gathering process of data sets contained in websites and other forms of

visualization.

A raspagem de dados já existia antes da invenção do HyperText Markup

Language (HTML) e de tecnologias associadas ao funcionamento da

Internet e dos navegadores.// Before the HTML, browsers and other Internet

technologies, data scraping already existed.

Fonte da Imagem // Image Source: https://goo.gl/tTVvyV

Banco de Dados

Algoritmos de conversão // Conversion

algorithms

A princípio, as páginas web não foram desenvolvidas para permitir automação

da coleta dos conjuntos de dados.// At first, web pages were not developed to allow

automated data gathering

Fon

te d

a Im

agem

//

Imag

e S

ourc

e:

http

://w

ww

.por

taltr

ansp

aren

cia.

gov.

br/d

espe

sasd

iaria

s/

Banco de Dados

Por que? Facilitar a manipulação dos conjuntos de dados. // Why? To ease data

manipulation.

Como fazer a coleta por raspagem de dados em websites? // How to do a data

scrap on a website?

Preciso conhecer uma linguagem de programação? // Do I need to know a

programming language?

A resposta é: depende. // The answer is: it depends.

A resposta é: depende da complexidade da coleta de dados. // The answer is:

depends how complex your data gathering process will be.

Existe alguma alternativa? // Is there any alternative?

Sim! // Yes!

http://webscraper.io

http://webscraper.io

Requisito técnico // Technical requirement:

● Google Chrome (atualizado // up-to-date)

Conhecimentos // Skills:

● HyperText Markup Language (HTML)

● XPath

● Saber o que quer coletar // Knowing what you want to gather

Na prática. // In practice

Portal da Transparência (Brasil // Brazil)

http://www.portaltransparencia.gov.br

[...] é um canal pelo qual o cidadão pode acompanhar a execução financeira dos programas de governo, em âmbito federal. Estão disponíveis informações sobre os recursos públicos federais transferidos pelo Governo Federal a estados, municípios e Distrito Federal e diretamente ao cidadão, bem como dados sobre

os gastos realizados pelo próprio Governo Federal em compras ou contratação de obras e serviços (CONTROLADORIA GERAL DA UNIÃO, 2017a).

[...] is a channel that citizens can follow financial execution of federal government programs. Its information available is about federal financial

resources transferred to states, cities, federal district and citizens, and also data about spends made by federal government itself, in acquisitions or contracts

(CONTROLADORIA GERAL DA UNIÃO, 2017a)*.

* Translated by author.

Coletando dados de despesas diárias // Gathering daily expenses data

1. Abrir o endereço URL: http://www.portaltransparencia.gov.br

1. Open URL address: http://www.portaltransparencia.gov.br

Coletando dados de despesas diárias // Gathering daily expenses data

2. Acessar o item “Despesas”, no menu “Consultas”

2. Access “Expense” item, in “Queries” menu

Coletando dados de despesas diárias // Gathering daily expenses data

3. Clicar no hiperlink “Informações Diárias - Detalhamento Diário das Despesas”

3. Click on hyperlink “Daily Information - Daily Expenses Details”

Coletando dados de despesas diárias // Gathering daily expenses data

4. Realizar a consulta que for conveniente

4. Carry out your convenient query

Coletando dados de despesas diárias // Gathering daily expenses data

5. Aperte a tecla F12 para abrir o Console e acesse a guia Web Scraper

5. Press F12 key on keyboard to open the Console and change to Web Scraper tab

Coletando dados de despesas diárias // Gathering daily expenses data

6. Criar um novo “mapa do site”

6. Create a new sitemap

Coletando dados de despesas diárias // Gathering daily expenses data

7. Adicionar um novo “item seletor”

7. Add a new selector

Preencher os atributos com os valores // Fill attributes with values:

Id: dadosType: tableSelector:

a) clicar uma vez no botão “Select” (à direita) // click on time on “Select” button (right)

b) clicar uma vez no título da primeira coluna da tabela // click on time on the first column header

c) clicar no botão “Done Selecting” // click on “Done Selecting” buttonHeader row selector: não alterar // do not changeData rows selector: não alterar // do not changeChecar o atributo “Multiple” // Check “Multiple” attribute

Ir ao final do formulário e apertar o botão “Save Selector” // Go to form bottom and click on “Save Selector” button.

Coletando dados de despesas diárias // Gathering daily expenses data

Coletando dados de despesas diárias // Gathering daily expenses data

8. Clicar em “Scrape”

8. Click on “Scrape”

Coletando dados de despesas diárias // Gathering daily expenses data

Coletando dados de despesas diárias // Gathering daily expenses data

9. Clicar em “Export data as CSV”

9. Click on “Export data as CSV”

Coletando dados de despesas diárias // Gathering daily expenses data

O que não foi abordado: coleta de múltiplas páginas (paginação) // What is

not covered here: data gathering of multiple pages (pagination)

Referências // References

CONTROLADORIA GERAL DA UNIÃO. Detalhamento Diário das Despesas. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017a.

CONTROLADORIA GERAL DA UNIÃO. Portal da Transparência. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017b.

CONTROLADORIA GERAL DA UNIÃO. Glossário. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017c.

HEMENWAY, K.; CALISHAIN, T. Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly, 2004. 

Controladoria Geral da União. (2017a). Detalhamento Diário das Despesas. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp

Controladoria Geral da União. (2017b). Glossário. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp

Controladoria Geral da União. (2017c). Portal da Transparência. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp

Hemenway, K., & Calishain, T. (2004). Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly. 

Esta apresentação está disponível para download em http://elleth.org

// This presentation is available to download at http://elleth.org