data scraping in government websites
TRANSCRIPT
elleth.org
Raspagem de dados em websites governamentais // Data scraping in government websites
Fernando de Assis Rodrigues, PhD
A raspagem de dados está relacionada ao processo de coleta automatizada de
conjuntos de dados contidos em websites e outras formas de
visualizações. // Data scraping is related to automated gathering process of data sets contained in websites and other forms of
visualization.
A raspagem de dados já existia antes da invenção do HyperText Markup
Language (HTML) e de tecnologias associadas ao funcionamento da
Internet e dos navegadores.// Before the HTML, browsers and other Internet
technologies, data scraping already existed.
Fonte da Imagem // Image Source: https://goo.gl/tTVvyV
Banco de Dados
Algoritmos de conversão // Conversion
algorithms
A princípio, as páginas web não foram desenvolvidas para permitir automação
da coleta dos conjuntos de dados.// At first, web pages were not developed to allow
automated data gathering
Fon
te d
a Im
agem
//
Imag
e S
ourc
e:
http
://w
ww
.por
taltr
ansp
aren
cia.
gov.
br/d
espe
sasd
iaria
s/
Banco de Dados
A resposta é: depende da complexidade da coleta de dados. // The answer is:
depends how complex your data gathering process will be.
http://webscraper.io
Requisito técnico // Technical requirement:
● Google Chrome (atualizado // up-to-date)
Conhecimentos // Skills:
● HyperText Markup Language (HTML)
● XPath
● Saber o que quer coletar // Knowing what you want to gather
http://www.portaltransparencia.gov.br
[...] é um canal pelo qual o cidadão pode acompanhar a execução financeira dos programas de governo, em âmbito federal. Estão disponíveis informações sobre os recursos públicos federais transferidos pelo Governo Federal a estados, municípios e Distrito Federal e diretamente ao cidadão, bem como dados sobre
os gastos realizados pelo próprio Governo Federal em compras ou contratação de obras e serviços (CONTROLADORIA GERAL DA UNIÃO, 2017a).
[...] is a channel that citizens can follow financial execution of federal government programs. Its information available is about federal financial
resources transferred to states, cities, federal district and citizens, and also data about spends made by federal government itself, in acquisitions or contracts
(CONTROLADORIA GERAL DA UNIÃO, 2017a)*.
* Translated by author.
Coletando dados de despesas diárias // Gathering daily expenses data
1. Abrir o endereço URL: http://www.portaltransparencia.gov.br
1. Open URL address: http://www.portaltransparencia.gov.br
Coletando dados de despesas diárias // Gathering daily expenses data
2. Acessar o item “Despesas”, no menu “Consultas”
2. Access “Expense” item, in “Queries” menu
Coletando dados de despesas diárias // Gathering daily expenses data
3. Clicar no hiperlink “Informações Diárias - Detalhamento Diário das Despesas”
3. Click on hyperlink “Daily Information - Daily Expenses Details”
Coletando dados de despesas diárias // Gathering daily expenses data
4. Realizar a consulta que for conveniente
4. Carry out your convenient query
Coletando dados de despesas diárias // Gathering daily expenses data
5. Aperte a tecla F12 para abrir o Console e acesse a guia Web Scraper
5. Press F12 key on keyboard to open the Console and change to Web Scraper tab
Coletando dados de despesas diárias // Gathering daily expenses data
6. Criar um novo “mapa do site”
6. Create a new sitemap
Coletando dados de despesas diárias // Gathering daily expenses data
7. Adicionar um novo “item seletor”
7. Add a new selector
Preencher os atributos com os valores // Fill attributes with values:
Id: dadosType: tableSelector:
a) clicar uma vez no botão “Select” (à direita) // click on time on “Select” button (right)
b) clicar uma vez no título da primeira coluna da tabela // click on time on the first column header
c) clicar no botão “Done Selecting” // click on “Done Selecting” buttonHeader row selector: não alterar // do not changeData rows selector: não alterar // do not changeChecar o atributo “Multiple” // Check “Multiple” attribute
Ir ao final do formulário e apertar o botão “Save Selector” // Go to form bottom and click on “Save Selector” button.
Coletando dados de despesas diárias // Gathering daily expenses data
Coletando dados de despesas diárias // Gathering daily expenses data
8. Clicar em “Scrape”
8. Click on “Scrape”
Coletando dados de despesas diárias // Gathering daily expenses data
9. Clicar em “Export data as CSV”
9. Click on “Export data as CSV”
O que não foi abordado: coleta de múltiplas páginas (paginação) // What is
not covered here: data gathering of multiple pages (pagination)
Referências // References
CONTROLADORIA GERAL DA UNIÃO. Detalhamento Diário das Despesas. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017a.
CONTROLADORIA GERAL DA UNIÃO. Portal da Transparência. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017b.
CONTROLADORIA GERAL DA UNIÃO. Glossário. Disponível em: <http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp>. Acesso em: 29 maio. 2017c.
HEMENWAY, K.; CALISHAIN, T. Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly, 2004.
Controladoria Geral da União. (2017a). Detalhamento Diário das Despesas. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Controladoria Geral da União. (2017b). Glossário. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Controladoria Geral da União. (2017c). Portal da Transparência. Recuperado 29 de maio de 2017, de http://www.portaltransparencia.gov.br/glossario/DetalheGlossario.asp
Hemenway, K., & Calishain, T. (2004). Spidering hacks. Beijing ; Sebastopol, CA: O’Reilly.
Esta apresentação está disponível para download em http://elleth.org
// This presentation is available to download at http://elleth.org