media na web - faculdade de engenharia da universidade do portoeol/ssiim/1112/voxx_seminario... ·...

44
MEDIA NA WEB Processamento de notícias da web SSIIM 2011/2012 JORGE TEIXEIRA - [email protected]

Upload: others

Post on 26-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

MEDIA NA WEBProcessamento de notícias da web

SSIIM 2011/2012

JORGE TEIXEIRA - [email protected]

Page 2: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

NOTÍCIAS

Page 3: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Sistemas de recomendação

PROCESSAMENTO DE INFORMAÇÃO

Page 4: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

“ The News.me Daily Email finds the best stories from your Twitter stream”

PROCESSAMENTO DE INFORMAÇÃO

“paper.li enables people to publish newspapers based on topics they like and treat their readers to fresh news, daily”

• Sistemas de personalização de notícias

Page 5: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

EXTRACÇÃO DE INFORMAÇÃO

Page 6: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Alinhamento de notícias em várias línguas

EXTRACÇÃO DE INFORMAÇÃO

Page 7: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Agregadores de notícias

EXTRACÇÃO DE INFORMAÇÃO

Page 8: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

VISUALIZAÇÃO DE INFORMAÇÃO

• Distribuição de notícias por categoria (newsmap.jp)

Page 10: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Wordcould de tópicos (Jornal de Negócios)

VISUALIZAÇÃO DE INFORMAÇÃO

Page 11: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

VISUALIZAÇÃO DE INFORMAÇÃO

• Infografia voxx + twitter

Page 12: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Redes de entidades (dirtyenergymoney.com)

VISUALIZAÇÃO DE INFORMAÇÃO

Page 15: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

VERBETESEXTRACÇÃO AUTOMÁTICA DE MICRO-BIOGRAFIAS

Page 18: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Paulo Bento: selecionador nacional• Rui Bento: treinador Beira Mar• Vítor Bento: economista

DESAMBIGUAÇÃO

Page 20: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Recolhe informação das notícias da web

• Extraí tuplos das notícias com base em padrões

• [ Paulo Bento; Selecionador Nacional; 2010-10-01; 2011-10-04 ]

• Identifica nomes alternativos (Pedro Passos Coelho, Passos Coelho, Passos)

• Classifica os tuplos como pessoa, organizacão ou outro

• Guarda os tuplos numa BD MySQL e fornece os dados via WS

Como funciona?

Page 21: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Catálogo de serviços do sapo:• services.sapo.pt >> InformationRetrievel

• Métodos:• WhoIs?name=Paulo Portas&date=2010-07-01

• WhoIs?job=ministro da defesa de Israel

• GetPersonalities[?min=5]

• GetErgos[?min=5]

• GetCoOccurrences?name=PauloPortas&begin_date=...&end_date=...

• GetCoOccurrencesTrends?name1=...&name2=...&begin_date=...&end_date=...

• Combinação de parâmetros: name, name_like, job, job_like, date, margin, format

• Flags: inactive, dead

Onde está disponível?

Page 22: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Voxx

• PeopleSearch

• Semantic Lists

• Sapo

• LIACC/FEUP

• you?

Utilizadores

Page 23: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

VERBATIM / VOXXEXTRACÇÃO AUTOMÁTICA DE CITAÇÕES EM NOTÍCIAS

gmalta gmalta

Page 24: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

MOTIVAÇÃO

•Actualmente existe um fluxo gigantesco de notícias que são publicadas diariamente em sites web

• Como organizar toda esta informação e torná-la útil do ponto de vista humano?

•Como criar histórico de citações?

•Como seguir tópicos ou personalidades?

•Como identificar tópicos ou personalidades activas/quentes?

gmalta gmalta

Page 25: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

TECNOLOGIAS BASE

• Recolha de notícias

• Extracção de citações

• Classificação automática de notícias

• Interface dinâmico

gmalta gmalta

Page 26: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

RECOLHA DE NOTÍCIAS

•Stream de dados fornecidos pelo Sapo<?xml version="1.0" encoding="UTF-8"?><document timestamp="2010-10-13T21:04:14.701Z" isnew="false"> <channel-title>www.ocastanheirense.com</channel-title> <url>http://www.ocastanheirense.com/1832/noticias.html</url> <hostname>www.ocastanheirense.com</hostname> <pubdate>2010-10-10T02:58:21Z</pubdate> <title>Paulo Portas visitou Castanheira de Pera</title> <body>O Município de Castanheira de Pera comemorou mais um aniversário do 25 de Abril. O hastear da Bandeira, com a presença de entidades civis, GNR e escolta dos Bombeiros Voluntários, abriu as solenidad$ <lang>pt</lang> <categories/> <images/> <geo> <local> <name>Pedrógão Grande</name> <district id="10">Leiria</district> <municipality id="1013">Pedrógão Grande</municipality> <parish id="101302">Pedrógão Grande</parish> </local> </geo></document>

gmalta gmalta

Page 27: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

RECOLHA DE NOTÍCIAS

• Consumir o stream de dados

• Armazenar os dados em BD indexadas

• Estruturar a BD para escrita menos frequente e leitura muito frequente

• Estruturar a BD (tabelas) para pesquisas rápidas

• Utilizar crons para repetir o processo horiariamente

• 1000 a 1500 notícias / dia

gmalta gmalta

Page 28: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

RECOLHA DE NOTÍCIAS

gmalta gmalta

0"

500"

1000"

1500"

2000"

2500"

3000"

3500"

4000"

4500"

9/1/11" 9/4/11" 9/7/11" 9/10/11" 9/13/11" 9/16/11" 9/19/11" 9/22/11" 9/25/11" 9/28/11"

Page 29: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• O que são citações?

EXTRACÇÃO DE CITAÇÕES

gmalta gmalta

Page 30: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

EXTRACÇÃO DE CITAÇÕES

• Como são identificadas?

“José Sócrates afirmou que o crescimento ... da recuperação económica.”

1. A citação inicia-se com o nome próprio (neste caso nome de pessoa)

2. Segue-se um verbo de comunicação

3. Termina num ponto final

gmalta gmalta

Page 31: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

EXTRACÇÃO DE CITAÇÕES

• Baseia-se em regras (expressões regulares)

1. Cada nova notícia é analisada

2. Se for identificada uma citação na notícia

3. Citação é extraída e armazenada numa BD

4. Processo repetido até finalizar a notícia

5. Executado horariamente até terminarem as novas notícias

• 17 categorias de regras, 118 verbos de comunicaçãogmalta gmalta

Page 32: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

• Como resolver o problema de notícias / citações duplicadas?

EXTRACÇÃO DE CITAÇÕES

gmalta gmalta

Page 33: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

EXTRACÇÃO DE CITAÇÕES

• É um problema grave

Extracção de Conteúdos: Duplicados

•  "40% das citações extraídas têm pelo menos um duplicado.

00%

10%

20%

30%

40%

50%

60%

70%

1 2 3 4 5 6 7 8

Group size

gmalta gmalta

Page 34: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

EXTRACÇÃO DE CITAÇÕES

• Estratégias típicas de remoção de duplicados:

1. Cada nova notícia é comparada com as notícias já recolhidas e temporalmente próximas (aprox. 15 dias)

2. Sempre que a sobreposição entre duas notícias é grande é criado um grupo de notícias duplicadas

3. Este processo repete-se horariamente e até terminarem novas notícias

4. Só será processada uma notícia de cada grupo de duplicados

gmalta gmalta

Page 35: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

CLASSIFICAÇÃO DE NOTÍCIAS

• Como atribuir automaticamente um tópico / tema para uma notícia?

• Usar as taggs atribuídas pelos jornalistas?

• Usar as secçoes dos jornais onde são publicadas as notícias?

• Usar “pistas” presentes nos títulos das notícias?

• Usar palavras-chave nas notícias?

gmalta gmalta

Page 36: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

CLASSIFICAÇÃO DE NOTÍCIAS

• Como funciona a classificação automática de texto?

1. É criado um conjunto de exemplos positivos

2. A partir deste conjunto é criado um modelo de classificação

3. O modelo é depois aplicado a notícias (documentos teste)

4. Com base nos modelos previamente treinados, o sistema retorna um possível tópico para a notícia (com um valor de probabilidade)

5. Tópico aceite se o valor de probabilidade obtido acima do threshold

gmalta gmalta

Page 37: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

CLASSIFICAÇÃO DE NOTÍCIAS

• Como criar o conjunto de exemplos positivos?

1. Identificar tópicos a partir de padrões típicos no título

• Problemas / desafios com esta técnica:‣ “Dia 20 de Junho: Marchas populares em Palmela”‣ “Paulo Portas: Banco de Portugal precisa ...”

gmalta gmalta

Page 38: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

CLASSIFICAÇÃO DE NOTÍCIAS

• Classificadores usados:

1. k-Nearest Neighbour

2. Rocchio

3. Support Vector Machines

• Notícias novas classificadas horáriamente

• Modelos treinados diariamente

gmalta gmalta

Page 39: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

CLASSIFICAÇÃO DE NOTÍCIAS

• Porquê 3 classificadores?

‣ Tópicos pouco-equilibrados

Classificação: Estatísticas

•  " 40% das citações extraídas são classificadas

•  Distribuição das citações pelos tópicos:

30

0

100

200

300

400

500

600

Fute

bol

Legi

slat

ivas

PS

D

Eur

opei

as

BPN

E

UA

Fr

eepo

rt

Edu

caçã

o PS

C

rise

G

uiné

-Bis

sau

BPP

Pr

oved

or

Lisb

oa

Qim

onda

M

édio

Ori

ente

M

adei

ra

Gov

erno

A

utár

quic

as/L

isbo

a E

U

Des

port

o Ir

ão

Gri

pe A

H1N

1 Ju

stiç

a Sp

orti

ng

Con

junt

ura

Aço

res

gmalta gmalta

Page 40: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

DEMONSTRAÇÃO

gmalta gmalta

Page 41: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

TÓPICOS DE INVESTIGAÇÃO

• Extracção de informação

• Identificação e extracção de citações e descrições biográficas• Identificação de entidades (nomes de pessoas e organizações)• Desambiguação de entidades• Identificação de possíveis tópicos para notícias

• Aprendizagem Automática (Machine Learinig)

• Classificação de notícias por tópico ou tema

gmalta gmalta

Page 42: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

PARA TERMINAR...

Page 43: MEDIA NA WEB - Faculdade de Engenharia da Universidade do Portoeol/SSIIM/1112/voxx_seminario... · 2011-10-04 · •Serviço para pesquisa biográfica de entidades (pessoas, organizações)

TÓPICOS PARA TRABALHOS

• Recolha automática de dados biográficos da wikipedia, LinkedIn, Twitter, ...

• Visualização de redes de pessoas / organizações

• Criação de time-lines em notícias

• Visualização de palavras-chave em notícias

• Criação de perfis opinativos

• Geo-referênciação de notícias