redes heterogêneas para textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · de redes para o...

52
Redes Heterogêneas para Textos Workshop: Representações Semanticamente Enriquecidas semântica textos redes classificação enriquecimento agrupamento heterogêneas fake_news

Upload: others

Post on 05-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

Redes Heterogêneas para Textos

Workshop: Representações Semanticamente Enriquecidas

semântica

textosredesclassificação

enriquecimento

agrupamento

heterogêneas

fake_news

Page 2: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Introducao

A etapa de pre-processamento,a qual tem como saıda uma representacao estruturada, e umadas principais etapas do processo de mineracao de dados /extracao de padroes / aprendizado de maquina

[Rezende, 2003]Redes Heterogeneas para Textos 1

Page 3: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Introducao

A representacao gerada tera impacto direto:

Na qualidade dos resultados

Na complexidade de espaco (representacao e algoritmo)

No tempo de processamento (aprendizado e classificacao denovos exemplos)

Redes Heterogeneas para Textos 2

Page 4: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Introducao

Tipicamente o modelo espaco-vetorial tem sido utilizadopara representar colecoes de textos

Documentos sao representados por vetoresDimensoes correspondem a termos (caracterısticas quecorrespondem as palavras) ou atributos da colecao(localizacoes geograficas, informacoes temporais, etc.)

Redes Heterogeneas para Textos 3

Page 5: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Introducao

Para representar alguns tipos de relacoes que podem ser uteis,novos atributos ou novas relacoes precisam ser geradas

Ex:Relacoes entre documentos

Dadas por hiperlinks, citacoes, ou similaridade, podem seruteis para definir a classe ou grupo de um documentoPara cada documento, e necessario um atributo adicional

Relacoes entre termos

Dados por similaridade: utilizar uma outra matriz ou tensorSequencia de palavras: atributos adicionais para cadasequencia...

...

Redes Heterogeneas para Textos 4

Page 6: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Introducao

Alem disso, cadeias de relacoes tambem podem ser uteis paraclassificacao ou agrupamento

Normalmente os documentos sao tratados de maneiraindependente no modelo espaco vetorial

Redes Heterogeneas para Textos 5

Page 7: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes

Representacao alternativa ao modelo espaco-vetorial

Segundo [Newman, 2010], “Uma rede, em sua forma maissimples, e uma colecao de pontos, nos quais pares de pontossao conectados por uma linha”

Segundo [Blanco and Lioma, 2012], “Uma rede e um sistemade elementos que interagem ou regulam uns aos outros ou umconjunto de sistemas de coisas (objetos inanimados oupessoas)”

Redes Heterogeneas para Textos 6

Page 8: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Definicoes

Formalmente uma rede pode ser definida como uma triplaN = 〈O,R,W〉

O representa o conjunto de objetos da redeR representa o conjunto das relacoes entre os objetos (podemser unidirecionais ou bidirecionais)W representa o conjunto de pesos das relacoes entre os objetos

OBSERVACAO: de acordo com a area do saber, outra nomenclaturas podem ser utilizadas para definir oscomponentes de uma rede (ex: “conexoes”, “links” e “arestas” para denotar as relacoes entre os objetos e“nos”, “sıtios” e “atores” para denotar os objetos

Redes Heterogeneas para Textos 7

Page 9: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Definicoes

Uteis na extracao de padroes

Redes Heterogeneas para Textos 8

Page 10: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Definicoes

Quando a rede possui um unico tipo de objeto e um unicotipo de relacao, a rede e dita homogenea

Redes Heterogeneas para Textos 9

Page 11: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Vantagens das representacoes em redes

Diferentes tipos de objetos + diferentes tipos de relacoes →redes heterogeneas

[Ji et al., 2010]

Redes Heterogeneas para Textos 10

Page 12: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Vantagens das representacoes em redes

As redes permitem extrair padroes que podem nao sercapturados no modelo espaco vetorial ou que apresentam umcusto de tempo e espaco maiores que os algoritmos baseadosem redes

Redes Heterogeneas para Textos 11

Page 13: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Vantagens das representacoes em redes

Permitem nao somente utilizar as relacoes diretas entre osobjetos da rede, mas tambem cadeias de relacoes paradefinir as classes, grupos ou importancia dos objetos da rede

Permitem integrar diferentes aspectos, como topologicos,estatısticos e gramaticais de maneira eficiente em umunico modelo e em um formalismo matematicamentetratavel [Blanco and Lioma, 2012]

Para algumas tarefas, obtem melhores resultados emcomparacao com algoritmos baseados no modeloespaco-vetorial [Rossi, 2016]

Redes Heterogeneas para Textos 12

Page 14: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Vantagens das representacoes em redes

Aplicacoes utilizando representacoes em redes:

Classificacao

Agrupamento e extracao de topicos

Recomendacao

Extracao de palavras-chaves

Sumarizacao

Desambiguacao de palavras e nome

Analise de correferencia

Traducao

Redes Heterogeneas para Textos 13

Page 15: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

As primeiras pesquisas envolvendo a modelagem de textosutilizando redes de documentos consideraram relacoesexplıcitas para gerar a rede, como hyperlinks e citacoes[Oh et al., 2000, Chakrabarti et al., 1998]

Porem, pesquisas posteriores demonstraram que considerar asimilaridade ao inves das relacoes explıcitas para gerar umarede de documentos prove melhores resultados[Angelova and Weikum, 2006]

Alem disso, redes de similaridade podem ser utilizadas paramodelar qualquer colecao de documentos textuais

Redes Heterogeneas para Textos 14

Page 16: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

Rede de documentos baseada em similaridade

Redes Heterogeneas para Textos 15

Page 17: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

Assim como temos as redes de documentos para representaras colecoes de textos, podemos ter “partes menores” comoobjetos das redes

SentencasTermos

No caso das sentencasNormalmente sao geradas redes para cada texto e as sentencassao conectadas por meio de similaridadeGeralmente empregadas em sumarizacao

Redes Heterogeneas para Textos 16

Page 18: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

No caso de um rede de termos, ha uma variabilidade maiorde como conectar os termos e aplicacoes das redes

Formas de conectar os termos:

Similaridade em um textoSimilaridade na colecao de textosOrdem de ocorrencia

Aplicacoes:

Geracao de atributosClassificacaoAgrupamentoExtracao de palavras chaves

Redes Heterogeneas para Textos 17

Page 19: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

Word adjacency network

Original text

Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.

Text after pre-processing

text classification machine leaning expert systemsmachine learning less human effort expert systems

text

classification

machine

learning expert

systems less

humaneffort

Term Network

[Amancio, 2015]

Redes Heterogeneas para Textos 18

Page 20: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

Redes de coocorrencia de termos em cada texto

[Rossi et al., 2014]

Redes Heterogeneas para Textos 19

Page 21: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Homogeneas

Redes de coocorrencia de termos na colecao de textos

Redes Heterogeneas para Textos 20

Page 22: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Artigos CientıficosObjetos correspondem a autores, termos, artigos, econferencias ou locais de publicacaoEx. de relacoes: escrito por e escreve, publicado em epublica, contem e contido em

[Ji et al., 2010]

Redes Heterogeneas para Textos 21

Page 23: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Redes SociaisObjetos podem corresponder aos termos, usuarios, tags,postagens, ...As relacoes sao dadas pelas diferentes formas de ireracoesentre esses objetos

https://d3i71xaburhd42.cloudfront.net/c94ab25a1b4b0d5c8bd07f6363635a8c77cefee6/2-Figure1-1.pngRedes Heterogeneas para Textos 22

Page 24: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Redes de Paginas Web (uma para cada documento)[Schenker et al., 2003]

<html><head>

<title>Machine Learning</title></head><body>

Different types of learning<a herf=...> Unsupervised Learning </a><br><a href=...> Semissupervised Learning </a><br><a href=...> Supervised Learning </a><br>

</body></html>

different types of

learning

supervised unsupervisedsemissupervised

machineTITLE

TEXT TEXTTEXT

LINK

HTML

Network Representation

Redes Heterogeneas para Textos 23

Page 25: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede semantica para textos biomedico [Mishra et al., 2012]

… The presentation is provided, concerning the medical history, clinical examination, conventional radiography, stereo-radiography, surface topography, ultrasounds, computer tomography, and magnetic resonance imaging, focusing on the points specific for the pathology of idiopathic scoliosis. Use of the scoliometer became systematic in the clinical evaluation. Quality of life questionnaires, including those endorsed by the Society on Scoliosis Orthopaedic and Rehabilitation Treatment (SOSORT), oriented towards scoliotic patients, gain on popularity and are extremely helpful to objectively evaluate the disability-related to scoliosis. Classical radiography serves as the basic exam to determine the curve type and magnitude. Ultrasounds, computer tomography, and magnetic resonance imaging are indicated in precisely defined clinical situations. Stereo-radiography and surface topography seem to be the most promising techniques, however requiring standardization. Apart from sophisticated measurements, the experience of a physician cannot be underestimated. High standard clinical evaluation will probably continue to serve as a reference for other methods of assessment of patients with scoliosis…

idiopathicscoliosis

scoliosis

imaging

magneticresonance

imaging

radiography tomography

NR

PAR

SIB

PAR

Biomedical Text Semantic Network

NR: narrow relation

SIB: sibling relation

PAR: parent relation

Redes Heterogeneas para Textos 24

Page 26: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede estrela para paginas web [Aery and Chakravarthy, 2005]

<html>   <head>      <title> Text Classification </title>   </head>   <body>      ­ Manual <a href=”...”>(click here)</a>

 ­ Expert System <a href=”...”>(click here)</a> ­ Machine Learning <a href=”...”>(click here)</a>

   </body></html>

Doc.

text

classification

click

expertsystem

machine

learning

manual

hereTITLE

TITLE LIN

K

LINK

BODY

BODY

BODY

BODY

BODY

Document content Star Network

Redes Heterogeneas para Textos 25

Page 27: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede semi-bipartida para paginas web

[Aggarwal et al., 2014]

Redes Heterogeneas para Textos 26

Page 28: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Redes de eventos

(c)

[Burdick et al., 2019]

Redes Heterogeneas para Textos 27

Page 29: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede Linguıstica

S

NP VP

DT JJ JJ NN VBD

IN

PP

the quick brown fox jumped

overmammal movement jump

next next nextnext

hyp hyp stemnext

NN

Legend

Structural nodes: represent sentences (s) and their internal structures – Noun Phrases (NP), verb phrases (VP), and prepositional phrases (PP).

Part-of-Speech nodes: represent the POS of a word.

Token nodes: represent tokens of words in the text.

[Jiang et al., 2010]

Redes Heterogeneas para Textos 28

Page 30: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede k-partida de eventos

[Santos et al., 2017]

Redes Heterogeneas para Textos 29

Page 31: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

As redes heterogeneas ate entao sao dependentes de domınioou necessita que os textos contenham algum tipo deinformacao especıfica para possibilitar a sua geracao

Entretanto, ha redes heterogeneas que podem ser geradaspara qualquer colecao de textos

Redes Heterogeneas para Textos 30

Page 32: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede bipartida

[Rossi, 2016]

Redes Heterogeneas para Textos 31

Page 33: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede com relacoes (i) entre documentos e termos, e (ii) entretermos

[Rossi, 2016]

Redes Heterogeneas para Textos 32

Page 34: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede com relacoes (i) entre documentos e termos, e (ii) entredocumentos

[Rossi, 2016]

Redes Heterogeneas para Textos 33

Page 35: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Rede com relacoes (i) entre documentos e termos, (ii) entredocumentos, e (iii) entre termos

[Rossi, 2016]

Redes Heterogeneas para Textos 34

Page 36: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Alguns Resultados - Aprendizado Indutivo Supervisionado

F1Micro - foram consideradas representacoes bag-of-words para os algoritmos baseados no MEV

[Rossi, 2016]

Redes Heterogeneas para Textos 35

Page 37: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Redes HomogeneasRedes Heterogeneas

Redes Heterogeneas

Resultados da media Micro-F1 para a base Re0 (# documentosrotulados × performance)

Redes Heterogeneas para Textos 36

Page 38: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

De Redes para o Modelo Espaco Vetorial

Caso voce seja fa do modelo espaco vetorial e queiracontinuar usando os algoritmos baseados neste modelo (NaıveBayes, k-Means, k-NN, etc.) nao tem problema

Representacoes em redes podem ser convertidas para omodelo espaco vetorial

Algumas formas sao:

Extracao de sequencias de palavras, as quais serao utilizadascomo atributos, por meio de caminhadas em redes de termosExtracao dos nos da rede como atributos e definicao dos pesosdos atributos por meio de medidas baseadas em redes

Extracao de subredes frequentes como atributos

Atributos correspondem a medidas que caracterizam redes e opeso dos atributos e o valor das respectivas medidas

Graph embeddings

Redes Heterogeneas para Textos 37

Page 39: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

De Redes para o Modelo Espaco Vetorial

Original text

Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.

Text after pre-processing

text classification machine leaning expert systemsmachine learning less human effort expert systems

text classification machine learning expert systems less human effort

1 1 1 1 1 1 1 1 1

text classification machine learning expert systems less human effort

1 1 1 1 1 1 1 1 1

2 21 1 1 1 1

11

text classification machine learning expert systems less human effort

1 1 1 1 1 1 1 1 1

2 21 1 1 1 1

11

1

1

1

1

1 1

11

1

Distance Graphs

Order 0

Order 1

Order 2

[Aggarwal and Zhao, 2013]

Redes Heterogeneas para Textos 38

Page 40: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

De Redes para o Modelo Espaco Vetorial

Original text

Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.

Text after pre-processing

text classification machine leaning expert systemsmachine learning less human effort expert systems

text

classification

machine

learning expert

systems

less human

effort

Term Network

Term PageRank Score

machine 0.1687learning 0.1403effort 0.1186less 0.1181expert 0.1138systems 0.1138classification 0.0928human 0.0670text 0.0669

[Hassan et al., 2007]

Redes Heterogeneas para Textos 39

Page 41: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

De Redes para o Modelo Espaco Vetorial

Graph Embeddings

https://towardsdatascience.com/node2vec-graph-embedding-method-f306ac87004e

Redes Heterogeneas para Textos 40

Page 42: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

De Redes para o Modelo Espaco Vetorial

Node2Vec

https://towardsdatascience.com/node2vec-embeddings-for-graph-data-32a866340fef

Redes Heterogeneas para Textos 41

Page 43: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Consideracoes Finais

Redes sao uma alternativa interessante ao modelo espacovetorial ou mesmo para prover representacoes no modeloespaco vetorial

Representacoes em redes sao interessantes quando ha umagrande variabilidade de atributos e informacao

Representacoes em redes tem obtido excelentes resultadosprincipalmente em aprendizado nao supervisionado eaprendizado semissupervisionado

Redes Heterogeneas para Textos 42

Page 44: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

Redes Heterogeneas para Textos

Rafael Geraldeli [email protected]

Page 45: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas I

Aery, M. and Chakravarthy, S. (2005).Infosift: Adapting graph mining techniques for textclassification.In Proceedings of the Florida Artificial Intelligence ResearchSociety Conference, pages 277–282. AAAI Press.

Aggarwal, C. C. and Zhao, P. (2013).Towards graphical models for text processing.Knowledge and Information Systems, 36(1):1–21.

Aggarwal, C. C., Zhao, Y., and Yu, P. S. (2014).On the use of side information for mining text data.IEEE Transactions on Knowledge and Data Engineering,26(6):1415–1429.

Redes Heterogeneas para Textos 44

Page 46: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas II

Amancio, D. R. (2015).Probing the topological properties of complex networksmodeling short written texts.Plos ONE, 10(2):1–17.

Angelova, R. and Weikum, G. (2006).Graph-based text classification: learn from your neighbors.In Proceedings of the Special Interest Group on InformationRetrieval Conference, pages 485–492. ACM.

Blanco, R. and Lioma, C. (2012).Graph-based term weighting for information retrieval.Information Retrieval, 15(1):54–92.

Redes Heterogeneas para Textos 45

Page 47: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas III

Burdick, L., Wang, M., Ignat, O., Wilson, S., Zhang, Y., Wei,Y., Mihalcea, R., and Deng, J. (2019).Building a flexible knowledge graph to capture real-worldevents.

Chakrabarti, S., Dom, B., and Indyk, P. (1998).Enhanced hypertext categorization using hyperlinks.SIGMOD Record, 27(2):307–318.

Hassan, S., Mihalcea, R., and Banea, C. (2007).Random-walk term weighting for improved text classification.In International Conference on Semantic Computing, pages242–249. IEEE.

Redes Heterogeneas para Textos 46

Page 48: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas IV

Ji, M., Sun, Y., Danilevsky, M., Han, J., and Gao, J. (2010).Graph regularized transductive classification on heterogeneousinformation networks.In Proceedings of the European Conference on MachineLearning and Knowledge Discovery in Databases, pages570–586. Springer-Verlag.

Jiang, C., Coenen, F., Sanderson, R., and Zito, M. (2010).Text classification using graph mining-based featureextraction.Knowledge-Based Systems, 23(4):302–308.

Redes Heterogeneas para Textos 47

Page 49: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas V

Mishra, M., Huan, J., Bleik, S., and Song, M. (2012).Biomedical text categorization with concept graphrepresentations using a controlled vocabulary.In Proceeding of the International Workshop on Data Miningin Bioinformatics, pages 26–32.

Newman, M. (2010).Networks: An Introduction.Oxford University Press, Inc.

Redes Heterogeneas para Textos 48

Page 50: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas VI

Oh, H., Myaeng, S., and Lee, M. (2000).A practical hypertext categorization method using links andincrementally available class information.In Proceedings of the Special Interest Group on InformationRetrieval Conference, pages 264–271.

Rezende, S. (2003).Sistemas inteligentes: fundamentos e aplicacoes.Manole.

Rossi, R. G. (2016).Classificacao automatica de textos por meio de aprendizado demaquina baseado em redes.PhD thesis, Universidade de Sao Paulo.

Redes Heterogeneas para Textos 49

Page 51: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas VII

Rossi, R. G., Marcacini, R. M., and Rezende, S. O. (2014).Analysis of domain independent statistical keyword extractionmethods for incremental clustering.Learning and Nonlinear Models, 12(1):17–37.

Santos, B. N. d., Rossi, R. G., and Marcacini, R. M. (2017).Transductive event classification through heterogeneousnetworks.In Proceedings of the 23rd Brazillian Symposium onMultimedia and the Web, pages 285–292. ACM.

Redes Heterogeneas para Textos 50

Page 52: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa

IntroducaoRedes

Redes para TextosDe Redes para o Modelo Espaco Vetorial

Consideracoes Finais

Referencias Bibliograficas VIII

Schenker, A., Last, M., Bunke, H., and Kandel, A. (2003).Classification of web documents using a graph model.In International Conference on Document Analysis andRecognition, pages 240–244.

Redes Heterogeneas para Textos 51