Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o...
Transcript of Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o...
![Page 1: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/1.jpg)
Redes Heterogêneas para Textos
Workshop: Representações Semanticamente Enriquecidas
semântica
textosredesclassificação
enriquecimento
agrupamento
heterogêneas
fake_news
![Page 2: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/2.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Introducao
A etapa de pre-processamento,a qual tem como saıda uma representacao estruturada, e umadas principais etapas do processo de mineracao de dados /extracao de padroes / aprendizado de maquina
[Rezende, 2003]Redes Heterogeneas para Textos 1
![Page 3: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/3.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Introducao
A representacao gerada tera impacto direto:
Na qualidade dos resultados
Na complexidade de espaco (representacao e algoritmo)
No tempo de processamento (aprendizado e classificacao denovos exemplos)
Redes Heterogeneas para Textos 2
![Page 4: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/4.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Introducao
Tipicamente o modelo espaco-vetorial tem sido utilizadopara representar colecoes de textos
Documentos sao representados por vetoresDimensoes correspondem a termos (caracterısticas quecorrespondem as palavras) ou atributos da colecao(localizacoes geograficas, informacoes temporais, etc.)
Redes Heterogeneas para Textos 3
![Page 5: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/5.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Introducao
Para representar alguns tipos de relacoes que podem ser uteis,novos atributos ou novas relacoes precisam ser geradas
Ex:Relacoes entre documentos
Dadas por hiperlinks, citacoes, ou similaridade, podem seruteis para definir a classe ou grupo de um documentoPara cada documento, e necessario um atributo adicional
Relacoes entre termos
Dados por similaridade: utilizar uma outra matriz ou tensorSequencia de palavras: atributos adicionais para cadasequencia...
...
Redes Heterogeneas para Textos 4
![Page 6: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/6.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Introducao
Alem disso, cadeias de relacoes tambem podem ser uteis paraclassificacao ou agrupamento
Normalmente os documentos sao tratados de maneiraindependente no modelo espaco vetorial
Redes Heterogeneas para Textos 5
![Page 7: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/7.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes
Representacao alternativa ao modelo espaco-vetorial
Segundo [Newman, 2010], “Uma rede, em sua forma maissimples, e uma colecao de pontos, nos quais pares de pontossao conectados por uma linha”
Segundo [Blanco and Lioma, 2012], “Uma rede e um sistemade elementos que interagem ou regulam uns aos outros ou umconjunto de sistemas de coisas (objetos inanimados oupessoas)”
Redes Heterogeneas para Textos 6
![Page 8: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/8.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Definicoes
Formalmente uma rede pode ser definida como uma triplaN = 〈O,R,W〉
O representa o conjunto de objetos da redeR representa o conjunto das relacoes entre os objetos (podemser unidirecionais ou bidirecionais)W representa o conjunto de pesos das relacoes entre os objetos
OBSERVACAO: de acordo com a area do saber, outra nomenclaturas podem ser utilizadas para definir oscomponentes de uma rede (ex: “conexoes”, “links” e “arestas” para denotar as relacoes entre os objetos e“nos”, “sıtios” e “atores” para denotar os objetos
Redes Heterogeneas para Textos 7
![Page 9: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/9.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Definicoes
Uteis na extracao de padroes
Redes Heterogeneas para Textos 8
![Page 10: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/10.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Definicoes
Quando a rede possui um unico tipo de objeto e um unicotipo de relacao, a rede e dita homogenea
Redes Heterogeneas para Textos 9
![Page 11: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/11.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Vantagens das representacoes em redes
Diferentes tipos de objetos + diferentes tipos de relacoes →redes heterogeneas
[Ji et al., 2010]
Redes Heterogeneas para Textos 10
![Page 12: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/12.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Vantagens das representacoes em redes
As redes permitem extrair padroes que podem nao sercapturados no modelo espaco vetorial ou que apresentam umcusto de tempo e espaco maiores que os algoritmos baseadosem redes
Redes Heterogeneas para Textos 11
![Page 13: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/13.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Vantagens das representacoes em redes
Permitem nao somente utilizar as relacoes diretas entre osobjetos da rede, mas tambem cadeias de relacoes paradefinir as classes, grupos ou importancia dos objetos da rede
Permitem integrar diferentes aspectos, como topologicos,estatısticos e gramaticais de maneira eficiente em umunico modelo e em um formalismo matematicamentetratavel [Blanco and Lioma, 2012]
Para algumas tarefas, obtem melhores resultados emcomparacao com algoritmos baseados no modeloespaco-vetorial [Rossi, 2016]
Redes Heterogeneas para Textos 12
![Page 14: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/14.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Vantagens das representacoes em redes
Aplicacoes utilizando representacoes em redes:
Classificacao
Agrupamento e extracao de topicos
Recomendacao
Extracao de palavras-chaves
Sumarizacao
Desambiguacao de palavras e nome
Analise de correferencia
Traducao
Redes Heterogeneas para Textos 13
![Page 15: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/15.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
As primeiras pesquisas envolvendo a modelagem de textosutilizando redes de documentos consideraram relacoesexplıcitas para gerar a rede, como hyperlinks e citacoes[Oh et al., 2000, Chakrabarti et al., 1998]
Porem, pesquisas posteriores demonstraram que considerar asimilaridade ao inves das relacoes explıcitas para gerar umarede de documentos prove melhores resultados[Angelova and Weikum, 2006]
Alem disso, redes de similaridade podem ser utilizadas paramodelar qualquer colecao de documentos textuais
Redes Heterogeneas para Textos 14
![Page 16: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/16.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
Rede de documentos baseada em similaridade
Redes Heterogeneas para Textos 15
![Page 17: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/17.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
Assim como temos as redes de documentos para representaras colecoes de textos, podemos ter “partes menores” comoobjetos das redes
SentencasTermos
No caso das sentencasNormalmente sao geradas redes para cada texto e as sentencassao conectadas por meio de similaridadeGeralmente empregadas em sumarizacao
Redes Heterogeneas para Textos 16
![Page 18: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/18.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
No caso de um rede de termos, ha uma variabilidade maiorde como conectar os termos e aplicacoes das redes
Formas de conectar os termos:
Similaridade em um textoSimilaridade na colecao de textosOrdem de ocorrencia
Aplicacoes:
Geracao de atributosClassificacaoAgrupamentoExtracao de palavras chaves
Redes Heterogeneas para Textos 17
![Page 19: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/19.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
Word adjacency network
Original text
Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.
Text after pre-processing
text classification machine leaning expert systemsmachine learning less human effort expert systems
text
classification
machine
learning expert
systems less
humaneffort
Term Network
[Amancio, 2015]
Redes Heterogeneas para Textos 18
![Page 20: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/20.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
Redes de coocorrencia de termos em cada texto
[Rossi et al., 2014]
Redes Heterogeneas para Textos 19
![Page 21: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/21.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Homogeneas
Redes de coocorrencia de termos na colecao de textos
Redes Heterogeneas para Textos 20
![Page 22: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/22.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Artigos CientıficosObjetos correspondem a autores, termos, artigos, econferencias ou locais de publicacaoEx. de relacoes: escrito por e escreve, publicado em epublica, contem e contido em
[Ji et al., 2010]
Redes Heterogeneas para Textos 21
![Page 23: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/23.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Redes SociaisObjetos podem corresponder aos termos, usuarios, tags,postagens, ...As relacoes sao dadas pelas diferentes formas de ireracoesentre esses objetos
https://d3i71xaburhd42.cloudfront.net/c94ab25a1b4b0d5c8bd07f6363635a8c77cefee6/2-Figure1-1.pngRedes Heterogeneas para Textos 22
![Page 24: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/24.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Redes de Paginas Web (uma para cada documento)[Schenker et al., 2003]
<html><head>
<title>Machine Learning</title></head><body>
Different types of learning<a herf=...> Unsupervised Learning </a><br><a href=...> Semissupervised Learning </a><br><a href=...> Supervised Learning </a><br>
</body></html>
different types of
learning
supervised unsupervisedsemissupervised
machineTITLE
TEXT TEXTTEXT
LINK
HTML
Network Representation
Redes Heterogeneas para Textos 23
![Page 25: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/25.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede semantica para textos biomedico [Mishra et al., 2012]
… The presentation is provided, concerning the medical history, clinical examination, conventional radiography, stereo-radiography, surface topography, ultrasounds, computer tomography, and magnetic resonance imaging, focusing on the points specific for the pathology of idiopathic scoliosis. Use of the scoliometer became systematic in the clinical evaluation. Quality of life questionnaires, including those endorsed by the Society on Scoliosis Orthopaedic and Rehabilitation Treatment (SOSORT), oriented towards scoliotic patients, gain on popularity and are extremely helpful to objectively evaluate the disability-related to scoliosis. Classical radiography serves as the basic exam to determine the curve type and magnitude. Ultrasounds, computer tomography, and magnetic resonance imaging are indicated in precisely defined clinical situations. Stereo-radiography and surface topography seem to be the most promising techniques, however requiring standardization. Apart from sophisticated measurements, the experience of a physician cannot be underestimated. High standard clinical evaluation will probably continue to serve as a reference for other methods of assessment of patients with scoliosis…
idiopathicscoliosis
scoliosis
imaging
magneticresonance
imaging
radiography tomography
NR
PAR
SIB
PAR
Biomedical Text Semantic Network
NR: narrow relation
SIB: sibling relation
PAR: parent relation
Redes Heterogeneas para Textos 24
![Page 26: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/26.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede estrela para paginas web [Aery and Chakravarthy, 2005]
<html> <head> <title> Text Classification </title> </head> <body> Manual <a href=”...”>(click here)</a>
Expert System <a href=”...”>(click here)</a> Machine Learning <a href=”...”>(click here)</a>
</body></html>
Doc.
text
classification
click
expertsystem
machine
learning
manual
hereTITLE
TITLE LIN
K
LINK
BODY
BODY
BODY
BODY
BODY
Document content Star Network
Redes Heterogeneas para Textos 25
![Page 27: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/27.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede semi-bipartida para paginas web
[Aggarwal et al., 2014]
Redes Heterogeneas para Textos 26
![Page 28: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/28.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Redes de eventos
(c)
[Burdick et al., 2019]
Redes Heterogeneas para Textos 27
![Page 29: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/29.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede Linguıstica
S
NP VP
DT JJ JJ NN VBD
IN
PP
the quick brown fox jumped
overmammal movement jump
next next nextnext
hyp hyp stemnext
NN
Legend
Structural nodes: represent sentences (s) and their internal structures – Noun Phrases (NP), verb phrases (VP), and prepositional phrases (PP).
Part-of-Speech nodes: represent the POS of a word.
Token nodes: represent tokens of words in the text.
[Jiang et al., 2010]
Redes Heterogeneas para Textos 28
![Page 30: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/30.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede k-partida de eventos
[Santos et al., 2017]
Redes Heterogeneas para Textos 29
![Page 31: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/31.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
As redes heterogeneas ate entao sao dependentes de domınioou necessita que os textos contenham algum tipo deinformacao especıfica para possibilitar a sua geracao
Entretanto, ha redes heterogeneas que podem ser geradaspara qualquer colecao de textos
Redes Heterogeneas para Textos 30
![Page 32: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/32.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede bipartida
[Rossi, 2016]
Redes Heterogeneas para Textos 31
![Page 33: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/33.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede com relacoes (i) entre documentos e termos, e (ii) entretermos
[Rossi, 2016]
Redes Heterogeneas para Textos 32
![Page 34: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/34.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede com relacoes (i) entre documentos e termos, e (ii) entredocumentos
[Rossi, 2016]
Redes Heterogeneas para Textos 33
![Page 35: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/35.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Rede com relacoes (i) entre documentos e termos, (ii) entredocumentos, e (iii) entre termos
[Rossi, 2016]
Redes Heterogeneas para Textos 34
![Page 36: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/36.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Alguns Resultados - Aprendizado Indutivo Supervisionado
F1Micro - foram consideradas representacoes bag-of-words para os algoritmos baseados no MEV
[Rossi, 2016]
Redes Heterogeneas para Textos 35
![Page 37: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/37.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Redes HomogeneasRedes Heterogeneas
Redes Heterogeneas
Resultados da media Micro-F1 para a base Re0 (# documentosrotulados × performance)
Redes Heterogeneas para Textos 36
![Page 38: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/38.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
De Redes para o Modelo Espaco Vetorial
Caso voce seja fa do modelo espaco vetorial e queiracontinuar usando os algoritmos baseados neste modelo (NaıveBayes, k-Means, k-NN, etc.) nao tem problema
Representacoes em redes podem ser convertidas para omodelo espaco vetorial
Algumas formas sao:
Extracao de sequencias de palavras, as quais serao utilizadascomo atributos, por meio de caminhadas em redes de termosExtracao dos nos da rede como atributos e definicao dos pesosdos atributos por meio de medidas baseadas em redes
Extracao de subredes frequentes como atributos
Atributos correspondem a medidas que caracterizam redes e opeso dos atributos e o valor das respectivas medidas
Graph embeddings
Redes Heterogeneas para Textos 37
![Page 39: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/39.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
De Redes para o Modelo Espaco Vetorial
Original text
Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.
Text after pre-processing
text classification machine leaning expert systemsmachine learning less human effort expert systems
text classification machine learning expert systems less human effort
1 1 1 1 1 1 1 1 1
text classification machine learning expert systems less human effort
1 1 1 1 1 1 1 1 1
2 21 1 1 1 1
11
text classification machine learning expert systems less human effort
1 1 1 1 1 1 1 1 1
2 21 1 1 1 1
11
1
1
1
1
1 1
11
1
Distance Graphs
Order 0
Order 1
Order 2
[Aggarwal and Zhao, 2013]
Redes Heterogeneas para Textos 38
![Page 40: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/40.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
De Redes para o Modelo Espaco Vetorial
Original text
Text classification can be performed through machineleaning or expert systems. Machine learning requires less human effort than expert systems.
Text after pre-processing
text classification machine leaning expert systemsmachine learning less human effort expert systems
text
classification
machine
learning expert
systems
less human
effort
Term Network
Term PageRank Score
machine 0.1687learning 0.1403effort 0.1186less 0.1181expert 0.1138systems 0.1138classification 0.0928human 0.0670text 0.0669
[Hassan et al., 2007]
Redes Heterogeneas para Textos 39
![Page 41: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/41.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
De Redes para o Modelo Espaco Vetorial
Graph Embeddings
https://towardsdatascience.com/node2vec-graph-embedding-method-f306ac87004e
Redes Heterogeneas para Textos 40
![Page 42: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/42.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
De Redes para o Modelo Espaco Vetorial
Node2Vec
https://towardsdatascience.com/node2vec-embeddings-for-graph-data-32a866340fef
Redes Heterogeneas para Textos 41
![Page 43: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/43.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Consideracoes Finais
Redes sao uma alternativa interessante ao modelo espacovetorial ou mesmo para prover representacoes no modeloespaco vetorial
Representacoes em redes sao interessantes quando ha umagrande variabilidade de atributos e informacao
Representacoes em redes tem obtido excelentes resultadosprincipalmente em aprendizado nao supervisionado eaprendizado semissupervisionado
Redes Heterogeneas para Textos 42
![Page 45: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/45.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas I
Aery, M. and Chakravarthy, S. (2005).Infosift: Adapting graph mining techniques for textclassification.In Proceedings of the Florida Artificial Intelligence ResearchSociety Conference, pages 277–282. AAAI Press.
Aggarwal, C. C. and Zhao, P. (2013).Towards graphical models for text processing.Knowledge and Information Systems, 36(1):1–21.
Aggarwal, C. C., Zhao, Y., and Yu, P. S. (2014).On the use of side information for mining text data.IEEE Transactions on Knowledge and Data Engineering,26(6):1415–1429.
Redes Heterogeneas para Textos 44
![Page 46: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/46.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas II
Amancio, D. R. (2015).Probing the topological properties of complex networksmodeling short written texts.Plos ONE, 10(2):1–17.
Angelova, R. and Weikum, G. (2006).Graph-based text classification: learn from your neighbors.In Proceedings of the Special Interest Group on InformationRetrieval Conference, pages 485–492. ACM.
Blanco, R. and Lioma, C. (2012).Graph-based term weighting for information retrieval.Information Retrieval, 15(1):54–92.
Redes Heterogeneas para Textos 45
![Page 47: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/47.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas III
Burdick, L., Wang, M., Ignat, O., Wilson, S., Zhang, Y., Wei,Y., Mihalcea, R., and Deng, J. (2019).Building a flexible knowledge graph to capture real-worldevents.
Chakrabarti, S., Dom, B., and Indyk, P. (1998).Enhanced hypertext categorization using hyperlinks.SIGMOD Record, 27(2):307–318.
Hassan, S., Mihalcea, R., and Banea, C. (2007).Random-walk term weighting for improved text classification.In International Conference on Semantic Computing, pages242–249. IEEE.
Redes Heterogeneas para Textos 46
![Page 48: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/48.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas IV
Ji, M., Sun, Y., Danilevsky, M., Han, J., and Gao, J. (2010).Graph regularized transductive classification on heterogeneousinformation networks.In Proceedings of the European Conference on MachineLearning and Knowledge Discovery in Databases, pages570–586. Springer-Verlag.
Jiang, C., Coenen, F., Sanderson, R., and Zito, M. (2010).Text classification using graph mining-based featureextraction.Knowledge-Based Systems, 23(4):302–308.
Redes Heterogeneas para Textos 47
![Page 49: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/49.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas V
Mishra, M., Huan, J., Bleik, S., and Song, M. (2012).Biomedical text categorization with concept graphrepresentations using a controlled vocabulary.In Proceeding of the International Workshop on Data Miningin Bioinformatics, pages 26–32.
Newman, M. (2010).Networks: An Introduction.Oxford University Press, Inc.
Redes Heterogeneas para Textos 48
![Page 50: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/50.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas VI
Oh, H., Myaeng, S., and Lee, M. (2000).A practical hypertext categorization method using links andincrementally available class information.In Proceedings of the Special Interest Group on InformationRetrieval Conference, pages 264–271.
Rezende, S. (2003).Sistemas inteligentes: fundamentos e aplicacoes.Manole.
Rossi, R. G. (2016).Classificacao automatica de textos por meio de aprendizado demaquina baseado em redes.PhD thesis, Universidade de Sao Paulo.
Redes Heterogeneas para Textos 49
![Page 51: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/51.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas VII
Rossi, R. G., Marcacini, R. M., and Rezende, S. O. (2014).Analysis of domain independent statistical keyword extractionmethods for incremental clustering.Learning and Nonlinear Models, 12(1):17–37.
Santos, B. N. d., Rossi, R. G., and Marcacini, R. M. (2017).Transductive event classification through heterogeneousnetworks.In Proceedings of the 23rd Brazillian Symposium onMultimedia and the Web, pages 285–292. ACM.
Redes Heterogeneas para Textos 50
![Page 52: Redes Heterogêneas para Textossites.labic.icmc.usp.br/semantics2020/rafael.pdf · De Redes para o Modelo Espa˘co Vetorial Considera˘c~oes Finais Redes Representa˘c~ao alternativa](https://reader034.fdocuments.in/reader034/viewer/2022051607/602e800cb7ea4f342c28e767/html5/thumbnails/52.jpg)
IntroducaoRedes
Redes para TextosDe Redes para o Modelo Espaco Vetorial
Consideracoes Finais
Referencias Bibliograficas VIII
Schenker, A., Last, M., Bunke, H., and Kandel, A. (2003).Classification of web documents using a graph model.In International Conference on Document Analysis andRecognition, pages 240–244.
Redes Heterogeneas para Textos 51