Comparative analysis of confidence speeches through NLP and text mining techniques.

7
Analisi comparativa dei discorsi di fiducia, mediante tecniche di NLP e Text Mining. Valerio Capozio, Software Engineer @Almawave Q uesto lavoro si pone l’obiettivo di ana- lizzare i discorsi di fiducia pronuncia- ti in Senato dagli ultimi tre Presidenti del Consiglio: Mario Monti, Enrico Letta e Matteo Renzi. Le analisi, condotte sul testo di ciascun discorso, saranno volte a valutare, mediante tecniche di Natual Language Pro- cessing e di Text Mining, quanto i tre discor- si si discostino tra loro per contenuti e lin- guaggio. Le analisi saranno condotte grazie all’utilizzo di R 1 . 1 Il corpus Il corpus di riferimento di questa particolare analisi, ` e composto di soli tre documenti di lunghezza relati- vamente breve. Nello specifico, i documenti che in questo studio si intende analizzare, rappresentano le trascrizioni integrali dei discorsi di fiducia tenuti, presso il Senato della Repubblica, dagli ultimi tre Presidenti del Consiglio. Prima di procedere con qualsiasi analisi, sono state rimosse dai documenti tutte le porzioni di testo non relative all’interven- to dell’allora Presidente del Consiglio, in modo che solo quanto effettivamente contenuto nel testo del discorso risultasse oggetto d’analisi. 1 R` e un linguaggio di programmazione funzionale, ottimizzato per esplorare dataset medianti approcci di tipo statistico. http://www.r-project.org 1.1 Normalizzazione del testo Per evitare che le analisi compiute potessero essere influenzate dalla rumorosit`a dei dati, come prima operazione, i tre documenti sono stati oggetto di una serie di trasformazioni necessarie per “normalizzarne” il contenuto. Nello specifico, per ogni discorso, si ` e provveduto a: esprimere tutti i termini solo mediante caratteri minuscoli; rimuovere la punteggiatura; rimuovere eventuali numeri; rimuovere le stopword 2 ; rimuovere eventuali spazi in eccesso; ricondurre tutti i termini alla loro radice. Al termine di questa fase di normalizzazione i testi, depurati dell’eventuale rumore presente, risultavano cos` ı composti: Discorso del Presidente Monti 2624 termini, di cui 555 unici. Discorso del Presidente Letta 3150 termini, di cui 609 unici. Discorso del Presidente Renzi 4018 termini, di cui 570 unici. 2 Parole non utili all’analisi, poich´ e equamente distribuite in tutti i documenti e dunque irrilevanti. http://www.angelusworld.com Page 1 of 7

description

Discourse analysis of the last italian presidents' confidence speeches: Mario Monti, Enrico Letta, Matteo Renzi. The analysis is based on NLP and Text mining techniques.

Transcript of Comparative analysis of confidence speeches through NLP and text mining techniques.

Page 1: Comparative analysis of confidence speeches through NLP and text mining techniques.

Analisi comparativa dei discorsi di fiducia,

mediante tecniche di NLP e Text Mining.

Valerio Capozio, Software Engineer @Almawave

Questo lavoro si pone l’obiettivo di ana-lizzare i discorsi di fiducia pronuncia-ti in Senato dagli ultimi tre Presidenti

del Consiglio: Mario Monti, Enrico Letta eMatteo Renzi. Le analisi, condotte sul testodi ciascun discorso, saranno volte a valutare,mediante tecniche di Natual Language Pro-cessing e di Text Mining, quanto i tre discor-si si discostino tra loro per contenuti e lin-guaggio. Le analisi saranno condotte grazieall’utilizzo di R1.

1 Il corpus

Il corpus di riferimento di questa particolare analisi,e composto di soli tre documenti di lunghezza relati-vamente breve. Nello specifico, i documenti che inquesto studio si intende analizzare, rappresentanole trascrizioni integrali dei discorsi di fiducia tenuti,presso il Senato della Repubblica, dagli ultimi trePresidenti del Consiglio. Prima di procedere conqualsiasi analisi, sono state rimosse dai documentitutte le porzioni di testo non relative all’interven-to dell’allora Presidente del Consiglio, in modo chesolo quanto effettivamente contenuto nel testo deldiscorso risultasse oggetto d’analisi.

1R e un linguaggio di programmazione funzionale, ottimizzatoper esplorare dataset medianti approcci di tipo statistico.http://www.r-project.org

1.1 Normalizzazione del testo

Per evitare che le analisi compiute potessero essereinfluenzate dalla rumorosita dei dati, come primaoperazione, i tre documenti sono stati oggetto di unaserie di trasformazioni necessarie per “normalizzarne”il contenuto. Nello specifico, per ogni discorso, si eprovveduto a:

• esprimere tutti i termini solo mediante caratteriminuscoli;

• rimuovere la punteggiatura;

• rimuovere eventuali numeri;

• rimuovere le stopword2;

• rimuovere eventuali spazi in eccesso;

• ricondurre tutti i termini alla loro radice.

Al termine di questa fase di normalizzazione i testi,depurati dell’eventuale rumore presente, risultavanocosı composti:

Discorso del Presidente Monti 2624 termini, di cui555 unici.

Discorso del Presidente Letta 3150 termini, di cui609 unici.

Discorso del Presidente Renzi 4018 termini, di cui570 unici.

2Parole non utili all’analisi, poiche equamente distribuite intutti i documenti e dunque irrilevanti.

http://www.angelusworld.com Page 1 of 7

Page 2: Comparative analysis of confidence speeches through NLP and text mining techniques.

Questi primi dati ci consentono di comprenderecome, in assoluto, il discorso di Matteo Renzi siastato il piu lungo, mentre quello pronunciato daMario Monti risulti il piu breve. Enrico Letta risultainvece la persona che ha inserito un maggior numerodi termini unici nel proprio discorso. La diversitalessicale3 definita come

#termini unici

lunghezza(documento)

premia Mario Monti con un rapporto di ' 0.21,seguito da Enrico Letta con un rapporto di ' 0.19ed infine Matteo Renzi con un rapporto di ' 0.14.

2 Analisi delle word cloud

Al fine di valutare con facilita i termini maggiormentericorrenti nei rispettivi interventi, sono state realiz-zate tre diverse word cloud, una per ogni discorsopronunciato.

Una word cloud e una rappresentazione graficain cui i termini variano di dimensione in manieradirettamente proporzionale alla loro frequenza neltesto4 . Il punto di forza di questa rappresentazionerisiede nell’immediatezza della lettura e nella faci-lita di comprensione. Per realizzare una word cloudpuo essere sufficiente calcolare la frequenza di ognitermine e, sulla base di questo dato, assegnare una di-mensione al font utilizzato per scrivere quella parola.Nella nostra analisi le word cloud saranno compo-ste di termini aventi una dimensione5 direttamenteproporzionale alla loro frequenza. La frequenza deitermini influenzera anche la loro posizione nella cloud.In generale, infatti, i termini saranno posizionati -partendo dal centro della cloud - secondo l’ordinedecrescente delle frequenze. Infine, si utilizzeranno icolori per raggruppare i termini in classi di frequenzesimili.

2.1 Word cloud del discorso di Mario Monti

La word cloud estratta dal discorso di Mario Montie mostrata in Figura 1. Analizzandola e possibilenotare subito, come i termini maggiormente utiliz-zati siano Crescita ed Europea. Entrambi i termini

3La diversita lessicale misura il grado di diversita presentenel dizionario estratto dal documento.

4Nelle word cloud i termini non sono legati gli uni agli altri,ne sono vincolati dalla loro posizione nel testo di origine. Leword cloud trattano i termini che le compongono secondole assunzioni del modello Bag of words.

5Per dimensione dei termini si intende la dimensione utilizzatadal font.

Figura 1: Word cloud relativa al discorso di MarioMonti.

risultano infatti i piu grandi e posizionati al centrodella word cloud. Continuando l’analisi si puo notarela presenza di numerosi verbi quali fare, avviare, con-tribuire, assicurare, ridurre, affrontare, rafforzare,evitare che indicano alcune delle azioni da intrapren-dere, secondo il Presidente Monti. Probabilmentel’uso di molti di questi verbi e dovuto anche al par-ticolare momento politico-economico in cui MarioMonti salı al governo. A supporto di tale ipotesic’e la presenza di ulteriori termini, sempre moltocitati, come necessario, dovranno, attenzione, crisi.Tra i termini relativi invece alle possibili prioritaconcettuali del governo troviamo politica, pubblica,italia, lavoro, economia, debito, bilancio, istituzioni,parlamento, fiscale, stabilita, strutturali.

2.2 Word cloud del discorso di Enrico Letta

La word cloud estratta dal discorso di Enrico Lettae mostrata in Figura 2. I termini maggiormente uti-lizzati dal Presidente Letta, nel suo primo discorsodi fiducia, presso il Senato della Repubblica, sonostati Governo ed Italia, subito affiancati da Europa.Diversamente da quanto avvenuto nel discorso diMario Monti, per Enrico Letta nella word cloud nonsono presenti molti verbi, e tra quelli maggiormenteripetuti (fare, possiamo, voglio, dobbiamo) non sem-bra esserci una forte sintonia. Le azioni che questiverbi richiamano infatti sembrano stridere tra loroin una sorta di contrasto tra cio che si fa, cio che sivorrebbe/potrebbe fare e cio che si deve fare. Tra

http://www.angelusworld.com Page 2 of 7

Page 3: Comparative analysis of confidence speeches through NLP and text mining techniques.

Figura 2: Word cloud relativa al discorso di EnricoLetta.

i termini relativi, invece, alle possibili priorita delgoverno troviamo politica, lavoro, riforma, pubblica,parlamento, crescita, paese, diritto, fiscale.

2.3 Word cloud del discorso di MatteoRenzi

La word cloud estratta dal discorso di Matteo Renzie mostrata in Figura 3. Dal grafico si evince come iltermine con maggiore risalto sia Possibilita. MatteoRenzi, come Mario Monti, ha utilizzato numerosiverbi (fatto, pensiamo, cambio, puo, dire, viviamo,sappiamo). A differenza di quanto mostrato nellacloud di Mario Monti, pero, dove quasi tutti i verbierano presenti in forma infinita, in questa cloud lamaggioranza dei verbi e al tempo presente. Questafocalizzazione sul presente e ulteriormente rafforzatamediante l’uso di termini capaci di avvicinare l’oriz-zonte temporale e spaziale degli argomenti trattati(oggi, qui, realta, fine, momento). Tra i termini re-lativi alle possibili priorita tematiche del governotroviamo invece, politica, paese, italia, lavoro, ri-forme, scuola, amministrazione, province, giustizia,investimenti.

2.4 Comparazione dei discorsi

A seguito di questa prima valutazione, eseguita suisingoli discorsi, e stata realizzata una seconda tipo-logia analisi, basata su uno studio comparativo deitre discorsi. Anche in questo caso la word cloud e

Figura 3: Word cloud relativa al discorso di MatteoRenzi.

stata utilizzata come strumento di analisi, apportan-do qualche variazione al comportamento preceden-temente descritto. In particolare sono state createdue word cloud, la prima per misurare i tratti comu-ni dei discorsi, la seconda per evidenziare invece ledifferenze.

2.4.1 Similitudini dei tre discorsi

Nella word cloud esposta in Figura 4 sono mostratitutti i termini che accomunano i discorsi di MarioMonti, Enrico Letta e Matteo Renzi. In questa cloudla dimensione di un termine e pari alla sua frequenzaminima nei tre documenti. E interessante notarecome, tra i tratti comuni, spicchino i termini Governoe Italia centrali nel discorso di Enrico Letta (Figura:2) mentre manchino quelli di Monti e Renzi. Questoparticolare sottolinea ulteriormente la specificita diquei termini nei rispettivi discorsi.

2.4.2 Differenze dei tre discorsi

Nella word cloud esposta in Figura 5 sono invecemostrati i tratti distintivi dei tre discorsi. La di-mensione delle parole e calcolata secondo la seguenteformula:

maxi

(pi,j −

∑i

pi,jnumdocs

)

dove pi,j e la frequenza con cui il termine i comparenel documento j e la sua posizione e determinata

http://www.angelusworld.com Page 3 of 7

Page 4: Comparative analysis of confidence speeches through NLP and text mining techniques.

Figura 4: Word cloud delle similitudini dei tre discorsi.

dal documento in cui quel massimo occorre. Lacloud appena descritta consente di visualizzare ledifferenze esistenti nei tre discorsi, sulla base deitermini utilizzati nel pronunciarli. In questo casotroviamo nuovamente presenti i termini distintivi diMario Monti e Matteo Renzi, ovviamente posizionatinell’area relativa. La presenza, nell’area viola, di unnumero elevato di termini di dimensioni maggiori,rispetto alle altre aree, significa che Matteo Renziha deviato maggiormente dalla loro frequenza mediadi utilizzo. Il termine con una piu alta deviazionedalla media risulta pero Crescita, assegnato a MarioMonti6.

3 Analisi dei cluster

L’analisi successiva, eseguita sui tre discorsi, ri-guarda lo studio degli argomenti in essi trattati.Per condurre questo tipo di analisi e stato utiliz-zato un algoritmo di clustering gerarchico di tipoagglomerativo7.

I risultati del clustering sono mostrati mediantel’ausilio di un dendrogramma. Il dendrogramma,

6Il termine crescita e presente anche nella cloud di EnricoLetta come termine di 4a fascia (Figura 2), mentre noncompare affatto nella cloud di Matteo Renzi (Figura 3).

7Gli algoritmi di clustering gerarchico possono essere top-down o bottom-up. Nel primo caso si parlera di clusteringdivisivo, poiche da un unico cluster omnicomprensivo, siprocedera a suddividere ricorsivamente gli elmenti in sotto-cluster. Nel secondo caso si parlera invece di clusteringagglomerativo, poiche da un cluster per ogni elemento, siprocedera a riunire i cluster, risalendo la gerarchia.

Figura 5: Word cloud delle differenze dei tre discorsi.

come suggerisce il nome stesso, e una grafico conuna struttura ad albero, rappresentante il risultatodell’algoritmo di clustering. Questo tipo di graficoviene utilizzato frequentemente per la sua facilitadi lettura. Partendo dal basso, dove ogni cluster ecomposto di un solo elemento, e risalendo la gerar-chia, possiamo incontrare diverse linee orizzontali,ognuna delle quali rappresenta la creazione di un nuo-vo cluster composto dagli elementi sottostanti. Lecoordinate della linea orizzontale di fusione, rispet-to all’asse delle ordinate, rappresentano la distanzache intercorre tra i cluster oggetto della fusione. Daquanto esposto si deduce che piu due termini sonovicini nel dendrogramma, maggiormente questi risul-tano correlati per l’algoritmo di clustering. I terminipiu in alto risultano, invece, maggiormente popolarie dunque trasversalmente affini a tutti gli altri.

I dendrogrammi estratti sono mostrati nelle Fi-gure 6, 7, 8. I rettangoli rossi mostrano come siapossibile focalizzare l’attenzione su cluster specifici,effettuando un taglio sull’albero. Nelle immagini iltaglio e stato impostato per ottenere 4 cluster.

3.1 Cluster discorso di Mario Monti

Il dendrogramma estratto dal discorso di Mario Mon-ti, presentato in Figura 6, mostra come i concet-ti di crescita e lavoro risultino tra loro fortementecorrelati.

L’ultimo cluster evidenziato, partendo da sinistra,risulta di dimensioni maggiori rispetto agli altri 3. Inquesto cluster sono raggruppati gli interventi proposti

http://www.angelusworld.com Page 4 of 7

Page 5: Comparative analysis of confidence speeches through NLP and text mining techniques.

Figura 6: Dendrogramma estratto dal discorso di MarioMonti

per indirizzare l’azione del governo. E interessante no-tare come il cluster legge-necessario sia stato fuso concluster quali istituzioni, interventi-amministrazione-fiscale, costituzionale, quasi a segnalare le necessitadi intervento individuate dal governo Monti.

3.2 Cluster discorso di Enrico Letta

Figura 7: Dendrogramma estratto dal discorso di EnricoLetta

Il dendrogramma estratto dal discorso di EnricoLetta, presentato in Figura 7, evidenzia anch’esso uncluster dedicato al tema del lavoro, ma non legatoal tema della crescita, bensı al momento attuale.Il tema della crescita (riscontrabile nel cluster conmaggiori dimensioni) e invece legato a costi-economiae stabilita-fiscale.

Il tema Italia risulta trasversale all’intero discor-so mediante un collegamento ad alto livello dellagerarchia.

3.3 Cluster discorso di Matteo Renzi

Il dendrogramma estratto dal discorso di MatteoRenzi, presentato in Figura 8, conferma il risultato

Figura 8: Dendrogramma estratto dal discorso di MatteoRenzi.

emerso dalla word cloud (Figura 3) evidenziando co-me l’argomento della possibilita sia trasversale a tuttigli altri. Per quanto riguarda la possibile azione digoverno, l’analisi dell’ultimo cluster (partendo da sini-stra) evidenzia come gli interventi proposti da Renzisiano relativi a riforme nell’ambito costituzionale-elettorale, scuola, giustizia e province. Quest’ultimocluster mostra come il bisogno di investimenti siacorrelato, nel discorso di Renzi, al bisogno di capacitae regole

4 Analisi Lessicale

L’ultima analisi, compiuta sui tre discorsi, e voltaa comprendere quanto questi risultino chiari nell’e-sposizione dei temi trattati. Il soggetto principaledi questa fase di studio e stato il lessico utilizza-to da ciascun Presidente nel pronunciare il propriodiscorso.

Studi linguistici[1] hanno mostrato come valutarela comprensibilita di un discorso, mediante il calcolodi due indicatori: la formalita e la contestualita.

Secondo quanto riportato in [1], un discorso conun’alta componente formale risulta piu chiaro, poicheesprime in maniera esplicita tutto cio che l’oratoreintende dire, senza lasciare nulla all’interpretazione oalla conoscenza dell’ascoltatore. Viceversa, un discor-so di tipo contestuale, risulta meno chiaro, poichedemanda la comprensione totale del significato dellefrasi, a deduzioni possibili solo a chi conosce anche idettagli del contesto.8

Dovendo effettuare l’analisi completa del lessicopresente nei tre discorsi, in questa fase sono statiutilizzati i testi originali, senza applicare nessuna

8Dall’articolo[1] si nota come la contestualita influenzi anchela struttura delle frasi, complessificandola.

http://www.angelusworld.com Page 5 of 7

Page 6: Comparative analysis of confidence speeches through NLP and text mining techniques.

Tabella 1: Elenco degli elementi lessicali costituitividella componente formale e contestuale deldiscorso.

Formale

Nomi Aggettivi Preposizioni Articoli

Contestuale

Verbi Pronomi Avverbi

delle tecniche di normalizzazione precedentementecitate.

In Tabella 1 sono mostrati tutti gli elementi lessi-cali, da individuare nel testo, che contribuiscono allamisurazione della componente formale e contestuale.Le componenti lessicali sono estratte automatica-mente dal testo, mediante l’ausilio di un tool di POStagging9.

Figura 9: La figura A mostra la percentuale delle compo-nenti formale e contestuale nei discorsi in esa-me. La figura B mostra, per ogni componente,la percentuale di elementi che concorrono allasua formazione. L’ultima colonna della figu-ra B rappresenta la quantita percentuale, deisingoli elementi, nell’intero discorso.

In Figura 9 sono riportati, per ognuno dei trediscorsi, i risultati dell’analisi delle componenti, for-male e contestuale. In particolare, nella Figura 9A eriportata la composizione percentuale del discorso,rispetto alla formalita e alla contestualita.10

9Per condurre l’analisi e stato utilizzato il POS Tagger dellaliberia OpenNLP, appositamente addestrato per la linguaitaliana.

10Nella categoria Altro rientrano tutti i token non facenti

Dalla Figura 9A si evince come, in proporzione, ildiscorso pronunciato da Mario Monti presenti unapiu alta componente formale, mentre il discorso diMatteo Renzi presenti una piu alta componente conte-stuale. I valori del discorso di Enrico Letta sono inve-ce molto simili a quelli del Presidente Monti, anche sedi poco superiori per quanto riguarda contestualita.

Figura 10: L’indice di formalita dei tre discorsi con lerispettive dimensioni.

Nella Figura 9B e mostrato il contributo di ogni

parte delle categorie elencate in Tabella1, come ad esempiola punteggiatura.

http://www.angelusworld.com Page 6 of 7

Page 7: Comparative analysis of confidence speeches through NLP and text mining techniques.

singolo elemento lessicale, nella componente di ri-ferimento e nella globalita del discorso. Leggendoattentamente il grafico presentato in Figura 9B epossibile notare come la componente contestuale,in tutti e tre i discorsi, sia sempre composta, perpiu della meta, di verbi. Per quanto riguarda lacomponente formale, invece, gli elementi che contri-buiscono maggiormente sono i nomi e le preposizioni.E interessante notare come, mentre il grafico dellacomposizione contestuale appaia differente, il grafi-co della composizione formale risulti quasi sempresovrapponibile, fatte salve piccole discrepanze.

L’indice di formalita, calcolato per ognuno dei trediscorsi, e riportato in Figura 10. Analizzando ildato assoluto, il discorso di Mario Monti presenta ilvalore maggiore (' 73%), subito seguito dal discorsodi Enrico Letta (' 72%). Per Matteo Renzi, invece,si registra un valore di ' 65%.

Il dato assoluto va pero integrato, notando come ildiscorso di Matteo Renzi risulti lungo circa il doppiorispetto al discorso di Mario Monti. Il discorso diMatteo Renzi risulta piu lungo di circa 1/3 ancherispetto a quello di Enrico Letta11.

La lunghezza del discorso, in questo particolarecaso, potrebbe influire sull’indice di formalita, poiche,trattandosi di un discorso incentrato su cio che ilgoverno vorra e dovra fare, e fisiologico che cresca ilnumero di verbi utilizzati.

5 Conclusioni

Alla luce di quanto emerso ed esposto nelle varieanalisi e possibile affermare che, pur condividendo uninsieme di argomenti di interesse generale per l’Italiacome il lavoro, il parlamento, le riforme, la crisi, sonopoi le modalita di vedere e descrivere la situazionedel paese, rispetto a tali argomenti, a differenziarei discorsi. Esistono inoltre temi distintivi dei trediscorsi quali ad esempio (citandone uno per ognidiscorso) il bilancio per Mario Monti, la stabilita perEnrico Letta, la scuola per Matteo Renzi.

Per quanto concerne l’aspetto linguistico, dalleanalisi e emerso un forte utilizzo di verbi al tempoinfinito o futuro nel discorso di Mario Monti, sostitui-to invece da forme presenti - tipicamente alla primapersona plurale - nei discorsi di Enrico Letta e Mat-teo Renzi. L’analisi lessicale ha anche evidenziatouna maggiore formalita nei discorsi di Mario Montied Enrico Letta, mentre e risultato maggiormentecontestuale il discorso di Matteo Renzi.

11E interessante notare come questi fattori proporzionalirimangano pressoche invariati anche nei testi normalizzati.

Riferimenti bibliografici

[1] Heylighen, F., & Dewaele, J.-M. (2002). Va-riation in the contextuality of language: Anempirical measure. Foundations of Science,20:317–330.

http://www.angelusworld.com Page 7 of 7