Indagini statistiche attraverso i social networks Agostino Di Ciaccio Dipartimento di Scienze Statistiche Università degli Studi di Roma "La Sapienza" SAS Campus 2012 1
Diffusione dei social networks Secondo un recente sondaggio, in Italia, nei giovani tra i 18 e i 30 anni, il 91% è iscritto a un social network. Molte società si occupano di estrarre le informazioni provenienti dai social networks: ad esempio per supportare il lancio di un nuovo prodotto o realizzare un sondaggio politico. Le potenzialità di analisi sono notevoli: si può arrivare ad analizzare milioni di post, con dei costi e dei tempi estremamente ridotti rispetto ad una indagine tradizionale. L analisi di queste informazioni richiede però delle tecniche ad hoc, che coniughino l analisi testuale con tecniche statistiche avanzate. SAS Campus 2012 2
Aziende e social networks Molte aziende operano già da molti anni in questo ambito. BuzzMetrics della Nielsen opera già da 10 anni sul mercato americano, è un applicativo che riscuote successo nel mercato internazionale ed ha come punto di forza la molteplicità di fonti su cui si svolge l analisi, oltre 180 milioni di blog e 100 mila forum in tutto il mondo. SAS Campus 2012 3
A cosa possono servire queste analisi? Web Brand Reputation, Brand Protection ed Analisi dei competitor Ricerche di mercato monitoraggio di fenomeni sociali Sondaggi di opinione Analisi e valutazione dei servizi A differenza di una indagine tradizionale che prevede al massimo 1-2 migliaia di contatti, attraverso i social networks siamo in grado di analizzare anche milioni di post. Ogni giorno su Twitter vengono inseriti circa 140 milioni di tweets (nel mondo, rilevazione 2011). SAS Campus 2012 4
Queste analisi sono efficaci? I sondaggi politici, precedenti una votazione, sono un banco di prova ideale per valutare l affidabilità dell uso dei social networks. Quest analisi è stata condotta due giorni prima delle primarie, utilizzando la Sentiment Analysis su Twitter. Risultati definitivi Ovviamente, gli strumenti utilizzati e la capacità di utilizzarli in modo corretto sono fondamentali per ottenere buoni risultati SAS Campus 2012 5
Vantaggi e svantaggi Indagine «real-time» Possibili analisi retrospettive Georeferenziazione (Twitter) Nessun questionario e costi bassi Il campione osservato può essere distorto Non si può chiedere, si può solo «ascoltare» L analisi richiede ricercatori esperti e affidabili SAS Campus 2012 6
Sentiment Analysis Con il termine Sentiment Analysis ci si riferisce a quelle tecniche in grado di estrarre, analizzare e classificare in modo automatico le opinioni espresse a partire da un testo scritto, generalmente presente sul WEB. Noi in questa presentazione distingueremo solo tra opinioni positive e opinioni negative. SAS Campus 2012 7
TWITTER I testi, a causa della loro brevità, sono poco strutturati, spesso ironici o allusivi. Utilizzano un linguaggio ricco di metafore e riferimenti. I testi non contengono frasi compiute e sono molto legati ai fatti del giorno o comunque a notizie recenti SAS Campus 2012 8
Geolocalizzazione dei tweets Esempio di uso della geolocalizzazione nella selezione dei tweets: http://www.twitternano.com/ SAS Campus 2012 9
SAS Sentiment Analysis Sas Sentiment Analysis abilita l utente a tre differenti tipologie di analisi basate su: un modello statistico, un sistema di regole un sistema ibrido, che combina le opzioni precedenti. SAS Campus 2012 10
Utilizzo di Text Miner e Enterprise Miner Tramite l Enterprise miner e il Text miner del SAS è possibile costruire un analisi completa e sofisticata, utilizzando metodi e modelli di machine learning: Reti neurali Support vector machine Gradient boosting SAS Campus 2012 11
Sentiment Analysis o Text Mining? Il modulo SAS Sentiment Analysis si applica con semplicità, è veloce ed è più adatto ad analizzare testi di media dimensione, grazie a dizionari ontologici e grammaticali. Il Text Mining dell Enterprise Miner è più duttile, più efficace per testi brevi come i tweet, ma richiede una discreta conoscenza degli strumenti statistici utilizzati (Neural Networks, Support vector machine, alberi di classificazione). Si può arrivare a classificare correttamente il 90% dei tweet (su test-set indipendenti). SAS Campus 2012 12
Le fasi dell analisi dei tweets Personale qualificato legge e classifica direttamente un campione statisticamente rappresentativo di post (Training-set). Si ripulisce l insieme dei post dalle parole e dai caratteri di disturbo. Si stima un modello statistico sui dati di training e di validation, si valuta il modello sul test-set Utilizzando il modello statistico ed eventualmente delle regole, si estendono i risultati all intero insieme di post scaricati. SAS Campus 2012 13
Un applicazione della Sentiment Analysis Analizziamo il sentiment verso Beppe Grillo nei tweets. Il periodo considerato va da ottobre al 9 Dicembre. Vogliamo classificare i tweets in positivi o negativi. SAS Campus 2012 14
Costruzione delle regole Nella SAS Sentiment Analysis si possono scrivere tanti tipi di regole, anche molto complesse. I Tweet non si prestano ad essere analizzati con delle regole, se ne dovrebbero scrivere migliaia. SAS Campus 2012 15
Word Clouds Giudizi Negativi Giudizi Positivi SAS Campus 2012 16
Risultati Giudizi positivi su Grillo nel periodo 25/10 9/12 15.000 tweets analizzati Elezioni in Sicilia Di Pietro presidente Salsi SAS Campus 2012 17