Social Networks Analysis -...
Transcript of Social Networks Analysis -...
Corso di Sistemi Informatici Avanzati
Social Networks Analysis
Claudio Savaglio 144263
Summary• Prima parte: S.N.A. Overview e Facebook
• Seconda parte: Social Networks-Data Analysis, Data Visualization e Community Structure con metriche classiche
• Terza parte: approccio“key players”
• Quarta parte: algoritmi di Facebook
Inoltre: scenari applicativi, software, studi e simulazioni sulla facebook ego-network
S.N.A. Overview & Facebook•Social Networks Analysis: ramo della networks analysis che nasce al M.I.T negli anni ‘40 (Moreno ,fondatore della sociometria) e trova applicazioni in diverse scienze, utilizzando strumenti e concetti della teoria dei grafi (1736). Contributi originali di ricerca apportati dal 1997
Perché Facebook? Più di 900 milioni di utenti,introiti pluri-miliardari e modello di business innovativo, pervasività nella vita quotidiana e professionale ( es 20% delle cause di divorzio in America), primo social network quotato in borsa ( e a subire una class action) , accademicamente interessante perchè infrange alcune leggi empiriche classiche ( 6 degrees) e ne conferma altre (numero di Dunbar)
Facebook-Data Retrieval•Come acquisire i dati:
Apps di Facebook API di Facebook Web scraping
•Come visualizzare i dati: TouchGraph
NameGen web OpenGraph: “..a graph to rule them all..” Easy-web
•Perché raccogliere i dati: adjacent common interest (Google-Cop, Yahoo!MyWeb), adjacent trust (Sybil Guard), serendipity
Social Network-Data Format
Principali formati dei file:
.DL (testuale)
Node List + Edge List
FullMatrix
Pajek format.net (testuale)
.graphml (testuale) Dialetto di xml
.vna (testuale) Nodi e feature di visualizzazione
.h / .d (binario) Ucinet format per memorizzare attributi
• Software: UCINET• Obiettivo applicativo:interfacciarsi con altri software consentendo l’editing dei dati, l’analisi e l’esportazione in diversi formati
Social Network-Data Analysis•Software: NodeXL Graph•Obiettivo applicativo: calcolare misure relative al nodo/rete
•Verifica ed estensione dati: GEPHICoeff. Clustering 0.418Average Degree 19.72Modularità 0.464
Social Network-Data Analysis•Overall metrics: quale modello teorico rispetta i dati?
• Diametro -> 6• Path medio -> 2.73• Degree medio -> 19.65• Coeff. Clustering -> 0.41
E.R.
LogN/LogK=2.05
k/N=0.043
W.S.
B.A.
Power Law Tail -> free scale networkAlpha= 2.3
Social Network-Data Analysis•Vertices metrics: quali nodi hanno misure superiori agli altri?Perché?Degree Betweenness Farness Closeness EigenVector Coeff Cluster
Tutti i singoli isolati
closeness=0
Clique isolataCloseness=1
Clique isolata coeff
cluster=1
Social Network-Data Visualization
•Software: NetDraw
•Obiettivo applicativo: visualizzazione di reti
Social Network-Community Structure• Struttura sociale = insieme di gruppi altamente connessi al loro interno e connessi a loro volta da ponti occasionali
Strong tie
Weak ties
•Strenght of weak ties = i legami deboli sono fondamentali per il flusso informativo
•Early innovator = individuo con un numero molto elevato di legami deboli, che gode di un vantaggio strategico, specie nella individuazione e nascita di nuove idee
Structural holes = buchi nella struttura sociale in termini di scambio di informazioni tra i diversi gruppi
Social Network-Community Detection• Community detection: algoritmo di Girvan-Newman“Identificare community eliminando nodi con elevata beetweness”
Gruppo Mare
Colleghi
Gruppo Cosenza
Società sportiva
Gruppo Fb “Magistrale Ing. Informatica”• Gruppo di 52 membri ( di cui 30 nella mia rete sociale ). • I parametri che la caratterizzano differiscono da quelli dell’intera rete?
•Coeff Cluster=0.644 (vs 0.418)
•Diametro3 (vs6)
•Avg path= 1.56 (vs 2.73)
•Densità =0.46 (vs 0.04)
•Componente connesse 1 (vs 9)•Average degree=12.63 (vs 19.72)
Social Network-Community Structure• Community cohesion (degeneracy): algoritmo K-core“insieme massimale di nodi connessi ad altri k nodi dello stesso gruppo”• Analizza la coesione strutturale, identifica il “collante” della rete
K max= 1719% nodi e 54% archi
Social Network-Classic metrics
• L’ analisi derivata dalla teoria classica dei grafi è basata sul concetto/misura della centralità dei nodi all’interno della rete
Degree, Closeness, Betweennes, Cutpoint danno soluzioni sub-ottime!
• Degree: potenziale comunicativo sul singolo step• Closeness: potenziale comunicativo totale • Cutpoint: non specifica quanti elementi isolo (possono non esistere)
• Un nodo è critico se è funzionale alla navigabilità della rete, cioè se è capace di connettere nodi che altri non riescono a raggiungere direttamente o non raggiungono del tutto.
Social Network-Classic metrics
• Il nodo 1 ha la più alta centralità rispetto tutte le metriche classiche ( betweenness inclusa), ma la sua rimozione non rende il grafo disconnesso né aumenta significativamente il path medio!
• Il nodo 4 ha i maggiori valori di closeness e degree,tuttavia se siamo interessati a raggiungere il maggiornumero di nodi possibile in 2 passi il nodo 3 è la migliore scelta (raggiungo 8 e non 6 vicini) !
• “A formal definition of the key player problems is as follows: Given a social network (represented as an undirected graph), find a set of K nodes ( called kp-set ) such that,
1. (KP-Neg) Removing the kp-set would result in a residual network with the least possible cohesion.
2. (KP-Pos) The kp-set is maximally connected to all other nodes.”
Social Network-Key Player
NB: “maximally connected” fa riferimento alla non-ridondanza dei legami! Strenght of weak ties!
•L’ approccio proposto da Steve Borgatti non considera cruciale la centralità di un nodo ma il suo contributo coesivo!
Social Network-Key Player•KP-Neg: nodi la cui rimozione comporterebbero il collasso della rete allungandone significativamente il path medio oppure creando frammentazione cioè massima eterogeneità tra gruppi
scenario medico: immunizzazione di individui critici scenario militare: arresti mirati in una organizzazione criminale
• KP-Pos: nodi di maggior influenza all’interno della rete, cioè dotati di un elevato potenziale comunicativo attraverso l’intero grafo
scenario sociale: diffusione buone abitudini; turnazione efficientescenario politico: disinformazione scenario commerciale: viral marketing
Social Network-Key Player• Software: Key Player• Obiettivo applicativo: identificare un insieme ottimo di nodi da rimuovere o osservare su una rete specificata
Assemble issue: presi singolarmente i KP ottimi, non si ottiene l’ottimo!
3
1 2
Social Network-Key PlayerKP-Pos: Brockerage
KP-Neg: Fragm10%
KP-Pos:448/452 nodi
nodi slide 10
Social Network-Simulazione•Come evolve la rete eliminando i nodi indicati come key-players?
Archi Averagedegree
Coeff Clustering
Avg path lenght
Diametro Componenti connesse
Originale 4374 19.72 0.44 2.73 6 9
Senza KP-Posreachability
4364 19.52 0.40 2.73 6 6
Senza KP-Pos brockerage
4034 18.05 0.39 2.81 7 9
Senza KP-Neg 4265 19.08 0.41 3.29 6 14
Senza 5 nodiRandom
4284 19.12 0.43 2.73 6 9
•In accordo a quanto visto in teoria, la rete è resistente ad attacchi random (resilience)
•Attacchi mirati, seppure su soli 5 nodi, sono capaci di ridurre in maniera significativa il degree medio,il numero di archi e aumentare il numero di componenti connesse e il diametro!
Facebook-EdgeRank• EdgeRank: presentato all’ F8 dagli sviluppatori Sanghvi e Steinberg, è l’algoritmo che regola la visibilità su facebook
• “news feed optimization”: perché i gli status update di una pagina Facebook (personale o brand) finiscono nelle Top News (feed) solo di alcuni amici/fan?
• Best practices to maximise the Facebook Edgerank for Brands:
Quality of ContentTimingQuality of (1000) Fans
“Fan-buying” “Word-of-Mouth”
Facebook-Suggerimenti d’amicizia
Score (X,Y)
• Criteri noti di link prediction:
Adamic Adar
Common neighbors
Preferential attachment
Bibliografia• Borgatti, S.P. 2006. “Identifying sets of key players in a social network” Computational, Mathematical and Organizational Theory.• Robert Hanneman and Mark Riddle. 2005. “Introduction to social network methods”• Stephen P. Borgatti, Ajay Mehra, Daniel J. Brass & Giuseppe Labianca “Network Analysis in the Social Sciences” , review for Science• Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, Etienne Lefebvre, “Fast unfolding of communities in large networks” Journal of Statistical Mechanics: Theory and Experiment 2008 • Burt, R.S., 2004. “Structural Holes and Good Ideas” American Journal of Sociology, • Granovetter, M.S., 1983. “The Strength of Weak Ties: A network theory revisited” Sociological Theory• Slide del Docente e del corso di Stanford “Social and Information Network Analysis”• Manuali dei diversi software
Structural holesweak ties
F-CommerceEdgeRank
K-coreData analysis/visualization
Link PredictionResilience
S.N.A.CommunityKey Player
Structural Holes Weak Ties
F-Commerce
EdgeRank Score K-core
Data analysis/visualization
Link Prediction Resilience
S.N.A. 6/4 degrees Community
Key Player #Dunbar Serendipity
Adjacent common trust/interest
Grazie per l’attenzione!!!