Détecter des communautés scientifiques, à grande et petite ...

33
Détecter des communautés scientifiques, à grande et petite échelle Yves Gingras & Béatrice Milard Ecole thématique CNRS - Cargèse 24-28 Septembre 2018

Transcript of Détecter des communautés scientifiques, à grande et petite ...

Détecter des communautés scientifiques, à grande et

petite échelle

Yves Gingras& Béatrice Milard

Ecole thématique CNRS - Cargèse24-28 Septembre 2018

Article scientifique typique

Authors

References

Abstract

Addresses

Journal and title of the paper

Réseau de collaboration entre universités

Réseau de collaboration des provinces canadiennes avec les pays européens, 2001-2005

(250 collaborations ou +)

Dis

trib

utio

n de

s co

llabo

ratio

ns c

anad

ienn

es a

vec

les

pays

eur

opée

ns, 1

980-

2005

0

2500

5000

7500

1000

0

1250

0

1500

0

1750

0

2000

0

2250

0

United

King

dom

Franc

e Germ

any

Italy

Nethe

rland

s Sweden

Spain Belg

iumPola

nd Denmar

k Hunga

ry Finlan

d Austri

a Greec

e Irelan

d

Czech

Rep

ublic Por

tuga

l Roman

ia Slova

kia Bulgar

ia Sloven

ia Eston

iaLa

tvia Lit

huan

iaCyp

rus

Luxe

mbo

urg

Malt

a

E.U

. Cou

ntry

N. Collaboration

Collaborations internationales de l’Europe et des principaux pays, SSH, 1980-1993 (50 articles et +)

USA

Europe

CANADA

ISRAEL

AUSTRALIA

JAPAN

INDIA

SOUTH-KOREA

NEW-ZEALAND

PEOPLES-R-CHINA

BRAZIL

TAIWAN

MEXICO

HONG-KONG

THAILAND

SOUTH-AFRICA

EGYPT

NIGERIA

TURKEY

PHILIPPINES

KENYA

USSR

SINGAPORE

ARGENTINA

CHILE

YUGOSLAVIA

SAUDI-ARABIA

BANGLADESH

INDONESIA

Collaborations internationales de l’Europe et des principaux pays, SSH, 1994-2007(100 articles et +)

USA

Europe

CANADA

AUSTRALIA

ISRAEL

PEOPLES-R-CHINA

SOUTH-KOREA

JAPAN

TAIWAN

NEW-ZEALAND

SOUTH-AFRICA

BRAZIL

MEXICO

SINGAPORE

INDIA

RUSSIA

TURKEY

HONG-KONG

THAILAND

ARGENTINA

CHILE

KENYA

TANZANIA

INDONESIA

ICELAND

BANGLADESH

CROATIA

PHILIPPINESCOLOMBIA

PERU

ZIMBABWE

Collaborations Intra-Europe, SSH, 1994-2007 (50 articles et +)

UK

GERMANY

NETHERLANDS

ITALY

FRANCE

BELGIUM

SPAIN

SWITZERLAND

SWEDEN

IRELAND

GREECE

AUSTRIA

DENMARK

FINLAND

NORWAY

PORTUGAL

HUNGARY

POLAND

CZECH-REPUBLIC

CYPRUS

SLOVAKIA

c

d

f

e

Linking cited publications A and B

Citing publications

BA

Co-citation

Linking citing publications A and B

A BCited publications

Bibliographic coupling

c

d

e

f

Figure 13. Bibliometric methods linking conceptually related documents : Bibliographic coupling relates documents A

and B using their common references (c, d, e) ; co-citation relates documents A et B which are both cited in citing

documents (c, d, e).

(citing letter)

Réseau de Co-citation network des physiciens, 1900-1904 (Plus de 8 co-citations)

Physique (1905-1911)

• Réseau de Co-citation des 50 auteurs les plus cités

Multi-dimensional scaling and agglomerative clustering

• MDS provides a map based on the distances “dissimilarities” between citation patterns of the authors (top 50 most cited authors in physics, 1905-1911)

• AHC then allows us to identify cluster of “similar” authors

• In this case, it identifies two primary, distinct clusters, which are the same as those identified using the networks

Group 2

spectroscopy

Chemical physics

Electron theoryIonization, atom

1956−1960

1961−1965

1966−1970

1971−1975

1976−1980

1981−1985

1986−1990

1991−1995

1996−2000

2001−2005

2006−2010

2010−2014

Valuation

Estimation Evidence

Stock, Risk,Options, Portfolio

Production, Frontier, Efficiency, Technical

Estimation, Demand,Regression, Econometr ic

Risk, Stock,Options, Uncertainties

TradeCenturies

Development, Agricultural,Countries, Latin

Trade

Economic, Development,Underdeveloped, Countries

Trade, Development,Countries, Growth

OligopolisticFirm, Competition,Games, Industrial

WaterWater

Water

Term

Resource

Theories

TaxUrban

Tax, Political,Policies, Fiscal

Resource

Urban, Housing,Regional, Location Policies, Monetarist,

Inflation, Fiscal

Tax, Public, Taxation, Local

Tax, Public,Taxation, Goods

Economic, Theories, Marx, Smith

International

Rate, Exchange,Monetarist, Money

Accounting

Wage

UrbanSchoolEducation, Earnings,

Labor, Human

Wage, Labor,Employment, Unemployment

Theories

Energies, Sustainable,Carbon, ClimateSolution Program PriceOptimalProgram, Linear,

Optimal, ModelProduction, Input,Function, Energies

Growth, Production,Technical, Model

LegalReserve Monetarist

Theories Resource

VegetableInternational

Wage Wage

Utility Utility

WageTrade

Local

Technology

this height represents 10 %of documents in the window

r1 r1

r2 r2

r3 r3

r4 r4

r5 r5

r6 r6

r7 r7

r8 r8

r9 r9

r10 r10

r11 r11r12 r12

r13 r13

r14 r14

r15 r15

r16 r16

Evolution of Economic Specialties (1956-2014)

Utility, Probable,Theories, Cardinal

Trade, International,Tariff, Factor

Program, Linear,Farm, Assignment

Model, Growth,Acceleration, Cycle

Development, Underdeveloped,Countries, Economic

Monetarist, Theories,Policies, Speculation

Estimation, Equations,Demand, Elasticity

Soviet, Centuries,Medieval, British

Tax, Income,Taxation, Budget

Accounting, Balance,Management, Law

Wage, Differentials,Sociology, Indonesia

Competition, Centuries,Oligopolistic, Earlier

Water, River,West, Financial

Welfare, Inflexibility,Railroad, Customer

Location, Urban,Geographic, Land

Agricultural, Technology,Impact, Population

Theories, Preferences,Demand, Revealed

Function, Substitution,Stability, Expectations

Class, Domestic,Duties, Education

Economic Specialties: 1956-60

Estimation, Regression,Model, Demand

Industrial, Firm,Concentration, Profit

Risk, Portfolio,Uncertainties, Equilibrium

Monetarist, Inflation,Money, Exchange

Labor, Earnings,Education, Job

Development, Countries,Trade, Agricultural

Theories, Marx,Smith, Economic

Production, Optimal,Function, Substitution

Tax, Public,Urban, Local

Resource, Exhaustible,Energies, Natural

Economic Specialties: 1976-80

Games, Auctions,Experimental, Competition

Forecasting, Volatility,Rate, Exchange

Growth, Trade,Innovation, Firm

School, Health,Evidence, Education

Efficiency, Frontier,Production, Death

Monetarist, Policies,Fiscal, Inflation

Energies, Carbon,Climate, Emissions

Risk, Stock,Options, Portfolio

Economic Specialties: 2010-14

• http://www.digitalhistoryofscience.org/economics/

=> Etude des réseaux personnels des chercheurs à travers leurs références bibliographiques :

1 - Saisir les entourages sociocognitifs(personal knowledge networks) des chercheurs

2 - Comprendre ce que ces réseaux révèlent de la structure des mondes scientifiques

+ saisir la citation scientifique autrement qu’en tant que métrique (mesure) et rhétorique (persuasion)

� 62 entretiens avec des chercheur-es français-es à propos d’une ou deux de leurs publications internationales (Web of Science de Thomson Reuters®), parues entre 2007 et 2009, soit 117 publications, une centaine d’heures d’entretiens.

• Origines disciplinaires des chercheur-es:- Biologie moléculaire : 27 articles - Mathématiques, théoriques et appliquées : 26 articles- Economie, surtout orthodoxe mais pas que : 36 articles - Sociologie, toutes spécialités mais + quanti : 27 articles

• Origines géographiques des chercheur-es• Chercheurs avec une adresse en France : Paris, Toulouse,

Marseille, Poitiers, Tours,…

• Genre : des femmes (peu) & des hommes (plus)• Statut : des juniors (peu) & des seniors (plus)

Corpus

MATERIALS

AUJOURD’HUI…….

A partir de la bibliographie de chaque article, réponses à la question suivante :� Pouvez vous caractériser le type de relation que vous

avez avec l’auteur cité et si vous ne le/la connaissez pas personnellement, que savez vous de lui ou elle ?

117 publications � 3866 références � 9668 auteurs cités

- Biologie : 27 articles � 1036 références � 3475 auteurs cités- Maths : 26 articles � 645 références � 1070 auteurs cités- Economie : 36 articles � 1181 références � 1952 auteurs cités- Sociologie : 27 articles � 976 références � 1278 auteurs cités

LES INGREDIENTS :

1) Les références d’une publication

Etc.

2) Un entretien qui décrit la relation du chercheur à l’auteur qu’il/elle cite dans la publication.

Etc.

3) Un réseau de références par publication

Une référenceAu moins un auteur en commun

a :

« Paquets » de références

Question : Est-ce que les structures des réseaux de références sont liées à des sociabilités particulières ?

• Variables de sociabilité (à partir des entretiens) :– Niveau de connaissance (cercles concentriques)– Modalité de rencontre (instituée vs moins instituée)– Distance spatiale (proche ou lointain)– Homophilie disciplinaire – Homophilie de genre [pas encore au point…]

• L’auteur le plus connu de la référence (simplification et pertinence)

TYPE 2

« moins de cliques »

« Plus de cliques »

petite composante

principale

grande composante principale

Structures des réseaux de références

Deux variables pour décrire la structure des réseaux de références =

V1 : taille (relative) de la composante principale du réseau

V2 : Nombre (relatif) de cliques (N=2 ; min = 3) dans le réseau

Distribution des variables V1 et V2 :

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

Fré

quen

ce

V1 = % principale composante B / A

Histogramme (V1 = % principale composante B / A)

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0 5 10 15 20

Fré

quen

ce

V2 = Synthèse : nb de cliques et nb de refs pondéré s (C/A)*(D/A)*100

Histogramme (V2 = Synthèse : nb de cliques et nb de refs pondérés (C/A)*(D/A)*100)

V1 et V2 sont corrélées….(< 0,0001)

Variable Observations Minimum Maximum Moyenne Ecart-type

%1_Ego 117 0,000 37,500 9,525 7,831

%2_SameLab 117 0,000 30,769 4,116 6,376

%3_Collab&Friends 117 0,000 73,333 17,861 15,351

%4_AlreadyMet 117 0,000 76,923 22,521 14,280

%5_KnownByName 117 0,000 70,000 22,297 17,637

%6_Unknown 117 0,000 80,000 23,743 19,283

%modalités de rencontre Instituées (co-appartenance,

mutation, séjour, déplacement long...) 117 0,000 100,000 22,370 20,055

%modalités de rencontre peu intituées (visite,

colloque, mail, intermédiaire…) 117 0,000 100,000 49,188 25,369

%ville du chercheur 117 0,000 46,667 5,377 7,751

%France 117 0,000 40,000 8,981 9,955

%Europe 117 0,000 58,333 11,481 10,610

%Amerique du nord 117 0,000 53,333 13,731 12,395

%discDifférente/même 117 0,000 100,000 26,699 22,089

%mêmeDisc/différente 117 0,000 100,000 73,301 22,089

%Femmes/hommes 117 0,000 62,500 14,903 15,203

%Hommes/femmes 117 37,500 100,000 85,097 15,203

Niveau de connaissance

Modalité de rencontre

Distance géographique

Proximitédisciplinaire

Genre

Variables de sociabilité

Structure des références et variables de sociabilité

Matrice de corrélation (Pearson) :

Variables

V1:%PrincipComposante 0,569 0,000

V2:NbCliques 0,569 < 0,0001

%1_Ego 0,509 < 0,0001 0,233 0,011

%2_SameLab 0,370 < 0,0001 0,205 0,027

%3_Collab&Friends 0,390 < 0,0001 0,346 0,000

%4_AlreadyMet -0,006 0,951 -0,051 0,583

%5_KnownByName -0,397 < 0,0001 -0,307 0,001

%6_Unknown -0,270 0,003 -0,123 0,186

%modalitésInstituées(co-appartenance,

mutation, séjour, déplacement long...) 0,190 0,040 0,160 0,085

%modalités peu intituées (visite,

coloque, mail, intermédiaires…) -0,112 0,228 -0,185 0,046

%ville du chercheur 0,250 0,007 0,126 0,175

%France 0,120 0,198 -0,046 0,620

%Europe 0,248 0,007 0,180 0,053

%Amerique du nord 0,103 0,268 0,154 0,097

%discDifférente/même -0,055 0,556 -0,021 0,827

%mêmeDisc/diff 0,055 0,556 0,021 0,827

%Femmes/hommes 0,052 0,577 -0,061 0,510

%Hommes/femmes -0,052 0,577 0,061 0,510

V1:%PrincipComposante V2:NbCliques

Niveau de connaissance

Modalité de rencontre

Distance géographique

Proximitédisciplinaire

Genre

Structure des références et caractéristiques des articles et des auteurs

(Comparaison des variances)• Nombre de références

– Plus de références => petite composante principale (p=0,0293)

• Nombre d’affiliations – Plus d’affiliations => plus de cliques (p = 0,0197)

• Disciplines = – Composante principale => pas significatif– Sociologie (et économie) => moins de cliques (p=0,0055)

• Auteur junior / senior => pas significatif• Auteur homme / femme =

– Auteures femmes => moins de cliques (p = 0,0369)

⇒ la structure des références est bien liée à des situations relationnelles particulières

⇒ reflet / écho de la sociabilité dans la littérature scientifique + contribue à la structuration de la communauté scientifique (à petite échelle mais continuelle)

Pour prolonger :• Mieux tenir compte des disciplines, de la taille des

réseaux…• Tester d’autres indicateurs pour la structure des

réseaux (densités, centralités…)• Inscrire les réseaux de références dans les

dynamiques scientifiques : cf. univers de références (travail en cours avec Yoann Pitarch)