Everything I always wanted to do with newspapers - but can't by Joris van Eijnatten, Utrecht...

35
Everything I always wanted to do with newspapers but can’t © Joris van Eijnatten

Transcript of Everything I always wanted to do with newspapers - but can't by Joris van Eijnatten, Utrecht...

Everything I always wanted to do with

newspapersbut can’t

© Joris van Eijnatten

Use Case

• “Europe”– How did newspapers in the twentieth century frame

“Europe”?– Explore themes like:

• the afterlife of European ideals• the significance of competition• the scope of weather reports• etc

Approach

• pattern-based approach (look for specific linguistic structures)

• bag-of-words approach (quantify concepts)

What do I need?

• an accessible and robust toolbox– with which to trace conceptual change– in various ± big data repositories– of (usually) imperfect quality– over a longer period of time– in more than one language

• comparative analysis of cultural patterns in time and space

Toolbox

1. read stuff (use your eyes)2. time line generator (nGram viewers)3. semantic text-mining tool (Texcavator)4. corpus linguistics (e.g. Antconc, CasualConc, Wordsmith)5. topic modelling (e.g. Mallet)6. text analytics suite (SPSS Modeler)7. vector-space modelling (ShiCo)

What are my problems?

• In order of decreasing importance1. Patterns over time2. Comparisons across languages3. Copyright issues4. Quality of data5. Sustainability6. Lots and lots of little things

Data

Portals:• http://www.delpher.nl/nl/kranten

– Dutch newspapers, 1618-1995 > public• http://

gdc.galegroup.com.proxy.library.uu.nl/gdc/artemis– Times Digital Archive > commercial

Quality of data

• much messiness

susleraJüp = <zusterschip> = <sister ship>.üremer“ = <“Bremer”> = <“Bremer”>U watcrlulng = <te waterlating> = <launch>vci trautfd4* = <vertraagd is> = <was delayed>

Rotterdamsch nieuwsblad, 08-01-1930

Quality of data: ‘close reading’De Telegraaf, 20-12-1968

“27 SEPTEMBER – Miss Europe chosen in Congo: Leena Brussiin from Helsinki.”

Patterns over time: nGram viewerngram of <Europa>, all newspapershttp://kbkranten.politicalmashup.nl/#q/europa

Patterns over time: Texcavatorsearch results <miss Europa>, N = 1,161 docsall newspapers, 1900-1990

Leeuwarder courant1934-09-15

Patterns over time: Texcavator

Timeline <Miss Europa>, N = 1,161 docsall newspapers 1900-1990

Patterns over time: Texcavator

• Metadata <Miss Europa> 1900-1989

Patterns over time: TexcavatorWord cloud <Miss Europa>, N = 1,161 docsall newspapers 1900-1990

Patterns over time: piecemeal DH

• batches of 2 years, every 5 years (average 159 MB)

Comparisons across languages: corpus linguistics

Comparisons across languages: corpus linguistics• Collocates (“the company that words keep”)

articles, collocates 5L 5Rterritorial Netherlands, 1980-1981

Rank Freq Freq(L) Freq(R) Stat Collocate Stopword5241 6634 6462 172 729.984 west #N/A5052 2747 32 2715 775.328 cup #N/A6878 1822 1737 85 688.488 oost #N/A

10072 1034 444 590 565.704 amerika #N/A14795 853 534 319 437.297 amerikaanse #N/A14651 789 592 197 443.685 landen #N/A

9261 747 627 120 586.854 midden #N/A15226 745 521 224 430.265 nieuwe #N/A17198 694 328 366 388.853 nederland #N/A

9401 639 528 111 574.022 kernwapens #N/A10061 598 447 151 568.202 raketten #N/A12938 575 236 339 482.671 verenigde #N/A13540 566 278 288 468.140 staten #N/A22340 562 270 292 299.199 jaar #N/A11774 499 374 125 508.097 avro #N/A

Comparisons across languages: corpus linguistics

Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over timeterritorial Netherlands

Rank Freq Word23 34036 europa42 20954 bew50 18443 jaar69 12234 nederland72 11198 eerste75 10992 west78 10748 amerikaanse79 10721 land85 9856 nieuwe86 9820 twee87 9705 grote89 9511 landen91 9236 onbewolkt94 8689 gaan95 8614 uur

Rank Freq Word42 29824 europa51 24749 bew56 23588 ned69 16603 dam82 14126 jaar87 12397 uur91 12008 grote95 11136 dag97 10731 mijl99 10624 nederland

100 10458 landen105 9992 eerste106 9725 land108 9499 west115 9129 londen

Rank Freq Word50 60720 europa81 34690 groote89 30331 jaar99 26684 mei

101 26398 juli103 25787 ƒ110 24492 land114 23405 nederland116 22845 duitschland118 20978 eerste122 20419 tijd123 20285 nieuwe126 20167 frankrijk128 19678 regeering131 19206 maart

1930-1931 1960-1961 1980-1981

Patterns over time: corp* lingui*Word lists, articles, 1930-31, 1960-61, 1980-1981: shifts over time(duplicates in Excel, first 100 words)territorial Netherlands

1930-1931 1960-1961 1960-1961 1980-1981Rank Freq Word Rank Freq Word Rank Freq Word Rank Freq Word

50 60720 europa 42 29824 europa 42 29824 europa 23 34036 europa81 34690 groote 51 24749 bew 51 24749 bew 42 20954 bew89 30331 jaar 56 23588 ned 56 23588 ned 50 18443 jaar99 26684 mei 69 16603 dam 69 16603 dam 69 12234 nederland

101 26398 juli 82 14126 jaar 82 14126 jaar 72 11198 eerste103 25787 ƒ 87 12397 uur 87 12397 uur 75 10992 west110 24492 land 91 12008 grote 91 12008 grote 78 10748 amerikaanse114 23405 nederland 95 11136 dag 95 11136 dag 79 10721 land116 22845 duitschland 97 10731 mijl 97 10731 mijl 85 9856 nieuwe118 20978 eerste 99 10624 nederland 99 10624 nederland 86 9820 twee122 20419 tijd 100 10458 landen 100 10458 landen 87 9705 grote123 20285 nieuwe 105 9992 eerste 105 9992 eerste 89 9511 landen126 20167 frankrijk 106 9725 land 106 9725 land 91 9236 onbewolkt128 19678 regeering 108 9499 west 108 9499 west 94 8689 gaan131 19206 maart 115 9129 londen 115 9129 londen 95 8614 uur135 18848 plaats 117 8812 nieuwe 117 8812 nieuwe 96 8595 zwaar136 18843 komen 119 8692 zwaar 119 8692 zwaar 97 8566 komen137 18205 landen 121 8448 geheel 121 8448 geheel 101 8145 nederlandse138 18149 jan 124 8397 europese 124 8397 europese 106 7872 europese

Patterns over time: Artemis

Patterns over time: topic model*

Patterns over time: topic model*Topics in articles titles IF <Europa> in text, no. of tokens = 64,192Dutch territorial newspapers, 1980-81

Id words topic1 europa cup jan oost finale pelleboer louis kort deugd week = ????2 jaar moskou europese groningen madrid twee dick piet rob verlies = ????3 europa terug wereld wim amsterdam gesprek peter man uur eigen = ????4 nieuwe nederland kernwapens televisie tweede dag radio steun philips dood = ????5 polen miljoen winst bonn telegraaf weinig nodig russische laat frans = ????6 vs isra iran goed willen spelen rotterdam correspondent reportage provincie = ????7 ton eerste gaat werf nederlandse leven europees mensen mee maken = ????8 land blijft feyenoord pvda komt politiek amerikaanse rol strijd maakt = ????9 redactie voetbal henk buitenland az ajax kees groot geld regering = ????10 verslaggever hans tv praten carter russen sport zien staat poel = ????11 nederland landen auto vandaag eigen navo internationale japanse economische export = ????12 amerika westen oosten bom parijs midden bezoek olie goed beter = ????13 west reagan schmidt sowjet unie volk duitsland blijven start knol = ????14 grote vrede gaan komen kernraketten kritiek deel geeft kans defensie = ????15 navo raketten minder zon oorlog snel hoofdredacteur zuid mogelijk spanje = ????

code first name weather geography defence media economy sports politics

Patterns over time: topic model*Topics in full text, 1930-31, no. of tokens = 12,248,556Dutch territorial newspapers 1930-31

Id words topic1 duitschland frankrijk duitsche fransche regeering engeland politiek europa itali politieke politics2 europa hel eu ke nen beeft heelt land vnn pen =????3 man goed gaan vrouw dag kwam menschen paar ging komen human int.4 europa staten landen europeesche internationale economische volkenbond commissie oostenrijk conferentie politics5 cva nederland koloni ned holl buitenland adam dam obl bank economy6 wereld volk leven rusland staat land oorlog eigen tijd russische politics7 heer regeering nederland minister nederlandsche belgi leden voorzitter partij vergadering politics8 europa uur druk zuid temperatuur wind noord land mrs ligt weather9 groote werk oude eerste film boek kunst tijd geheel nieuwe media/art

10 werden jaar koning groote kerk jaren kwam plaats eerste stad human int.11 jaar millioen amerika industrie productie groote ton nieuwe handel prijzen economy12 juli mei maart jan loco sept juni april dec oct time13 londen rott dam antwerpen nov hamburg rotterdam new japan juni locations14 groote land plaats eerste twee aantal groot maken amerika werden =????15 europa dienst heer indi betrekking amsterdam klasse school verlof geplaatst advert

code politics sports economy weather human int. media/art time locations advert

Patterns over time: topic model*Wordcloud of topic “politics” IF <Europa> in text, 1950-81, no. of docs = 48All newspapers 1980-81

search termseuropa ANDamerikaanse ANDunie ANDwest ANDsowjet ANDnavo ANDrussische ANDmoskou ANDstaten ANDverenigde

Patterns over time: concept maps

Patterns over time: concept mapsconcept map of <Europa> in full text, N = 26,876 docsDutch territorial newspapers 1980-81

Patterns over time: concept mapsconcept map of <Temperatuur> in full text (weather forecasts), N = 803 docsDutch territorial newspapers 1980-81

Patterns over time: concept mapsurban centres in weather forecasts, 1980-81 (geocoded)name global docs type coordinates1 coordinates2aberdeen 143 143 Town 57.149.717 -2.094.278aden 3 2 Town 12.785.496 45.018.654ajaccio 8 8 Town 41.919.229 8.738.634algiers 4 2 Town 36.752.887 3.042.048almelo 4 4 Town 52.367.026 6.668.491amsterdam 255 242 Town 52.370.215 4.895.167arnhem 7 6 Town 51.985.103 5.898.729assen 7 7 Town 52.992.753 6.564.228athene 246 235 Town 37.983.917 23.729.359bagdad 3 2 Town 33.312.805 44.361.487bahia 1 1 Town -12.579.738 -41.700.727bangkok 2 1 Town 13.756.330 100.501.765barcelona 1 1 Town 41.385.063 2.173.403batavia 2 1 Town 41.850.028 -88.312.573bayonne 2 1 Town 43.492.949 -1.474.840belgrado 175 174 Town 44.786.568 20.448.921berlijn 109 106 Town 52.520.006 13.404.953birmingham 1 1 Town 33.520.660 -86.802.489boedapest 4 4 Town 47.497.912 19.040.234bologna 1 1 Town 44.494.887 11.342.616bordeaux 171 170 Town 44.837.789 -0.579179breda 1 1 Town 51.571.914 4.768.323bremen 5 5 Town 53.079.296 8.801.693brest 2 2 Town 48.390.394 -4.486.076brussel 172 172 Town 50.850.339 4.351.710calais 1 1 Town 50.951.290 1.858.686

Patterns over time: concept mapsurban centres in weather forecasts, 1980-81 (heatmap in Google fusion, CartoDB)

Patterns over time: ShiCo

Patterns over time: ShiCo>>> tc.trackClouds3(dModels,['vrijheid'],fMinDist=.65,bSumOfDistances=True, forwards)

1950_1959 vrijheid (1.00) vrüheid (0.33) vryheid (0.23)1951_1960 vrüheid (1.69) vryheid (1.65) vrijheid (1.64)1952_1961 vryheid (1.61) vrüheid (1.60) vrijheid (1.60)1953_1962 vrüheid (1.64) vryheid (1.60) vrijheid (1.58)1954_1963 vrüheid (1.57) vryheid (1.56) vrijheid (1.54)1955_1964 vrijheid (1.63) vrüheid (1.33) vryheid (1.30)1956_1965 vryheid (1.65) vrüheid (1.63) vrijheid (1.61)1957_1966 vrüheid (1.62) vryheid (1.62) vrijheid (1.59)1958_1967 vrijheid (1.54) vryheid (1.27) vrüheid (1.27)1959_1968 vrijheid (1.57) vryheid (1.29) vrüheid (1.28)1960_1969 vrüheid (1.64) vryheid (1.62) vrijheid (1.60)1961_1970 vrüheid (1.62) vryheid (1.62) vrijheid (1.54)1962_1971 vrijheid (1.63) vryheid (1.32) vrüheid (1.31)1963_1972 vrijheid (1.31) vrüheid (1.31) vryheid (1.00) democratie1964_1973 vrijheid (1.00) vryheid (1.00) vruheid (1.00) democratie1965_1974 democratie (1.24) demokratie (1.24) vrijheid (1.00) vruheid1966_1975 vruheid (1.35) vrijheid (1.35) democratie (1.23) demokratie1967_1976 demokratie (1.57) democratie (1.54) godsdienstvrijheid (1.34) persvrijheid1968_1977 demokratie (1.58) godsdienstvrijheid (1.32) persvrijheid (1.32) demokratle1969_1978 demokratie (1.56) democratie (1.53) godsdienstvrijheid (1.33) persvrijheid1970_1979 demokratie (1.58) democratie (1.55) demokratle (1.33) rechtsstaat1971_1980 democratie (1.55) godsdienstvrijheid (1.32) persvrijheid (1.32) rechtsstaat1972_1981 demokratie (1.28) democratie (1.28) vrijheid (1.00) vruheid1973_1982 persvrijheid (1.68) democratie (1.58) vrijheid (1.35) godsdienstvrijheid1974_1983 democratie (1.61) godsdienstvrijheid (1.34) persvrijheid (1.34) rechtsstaat1975_1984 democratie (1.52) rechtsstaat (1.29) godsdienstvrijheid (1.27) persvrijheid1976_1985 democratie (1.58) godsdienstvrijheid (1.30) persvrijheid (1.30) demokratie1977_1986 vakbondsvrijheid (1.64) godsdienstvrijheid (1.59) democratie (1.57) persvrijheid1978_1987 vakbondsvrijheid (1.97) godsdienstvrijheid (1.92) geloofsvrijheid (1.65) democratie1979_1988 persvrijheid (2.22) vakbondsvrijheid (1.65) democratie (1.63) rechtsstaat1980_1989 persvrijheid (2.57) geloofsvrijheid (1.67) vakbondsvrijheid (1.63) rechtsstaat1981_1990 persvrijheid (2.22) democratie (1.64) vrijheid (1.34) rechtsstaat

Shifting concepts related to <vrijheid> in full tekst

All newspapers 1950-90

code<freedom>democracypress freedomunion freedomrule of law

Tool 5: ShiCo

Comparison across languages

monarchie

koninkrijk

koningschap

monarchy

Realm

kingdom

dominion

Monarchie

Alleinherrschaft

Zwangsherrschaft

Query

NL: National Library

Copyright issuesPolyglot GUI

Web interface/app

Aggregator

Multilingual translator

UK: British Library

Texc Texc

Conclusions

• These are my problems1. Patterns over time2. Comparisons across languages3. Copyright issues4. Quality of data5. Sustainability6. Lots and lots of little things