IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til...

Post on 26-Sep-2020

7 views 0 download

Transcript of IN1140: Introduksjon til språkteknologi [3ex] Forelesning #3 · INF1140: Introduksjon til...

INF1140: Introduksjon til språkteknologi

IN1140: Introduksjon til språkteknologi

Forelesning #3

Lilja Øvrelid

Universitetet i Oslo

06 september 2018

Tema for i dag

I Språklige dataI Språk og hjerneI Korpusdata

I Ord:I MorfologiI MorfemetI Orddannelse

2

Tema for i dag

I Språklige dataI Språk og hjerneI Korpusdata

I Ord:I MorfologiI MorfemetI Orddannelse

2

Språklige data

3

Språkteknologiske metoder

I 2000-tallet →: empirisk revolusjonI Maskinlæring

I Datamaskiner kan lære fra data: fange opp mønstre og generalisere tilnye eksempler

4

Språklige data

I Språkteknologi i 2017 er en data-drevet disiplin.I Trenger språklige data

I IntrospeksjonI Faktisk språkbruk – korpusdata

I Språkteknologi: programmer som generaliserer over språklige mønstreI Korpusdata helt sentralt

I Menneskelig språkprossessering: hvordan modelleres språk i hjernen?

5

Språk og hjerne

I Neurolingvistikk – lingvistisk fagområde som studerer de mekanismer iden menneskelige hjerne som kontrollerer språk (-forståelse, -produksjonog - tilegnelse)

I Prøver å lokalisere språk i hjernen, for å kunne forsto hvordan språketblir prosessert og hvordan det er organisert.

6

Hvor er språk lokalisert?

I Data fra atypisk språkI Afasi

I språkvansker etter hjerneskadeI forskjellige typer avhengig av hvor skaden har oppstått

7

Hvor er språk lokalisert?

Brocas afasiUgrammatisk språk, problemer med forståelse av syntaktisk kompleksekonstruksjonerI Yes... ah... Monday... er... Dad and Peter H... (his own name), andDad.... er... hospital... and ah... Wednesday... Wednesday, nineo’clock... and oh... Thursday... ten o’clock, ah doctors... two... an’doctors... and er... teeth... yah

8

Hvor er språk lokalisert?

Wernickes afasiSemantisk usammenhengende, men stort sett syntaktisk korrektI I felt worse because I can no longer keep in mind from the mind of theminds to keep me from mind and up to the ear which can be to findamong ourselves.

9

Måling av aktivitet i hjernen

I Antagelse: syntaks (grammatisk struktur) og semantikk (betydning) erplassert på forskjellige steder i hjernen.

I Moderne teknologi (MRI, CT, ERP) kan gi et enda mer nøyaktig bildeI Forandringer i hjerneaktivitet

10

KorpusdataI Et korpus (tekstkorpus) er en strukturert samling teksterI Elektronisk lagretI Kan brukes til:

I Empiriske data for lingvistiske studier (motsetning til introspeksjon)I Treningsmateriale for språkteknologisk maskinlæring

11

Korpusdata

I Korpus laget for å representere et visst språk eller språklig variantI Språklige data – to muligheter:

1. Arkivere alle setninger i et språk: UMULIG2. Plukke ut et mindre utvalg (“sample”) av språket: MULIG

I 2 er mulig men ikke trivieltI Et korpus bør konstrueres slik at det er representativt

12

Et tenkt korpus for norsk

I Vi må inkludere forskjellige typer tekster:I Skrift og tale? [registere]I Fra forskjellige deler av landet? Et utvalg av dialekter? [regionaledialekter]

I Kun fra 2000-tallet? Hva med 1990? Eller 1950? [tidsperioder]I Språk produsert av både menn og kvinner? Alle aldersgrupper, inkludertbarn? Hva med utdanningsnivå? Sosial status? [demografi]

I Skal vi inkludere nyhetsstoff? Hva med kronikker, romaner og e-post?Tegneserier og tekstmeldinger? [sjanger]

13

Eksisterende korpuser

I (Forsøk på) representative korpuser for engelskI British National Corpus (BNC), 100M ord (register, domene, forskjelligetidsperioder, sjanger, demografi osv)

I American National Corpus, under utviklingI Store korpuser:

I Gigaword (∼1.7 milliarder ord, nyhetstekster)I Common crawl (3 milliarder websider)

14

Eksisterende korpuser

I Korpuser for andre språk enn engelskI Arabisk GigawordI Chinese newsI Norsk Aviskorpus

I norske nyheter 1998-2014I ca. 1.5 millarder ord

I NoWaC (“Norwegian Web as Corpus”)I web-dokumenter fra .no-domenerI ca 700 millioner tokens

I NoTa-korpusetI transkripsjoner av samtaler og intervju fra informanter født og oppvokst i

Oslo-områdetI transkribert tekst og taleI søk her: http://www.tekstlab.uio.no/nota/oslo

15

Eksisterende korpuser

I Parallelle korpuser: oversatte teksterI EUROPARL: EU-parlamentetI OPUS: undertekster fra TV

16

Annotering

I Korpuser inneholder forskjellige typer informasjon og har gjennomgåttforskjellige former for (automatisk/manuell) annotering

I Delt opp i enheter som tilsvarer et ord, tokens: ord, tall, tegnsetting →tokenisering

I Stemming eller lemmatisering: reduksjon til baseform

17

AnnoteringI Korpuser med manuell annotering

I Mennesker merker opp lingvistisk informasjonI Ordklasse (feks Brown)

I The/at Fulton/np County/np Grand/jj Jury/nn said/vbd Friday/nr an/atinvestigation/nn . . .

I Syntaks (trebanker, feks Penn Treebank)

I Ordsemantikk, sentiment, etc.18

Manuelt annotert korpus for maskinlæring

OrdbetydningSKIM the pages for a clearer insight: ReadingShe SKIMS through the novel which seems to fascinate them: ReadingRemove the vanilla pod, SKIM the jam, and let it cool: RemovingWe SKIMMED across the surface of that sodding lake whilst all around usgathered the dark hosts of hell: Self_motion

Trene en klassifiserer:I Tren på Reading, Removing og Self_motion instanserI Appliser på ny instans: hvilken klasse ligner den mest på?I A red grouse SKIMMED low over the heather: ???

19

Oppsummering: språklige data

I Menneskelig språkprosesseringI afasi-studierI måling av hjerneaktivitet

I KorpusdataI representativitetI størrelseI annoteringI omfattende bruk i språkteknologiske modeller

20

Morfologi

21

Morfologi

I Hvordan ord er bygd oppI Hvordan ord bøyesI Hvordan ord dannesI Hvordan ord deles i ordklasser

22

Ordet

I Relativ grei betydning i dagligtaleI I språkteknologi kan det derimot brukes på flere forskjellige måter

Kari gikk på tur i skogen . Hun elsker turer i skog .

I 13 ord (tokens)I men også 11 ord (typer)I eller 9 ord (leksem = leksikon oppslag)

23

Tokenisering

I Dele opp en tekst i løpende ordI Første skritt i nesten alle språkteknologiske oppgaverI Definisjon:a string of contiguous alphanumeric characters with space on eitherside; may include hyphens and apostrophes, but no other punctutationmarks(Kucera & Francis, 1967)

24

Tokenisering: problemer

I PunktumI del av forkortelser: f.eks.I både forkortelse og setningsslutt (Kjøper gamle møbler, bøker, klær, etc.)

I ApostrofI ’the children’ vs. the children’s toysI I’ll, isn’t, don’t

25

Tokenisering: problemer

I BindestrekI Ett eller flere ord?I Oslo-borgerenI skrive- og leseopplæring

I MellomromI Egennavn: New YorkI Faste fraser: i fjor, blant annetI Tall: 100 000

I Annet:I 10,26 og 10:26I URL’er

26

Ordet

I Kunnskap om ord viktig del av det å beherske et språkI Kobling mellom en lydsekvens og en spesifikk betydningI Vilkårlig kobling:

I samme lyd - forskjellig betydning (to, two)I forskjellig lyd - samme betydning (sofa, couch)

27

Ordet

I Viktig skille i språk:I Innholdsord: substantiver, verb og adjektiv

I Betegner konsepter som objekter, handlinger, egenskaper og ideerI barn, skrive, spennende, anarkismeI Åpen klasse: stadig nye ord, feks hverdagsintegrering, ståhjuling

I Funksjonsord: konjunksjoner, preposisjoner, artikler og pronomenI Betegner grammatiske relasjoner, lite semantisk innholdI den – bestemthet, til – eierskapI Lukket klasse: ikke ofte nye tilskudd, (hen?)

28

Ordet

I GJETTEKONKURRANSE

29

Ordet

I Hvilken skal ut?I gulestI gulI gulereI rød

30

Ordet

I Hvilken skal ut?I gulestI gulI gulereI rød bøyningsformer av gul

31

Ordet

I Hvilken skal ut?I pengerI grammatikkI rødI ere

32

Ordet

I Hvilken skal ut?I pengerI grammatikkI rødI ere det er et suffiks

33

Ordet

I Hvilken skal ut?I ingI hetI elseI an

34

Ordet

I Hvilken skal ut?I ingI hetI elseI an det er et prefiks, de andre er suffikser

35

Morfemet

I Ord har intern struktur som er regelstyrtI U-mulig, u-rolig, u-intelligentI hva betyr u-?I *mulig-u, *rolig-u

I Ord kan bestå av flere meningsbærende enheterI Morfemet – elementær enhet (gr. ’morphe’ – form)I Morf+ologi – vitenskapen om (ord)former

36

Morfemet

Et ord kan bestå av ett eller flere morfemer:I ett morfem: boy, desire, morphI to morfemer: boy+ish, desire+able, morph+ologyI tre morfemer: boy+ish+ness, desire+able+ityI fire morfemer: gentle+man+li+ness, un+desire+able+ityI mer enn fire morfemer: un+gentle+man+li+ness,anti+dis+establish+ment+ari+an+ism

37

Morfemet

I Morfemet er den elementære (minste) lingvistiske enhetenI Kan ikke analyseres videreI Språk består i hovedsak av diskrete enheter som kan kombineres(kreativitet)

I et bloggbart tema

38

Morfemet

I Vår morfologiske kunnskap har to hovedkomponenterI Frie morfemer: ord. boy, desire, gentle, manI Bundne morfemer: affikser.

I prefikser: un-, pre-, bi-I suffikser: -ing, -ish, -ness

I Språk benytter affikser i varierende gradI Noen språk har infikser

I Bontov (Filippinene): fikas ’sterk’, fumikas ’å være sterk’I un-fuckin-believable

I Noen språk har sirkumfikser (affiks som har to deler, en som settes ibegynnelsen av ordet, og en som settes på slutten)

I Tysk: ge+lieb+t ’har elsket’

39

Morfemet

I Morfologisk komplekse ord består av :I Rot + en eller flere affikser (hus+lig)I En rot er et ordelement som ikke kan deles opp i mindre(meningsbærende) deler

40

Orddannelse

I Kunnskap om morfologi innebærer kunnskap om regler for orddannelseI Kombinerer morfemer til komplekse ord (kjærlig+het,(jern+bane)+(arbeid+er))

I Adj + -het → SubstantivI Verb + -er → Substantiv (en som gjør Verb)

41

Avledning

I En avledning er et ord som er dannet fra et annet ord ved hjelp av etavledningsaffiks (prefiks eller suffiks),

I Avledningsbasen kan være et rotord (barn) eller en avledning (barnslig)I Avledningsaffiksene er bundne morfemer med klart semantisk innhold(som innholdsord, men er ikke ord)

AvledningsaffikserI u-- negasjon: umulig, uvel, uroligI for- - foran: forelese, forbokstav, formannI -er - den som utfører handlingen: fisker, baker

42

Avledning

I Avledningsaffikser bidrar med betydningI Når et suffiks blir lagt til endres som regel ordklassenI Det er siste del av ordet som bestemmer ordklasse, derfor endrer ikkeprefikser ordklassen (villig - uvillig, arbeide - bearbeide)

SuffikserI -er: Verb → Substantiv, f.eks. fisker, bakerI -ing: Verb → Substantiv, f.eks. bading, baking, banningI -lig: Substantiv → Adjektiv, f.eks. alvorlig, hyggelig, latterlig, vanligI -n: Adjektiv → Verb, f.eks. gulne, lysne, stivne

43

Bøyning

Bøyningsmorfemer markerer kategorier som tempus, numerus, kasus, etc.

Bøyningskategorier i norskI Genus (kjønn): alle substantiver har fast genus og ord som står tilsubstantivet samsvarsbøyes (en snill katt, et snilt beltedyr)

I Tall: entall og flertall bil-bilerI Bestemthet: uttrykkes i hovedsak ved suffiks (bilen, huset) eller (jf.engelsk bestemt artikkel the)

I Kasus: uttrykker den funksjonen en frase har som setningsledd. Tokasus i norsk: nominativ og akkusativ (skille subjektet fra objektet isetningen). I hovedsak på pronomen hun-henne

I . . .

44

Bøyning

I norsk har vi følgende bøyningskategorier (forts.):I Grad: tre grader uttrykkes ved bøyning, positiv, komparativ, superlativ(fin-finere-finest)

I Tempus: angir tidspunktet for handlingen eller tilstanden somsetningen beskriver. I norsk uttrykkes to tempus ved bøyning: presens(nåtid) og preteritum (fortid) spiser-spiste

45

Bøyning vs. avledning

I Forskjeller på bøyning og avledning:1. Ved bøyning skifter ordet aldri ordklasse, ved avledning skifter ordet som

oftest ordklasseI barn - barnetI barn - barnslig

2. Alle prefikser er avledningsaffikser, suffikser derimot kan brukes både tilbøyning og avledning

3. Bøyning er mer produktiv

46

Bøyning vs. avledning

I Forskjeller på bøyning og avledning (forts.):4. Bøyningssuffikser i norsk har alltid svakt trykk (bilen, spiste), mens

avledningssuffikser kan ha sterkt trykk (sentral) eller bitrykk tenkbar5. Bøyningsendelser ligger alltid i slutten av ordet, men avledningsendelsene

kommer tidligere (når vi har begge deler) galskapen

47

Sammensetninger

I En tredje form for orddannelse, svært vanlig i germanske språk, her:norsk

I Ord som består av deler som hver for seg også er egne ordI To ledd:

Forledd Etterleddhus- taketter- prøvefram- på

I Etterleddet bestemmer vanligvis ordklasse

48

Sammensetninger

I De fleste sammensetninger er determinative: etterleddet girhovedbetydning, mens forleddet avgrenser. bilhjul, hjulbåt

Flere forskjellige relasjoner:I tømmerhytte – hytte av tømmer (materiale)I feriehytte – hytte for ferie (hensikt)I fjellhytte – hytte på fjellet (sted)I sommerhytte – hytte for sommerbruk (tid for bruk)I selvbetjeningshytte – hytte med selvbetjening (måten man brukerhytten på)

49

Morfologisk typologi

I Typologi: delområde av lingvistikkI Klassifiserer språk i henhold til ulike egenskaperI I morfologisk typologi brukes to skalaer:

I graden av syntese (antall morfemer i hvert ord)I graden av fusjon (antall betydninger av hvert morfem)

50

Isolerende språk

Syntese: ett ord = ett morfem

51

Polysyntetiske språkSyntese: høy morfem-til-ord fordeling

52

Agglutinerende språk

Fusjon: ett morfem = én betydning

53

Bøyningsspråk

Fusjon: ett morfem kan ha flere betydninger

54

Oppsummering morfologi

I Handler om ord:I hvordan ord er bygd opp (morfemer)I hvordan nye ord dannes (avledning, sammensetning)I hvordan ord bøyes

I Skiller mellom frie og bundne morfemer (affikser)I Morfologisk komplekse ord består av

I Rot + en eller flere affikser (hus+lig)I Morfologi er noe som skiller verdens språk: syntese og fusjon

55

Oblig 1a

I Teoretisk: morfologiI Praktisk:

I Tekst i PythonI lese og skrive til filI telle forekomster i tekstI tekst som streng og liste

I Tokenisering av tekst (første forsøk)I Enkel tokeniseringI Feilanalyse

I Frist: 19/9 kl 23:59I Devilry

56