Alea Jacta Est!nlp/seminari/edgar-eco-2009-04-17.pdf · Alea Jacta Est! (O com el reverend Thomas...
Transcript of Alea Jacta Est!nlp/seminari/edgar-eco-2009-04-17.pdf · Alea Jacta Est! (O com el reverend Thomas...
-
Alea Jacta Est!(O com el reverend Thomas Bayes pot animar
una tarda avorrida de diumenge(i sense drogues!))
Edgar Gonzàlez i Pellicer
TALP Research Center
17 Abril 2009
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 1 / 74
-
Probabilitat
Una Fòrmula
²̂ ¥ë̂¹ ¡ ¤© ̂ â"̧,
²̂ ¥ë̂¹ ¹ _|© ̂ â,
²̂ ¥ë̂¹ ¢à^̧ ̂ â"̧,
»̂ © ¤ê _²_� ¸à _~̈ ̂ â
p(X ,Y ) = p(X | Y ) · p(Y )
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 2 / 74
-
Probabilitat
Dades, Models i Generació
Dades Models
Generació
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 3 / 74
-
Probabilitat
Dades Simples, Models Simples
X = {x}
Θ = {ϑ}
x = 1 x = 0{p(x = 1) = 12p(x = 0) = 12
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 4 / 74
-
Probabilitat
Dades Simples, Models Simples
X = {x1 . . . xn}
Θ = {ϑ}
x i = 1 x i = 0{p(x i = 1) =
12
p(x i = 0) =12
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 4 / 74
-
Probabilitat
Paràmetres
X = {x1 . . . xn}Θ = {ϑ}
x i = 1 x i = 0{p(x i = 1; Θ) = ϑp(x i = 0; Θ) = 1− ϑ
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 4 / 74
-
Probabilitat
Estimació
Dades Models
Generació
Paràmetres
Estimació
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 5 / 74
-
Probabilitat
Models Simples, Estimació Simple
ϑ =2
5{p(xi = 1; Θ) =
25
p(xi = 0; Θ) =35
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 6 / 74
-
Probabilitat
Models Simples, Estimació Simple
CONEIXEMENT
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 7 / 74
-
Probabilitat
Probabilitat Freqüentista
La probabilitat és el ĺımit de la freqüència
p(xi = 1; Θ) = limn→∞
‖xi ∈ Xn | xi = 1‖‖Xn‖
Estimació de màxima versemblança
Θ̂ = arg maxΘ
p(X ; Θ)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 8 / 74
-
Probabilitat
Coneixement a priori
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 1
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 9 / 74
-
Probabilitat
Coneixement a priori
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 6 · ϑ · (1− ϑ)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 9 / 74
-
Probabilitat
Coneixement a priori
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 20 · ϑ2 · (1− ϑ)2
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 9 / 74
-
Probabilitat
Coneixement a priori
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 12 · ϑ · (1− ϑ)2
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 9 / 74
-
Probabilitat
Coneixement a priori
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 12 · ϑ2 · (1− ϑ)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 9 / 74
-
Probabilitat
Probabilitat Bayesiana
La probabilitat indica una creença
S’actualitza mitjançant evidència
Estimació de màxim a posteriori
p(X ; Θ) = p(X | Θ)Θ̂ = arg max
Θp(Θ | X )
= arg maxΘ
p(X | Θ) · p(Θ)p(X )
= arg maxΘ
p(X | Θ) · p(Θ)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 10 / 74
-
Probabilitat
Hiperparàmetres
Dades Models
Generació
Paràmetres
Hiper-Paràmetres
Estimació
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 11 / 74
-
Probabilitat
Model Simple, Estimació Simple (però Bayesiana)
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 6 · ϑ · (1− ϑ)
ϑ =3
7{p(xi = 1; Θ) =
37
p(xi = 0; Θ) =47
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 12 / 74
-
Probabilitat
Model Simple, Estimació Simple (però Bayesiana)
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 20 · ϑ2 · (1− ϑ)2
ϑ =4
9{p(xi = 1; Θ) =
49
p(xi = 0; Θ) =59
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 13 / 74
-
Probabilitat
Model Simple, Estimació Simple (però Bayesiana)
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 20 · ϑ · (1− ϑ)2
ϑ =3
8{p(xi = 1; Θ) =
38
p(xi = 0; Θ) =58
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 14 / 74
-
Probabilitat
Model Simple, Estimació Simple (però Bayesiana)
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
p(Θ) = 1
ϑ =2
5{p(xi = 1; Θ) =
25
p(xi = 0; Θ) =35
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 15 / 74
-
Probabilitat
Model Simple, Estimació Simple (però Bayesiana)
0.35 0.538
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
25
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
37
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
49
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 16 / 74
-
Probabilitat
Inferència
Dades Models
Generació
Estimació
Inferència
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 17 / 74
-
Probabilitat
És correcta la moneda?
{H0 : ϑ = ϑ0 = 0.5H1 : ϑ 6= ϑ0 = 0.5
B01 =p(H0 | X )p(H1 | X )
=p(X | H0) · p(H0)p(X | H1) · p(H1)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 18 / 74
-
Probabilitat
És correcta la moneda?
B01 =p(X | H0) · p(H0)p(X | H1) · p(H1)
=ϑ20 · (1− ϑ0)3 · p(ϑ0)∫ 1
0 ϑ2 · (1− ϑ)3 · p(ϑ) · dϑ
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1 B01 =158
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1 B01 =315128
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1 B01 =3516
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1 B01 =6332
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 19 / 74
-
Probabilitat
És correcta la moneda?
1.75 2.75158
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
6332
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
3516
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
315128
0
0.5
1
1.5
2
2.5
0 0.2 0.4 0.6 0.8 1
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 20 / 74
-
Probabilitat
Coneixement, Creences, Assumpcions. . .
L’enfocament bayesià fa expĺıcites les assumpcions que es prenen.
Va ser plantejat per Bayes i Laplace al segle XVIII
I criticat per Fischer al segle XX
Subjectivitat
Però, tanmateix. . .
No es pot fer inferència sense fer assumpcions
[McKay, 2003]
Revifalla amb aproximacions d’Aprenentatge Automàtic
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 21 / 74
-
Probabilitat
La importància del prior
El prior representa doncs les nostres assumpcions
Podem optar per
Priors subjectiusPriors informatsPriors no-informatsPriors conjugats
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 22 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Documents
X = {x1 . . . xn}xi = {xi1 . . . xili}
p(X ) =∏i
p(xi )
p(xi ) = p(li ) · p(xi1 . . . xili )= p(li ) ·
∏j
p(xij)
Distribució categòrica/multinomial
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 23 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Documents
is
.
thecat
eats
dog
beach
sun
housefish
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 24 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Documents i Classes
X ′ = {x ′1 . . . x ′n}x ′i = (yi , xi = {xi1 . . . xili})
p(X ′) =∏i
p(x ′i )
p(x ′i ) = p(yi ) · p(xi | yi )= p(yi ) · p(li | yi ) · p(xi1 . . . xili | yi )= p(yi ) · p(li ) ·
∏j
p(xij | yi )
Assumpció de Näıve Bayes
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 25 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Documents i Classes
is
.
thecat
eats
dog
beach
sun
housefish is
.
thecat
eats
dog
beach
sun
housefish is
.
thecat
eats
dog
beach
sun
housefish is
.
thecat
eats
dog
beach
sun
housefish is
.
thecat
eats
dog
beach
sun
housefish is
.
thecat
eats
dog
beach
sun
housefish
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 26 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Classificació
Dades Models
Generació
Paràmetres
Estimació
Dades
Classificació
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 27 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Classificació
xN = {xN1 . . . xNlN}
p(yN = y |xN) =p(xN | y) · p(y)
p(xN)
=p(xN | y) · p(y)∑y ′ p(xN | y ′) · p(y ′)
=p(lN | y) · p(xN1 . . . xNlN | y) · p(y)∑
y ′ p(lN | y ′) · p(xN1 . . . xNlN | y ′) · p(y ′)
=
∏j p(xNj | y) · p(y)∑
y ′∏
j p(xNj | y ′) · p(y ′)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 28 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Detecció d’Spam
is
.
thecat
eats
dog
beach
sun
housefish
.
is
the
free
you
diploma
enlarge
penis
pill
money
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 29 / 74
-
Models Probabilistics per a NLP Näıve Bayes
Aplicacions
Classificació de textos [Nigam et al., 2000]
Detecció de spam [Sahami et al., 1998]Detecció caracteŕıstiques criminals [Bache et al., 2008]
Word Sense Disambiguation [Gale et al., 1992]
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 30 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
I què passa si amaguem la classe?
X = {x1 . . . xn}xi → x ′i = (yi , xi )
Però coneixem una probabilitat per a les x ′i
p(x ′i ) = p(yi ) ·∏j
p(xij | yi )
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 31 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
I què passa si amaguem la classe?
Problema de clustering
Θ̂ =
{arg maxΘ
∑Y p(X ,Y | Θ)
arg maxΘ∑Y p(Θ,Y | X )
Ŷ = arg maxY
p(Y | X , Θ̂)
Maximitzar aquestes fòrmules de forma expĺıcita és dif́ıcil
Algorisme d’Expectation-Maximization
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 32 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
Expectation-Maximization
Θ0Inicialització
E0
Expectation
Θ1Maximization
E1
Expectation
Θ2Maximization
. . .
Er−1 ΘrMaximization
Er
Expectation
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 33 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
Expectation-Maximization
Es = p(Y | X ,Θs)
Θs+1 =
{arg maxΘ
∑Y Es(Y) · p(X ,Y | Θ)
arg maxΘ∑Y Es(Y) · p(Θ | X ,Y)
En el cas d’un conjunt de classes, trobar Θs a cada pas sol equivaler aresoldre un problema de classificació en què cada xi pertany en unafracció Es(y , xi ) a cada classe y .
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 34 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
Aplicacions
Classificació de textos [Nigam et al., 2000]
Incorporació de dades no etiquetades
Detecció no supervisada de relacions
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 35 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
Flexibilitat
Incorporació d’una classe soroll
p(xi | yi ) ={ ∏
j p(xij | yi ) i < kW−j i = k
Detecció de caracteŕıstiques irrellevants [Law et al., 2002]
p(xi | yi ) =∏j
ρj · p(xij | yi , rj) + (1− ρj) · p(xij | ¬rj))
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 36 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
L’Etern Dilema
Quants clusters?
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 37 / 74
-
Models Probabilistics per a NLP Expectation-Maximization
L’Etern Dilema
Problema de sel·lecció de modelsÚs de factors de bayes
Prior sobre els models
Criteris provinents d’altres fonts
Akaike Information CriterionBayesian Information CriterionMinimum Message LengthMinimum Description Length
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 38 / 74
-
Models Probabilistics per a NLP Models de Markov
Documents
X = {x1 . . . xn}xi = {xi1 . . . xili}
p(X ) =∏i
p(xi )
p(xi ) = p(li ) · p(xi1 . . . xili )= p(li ) ·
∏j
p(xij)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 39 / 74
-
Models Probabilistics per a NLP Models de Markov
Seqüències
p(x1 . . . xl) = p(x1) ·∏j>1
p(xj | x1 . . . xj−1)
= p(x1) ·∏j>1
p(xj | xj−k . . . xj−1)
= p(x ′1) ·∏j>1
p(x ′j | x ′j−1)
Model de Markov
p(x1)p(xj | xj−1)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 40 / 74
-
Models Probabilistics per a NLP Models de Markov
Models de Markov
el
gat
gos menja peix
.
0.9
0.1
0.5
0.5
0.2
0.8 0.2
0.8 0.5
0.5
1.0
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 41 / 74
-
Models Probabilistics per a NLP Models de Markov
Aplicacions
Models de n-grames
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 42 / 74
-
Models Probabilistics per a NLP Models de Markov
Una volta de rosca més
x1 x2 x3 . . . xl−1 xl
↓ ↓ ↓ ↓ ↓x1 x2 x3 . . . xl−1 xl
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 43 / 74
-
Models Probabilistics per a NLP Models de Markov
Una volta de rosca més
y1 y2 y3 . . . yl−1 yl
↓ ↓ ↓ ↓ ↓x1 x2 x3 . . . xl−1 xl
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 43 / 74
-
Models Probabilistics per a NLP Models de Markov
Una volta de rosca més
y1 y2 y3 . . . yl−1 yl↓ ↓ ↓ ↓ ↓x1 x2 x3 . . . xl−1 xl
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 43 / 74
-
Models Probabilistics per a NLP Models de Markov
Una volta de rosca més
. . .↓ ↓ ↓ ↓ ↓
x1 x2 x3 . . . xl−1 xl
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 43 / 74
-
Models Probabilistics per a NLP Models de Markov
Models Ocults de Markov
p(x1, y1 . . . xl , yl) = p(y1) · p(x1 | y1) ··∏j>1
p(yj | yj−1) · p(xj | yj)
p(x1 . . . xl) =∑y1...yl
p(x1, y1 . . . xl , yl)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 44 / 74
-
Models Probabilistics per a NLP Models de Markov
Models Ocults de Markov
DTis
.
thecat
eats
dog
beach
sun
housefish
NNis
.
thecat
eats
dog
beach
sun
housefish
VBis
.
thecat
eats
dog
beach
sun
housefish
.
is
.
thecat
eats
dog
beach
sun
housefish
0.9
0.1
1.0
0.8
0.2
0.5 0.
5
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 45 / 74
-
Models Probabilistics per a NLP Models de Markov
Models Ocults de Markov
Tres problemes canònics1 Probabilitat d’una seqüència
p(x1 . . . xl)Algorisme Forward
2 Seqüència d’estats més probable
arg maxy1...yl p(y1 . . . yl | x1 . . . xl)Algorisme de Viterbi
3 Estimació dels paràmetres
arg maxΘ p(X | Θ)Algorisme de Baum-Welch (Expectation-Maximization)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 46 / 74
-
Models Probabilistics per a NLP Models de Markov
Aplicacions
Part-of-Speech Tagging [Charniak et al., 1993]
Reconeixement de NEs [Malouf, 2002]
Extracció d’Informació [Freitag and McCallum, 1999]
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 47 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Models Generatius
p(y | x) = p(y) · p(x | y)p(x)
=p(y) · p(x | y)∑y ′ p(y
′) · p(x | y ′)
=p(x , y)∑y ′ p(x , y
′)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 48 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Restriccions
Quina p(y | x) escollim?Ha d’acomplir restriccions:
(yi , xi ) = (yi , {x1 . . . xl})(yi , xi ) → {f1(yi , xi ) . . . fs(yi , xi )}
fj(yi , xi ) =
{1 yi = ϕ ∧ xij = χ0 yi 6= ϕ ∨ xij 6= χ∑
(yi ,xi )∈X ′fj(yi , xi ) =
∑x∈Xy∈Y
p(y , x) · fj(y , x)
Ẽ (fj) = E (fj)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 49 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Restriccions
Ha de ser una distribució de probabilitat
p(y | x) ≥ 0∑y
p(y | x) = 1
Ha de tenir Màxima Entropia
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 50 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Entropia
H(x) = −∑x∈X
p(x) · log p(x)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 51 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Entropia
H(y | x) = −∑x∈Xy∈Y
p(y , x) · log p(y | x)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 51 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Màxima Entropia
Usant Lagrange arribem a la funció
Ψ(Λ) = H(y | x) +∑
j
λj
(E (fj)− Ẽ (fj)
)+ λ′
(∑y
p(y | x)− 1
)
I fent aproximacions, dedüım que els models han de tenir la forma
p(y | x) = 1Z (x)
· exp
∑j
λj · fj(y , x)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 52 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Màxima Entropia
Estimació de paràmetres usant mètodes numèrics
Iterative Scaling
Sovint s’afegeix un terme de regularització
Ψ(Λ)−∑
j
λ2j2σ2
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 53 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Màxima Entropia/Versemblança
p(x , y) = p(y | x) · p(x)p(x , y ; Θyx ,Θx) = p(y | x ; Θyx) · p(x ; Θx)
(Θ̂yx , Θ̂x) = arg maxΘyx ,Θx
∏(y ,x)∈X ′
p(y , x ; Θyx ,Θx)
= arg maxΘyx ,Θx
∑(y ,x)∈X ′
log p(y , x ; Θyx ,Θx)
= arg maxΘyx ,Θx
∑(y ,x)∈X ′
log p(y | x ; Θyx)+
+∑
(y ,x)∈X ′log p(x ; Θx)
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 54 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Màxima Entropia/Versemblança
(Θ̂yx , Θ̂x) = arg maxΘyx ,Θx
∑(y ,x)∈X ′
log p(y | x ; Θyx)+
+∑
(y ,x)∈X ′log p(x ; Θx)
Θ̂yx = arg max
Θyx
∑(y ,x)∈X ′
log p(y | x ; Θyx)
Θ̂x = arg maxΘx
∑(y ,x)∈X ′
log p(x ; Θx))
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 55 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Màxima Entropia/Versemblança
∑(y ,x)∈X ′
log p(y | x ; Θyx) =∑x∈Xy∈Y
p̃(y , x) · log p(y | x ; Θyx)
Que per als models proposats, equival a Ψ(Λ)
Màxima Entopia = Màxima Versemblança
El terme de regularització equival a afegir un prior gaussiàΛ ∼ (0, σ2I )
Màxima Entopia = Màxim A Posteriori
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 56 / 74
-
Models Probabilistics per a NLP Models de Màxima Entropia
Aplicacions
Part-of-Speech Tagging [Ratnaparkhi, 1996]
Traducció Automàtica [Berger et al., 1996]
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 57 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Recapitulem
Naive bayes
p(y , x) = p(y) · p(x1 | y) . . . p(xl | y)
p(y , x) =1
1·Ψ0 ·Ψ1 . . .Ψl
Models Ocults de Markov
p(y , x) = p(y1) · p(x1 | y1) · p(y2 | y1) . . . p(xl | yl)
p(y , x) =1
1·Ψ1 ·Ψ2 ·Ψ3 . . .Ψ2l
Models de Màxima Entopia
p(y | x) = 1Z (x)
· exp(λ1 · f1(y , x)) . . . exp(λl · fl(y , x))
p(y | x) = 1Z (x)
·Ψ1 . . .Ψl
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 58 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y
x1 x2 . . . xl
Ψ0
Ψ1 Ψ2 Ψl
y
x
Ψ1 Ψ2 . . . Ψl
Naive Bayes Màxima Entropia
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 59 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y
x1 x2 . . . xl
y
x
Naive Bayes Màxima Entropia
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 60 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y1
x1
y2
x2
y3
x3
. . .
yl
xl
Ψ1
Ψ2
Ψ3
Ψ4
Ψ5
Ψ6 Ψ2l
Models Ocults de Markov
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 61 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y1
x1
y2
x2
y3
x3
. . .
yl
xl
Models Ocults de Markov
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 62 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y1 y2 y3
. . .
yl
x
Linear-Chain CRFs
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 63 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Models Gràfics
y1 y2 y3
. . .
yl
x
Linear-Chain CRFs
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 64 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Linear-Chain CRFs
~x = {x1 . . . xl}~y = {y1 . . . yl}
p(~y | ~x) = 1Z (~x)
· exp
∑i ,j
λi · fi (yj−1, yj ,~x , j)
Extensió de Models Ocults de Markov
Extensió de Models de Màxima Entropia
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 65 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Linear-Chain CRFs
Hereten dels Models Ocults de Markov
Model seqüencialAlgorisme de ViterbiAlgorisme de Forward-Backward
Hereten dels Models de Màxima Entropia
Model discriminatiuEstimació de paràmetres per optimització numèricaNecessitat de regularització
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 66 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Aplicacions
Part-of-speech Tagging [Lafferty et al., 2001]
Shallow Parsing [Sha and Pereira, 2003]
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 67 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Linear-Chain CRFs
y1 y2 y3
. . .
yl
x
Linear-Chain CRFs
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 68 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Skip-Chain CRFs
y1 y2 y3
. . .
yl
x
Skip-Chain CRFs
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 68 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
Skip-Chain CRFs
Relaxació de les restriccions en les features
Dependències no locals
Increment en la complexitat algoŕısmica
Inferència aproximada
[Sutton and McCallum, 2007]
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 69 / 74
-
Models Probabilistics per a NLP Conditional Random Fields
The Road Goes Ever On And On
Xarxes Bayesianes
Maximum-Entropy Markov Models
Hierarchical Markov Models
CRFs Generals
. . .
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 70 / 74
-
Final
Gràcies!
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 71 / 74
-
Bibliografia
Bibliografia I
R. Bache, F. Crestani, D. Canter, and D. Youngs. A language modellingapproach to linking criminal styles with offender characteristics. InNatural Language for Information Systems (NLDB), 2008.
A. Berger, S. Della Pietra, and V. Della Pietra. A maximum entropyapproach to natural language processing. Computational Linguistics, 22(1), 1996.
E. Charniak, C. Hendrickson, N. Jacobson, and M. Perkowitz. Equationsfor part-of-speech tagging. In National Conference on ArtificialIntelligence, 1993.
D. Freitag and A. McCallum. Information extraction with HMMs andshrinkage. In COLING-ACL, 1999.
W. Gale, K. Church, and D. Yarowsky. A method for disambiguating wordsenses in a large corpus. Computers and the Humanities, 26(5/6), 1992.
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 72 / 74
-
Bibliografia
Bibliografia II
J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields:Probabilistic models for segmenting and labeling sequence data. InInternational Conference on Machine Learning, 2001.
M. Law, A. Jain, and M. Figueiredo. Feature selection in mixture-basedclustering. In Neural Information Processing Systems (NIPS), 2002.
R. Malouf. Markov models for language-independent named entityrecognition. In Conference on Natural Language Learning (CoNLL),2002.
C. Manning and H. Schütze. Foundations of Statistical Natural LanguageProcessing. MIT Press, 1999.
D. McKay. Information Theory, Inference, and Learning Algorithms.Cambridge University Press, 2003.
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 73 / 74
-
Bibliografia
Bibliografia III
K. Nigam, A. McCallum, S. Thrun, and T. Mitchell. Text classificationfrom labeled and unlabeled documents using EM. Machine Learning, 39(2/3), 2000.
A. Ratnaparkhi. A maximum entropy model for part-of-speech tagging. InEmpirical Methods in Natural Language Processing (EMNLP), 1996.
M. Sahami, S. Dumais, D. Heckerman, and E. Horvitz. A bayesianapproach to filtering junk e-mail. In AAAI Workshop on Learning forText Categorization, 1998.
F. Sha and F. Pereira. Shallow parsing with conditional random fields. InHLT-NAACL, 2003.
C. Sutton and A. McCallum. Introduction to Statistical RelationalLearning, chapter An Introduction to Conditional Random Fields forRelational Learning. MIT Press, 2007.
Edgar Gonzàlez (TALP) Alea Jacta Est! 17 Abril 2009 74 / 74
ProbabilitatModels Probabilistics per a NLPNaïve BayesExpectation-MaximizationModels de MarkovModels de Màxima EntropiaConditional Random Fields
FinalApèndixBibliografiaReferències