Sur l’equivalence entre la Regression Logistique a basede Splines et l’Apprentissage Profond
Marie Guyomard1, Cyprien Gilet1, Susana Barbosa2, Lionel Fillatre1
1 Universite Cote d’Azur, CNRS, I3S2 Universite Cote d’Azur, CNRS, IPMC
Contacts: [email protected]
CJC-MAEcole Polytechnique
Paris, France
27-29 Octobre 2021
1 OBJECTIFS• Probleme de classification
• Capter des effets non lineaires
• Discretiser les variables descriptives
Y Y
X
Y
Classe 1 Classe 2 Règle de décision
Régression Logistique Classique
Régression Logistique Segmentée
Régression Logistique Splines
a b a b
Noeuds
⇒ Automatisation de la discretisation par Deep Learning
2 REGRESSION LOGISTIQUEDefinition : Probleme de classification
Y = f (X) (1)
avec Y les etiquettes (1, . . . , K) et X les variables explicatives (X = (X1, . . . , Xp)).
Modele :
P (Y = 1|X) = σ (fθ(X)) =1
1 + exp (−fθ(X)), (2)
ou la fonction σ : R→ [0, 1] est la fonction sigmoıde
σ(t) =1
1 + e−t, (3)
et ou la fonction fθ(X) est definie par
fθ(X) := θ0 + θ1X1 + · · · + θdXd.
3 METHODESSplines
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
P1(X ) = XP0(X ) = 1
P2(X ) = X2
P3(X ) = X3
P6(X ) = (X − ϵ )+ P7(X ) = (X − ϵ )2+
Soit hj(Xj) = [P0(Xj), P1(Xj), . . . , Pd(Xj)]. la base de splines a d + 1 degres de libertes de Xj
• Cas Univarie :
fθ(X) = θ0 + h1(X1)Tθ1 + · · · + hp(Xp)
Tθp
• Cas Multivarie (p=2):
fθ(X1, X2) =∑d
j=1
∑dk=1 θj,kPj(X1)Pk(X2)
Reseaux de Neurones
Entrées
X1
Xp−1
Xp
Couches cachées
Transformations non-linéaires
Sortie
σ
Classification
Definition : Reseau de neurones
Ψ : X −→ Y
X −→ σ f (L−1)
θ(L−1) · · · f (1)
θ(1).
avec σ definie par (2).
Definition : Couche du reseau
f(l)
θ(l)= ρ
(A(l)f
(l−1)
θ(l−1)+ B(l)
).
avec ρ une fonction d’activation.
4 APPROXIMATION SPLINESIdees :• Partitionner x ∈ Rp en un espace Ω en R regions : Ω = ω1, . . . , ωR.• Utiliser des fonctions continues et affines par morceau.
Definition : Splines affines multivariees
s[a, b,Ω](x) =
R∑r=1
([a]r,· xT + [b]r)1x∈ωr. (4)
avec a ∈ RR×p la matrice des pentes et b ∈ Rp+1 la matrice de biais.
Definition : Fonction Max Affine Spline (MAS)
S[A,B,Ω](x) = maxr=1,...,R
[A]r,· xT + [B]r (5)
Definition : Operateurs Max Affine Spline (MASO)
M [A,B](x) =
maxr=1,...,R [A1]r,· xT + [B1]r...
maxr=1,...,R [Aq]r,· xT + [Bq]r
avecA = A1, . . . , Aq tel que Ak ∈ RR×pB = B1, . . . , Bq tel que Bk ∈ RR.
(6)
Propriete : les MASO sont toujours affines par morceau et globalement convexes.
5 RESEAUX DE NEURONES MASOProposition : Couche MASOPreciser composition de q mas Une couche d’un reseau de neurones construite a partir d’une compo-sition d’operateurs d’activation ReLU est un MASO S[A(l), B(l),Ω] tel que :
f (l)(z(l−1)(x)) = A(l)[x]z(l−1)(x) + B(l)[x] avec A[x] = [A]r,· quand x ∈ ωr (7)
Theoremes :• Ce reseau de neurones est une composition de MASO et donc par consequent un operateur glob-
alement affine spline.
• Ce reseau de neurones est globalement convexe respectivement a chacune de ses dimensions desortie, si les poids des couches ReLU l = 2, . . . , L sont non-negatifs.
6 REPRESENTATION PARTITIONLa partition de l’espace d’entree de chaque couche MASO est un dia-gramme de Laguerre-Voronoi (power diagram), avec µr le centroıdeet radr le radius :
P(x) = arg minr=1,...,R
‖x− [µ]r,·‖2 − [rad]r.
Theoreme : Partition du ke neurone MAS[µ]r,· = [Ak]r,· et [rad]r = 2[Bk]r + ‖[Ak]r,·‖22.
Theoreme : Partition d’une couche MASOµr =
∑qk=1[Ak][I−1(r)]k,· et radr = 2
∑qk=1[Bk][I−1(r′)]k + ‖µr‖2.
avec I(r) =∑qk=1R
k([r]k − 1).
et [r]k = arg maxr=1,...,R[Ak]r,· xT + [Bk]r.
Source : Max-Affine Splines Insights IntoDeep Learning, R. Balestriero, 2021.
7 EXPERIENCES
0.6 0.4 0.2 0.0 0.2 0.4 0.6X1
0.6
0.4
0.2
0.0
0.2
0.4
0.6
0.8
X2
Frontières de décision
Classe 1Classe 2
Frontieres des decisions : LR classique, LR Univariees, LRMultivariees, NN.
LR Lineaire LR Univariee LR Multivariee DNAccuracy 0.64 0.77 0.77 0.92Accuracy 1 0.55 0.61 0.61 0.88Accuracy 2 0.71 0.93 0.93 0.96
Couches du Reseau de Neurones : Couche 1, Couche 2, Couche 3.
8 REFERENCES
• Hastie, Trevor and Tibshirani, Robert and Friedman,Jerome (2009).The elements of statistical learning:data mining, inference, and prediction. Springer Sci-ence & Business Media.
• Balestriero, R. (2018). A spline theory of deep learn-ing. In International Conference on Machine Learning(pp. 374-383). PMLR.
• Balestriero, R., Paris, S., & Baraniuk, R. (2020). Max-affine spline insights into deep generative networks.arXiv preprint arXiv:2002.11912.
This work has been supported by the French government, through the UCA DS4H Investments in the Future project managed by the National Research Agency (ANR) with the reference number ANR-17-EURE-0004.
Top Related