Single Layer
-
Upload
ivan-feliciano-avelino -
Category
Documents
-
view
215 -
download
0
Transcript of Single Layer
-
7/23/2019 Single Layer
1/22
Definicion 1 (Combinacion lineal)
Dados dos conjuntos A, B, se define como combinacion lineal a todaexpresion de la forma
aAbBab
Combinacion lineal de vectores. Sean v1, . . . ,vn vectores. Entoncescualquier suma
nj=1
cjvj=c1v1+ + cnvn
con cj R, es llamada una combinacion lineal de vectores.
http://find/ -
7/23/2019 Single Layer
2/22
Definicion 2 (Producto punto)El producto punto en Rn es una funcion: Rn Rn R que a cada parde vectores x,y Rn le asocia un numero real x y dado por
x
y= x1y1+
+ xnyn
en el que x= (x1, . . . , xn) y y= (y1, . . . , yn).
Definicion 3 (Ortogonalidad)
Se dice que dos vectores x,y Rn son ortogonales si x y= 0.
http://goforward/http://find/http://goback/ -
7/23/2019 Single Layer
3/22
Proposicion 1 (Proyeccion de un vector sobre otro)
La proyecci on ortogonal dey sobrex es el vector.
P Ryx = y xx xx
Demostracion.
Sean x,y dos vectores en Rn. Tomemos la proyeccion ortogonal delvector y sobre el vector x, y denotemos a u a este vector proyeccion(usaremos tambien la notacion P Ryx).
Es claro que el vector u es un multiplo escalar del vector x. Es decir,existe
R tal que u= x. Observese ademas que el vector v= y
u
es un vector ortogonal a x. Entonces (y u) x= 0, o bien(y x) x= 0, de donde obtenemos que
=y xx
x
http://find/ -
7/23/2019 Single Layer
4/22
Definicion 4Definimos la norma de un vector x Rn, denotada porx, como
x= x x
En concreto para x= (x1, . . . , xn), se tiene
x=
x21
+ + x2n
Diremos que el vector x es unitario six
= 1.
http://find/http://goback/ -
7/23/2019 Single Layer
5/22
Definicion 5 (Angulo entre dos vectores en Rn)
En el caso de dos vectores en R2
, es facil obtener una expresion para elangulo que forman. En efecto, sean x,y R2 dos vectores no nulos, esinmediato que el angulo que forman x y y es tal que
cos =P Ryx
y
=
x y
x
y
La formula anterior tiene sentido si nuestros vectores x,y son vectorescualesquiera no nulos del espacio Rn.
Se define entonces el angulo entre los vectores (no nulos) x,y Rncomo el angulo , 0
, dado por
= cos1 x yxy
http://find/ -
7/23/2019 Single Layer
6/22
Nota
En terminos del angulo , se puede escribir el producto punto de losvectoresx,y
Rn como
x y=xy cos
http://find/ -
7/23/2019 Single Layer
7/22
Definicion 6 (Hiperplano)
Sean w y p vectores en Rn con w= 0. El conjunto de todos los vectoresx en Rn que satisfacen la ecuacion
w (x p) = 0
es llamado un hiperplano a traves del punto p. Llamamos a w un vectornormal al hiperplano y a la ecuacion anterior, ecuacion normal al
hiperplano.
Notemos que si definimos,w= (w1, w2, . . . , wn),p= (p1, p2, . . . , pn) y x= (x1, x2, . . . , xn),entonces podemos escribir lo siguiente
w1(x1p1) + w2(x2p2) + + wn(xnpn) = 0
ow1x1+ w2x2+ + wnxn+ d= 0
donde d=w p
http://find/ -
7/23/2019 Single Layer
8/22
Redes de capa simple
Las entradas se conectan directamente a las salidas atraves de unacapa simple de pesos.
Las N salidas pueden ser tratadas como N redes separadas.
Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a
traves de una funcion no lineal.
u=j
wjxi
y=f(u)
Esto puede ser expresado en notacion vectorial
y(x) =f(wTx)
http://find/ -
7/23/2019 Single Layer
9/22
Proposicion 2
La orientaci on del hiperplano est a determinada por la direcci on dew.
Esta depende de cada pesowi, y no de la magnitud total dew.
Demostracion.
Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.ei = (1, 0, . . . , 0)
El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadases entonces
wTei =
wei cos i
wi =w cos icos i =wi/w
P 3
http://find/ -
7/23/2019 Single Layer
10/22
Proposicion 3
La inclusi on de un l mite o bias,
u= wTx mueve al hiperplano a lo largo dew a una distanciad= /w delorigen.
Demostracion.
Para ver esto, sea v el vector del origen al punto mas cercano sobre elplano. Este debe ser normal al plano y por lo tanto paralelo a w, as quev= dw/w.Como el hiperplano es el conjunto de todos lo punto quecumplen wx = 0, enctonces tenemos que tenemos
wTv = 0dwTw/w = 0
d= /
w
http://find/ -
7/23/2019 Single Layer
11/22
Separabilidad Lineal
Un perceptron de capa simple puede clasificar solo conjuntos de datos los
cuales sean linealmente separables.
Definicion 7
Las clases A y B son linealmente separables si pueden ser separados por
un hiperplano, i.e., si existe un hiperplano tales que las clases Ay B caenen lados opuestos.
Proposicion 4
Hay22d
funciones booleanas ded variables de entrada booleanas, de lascuales soloO(2d2
) que son linealmente separables. Cuandod es grande,la fracci on de funciones booleanas que son linealmente separables y por
tanto operadas por una red de capa simple se vuelve muy pequeno.
http://find/ -
7/23/2019 Single Layer
12/22
Proposicion 5
DadosNpuntos en un espacio de entradad-dimensional, hay2n
maneras posibles de etiquetar los puntos0 o1.
Definicion 8
Cada una de las maneras posibles anteriores, forman un dicotoma, unadivision de Npuntos en dos clases. Una dicotoma es linealmenteseparable si todos los 0s puedn ser separados de los 1s con unhiperplano. Es homogeneamente linealmente separable si los puntos
pueden ser separados por un hiperplano que pasa por el origen.
http://find/ -
7/23/2019 Single Layer
13/22
Definicion 9
La capacidad del hiperplano esta definida como el numero de dicotomasque el hiperplano pueden separar.
Definicion 10
Un conjunto de al menos d + 1 puntos de un espacio ddimensional sedice que estan en posicion general si ningun hiperplano contiene mas de
dpuntos.
Teorema 1
ParaNpuntos en posici on general, en un espacio euclidiano dedimensi on
d, el numero
C(N, d)de dicotom as homog eneas linealmente
separables es
C(N, d) =
2N Nd2d1
k=0
N1k
N > d
Este resultado es paraNpuntos en posici on general.
http://find/ -
7/23/2019 Single Layer
14/22
Demostracion.
Comenzamos con Npuntos en posicion general. Asumimos que hayC(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas sonposibles si anadimos otro punto p (en posicion general), es decir cual esel valor de C(N+ 1, d)
Definimos los siguientes valoresM1= Numero de dicotomas que no pueden ser obtenidas a traves de p
M2= Numero de dicotomas pasan a traves de p
C(N+ 1, d) =M1+ M2
http://find/ -
7/23/2019 Single Layer
15/22
Demostracion (Cont.)
Pero M1+ M2=C(N, d)M1=C(N, d) M2 Por lo tanto tenemos
C(N+ 1, d) =C(N, d) + M2
Sin embargo
M2=C(N, d 1)Ya que obligar a un hiperplano a pasar a traves de p (al igual que elorigen) es equivalente a reducir la dimension de d a d 1.Sustituyendo, tenemos la relacion de recurrencia
C(N+ 1, d) =C(N, d) + C(N, d 1)
http://find/ -
7/23/2019 Single Layer
16/22
Demostracion (Cont.)
Ahora probamos el teorema por induccion. Asumimos que
C(N, d) = 2d1k=0
N 1
k
es verdad para N y d [Notemos que es trivial para N= 1 y para
cualquierd, ya que C(1, d) = 2]. Entonces
C(N+ 1, d) = 2d1k=0
N 1
k
+ 2
d2k=0
N 1
k
=
2d1k=0
N 1
k
+ 2
d1k=0
N 1k 1
= 2
d1k=0
N
k
Usamos
n
k=
n1
k1+
n1
k
http://find/ -
7/23/2019 Single Layer
17/22
Nota
nk = n 1
k 1+ n 1
k
Contamos el numero de
http://find/ -
7/23/2019 Single Layer
18/22
Por lo anterior C(N, d) puede ser calculado recursivamente utilizando lassiguientes relaciones.
C(1, d) = 2
C(N, 1) = 2NC(N+ 1, d) = C(N, d) + C(N, d 1)
http://find/ -
7/23/2019 Single Layer
19/22
Lema 1
La probabilidad de que una dicotoma elegida aleatoriamente sea
linealmente separable es igual a
f(N, d) =
1 Nd2
2N
d1k=0
N1k
N > d
Al i d A di j d l
http://find/ -
7/23/2019 Single Layer
20/22
Algoritmo de Aprendizaje del perceptron
Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a traves deuna funcion no lineal.
u=
Nj=0
wjxj = wTx
y=
1 u0+1 u >0
http://find/ -
7/23/2019 Single Layer
21/22
Durante el entrenamiento, los patrones de entrada x son dados y lassalidasy(x) son comparadas a los objetivos t(x). Los pesos son
adaptados por
w=
2tx si t=y0 para otro caso
donde 0<
-
7/23/2019 Single Layer
22/22
Para mejorar la confiabilidad, puede ser deseable que una unidad se
active solo cuando la suma u= wTx es mayor que un lmite Nk. donde0k