Single Layer

7/23/2019 Single Layer

1/22

Definicion 1 (Combinacion lineal)

Dados dos conjuntos A, B, se define como combinacion lineal a todaexpresion de la forma

aAbBab

Combinacion lineal de vectores. Sean v1, . . . ,vn vectores. Entoncescualquier suma

nj=1

cjvj=c1v1+ + cnvn

con cj R, es llamada una combinacion lineal de vectores.
http://find/


2/22

Definicion 2 (Producto punto)El producto punto en Rn es una funcion: Rn Rn R que a cada parde vectores x,y Rn le asocia un numero real x y dado por

x

y= x1y1+

+ xnyn

en el que x= (x1, . . . , xn) y y= (y1, . . . , yn).

Definicion 3 (Ortogonalidad)

Se dice que dos vectores x,y Rn son ortogonales si x y= 0.
http://goforward/http://find/http://goback/


3/22

Proposicion 1 (Proyeccion de un vector sobre otro)

La proyecci on ortogonal dey sobrex es el vector.

P Ryx = y xx xx

Demostracion.

Sean x,y dos vectores en Rn. Tomemos la proyeccion ortogonal delvector y sobre el vector x, y denotemos a u a este vector proyeccion(usaremos tambien la notacion P Ryx).

Es claro que el vector u es un multiplo escalar del vector x. Es decir,existe

R tal que u= x. Observese ademas que el vector v= y

u

es un vector ortogonal a x. Entonces (y u) x= 0, o bien(y x) x= 0, de donde obtenemos que

=y xx

x
http://find/


4/22

Definicion 4Definimos la norma de un vector x Rn, denotada porx, como

x= x x

En concreto para x= (x1, . . . , xn), se tiene

x=

x21

+ + x2n

Diremos que el vector x es unitario six

= 1.
http://find/http://goback/


5/22

Definicion 5 (Angulo entre dos vectores en Rn)

En el caso de dos vectores en R2

, es facil obtener una expresion para elangulo que forman. En efecto, sean x,y R2 dos vectores no nulos, esinmediato que el angulo que forman x y y es tal que

cos =P Ryx

y

=

x y

x

y

La formula anterior tiene sentido si nuestros vectores x,y son vectorescualesquiera no nulos del espacio Rn.

Se define entonces el angulo entre los vectores (no nulos) x,y Rncomo el angulo , 0

, dado por

= cos1 x yxy
http://find/


6/22

Nota

En terminos del angulo , se puede escribir el producto punto de losvectoresx,y

Rn como

x y=xy cos
http://find/


7/22

Definicion 6 (Hiperplano)

Sean w y p vectores en Rn con w= 0. El conjunto de todos los vectoresx en Rn que satisfacen la ecuacion

w (x p) = 0

es llamado un hiperplano a traves del punto p. Llamamos a w un vectornormal al hiperplano y a la ecuacion anterior, ecuacion normal al

hiperplano.

Notemos que si definimos,w= (w1, w2, . . . , wn),p= (p1, p2, . . . , pn) y x= (x1, x2, . . . , xn),entonces podemos escribir lo siguiente

w1(x1p1) + w2(x2p2) + + wn(xnpn) = 0

ow1x1+ w2x2+ + wnxn+ d= 0

donde d=w p
http://find/


8/22

Redes de capa simple

Las entradas se conectan directamente a las salidas atraves de unacapa simple de pesos.

Las N salidas pueden ser tratadas como N redes separadas.

Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a

traves de una funcion no lineal.

u=j

wjxi

y=f(u)

Esto puede ser expresado en notacion vectorial

y(x) =f(wTx)
http://find/


9/22

Proposicion 2

La orientaci on del hiperplano est a determinada por la direcci on dew.

Esta depende de cada pesowi, y no de la magnitud total dew.

Demostracion.

Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.ei = (1, 0, . . . , 0)

El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadases entonces

wTei =

wei cos i

wi =w cos icos i =wi/w

P 3
http://find/


10/22

Proposicion 3

La inclusi on de un l mite o bias,

u= wTx mueve al hiperplano a lo largo dew a una distanciad= /w delorigen.

Demostracion.

Para ver esto, sea v el vector del origen al punto mas cercano sobre elplano. Este debe ser normal al plano y por lo tanto paralelo a w, as quev= dw/w.Como el hiperplano es el conjunto de todos lo punto quecumplen wx = 0, enctonces tenemos que tenemos

wTv = 0dwTw/w = 0

d= /

w
http://find/


11/22

Separabilidad Lineal

Un perceptron de capa simple puede clasificar solo conjuntos de datos los

cuales sean linealmente separables.

Definicion 7

Las clases A y B son linealmente separables si pueden ser separados por

un hiperplano, i.e., si existe un hiperplano tales que las clases Ay B caenen lados opuestos.

Proposicion 4

Hay22d

funciones booleanas ded variables de entrada booleanas, de lascuales soloO(2d2

) que son linealmente separables. Cuandod es grande,la fracci on de funciones booleanas que son linealmente separables y por

tanto operadas por una red de capa simple se vuelve muy pequeno.
http://find/


12/22

Proposicion 5

DadosNpuntos en un espacio de entradad-dimensional, hay2n

maneras posibles de etiquetar los puntos0 o1.

Definicion 8

Cada una de las maneras posibles anteriores, forman un dicotoma, unadivision de Npuntos en dos clases. Una dicotoma es linealmenteseparable si todos los 0s puedn ser separados de los 1s con unhiperplano. Es homogeneamente linealmente separable si los puntos

pueden ser separados por un hiperplano que pasa por el origen.
http://find/


13/22

Definicion 9

La capacidad del hiperplano esta definida como el numero de dicotomasque el hiperplano pueden separar.

Definicion 10

Un conjunto de al menos d + 1 puntos de un espacio ddimensional sedice que estan en posicion general si ningun hiperplano contiene mas de

dpuntos.

Teorema 1

ParaNpuntos en posici on general, en un espacio euclidiano dedimensi on

d, el numero

C(N, d)de dicotom as homog eneas linealmente

separables es

C(N, d) =

2N Nd2d1

k=0

N1k

N > d

Este resultado es paraNpuntos en posici on general.
http://find/


14/22

Demostracion.

Comenzamos con Npuntos en posicion general. Asumimos que hayC(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas sonposibles si anadimos otro punto p (en posicion general), es decir cual esel valor de C(N+ 1, d)

Definimos los siguientes valoresM1= Numero de dicotomas que no pueden ser obtenidas a traves de p

M2= Numero de dicotomas pasan a traves de p

C(N+ 1, d) =M1+ M2
http://find/


15/22

Demostracion (Cont.)

Pero M1+ M2=C(N, d)M1=C(N, d) M2 Por lo tanto tenemos

C(N+ 1, d) =C(N, d) + M2

Sin embargo

M2=C(N, d 1)Ya que obligar a un hiperplano a pasar a traves de p (al igual que elorigen) es equivalente a reducir la dimension de d a d 1.Sustituyendo, tenemos la relacion de recurrencia

C(N+ 1, d) =C(N, d) + C(N, d 1)
http://find/


16/22

Demostracion (Cont.)

Ahora probamos el teorema por induccion. Asumimos que

C(N, d) = 2d1k=0

N 1

k

es verdad para N y d [Notemos que es trivial para N= 1 y para

cualquierd, ya que C(1, d) = 2]. Entonces

C(N+ 1, d) = 2d1k=0

N 1

k

+ 2

d2k=0

N 1

k

=

2d1k=0

N 1

k

+ 2

d1k=0

N 1k 1

= 2

d1k=0

N

k

Usamos

n

k=

n1

k1+

n1

k
http://find/


17/22

Nota

nk = n 1

k 1+ n 1

k

Contamos el numero de
http://find/


18/22

Por lo anterior C(N, d) puede ser calculado recursivamente utilizando lassiguientes relaciones.

C(1, d) = 2

C(N, 1) = 2NC(N+ 1, d) = C(N, d) + C(N, d 1)
http://find/


19/22

Lema 1

La probabilidad de que una dicotoma elegida aleatoriamente sea

linealmente separable es igual a

f(N, d) =

1 Nd2

2N

d1k=0

N1k

N > d

Al i d A di j d l
http://find/


20/22

Algoritmo de Aprendizaje del perceptron

Cada unidad produce su salida mediante la formacion de unacombinacion lineal de sus entradas que pasan posteriormente a traves deuna funcion no lineal.

u=

Nj=0

wjxj = wTx

y=

1 u0+1 u >0
http://find/


21/22

Durante el entrenamiento, los patrones de entrada x son dados y lassalidasy(x) son comparadas a los objetivos t(x). Los pesos son

adaptados por

w=

2tx si t=y0 para otro caso

donde 0<


22/22

Para mejorar la confiabilidad, puede ser deseable que una unidad se

active solo cuando la suma u= wTx es mayor que un lmite Nk. donde0k

Single Layer

Documents

Transcript of Single Layer