Estado Finito de Cadenas de Markov
-
Upload
harmonious32 -
Category
Documents
-
view
1.979 -
download
1
Transcript of Estado Finito de Cadenas de Markov
Estado Finito De
Cadenas De Markov
DISCRETE STOCHASTIC PROCESSES
Draft of 2nd Edition
R. G. Gallager
Capitulo 4
Presentación Por:
Enrique Malavé Rivera
Luis A. Pons Pérez
De Estados finitos
MARKOVCADENAS
Capitulo 4.1 y 4.2
Presentación Por:
Enrique Malavé Rivera
Las cadenas de Markov son los
procesos
estocásticos definidos solo en enteros.
Los valores de tiempo,n=0,1,….,En
cada tiempo entero≥ 0,existe un valor
entero aleatorio.
La variable (RV)Xn, es llamada el
estado en el n(tiempo) y el proceso en
la familia de rv{Xn, n≥0}.
Un proceso entero de tiempo{Xn,n≥0} puedeser visto como un proceso{X(t),t≥0} definidapara todo t real, tomando X(t)=Xn para n ≤ t < n+1.
En general ,para las cadenas de Markov,elconjunto de valores posibles para cada Xn rves un conjunto numerable, normalmente se toma como {0,1,2,…}. En este capítulo se dedica la atención a un cojunto finito de valores posibles, por ejemplo {1,…,M}.Asíque estamos mirando procesos cuyasfunciones que se muestran son secuenciasde números enteros, cada uno entre 1 y M.
No hay ningún significado especial parael uso de etiqueta de enteros por los estados, ni raz ón de peso para incluir a 0 como un estado para el caso de infinitos numerables y para no incluirloen el caso finito. Para el caso infinitonumerable las aplicaciones máscomunes provienen de la teoría de colas,y el estado a menudo representael número de clientes en espera, quepuede ser cero. Para el caso finito, a menudo usan vectores y matrices, y esmás convencional para el uso positivode etiquetas de enteros.
Definición : Una cadena de Markov es un proceso entero de tiempo {Xn,n≥0}dondecada uno de rv Xn ,n ≥ 1, es un valor entero y depende del pasado, solo através de la rvmás reciente Xn-1.Más especificamente, para todos los enterospositivos,n,I,j,k,…M,Pr{Xn=j│Xn-1=I,Xn-2=K,…,XO=m}=Pr{Xn=j│Xn-1=i}.(4.1).esEsta ecuación es más fácil de leer si se abrevia como Pr{Xn│Xn-2,..XO}=Pr{Xn│Xn-1}. Esta abreviatura significa que se cumplela igualdad de todos los valores de la muestra de cada una de las caravanas, esdecir que significa lo mismo que (4.1).
Por otra parte,,Pr{Xn= j│Xn-1} solo depende de I y j( sin n) y se denota porPr {Xn=j│Xn-1=i}=Pij.Pij es la probabilidad de pasar al estado j, dado que el anterior soy yo, el nuevoestado, dado el Estado anterior, esindependiente de todos los estadosanteriores. El uso de la palabra Estado aquí,se ajusta a la idea habitual del estado de un sistema, el Estado en un momento dado es el resumen de todo lo relacionado con el pasado que esrelevante para el futuro.
Las cadenas de Malkov se pueden utilizar
para modelar una gran variedad de
fenómenos físicos y puede utilizarse para
aproximar muchos otros tipos de procesos
estocásticos.
Estado Finito De
Cadenas De Markov
DISCRETE STOCHASTIC PROCESSES
Draft of 2nd Edition
R. G. Gallager
Capitulo 4.3,4.4 y 4.5
Presentación Por:
Luis A. Pons Pérez
Hace poco mas de cien años se
escribió el primer trabajo sobre
Cadenas de Markov, aun así este
sigue siendo un instrumento muy útil
de estudio estocástico.
Las Cadenas de Markov son de gran
importancia:
1. Se usa para explicar ejemplos de
biología, de física, de ciencias sociales
y economía.
2. Los modelos son sencillos pues su
teoría esta muy bien trabajada.
El proceso {Xn} es una Cadena de Markov si
para cualquier
n N, j , i , in−1, . . . , i0 S (espacio de estados)
P(Xn+1 = j |Xn = i ,Xn−1 = in−1, . . . ,X0 = i0)=P(Xn+1 = j |Xn= i)
Esta es la Propiedad de Markov y establece
que:
◦ Dado el presente cualquier otra información del
pasado es irrelevante para predecir el futuro.
La Representación De La
Matriz
La matriz [P] de transición de
probabilidades de las cadenas de Markov
es llamada una matriz estocástica.
Una matriz estocástica es una matriz
cuadrada de términos no negativos en la
cual los elementos en cada línea suman 1.
Debemos considerar n pasos de probabilidades
de transición en términos de [P].
La probabilidad de ir del estado i al estado j en
dos pasos es la suma sobre h de todos los
posibles tránsitos de dos pasos, de i a h y de h a
j. Esto utilizando la condición de Markov.
(Pr{Xn=j | Xn−1=i,Xn−2=k, . . . ,X0=m} = Pr{Xn=j | Xn−1=i})
n
ijP
Puede verse que es solo el termino i j del
producto de la matriz [P] consigo misma.
Esto denota[P][P] como P2, esto significa
que es el (i , j) elemento de la
matriz[P]2.
Similarmente, es el elemento i j de la n
potencia de la matriz [P].
M
h
hjihij PPP1
2
2
ijP
n
ijP
Pues como entonces:
Esta ecuación es conocida como La Ecuación
Chapman-Kolmogorov.
**Un método muy eficiente de computar [P]n así como
para un n muy grande, multiplicando [P]2 por [P]2, [P]4 por
[P]4, hasta entonces multiplicar estas potencias binarias
entre si hasta donde sea necesario.
nmnm PPP ][][][
n
hj
M
h
m
ih
nm
ij PPP
1
n
ijP
La matriz [P]n es muy importante por variasrazones:
◦ Los elementos i , j de la matriz lo cual es quees la probabilidad de estar en un estado j a tiempon dando un estado i a tiempo 0.
◦ Pues si la memoria del pasado muere con unincremento en n, entonces podemos esperar ladependencia de i y n desaparecer en .
◦ Esto quiere decir que [P]n debe converger a unlimite de n → 1, y , segundo, que cada línea de[P]n debe tender al mismo grupo deprobabilidades.
◦ Si esta convergencia se gesta (aunque luegodeterminemos las razones bajo las que se da), [P]n
y [P]n+1 serán iguales cuando el limite → .
n
ijP
n
ijP
Esto quiere decir entonces que :
])[][(][ PPLimPLim nn
La mejor forma de lidiar con la potencia n
de una matriz es el encontrar los
eigenvalores y los eigenvectores de una
matriz.
Definición
El vector de línea es el eigenvector
izquierdo de [P] del eigenvalor si ≠ 0 y
[P]= .
El vector columna v es el eigenvector
derecho del eigenvalor si v ≠ 0 y [P]v = v.
Los eigenvalores y los eigenvectores
pueden ser encontrados usando algebra
elemental.
Estas ecuaciones no tienen solución en cero si lamatriz [P − I], donde [I] es la matrizidentidad, (debe haber un v no igual a 0 para el cual[P − I] v = 0). Entonces debe ser tal que eldeterminante de [P − I], conocido como(P11 − )(P22 − ) − P12P21, es igual a 0.
Resolver estas ecuaciones cuadráticas en, encontraremos que tiene dos soluciones, 1 = 1y 2 = 1 − P12 − P21.
Asuma inicialmente que P12 y P21 son ambos 0.Entonces la solución para el eigenvector izquierdo yderecho, π(1) y v(1), de 1 y π(2) y v(2) de 2, sondadas por:
Estas soluciones poseen un factor de normalizaciónarbitrario.
Dejemos que y que [U] sea la matriz concolumnas v(1) y v(2).
Entonces las dos ecuaciones derechas de eigenvectoresen
Pueden ser combinadas de forma compacta como[P][U] = [U][Λ].
Surge entonces (dado como se ha normalizado eleigenvector) que el inverso de [U] es exactamente lamatriz cuyas líneas son el eigenvector izquierdo de [P]Lo que muestra que todo eigenvector derecho de uneigenvalor debe ser ortogonal a cualquier eigenvalorizquierdo.
Vemos entonces que [P]=[U][Λ][U]−1y consecuentemente[P]n = [U][Λ]n[U]−1.
20
01][
Si multiplicamos obtenemos:
Donde
Si recordamos que 2 = 1 − P12 −
P21, veremos que | 2| ≤ 1. Si P12 = P21 =
0, entonces 2 = 1 tal que [P] y [P]n son
simplemente matrices idénticas. Si P12 =
P21 = 1, entonces 2 = −1 tal que [P]n
alterna entre la matriz identidad para n
eventos y [P] para n impar.
En todos los demás casos | 2| < 1 y [P]n
se acerca a la matriz cuyas líneas son
iguales a π.
Parte de este caso especifico generaliza a un numeroarbitrario de estados finitos.
En particular =1 es siempre un eigenvalor y el vectore cuyos componentes son igual a 1 es siempre uneigenvector derecho de =1 (esto se debe de que cadalínea de una matriz estocástica suma igual a 1).
Desafortunadamente, no todas las matricesestocásticas pueden ser representadas en la forma de[P]= [U][Λ][U−1] (ya que M la necesidad de losindependientes eigenvectores derechos no existe.
En general, l matriz diagonal de eigenvalores en[P] = [U][Λ][U−1] debe entonces esta ser remplazadapor el la Forma Jordan, la cual no necesariamentenos producirá resultados deseables.
Teoría de Perron-Frobenius
La teoría de Perron-Frobenius puede
caracterizarse como una teoría de matrices
cuadradas.
◦ Con todos los términos positivos y en
generalizando para ciertos casos, se posee
términos no negativos.
Los resultados primordialmente conciernen
a los eigenvalores, los eigenvectores y a las
potencias de las matrices.
Un vector real x (un vector con componentes reales) es definido comopositivo, denotando x > 0.
Si xi > 0 para cada componente i. Una matriz real [A] espositiva, denotando [A] > 0, si Aij > 0 para cada i , j.
De igual forma, x es no negativo, denotando x ≥ 0, si xi ≥ 0 para todo i.
[A] es no negativa, denotando [A] ≥ 0, si Aij ≥ 0 para todo i, j.
Nota: Es posible tener x ≥ 0 and x ≠ 0 sin tener que x > 0, pues x > 0quiere decir que al menos un componente de x es positivo y todos sonno negativos.
Si x > y y y < x ambos quieren decir que x −y > 0.
De igual forma si x ≥ y y y ≤ x quiere decir que x −y ≥ 0.
Entonces las desigualdades matriciales correspondientes tienensignificados correspondientes.
Que muestra el Teorema de Perron-
Fobenius
Muestras:
◦ Una matriz positiva cuadrada [A] siempretiene un eigenvalor positivo que excede lamagnitud de todos los demás eigenvalores.
◦ Este tiene un eigenvector derecho v que espositivo y único dentro una escala de factores.
◦ Establece estos resultados relacionando alos siguientes y comúnmente usadosproblemas de optimización.
Para una matriz cuadrada dada [A] > 0, y
para cualquier vector no igual a cero x ≥
0, sea g(x) el mas grande numero real a por
el que ax ≤ [A]x. Sea definida por:
Podemos expresar g(x) explícitamente re-
escribiendo ax ≤ Ax como axi ≤ Aij xj para
toda i. La mas grande a para la que esto es
satisfecho es:
Donde
Si [A] > 0, x ≥ 0 y x ≠ 0, lleva a que el
numerador iAij xj es positivo para todo i.
Como gi(x) es positivo para xi > 0 e
infinito para xi = 0, tal que g(x) > 0.
Teorema Perron-Frobenius
Para Matrices Positivas
Sea [A] > 0 sea una M por M matriz, sea > 0dada por
y por donde
y dejemos ser un vector x que maximiza
Entonces:1. v = [A]v y v > 0.
2. Para cualquier otro eigenvalor μ de [A], |μ| < .
3. Si x satisface x = [A]x, entonces x = βv paraalgunos (posiblemente complejos) números β.
Definición
Una Matriz Irreducible es una matriz no
negativa tal que para cada par de nodos i
, j en su grafica, existe un desplazamiento
de i a j.
Para algunas matrices estocásticas, una matrizirreducible es una matriz estocástica, una matrizrecurrente de Cadena de Markov.
Si denotamos el elemento i, j de [A]n porAn
ij, entonces vemos como Anij > 0 si existe un
largo de desplazamiento n desde i a j en la grafica.
Si [A] es irreducible, un desplazamiento existedesde cualquier i a cualquier j (incluyendo j = i)con largo al menos M, desde que eldesplazamiento necesario visita cada otro nodo almenos una vez.
Entonces si Anij > 0 para algunos n, 1 ≤ n ≤ M, y
Mn=1 An
ij > 0 .
*La clave para analizar Matrices
Irreducibles es que la Matriz es
estrictamente positiva.
nM
nAB
1
][
Teorema Perron-Frobenius
Para Matrices IrreduciblesSea [A] ≥ 0 sea una M por M matriz irreducible y sea lo
supremo en
y en donde
Entonces lo supremo es alcanzado como un máximo en algúnvector v y el par ,v que tiene las siguientes cualidades:
1. v = [A]v y v > 0.
2. Para cualquier otro eigenvalor μ de [A], |μ| ≤ .
3. Si x satisface x = [A]x, entonces x = βv para algunos(posiblemente complejos) números β.
Nota!!!!
Este es casi el mismo teorema que mencionamosanteriormente , la diferencia es que , se esperaque [A] sea irreducible (pero no necesariamentepositiva), y la magnitud la necesidad de los otroseigenvalores no es estrictamente menos que .
Cuando miramos a matrices recurrentes de unperiodo d, encontraremos que hay d - 1 otroseigenvalores de magnitud igual a .
Por esta posibilidad de otros eigenvalores con lamisma magnitud que , nos referimos a como elmas grande del los eigenvalores reales de [A].
Corolario
El mas grande de los eigenvalores reales
de una matriz irreducible [A] ≥ 0 tiene un
eigenvector izquierdo positivo . es el
único eigenvector de ( dentro de un
factor escala) y que es solo un vector no
negativo no cero u (dentro de un factor
escala) que satisface u ≤ u[A].
Corolario
Sea el mas grande de los eigenvaloresreales de una matriz irreducible y sea eleigenvector derecho e izquierdo de ser v>0 y >0. Entonces, dentro de un factorescala, v es el único eigenvector derechono negativo de [A] (no hay otroseigenvalores que tengan eigenvectores nonegativos). Similarmente, dentro de unfactor escala, es el único eigenvectorizquierdo no negativo de [A].
Corolario
Sea [P] una matriz estocástica irreducible
(Una matriz recurrente de cadena de
Markov). Entonces =1 siendo el mas
grande de los eigenvalores de
[P], e = (1, 1, . . . , 1)T es el
eigenvector derecho de =1, único dentro
de un factor escala, y hay una
probabilidad única vector π > 0 que es el
eigenvector izquierdo de =1.
Corolario
Sea [P] una matriz de transición de unauni-cadena . Entonces =1 siendo el masgrande de los eigenvalores de[P], e = (1, 1, . . . , 1)T es eleigenvector derecho de =1, único dentrode un factor escala, y hay unaprobabilidad única vector π ≥ 0 que es eleigenvector izquierdo de =1; i>0 paracada estado i de recurrencia y i=0 paracada estado de transición.
Matriz de Transición
Los qij se agrupan en la denominada
matriz de transición de la Cadena de
Markov:
Sjiijq
qqq
qqq
qqq
Q
,
222120
121110
020100
............
...
...
...
Propiedades De
La Matriz De Transición Por ser los qij probabilidades,
Por ser 1 la probabilidad del suceso seguro, cada fila ha de sumar 1, es decir,
*Una matriz que cumpla estas dos propiedades se llama matriz estocástica
1,0,, ijqSji
1, Sj
ijqSi
Corolario
El mas grande de los eigenvalores reales
de una matriz irreducible [A] ≥ 0 es
estrictamente una función creciente de
cada componente de [A].
Corolario
Sea el mas grande de los eigenvalores
de [A] > 0 y sea y v los egenvectores
positivos derecho e izquierdo de
, normalizado tal que v =I. Entonces:
Teorema
Sea [P] una matriz de transición de unestado finito ergodico de Cadena deMarkov. Entonces = 1 es el mas grandede los eigenvalores reales de [P], y > |μ|para cada otro eigenvalor μ. En adición elLimn→1[P]n = eπ , donde π > 0 es el únicovector de probabilidad capaz de satisfacerπ[P] = π y e = (1, 1, . . . , 1)T es el únicovector v (dentro de un factor escala) quesatisface [P]v = v.
Cadenas Ergódica
Sea x una Cadena de Markov finita.
Diremos que x es ergódica sii es
irreducible, recurrente y aperiódica
Ejemplo:
Teorema
Sea [P] un matriz de transición de unaunicadena ergódica. Entonces = 1 es elmas grande de los eigenvalores reales de[P], y >|μ| para cualquier otro eigenvalorμ.
En adición, el Limm→1[P]m = eπ ,
donde π ≥ 0 es el único vector deprobabilidad que satisface π[P] = π y e =(1, 1, . . . , 1)T es el único v (dentro de unfactor escala) satisfaciendo [P]v = v.
La noción sobre las Cadenas de MarkovErgódica es diferente en el texto de Galagercomparado a la teoría general.
La diferencia esta en que en el texto tomauna Cadena de Markov como algo que hasido especificado sin indicar o especificar elestado inicial de distribución, porquediferentes estados iníciales de distribuciónpertenecen a diferentes procesosestocásticos.
Si una Cadena de Markov comienza en unestado inicial estacionado, entonces elproceso estocástico correspondiente es elestacionario y de otra manera no lo será.
Cadenas de Markov
Con Recompensa Suponga que cada estado i en una Cadena de
Markov esta asociado con una recompensa ri. Enla medida que la Cadena de Markov cambia deestado en estado, existe una secuencia asociada arecompensa que no es independiente, pero estárelacionadas por la estadística de la cadena deMarkov.
La situación es similar a pero diferente de, a unproceso de renovación de recompensa. En lamedida que el proceso de renovación derecompensa, la recompensa ri puede igualmenteser un costo o arbitrariamente una función devalor real del estado.
El modelo de la Cadena de Markov conrecompensa es uno muy amplio.
Casi todo proceso estocástico puede seraproximado por Cadena de Markov.
En el estudio de teoría de renovaciones, sepuede observar que el concepto derenovación es muy grafico y no solo paramodelar portafolios corporativos o eldesempeño de un portafolio. También parael estudio de la vida residual y muchosotros fenómenos.
Comúnmente es natural asociar recompensascon transiciones mas que asociarlas conestados. Si rij denota la recompensa asociadacon la transición de i a j y Pij denota laprobabilidad de transicióncorrespondiente, entonces ri=j Pijrij es e larecompensa esperada asociada a la transicióndel estado i.
Como solo estamos analizando larecompensa esperada, y como el efecto delas recompensas de transición rij estánresumidas en el estado de recompensari=j Pijrij , se ignora la recompensa detransición y solo consideramos el estado derecompensa.
Ejemplo 4.5.1 (Primer Tiempo de
Pase Esperado).
Un problema común cuando se trabajo
con Cadenas de Markov es encontrar en
numero de pasos esperados, comenzando
en algún estado inicial, antes de algún
estado final es entrado.
Como el contestar este problema no depende de
que después de que un estado final es
entrado, podemos modificar la Cadena para
convertir el estado final dado, es decir el estado
1, en un estado de aprisionamiento ( o sea un
estado 1 es un estado del cual no existe
salida, para el que Pii = 1). Esto es , si ponemos
P11 = 1, P1j = 0 para todo j ≠1, y dejamos Pij sin
cambiar para todo i ≠ 1 y todo j.
La conversión de una Cadena de Markov de cuatro estado en una cadena
en la que el estado 1 es un estado restringido. Obsérvese que los arcos que
salen del nodo 1 han sido removidos.
Sea vi el numero esperado de pasos para
alcanzar el estado 1 comenzando en el
estado i ≠ 1. Este numero de pasos incluye
el primer paso mas el numero de pasos
esperados desde cualquier estado que se
entre posteriormente (el cual es 0 si el
estado 1 es entrado como el siguiente).
Para la cadena propuesta , estas son las
ecuaciones:
Para un Cadena Arbitraria de M estados donde
1es un estado atrapado y todos los demás
estados son transitan, este set de ecuaciones se
transforma en:
Si definimos ri = 1 para i≠1 y ri = 0 para i =1, entonces ri es una unidad de recompensa parauna entrada no realizada aun al estado decontención, y vi como la esperada recompensaagregada antes de entrar el estado de contención.Al tomar r1 = 0, la recompensa cesa al entrar en elestado de contención, y vi es la recompensaesperada en curso, el primer transcurso esperadodel estado i al estado 1.
En este ejemplo la recompensa ocurre solamenteen estados de transito. Pero como los estados detransito tienen cero probabilidad de estadocontinuo, el estado continuo gana por unidadtiempo, g =i πiri, es 0.
Si definimos v1 = 0, entonces
, junto con v1 = 0, que tiene la forma de
vector:
Esta ecuación v = r +[P]v es un grupo de Mecuaciones lineales, de los cuales la primera esv1 = 0 + v1, y , con v1 = 0, el ultimo M − 1corresponde a
Bibliografía
DISCRETE STOCHASTIC
PROCESSES, Draft of 2nd Edition, R.
G. Gallager, May 24, 2010.
Presentación: Cadenas de
Markov, Ezequiel López
Rubio, Departamento de Lenguajes y
Ciencias de la
Computación, Universidad de Málaga.
Fin