Estado Finito de Cadenas de Markov

Estado Finito De

Cadenas De Markov

DISCRETE STOCHASTIC PROCESSES

Draft of 2nd Edition

R. G. Gallager

Capitulo 4

Presentación Por:

Enrique Malavé Rivera

Luis A. Pons Pérez

De Estados finitos

MARKOVCADENAS

Capitulo 4.1 y 4.2

Presentación Por:

Enrique Malavé Rivera

Las cadenas de Markov son los

procesos

estocásticos definidos solo en enteros.

Los valores de tiempo,n=0,1,….,En

cada tiempo entero≥ 0,existe un valor

entero aleatorio.

La variable (RV)Xn, es llamada el

estado en el n(tiempo) y el proceso en

la familia de rv{Xn, n≥0}.

Un proceso entero de tiempo{Xn,n≥0} puedeser visto como un proceso{X(t),t≥0} definidapara todo t real, tomando X(t)=Xn para n ≤ t < n+1.

En general ,para las cadenas de Markov,elconjunto de valores posibles para cada Xn rves un conjunto numerable, normalmente se toma como {0,1,2,…}. En este capítulo se dedica la atención a un cojunto finito de valores posibles, por ejemplo {1,…,M}.Asíque estamos mirando procesos cuyasfunciones que se muestran son secuenciasde números enteros, cada uno entre 1 y M.

No hay ningún significado especial parael uso de etiqueta de enteros por los estados, ni raz ón de peso para incluir a 0 como un estado para el caso de infinitos numerables y para no incluirloen el caso finito. Para el caso infinitonumerable las aplicaciones máscomunes provienen de la teoría de colas,y el estado a menudo representael número de clientes en espera, quepuede ser cero. Para el caso finito, a menudo usan vectores y matrices, y esmás convencional para el uso positivode etiquetas de enteros.

Definición : Una cadena de Markov es un proceso entero de tiempo {Xn,n≥0}dondecada uno de rv Xn ,n ≥ 1, es un valor entero y depende del pasado, solo através de la rvmás reciente Xn-1.Más especificamente, para todos los enterospositivos,n,I,j,k,…M,Pr{Xn=j│Xn-1=I,Xn-2=K,…,XO=m}=Pr{Xn=j│Xn-1=i}.(4.1).esEsta ecuación es más fácil de leer si se abrevia como Pr{Xn│Xn-2,..XO}=Pr{Xn│Xn-1}. Esta abreviatura significa que se cumplela igualdad de todos los valores de la muestra de cada una de las caravanas, esdecir que significa lo mismo que (4.1).

Por otra parte,,Pr{Xn= j│Xn-1} solo depende de I y j( sin n) y se denota porPr {Xn=j│Xn-1=i}=Pij.Pij es la probabilidad de pasar al estado j, dado que el anterior soy yo, el nuevoestado, dado el Estado anterior, esindependiente de todos los estadosanteriores. El uso de la palabra Estado aquí,se ajusta a la idea habitual del estado de un sistema, el Estado en un momento dado es el resumen de todo lo relacionado con el pasado que esrelevante para el futuro.

Las cadenas de Malkov se pueden utilizar

para modelar una gran variedad de

fenómenos físicos y puede utilizarse para

aproximar muchos otros tipos de procesos

estocásticos.

Estado Finito De

Cadenas De Markov

DISCRETE STOCHASTIC PROCESSES

Draft of 2nd Edition

R. G. Gallager

Capitulo 4.3,4.4 y 4.5

Presentación Por:

Luis A. Pons Pérez

Hace poco mas de cien años se

escribió el primer trabajo sobre

Cadenas de Markov, aun así este

sigue siendo un instrumento muy útil

de estudio estocástico.

Las Cadenas de Markov son de gran

importancia:

1. Se usa para explicar ejemplos de

biología, de física, de ciencias sociales

y economía.

2. Los modelos son sencillos pues su

teoría esta muy bien trabajada.

El proceso {Xn} es una Cadena de Markov si

para cualquier

n N, j , i , in−1, . . . , i0 S (espacio de estados)

P(Xn+1 = j |Xn = i ,Xn−1 = in−1, . . . ,X0 = i0)=P(Xn+1 = j |Xn= i)

Esta es la Propiedad de Markov y establece

que:

◦ Dado el presente cualquier otra información del

pasado es irrelevante para predecir el futuro.

La Representación De La

Matriz

La matriz [P] de transición de

probabilidades de las cadenas de Markov

es llamada una matriz estocástica.

Una matriz estocástica es una matriz

cuadrada de términos no negativos en la

cual los elementos en cada línea suman 1.

Debemos considerar n pasos de probabilidades

de transición en términos de [P].

La probabilidad de ir del estado i al estado j en

dos pasos es la suma sobre h de todos los

posibles tránsitos de dos pasos, de i a h y de h a

j. Esto utilizando la condición de Markov.

(Pr{Xn=j | Xn−1=i,Xn−2=k, . . . ,X0=m} = Pr{Xn=j | Xn−1=i})

n

ijP

Puede verse que es solo el termino i j del

producto de la matriz [P] consigo misma.

Esto denota[P][P] como P2, esto significa

que es el (i , j) elemento de la

matriz[P]2.

Similarmente, es el elemento i j de la n

potencia de la matriz [P].

M

h

hjihij PPP1

2

2

ijP

n

ijP

Pues como entonces:

Esta ecuación es conocida como La Ecuación

Chapman-Kolmogorov.

**Un método muy eficiente de computar [P]n así como

para un n muy grande, multiplicando [P]2 por [P]2, [P]4 por

[P]4, hasta entonces multiplicar estas potencias binarias

entre si hasta donde sea necesario.

nmnm PPP ][][][

n

hj

M

h

m

ih

nm

ij PPP

1

n

ijP

La matriz [P]n es muy importante por variasrazones:

◦ Los elementos i , j de la matriz lo cual es quees la probabilidad de estar en un estado j a tiempon dando un estado i a tiempo 0.

◦ Pues si la memoria del pasado muere con unincremento en n, entonces podemos esperar ladependencia de i y n desaparecer en .

◦ Esto quiere decir que [P]n debe converger a unlimite de n → 1, y , segundo, que cada línea de[P]n debe tender al mismo grupo deprobabilidades.

◦ Si esta convergencia se gesta (aunque luegodeterminemos las razones bajo las que se da), [P]n

y [P]n+1 serán iguales cuando el limite → .

n

ijP

n

ijP

Esto quiere decir entonces que :

])[][(][ PPLimPLim nn

La mejor forma de lidiar con la potencia n

de una matriz es el encontrar los

eigenvalores y los eigenvectores de una

matriz.

Definición

El vector de línea es el eigenvector

izquierdo de [P] del eigenvalor si ≠ 0 y

[P]= .

El vector columna v es el eigenvector

derecho del eigenvalor si v ≠ 0 y [P]v = v.

Los eigenvalores y los eigenvectores

pueden ser encontrados usando algebra

elemental.

Estas ecuaciones no tienen solución en cero si lamatriz [P − I], donde [I] es la matrizidentidad, (debe haber un v no igual a 0 para el cual[P − I] v = 0). Entonces debe ser tal que eldeterminante de [P − I], conocido como(P11 − )(P22 − ) − P12P21, es igual a 0.

Resolver estas ecuaciones cuadráticas en, encontraremos que tiene dos soluciones, 1 = 1y 2 = 1 − P12 − P21.

Asuma inicialmente que P12 y P21 son ambos 0.Entonces la solución para el eigenvector izquierdo yderecho, π(1) y v(1), de 1 y π(2) y v(2) de 2, sondadas por:

Estas soluciones poseen un factor de normalizaciónarbitrario.

Dejemos que y que [U] sea la matriz concolumnas v(1) y v(2).

Entonces las dos ecuaciones derechas de eigenvectoresen

Pueden ser combinadas de forma compacta como[P][U] = [U][Λ].

Surge entonces (dado como se ha normalizado eleigenvector) que el inverso de [U] es exactamente lamatriz cuyas líneas son el eigenvector izquierdo de [P]Lo que muestra que todo eigenvector derecho de uneigenvalor debe ser ortogonal a cualquier eigenvalorizquierdo.

Vemos entonces que [P]=[U][Λ][U]−1y consecuentemente[P]n = [U][Λ]n[U]−1.

20

01][

Si multiplicamos obtenemos:

Donde

Si recordamos que 2 = 1 − P12 −

P21, veremos que | 2| ≤ 1. Si P12 = P21 =

0, entonces 2 = 1 tal que [P] y [P]n son

simplemente matrices idénticas. Si P12 =

P21 = 1, entonces 2 = −1 tal que [P]n

alterna entre la matriz identidad para n

eventos y [P] para n impar.

En todos los demás casos | 2| < 1 y [P]n

se acerca a la matriz cuyas líneas son

iguales a π.

Parte de este caso especifico generaliza a un numeroarbitrario de estados finitos.

En particular =1 es siempre un eigenvalor y el vectore cuyos componentes son igual a 1 es siempre uneigenvector derecho de =1 (esto se debe de que cadalínea de una matriz estocástica suma igual a 1).

Desafortunadamente, no todas las matricesestocásticas pueden ser representadas en la forma de[P]= [U][Λ][U−1] (ya que M la necesidad de losindependientes eigenvectores derechos no existe.

En general, l matriz diagonal de eigenvalores en[P] = [U][Λ][U−1] debe entonces esta ser remplazadapor el la Forma Jordan, la cual no necesariamentenos producirá resultados deseables.

Teoría de Perron-Frobenius

La teoría de Perron-Frobenius puede

caracterizarse como una teoría de matrices

cuadradas.

◦ Con todos los términos positivos y en

generalizando para ciertos casos, se posee

términos no negativos.

Los resultados primordialmente conciernen

a los eigenvalores, los eigenvectores y a las

potencias de las matrices.

Un vector real x (un vector con componentes reales) es definido comopositivo, denotando x > 0.

Si xi > 0 para cada componente i. Una matriz real [A] espositiva, denotando [A] > 0, si Aij > 0 para cada i , j.

De igual forma, x es no negativo, denotando x ≥ 0, si xi ≥ 0 para todo i.

[A] es no negativa, denotando [A] ≥ 0, si Aij ≥ 0 para todo i, j.

Nota: Es posible tener x ≥ 0 and x ≠ 0 sin tener que x > 0, pues x > 0quiere decir que al menos un componente de x es positivo y todos sonno negativos.

Si x > y y y < x ambos quieren decir que x −y > 0.

De igual forma si x ≥ y y y ≤ x quiere decir que x −y ≥ 0.

Entonces las desigualdades matriciales correspondientes tienensignificados correspondientes.

Que muestra el Teorema de Perron-

Fobenius

Muestras:

◦ Una matriz positiva cuadrada [A] siempretiene un eigenvalor positivo que excede lamagnitud de todos los demás eigenvalores.

◦ Este tiene un eigenvector derecho v que espositivo y único dentro una escala de factores.

◦ Establece estos resultados relacionando alos siguientes y comúnmente usadosproblemas de optimización.

Para una matriz cuadrada dada [A] > 0, y

para cualquier vector no igual a cero x ≥

0, sea g(x) el mas grande numero real a por

el que ax ≤ [A]x. Sea definida por:

Podemos expresar g(x) explícitamente re-

escribiendo ax ≤ Ax como axi ≤ Aij xj para

toda i. La mas grande a para la que esto es

satisfecho es:

Donde

Si [A] > 0, x ≥ 0 y x ≠ 0, lleva a que el

numerador iAij xj es positivo para todo i.

Como gi(x) es positivo para xi > 0 e

infinito para xi = 0, tal que g(x) > 0.

Teorema Perron-Frobenius

Para Matrices Positivas

Sea [A] > 0 sea una M por M matriz, sea > 0dada por

y por donde

y dejemos ser un vector x que maximiza

Entonces:1. v = [A]v y v > 0.

2. Para cualquier otro eigenvalor μ de [A], |μ| < .

3. Si x satisface x = [A]x, entonces x = βv paraalgunos (posiblemente complejos) números β.

Definición

Una Matriz Irreducible es una matriz no

negativa tal que para cada par de nodos i

, j en su grafica, existe un desplazamiento

de i a j.

Para algunas matrices estocásticas, una matrizirreducible es una matriz estocástica, una matrizrecurrente de Cadena de Markov.

Si denotamos el elemento i, j de [A]n porAn

ij, entonces vemos como Anij > 0 si existe un

largo de desplazamiento n desde i a j en la grafica.

Si [A] es irreducible, un desplazamiento existedesde cualquier i a cualquier j (incluyendo j = i)con largo al menos M, desde que eldesplazamiento necesario visita cada otro nodo almenos una vez.

Entonces si Anij > 0 para algunos n, 1 ≤ n ≤ M, y

Mn=1 An

ij > 0 .

*La clave para analizar Matrices

Irreducibles es que la Matriz es

estrictamente positiva.

nM

nAB

1

][

Teorema Perron-Frobenius

Para Matrices IrreduciblesSea [A] ≥ 0 sea una M por M matriz irreducible y sea lo

supremo en

y en donde

Entonces lo supremo es alcanzado como un máximo en algúnvector v y el par ,v que tiene las siguientes cualidades:

1. v = [A]v y v > 0.

2. Para cualquier otro eigenvalor μ de [A], |μ| ≤ .

3. Si x satisface x = [A]x, entonces x = βv para algunos(posiblemente complejos) números β.

Nota!!!!

Este es casi el mismo teorema que mencionamosanteriormente , la diferencia es que , se esperaque [A] sea irreducible (pero no necesariamentepositiva), y la magnitud la necesidad de los otroseigenvalores no es estrictamente menos que .

Cuando miramos a matrices recurrentes de unperiodo d, encontraremos que hay d - 1 otroseigenvalores de magnitud igual a .

Por esta posibilidad de otros eigenvalores con lamisma magnitud que , nos referimos a como elmas grande del los eigenvalores reales de [A].

Corolario

El mas grande de los eigenvalores reales

de una matriz irreducible [A] ≥ 0 tiene un

eigenvector izquierdo positivo . es el

único eigenvector de ( dentro de un

factor escala) y que es solo un vector no

negativo no cero u (dentro de un factor

escala) que satisface u ≤ u[A].

Corolario

Sea el mas grande de los eigenvaloresreales de una matriz irreducible y sea eleigenvector derecho e izquierdo de ser v>0 y >0. Entonces, dentro de un factorescala, v es el único eigenvector derechono negativo de [A] (no hay otroseigenvalores que tengan eigenvectores nonegativos). Similarmente, dentro de unfactor escala, es el único eigenvectorizquierdo no negativo de [A].

Corolario

Sea [P] una matriz estocástica irreducible

(Una matriz recurrente de cadena de

Markov). Entonces =1 siendo el mas

grande de los eigenvalores de

[P], e = (1, 1, . . . , 1)T es el

eigenvector derecho de =1, único dentro

de un factor escala, y hay una

probabilidad única vector π > 0 que es el

eigenvector izquierdo de =1.

Corolario

Sea [P] una matriz de transición de unauni-cadena . Entonces =1 siendo el masgrande de los eigenvalores de[P], e = (1, 1, . . . , 1)T es eleigenvector derecho de =1, único dentrode un factor escala, y hay unaprobabilidad única vector π ≥ 0 que es eleigenvector izquierdo de =1; i>0 paracada estado i de recurrencia y i=0 paracada estado de transición.

Matriz de Transición

Los qij se agrupan en la denominada

matriz de transición de la Cadena de

Markov:

Sjiijq

qqq

qqq

qqq

Q

,

222120

121110

020100

............

...

...

...

Propiedades De

La Matriz De Transición Por ser los qij probabilidades,

Por ser 1 la probabilidad del suceso seguro, cada fila ha de sumar 1, es decir,

*Una matriz que cumpla estas dos propiedades se llama matriz estocástica

1,0,, ijqSji

1, Sj

ijqSi

Corolario

El mas grande de los eigenvalores reales

de una matriz irreducible [A] ≥ 0 es

estrictamente una función creciente de

cada componente de [A].

Corolario

Sea el mas grande de los eigenvalores

de [A] > 0 y sea y v los egenvectores

positivos derecho e izquierdo de

, normalizado tal que v =I. Entonces:

Teorema

Sea [P] una matriz de transición de unestado finito ergodico de Cadena deMarkov. Entonces = 1 es el mas grandede los eigenvalores reales de [P], y > |μ|para cada otro eigenvalor μ. En adición elLimn→1[P]n = eπ , donde π > 0 es el únicovector de probabilidad capaz de satisfacerπ[P] = π y e = (1, 1, . . . , 1)T es el únicovector v (dentro de un factor escala) quesatisface [P]v = v.

Cadenas Ergódica

Sea x una Cadena de Markov finita.

Diremos que x es ergódica sii es

irreducible, recurrente y aperiódica

Ejemplo:

Teorema

Sea [P] un matriz de transición de unaunicadena ergódica. Entonces = 1 es elmas grande de los eigenvalores reales de[P], y >|μ| para cualquier otro eigenvalorμ.

En adición, el Limm→1[P]m = eπ ,

donde π ≥ 0 es el único vector deprobabilidad que satisface π[P] = π y e =(1, 1, . . . , 1)T es el único v (dentro de unfactor escala) satisfaciendo [P]v = v.

La noción sobre las Cadenas de MarkovErgódica es diferente en el texto de Galagercomparado a la teoría general.

La diferencia esta en que en el texto tomauna Cadena de Markov como algo que hasido especificado sin indicar o especificar elestado inicial de distribución, porquediferentes estados iníciales de distribuciónpertenecen a diferentes procesosestocásticos.

Si una Cadena de Markov comienza en unestado inicial estacionado, entonces elproceso estocástico correspondiente es elestacionario y de otra manera no lo será.

Cadenas de Markov

Con Recompensa Suponga que cada estado i en una Cadena de

Markov esta asociado con una recompensa ri. Enla medida que la Cadena de Markov cambia deestado en estado, existe una secuencia asociada arecompensa que no es independiente, pero estárelacionadas por la estadística de la cadena deMarkov.

La situación es similar a pero diferente de, a unproceso de renovación de recompensa. En lamedida que el proceso de renovación derecompensa, la recompensa ri puede igualmenteser un costo o arbitrariamente una función devalor real del estado.

El modelo de la Cadena de Markov conrecompensa es uno muy amplio.

Casi todo proceso estocástico puede seraproximado por Cadena de Markov.

En el estudio de teoría de renovaciones, sepuede observar que el concepto derenovación es muy grafico y no solo paramodelar portafolios corporativos o eldesempeño de un portafolio. También parael estudio de la vida residual y muchosotros fenómenos.

Comúnmente es natural asociar recompensascon transiciones mas que asociarlas conestados. Si rij denota la recompensa asociadacon la transición de i a j y Pij denota laprobabilidad de transicióncorrespondiente, entonces ri=j Pijrij es e larecompensa esperada asociada a la transicióndel estado i.

Como solo estamos analizando larecompensa esperada, y como el efecto delas recompensas de transición rij estánresumidas en el estado de recompensari=j Pijrij , se ignora la recompensa detransición y solo consideramos el estado derecompensa.

Ejemplo 4.5.1 (Primer Tiempo de

Pase Esperado).

Un problema común cuando se trabajo

con Cadenas de Markov es encontrar en

numero de pasos esperados, comenzando

en algún estado inicial, antes de algún

estado final es entrado.

Como el contestar este problema no depende de

que después de que un estado final es

entrado, podemos modificar la Cadena para

convertir el estado final dado, es decir el estado

1, en un estado de aprisionamiento ( o sea un

estado 1 es un estado del cual no existe

salida, para el que Pii = 1). Esto es , si ponemos

P11 = 1, P1j = 0 para todo j ≠1, y dejamos Pij sin

cambiar para todo i ≠ 1 y todo j.

La conversión de una Cadena de Markov de cuatro estado en una cadena

en la que el estado 1 es un estado restringido. Obsérvese que los arcos que

salen del nodo 1 han sido removidos.

Sea vi el numero esperado de pasos para

alcanzar el estado 1 comenzando en el

estado i ≠ 1. Este numero de pasos incluye

el primer paso mas el numero de pasos

esperados desde cualquier estado que se

entre posteriormente (el cual es 0 si el

estado 1 es entrado como el siguiente).

Para la cadena propuesta , estas son las

ecuaciones:

Para un Cadena Arbitraria de M estados donde

1es un estado atrapado y todos los demás

estados son transitan, este set de ecuaciones se

transforma en:

Si definimos ri = 1 para i≠1 y ri = 0 para i =1, entonces ri es una unidad de recompensa parauna entrada no realizada aun al estado decontención, y vi como la esperada recompensaagregada antes de entrar el estado de contención.Al tomar r1 = 0, la recompensa cesa al entrar en elestado de contención, y vi es la recompensaesperada en curso, el primer transcurso esperadodel estado i al estado 1.

En este ejemplo la recompensa ocurre solamenteen estados de transito. Pero como los estados detransito tienen cero probabilidad de estadocontinuo, el estado continuo gana por unidadtiempo, g =i πiri, es 0.

Si definimos v1 = 0, entonces

, junto con v1 = 0, que tiene la forma de

vector:

Esta ecuación v = r +[P]v es un grupo de Mecuaciones lineales, de los cuales la primera esv1 = 0 + v1, y , con v1 = 0, el ultimo M − 1corresponde a

Bibliografía

DISCRETE STOCHASTIC

PROCESSES, Draft of 2nd Edition, R.

G. Gallager, May 24, 2010.

Presentación: Cadenas de

Markov, Ezequiel López

Rubio, Departamento de Lenguajes y

Ciencias de la

Computación, Universidad de Málaga.

Estado Finito de Cadenas de Markov

Documents

Transcript of Estado Finito de Cadenas de Markov