Time Series – Descriptive Methods - STATGRAPHICS

42
STATGRAPHICS – Rev. 9/14/2006 Pronósticos Resumen El procedimiento Pronósticos esta diseñado para pronosticar valores futuros de datos de series de tiempo. Una serie de tiempo consiste de un conjunto secuencial de datos numéricos tomados en intervalos de tiempo equiespaciados, usualmente sobre un periodo de tiempo o espacio. Los modelos disponibles para pronosticar valores futuros incluyen: medias móviles, caminata aleatoria, varios tipos de suavizadores exponenciales, modelos de tendencias, y modelos paramétricos ARIMA. Estadísticas son calculadas para comparar el ajuste de hasta 5 modelos al mismo tiempo. Este procedimiento esta diseñado para usuarios que desean seleccionar su propio modelo. El procedimiento Pronósticos Automáticos ajusta varios modelos y automáticamente selecciona el mejor modelo de acuerdo a un criterio especificado por bondad-del-ajuste. Ejemplo StatFolio: tsforecast.sgp Datos del Ejemplo: El archivo golden gate.sf6 contiene volúmenes mensuales de trafico del Golden Gate Bridge en San Francisco para un periodo de n = 168 meses desde Enero, 1968 hasta Diciembre, 1981. La tabla de abajo muestra una lista parcial de los datos de este archivo: Month (Mes) Trafiic (Trafico) 1/68 73.637 2/68 77.136 3/68 81.481 4/68 84.127 5/68 84.562 6/68 91.959 7/68 94.174 8/68 96.087 9/68 88.952 10/68 83.479 11/68 80.814 12/68 77.466 1/69 75.225 Los datos fueron obtenidos de una publicación del Golden Gate Bridge. Como un ejercicio, los datos de los últimos dos años (1980 y 1981) no serán usados para estimar el modelo de pronóstico, pero serán utilizados para validación estadística. © 2006 por StatPoint, Inc. Pronósticos - 1

Transcript of Time Series – Descriptive Methods - STATGRAPHICS

Page 1: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Pronósticos Resumen El procedimiento Pronósticos esta diseñado para pronosticar valores futuros de datos de series de tiempo. Una serie de tiempo consiste de un conjunto secuencial de datos numéricos tomados en intervalos de tiempo equiespaciados, usualmente sobre un periodo de tiempo o espacio. Los modelos disponibles para pronosticar valores futuros incluyen: medias móviles, caminata aleatoria, varios tipos de suavizadores exponenciales, modelos de tendencias, y modelos paramétricos ARIMA. Estadísticas son calculadas para comparar el ajuste de hasta 5 modelos al mismo tiempo. Este procedimiento esta diseñado para usuarios que desean seleccionar su propio modelo. El procedimiento Pronósticos Automáticos ajusta varios modelos y automáticamente selecciona el mejor modelo de acuerdo a un criterio especificado por bondad-del-ajuste. Ejemplo StatFolio: tsforecast.sgp Datos del Ejemplo: El archivo golden gate.sf6 contiene volúmenes mensuales de trafico del Golden Gate Bridge en San Francisco para un periodo de n = 168 meses desde Enero, 1968 hasta Diciembre, 1981. La tabla de abajo muestra una lista parcial de los datos de este archivo:

Month (Mes)

Trafiic (Trafico)

1/68 73.637 2/68 77.136 3/68 81.481 4/68 84.127 5/68 84.562 6/68 91.959 7/68 94.174 8/68 96.087 9/68 88.952 10/68 83.479 11/68 80.814 12/68 77.466 1/69 75.225 … …

Los datos fueron obtenidos de una publicación del Golden Gate Bridge. Como un ejercicio, los datos de los últimos dos años (1980 y 1981) no serán usados para estimar el modelo de pronóstico, pero serán utilizados para validación estadística.

© 2006 por StatPoint, Inc. Pronósticos - 1

Page 2: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Entrada de Datos La caja de dialogo para la entrada de datos solicita el nombre de la columna que contienen los datos de la serie de tiempo:

• Datos: Contiene la columna numérica con n observaciones numéricas igualmente

espaciadas. • Intervalo de Muestreo: Define el intervalo entre observaciones sucesivas. Por

ejemplo, los datos del Golden Gate Bridge fueron recolectados una vez cada mes, empezando en Enero, 1968.

• Estacionalidad: La longitud de la estacionalidad es s, si la hay. Los datos son

estaciónales si existen un patrón que se repite en un periodo fijo. Por ejemplo, los datos mensuales como el trafico sobre Golden Gate Bridge tienen una estacionalidad de s = 12. Los datos de horas que se repiten cada día tienen una estacionalidad de s = 24. Si no se ingresa nada, se asume que los datos tienen estacionalidad (s=1).

• Ajuste de los Días: Una variable numérica con n observaciones es utilizada para

normalizar las observaciones originales, por ejemplo el número de días trabajados en

© 2006 por StatPoint, Inc. Pronósticos - 2

Page 3: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

un mes. Las observaciones en la columna Datos pueden ser divididos por estos valores antes de dibujar un grafico o calcular un análisis. Debe haber suficientes entradas en esta columna para cubrir tanto los datos observados como el número de periodos en los cuales se solicitan los pronósticos.

• Selección: La selección de un conjunto en los datos. • Numero de Pronósticos: Número de periodos que continúan al final de los datos

para los cuales se desean los pronósticos. • Retención para Validación: Número de periodos m al final de la serie con

propósitos de retención para la validación. Los datos en estos periodos no pueden utilizarse para estimar el modelo de pronósticos. Sin embargo, se calculan estadísticas que describen que tan bueno es el modelo estimado para poder pronosticar estas observaciones.

En el ejemplo actual, los datos de trafico son mensuales empezando en Enero, 1968, y se tiene una estacionalidad de s = 12. Un m = 24 observaciones al final de la serie de tiempo con propósitos de retención para la validación, mientras los pronósticos pueden generarse de los siguientes 36 meses.

Opciones del Análisis El procedimiento Pronósticos es controlado por la caja de dialogo Opciones del Análisis:

© 2006 por StatPoint, Inc. Pronósticos - 3

Page 4: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

• Modelo: El modelo para el cual las otras configuraciones sobre la caja de dialogo

aplican. Hasta cinco modelos de pronósticos pueden ser considerados al mismo tiempo, etiquetados A, B, C, D, y E.

• Transformar: Antes de ajustar un modelo, los datos pueden ser transformados

usando cualquiera de las operaciones indicadas. Con la excepción de la transformación Box-Cox, las selecciones son auto-exploratorias. La transformación Box-Cox es utilizada cuando es necesario transformar los datos a una normal. Para una discusión detallada, vea la documentación del procedimiento Transformaciones Box-Cox.

• Estacionalidad: Ajusta estacionalmente los datos usando el método indicado antes de

ajustar el modelo. Los ajustes de estacionalidad están diseñados para remover cualquier componente estacional de los datos. Los métodos usados son discutidos en la documentación del procedimiento Descomposición Estacional.

• Inflación: Ajusta los datos con una inflación usando la razón de inflación

especificada λ antes de ajustar el modelo. Si se aplica al principio del periodo, el ajuste es

© 2006 por StatPoint, Inc. Pronósticos - 4

Page 5: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

( ) )1( 01 +−+=′

ttt

ty

(1)

donde t0 es el índice de la primera observación. Si se aplica en la mitad del periodo, el ajuste es

)5.0( 0)1( +−+=′

ttt

ty

(2)

Nota: Las transformaciones son aplicadas a los datos antes de que el modelo de pronósticos sea estimado. Si más de una transformación es requerida, serán aplicadas en el siguiente orden:

1. Ajuste por días 2. Ajuste por inflación 3. Ajuste por transformación 4. Ajuste por estacionalidad

Después de que los pronósticos son generados, las transformaciones inversas pueden aplicarse a los pronósticos en orden inverso.

• Tipo: El tipo de modelo de pronósticos a estimar. Para una explicación de los

diferentes tipos de modelos, ver la discusión de abajo. • Parámetros y Términos: Las opciones para diferentes modelos de pronósticos.

o Alpha, beta, y gamma: Parámetros para los modelos de Suavizamiento Exponencial. Cada parámetro debe ser más mayor que 0 y menor que 1. El valor más pequeño de un parámetro, es la cantidad más grande de suavizamiento que será desarrollado.

o Orden: El numero de términos en el modelo de Medias Móviles.

o AR, MA, SAR, y SMA: El orden de varios componentes de los modelos

ARIMA, refiérase a p, q, P, y Q respectivamente en la discusión más adelante.

o Optimizar: Cuando los valores óptimos de los parámetros serán encontrados. Si se selecciona, los valores de los parámetros especificados son usados como valores iniciales para los procedimientos de búsqueda. Si no se selecciona, los valores introducidos serán usados en el modelo.

o Constante: Si un término constante deberá incluirse cuando se estima un

modelo Aleatorio Walk o ARIMA.

© 2006 por StatPoint, Inc. Pronósticos - 5

Page 6: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

• Diferenciación: El orden de diferenciación estacional o no estacional que serán aplicados cuando se ajuste los modelos ARIMA, llamados d y D en la discusión de abajo.

• Botón de Estimación: Despliega una caja de dialogo que controla el procedimiento

de la estimación no lineal utilizado cuando se optimizan los modelos ARIMA y de suavizamiento exponencial.

Criterio de Paro 1: El algoritmo asume que convergió cuando el cambio relativo en las sumas de cuadrados de los residuos de una iteración a otra es menor que este valor. Criterio de Paro 2: El algoritmo asume que convergió cuando el cambio relativo en todos los estimadores de los parámetros de una iteración a otra es menor que este valor. Máximo de Iteraciones: La estimación se detiene si la convergencia no es alcanzada en este número de iteraciones. Pronostico Hacia Atrás: Sirve para pronosticar valores antes del tiempo t = 1. Estos valores son usados para generar los valores iniciales los cuales son necesarios para generar pronósticos de valores pequeños de t. Para mas detalles, ver Box, Jenkins y Reinsel (1994).

• Botón de Regresión: Adiciona variables independientes adicionales al modelo de pronósticos cuando se estima un modelo de Tendencias o ARIMA. Típicamente tales variables son valores retrasados de indicadores principales.

© 2006 por StatPoint, Inc. Pronósticos - 6

Page 7: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Variables: Valores de las variables X que serán incluidos en el modelo. Si deseas incluir una columna X que retrasa a los datos por 3 filas es decir que el modelo incluye un termino Xt-3, ingresar LAG(X,3) en lugar de solo X.

Nota: Cualquier letra es seleccionada en el campo Modelo cuando la caja de dialogo es cerrada tomada del primer modelo. Este es el modelo usado para generar todas las tablas y graficas (excepto para el panel Comparación de Modelos, el cual compara a todos).

Modelos de Pronósticos Cada uno de los modelos de pronósticos toma una aproximación diferente para pronosticar valores futuros. En la discusión de abajo, la siguiente notación será usada:

Yt = valor observado en el tiempo t, t = 1, 2,…, n n = tamaño de muestra (numero de observaciones usadas para ajustar el modelo) Ft(k) = pronostico para el tiempo t+k hecho en el tiempo t et = errores del pronostico un paso adelante calculados por et = Yt - Ft-1(1) (3)

Dado que m observaciones del final de la serie han sido usadas para propósitos de validación, dos estadísticas importantes de validación son: RMSE = Raíz del cuadrado medio error sobre el periodo de validación, dado por

© 2006 por StatPoint, Inc. Pronósticos - 7

Page 8: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

m

eRMSE

m

iin∑

=+

= 1

2

(4)

MAPE = Porcentaje de la media del error absoluto sobre el periodo de validación, dado por

%/

100 1

m

YeMAPE

m

iitin∑

=++

= (5)

El RMSE estima la desviación estándar de los errores de pronósticos un paso adelante. El MAPE estima el porcentaje promedio del error de pronostico un paso adelante. Los valores pequeños de RMSE y MAPE son deseables. Modelo Aleatorio Walk El Modelo Aleatorio Walk es muy simple. Sin una constante, este utiliza el valor actual de la serie para pronosticar todos los valores futuros, i.e., Ft(k) = Yt para toda k ≥ 1 (6) Este modelo es frecuentemente usado para datos que no tienen una media fija y para los cuales la historia del modelo es irrelevante dado la posición actual. La serie de tiempo es igualmente parecida hacia delante que hacia atrás en cualquier punto del tiempo. Si una constante es incluida, entonces el pronostico es dado por

Δ+= ˆ)( kYkF tt (7)

donde estima el cambio promedio de un periodo al otro. La función de pronostico para tal modelo es una línea recta con pendiente igual a

Δ̂Δ̂ .

Para los datos del ejemplo, el modelo aleatorio de walk podría ser usado incluyendo la constante y la serie de tiempo es primeramente ajustada periódicamente. Los resultados son mostrados enseguida: Modelo Constante Aj. Estacional Validación RMSE Validación MAPE AleatorioWalk Si Multiplicativo 1.65 1.46%

© 2006 por StatPoint, Inc. Pronósticos - 8

Page 9: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Gráfica de Secuencia en Tiempo para TrafficCaminata aleatoria con drift = 0.114193

1/68 1/72 1/76 1/80 1/84 1/8873

93

113

133

153Tr

affic

actualpronósticoLímites del 95.0%

La tabla muestra:

1. Datos Observados: Mostrados usando puntos símbolos. 2. Pronósticos un paso adelante: Mostrados como una línea sólida que pasa a través

de los datos. 3. Pronósticos para valores futuros: La extensión de los pronósticos pasados al final

de los datos. 4. Limites de predicción al 95%: Los limites rojos alrededor de los pronósticos.

Observe que los límites de predicción anchos, son típicos de un modelo aleatorio walk. Modelos de Tendencia La Media, Tendencia Lineal, Tendencia Cuadrática, Tendencia Exponencial, y Modelos S-Curva todos estiman varios tipos de modelos de regresión a los datos, usando tiempo como la variable independiente. Los modelos son ajustados por mínimos cuadrados, resultando estimadores de hasta 3 coeficientes a, b, y c. Los pronósticos de los modelos son como sigue:

Modelo Media: YkFt =)( (8) donde Y es el promedio de los datos hasta el tiempo t.

Tendencia Lineal: (9) )(ˆˆ)( ktbakFt ++= Tendencia Cuadrática: (10) 2)(ˆ)(ˆˆ)( ktcktbakFt ++++= Tendencia Exponencial: ( ))(ˆˆexp)( ktbakFt ++= (11)

© 2006 por StatPoint, Inc. Pronósticos - 9

Page 10: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

S-Curva: ( ))/(ˆˆexp)( ktbakFt ++= (12) Puesto que ponderan todos los datos igualmente, los modelos de regresión no son frecuentemente los mejores métodos para pronosticar series de tiempo. Para los datos del ejemplo, el mejor modelo de tendencia ajustado es la Tendencia Cuadrática, estimada después de ajustar la estacionalidad. Modelo Aj. Estacional Validación RMSE Validación MAPE Tendencia Cuadrática

Multiplicativo 1.58 1.42%

Gráfica de Secuencia en Tiempo para TrafficTendencia cuadrática = 41.5321 + 0.269169 t + -0.000306429 t 2̂

1/68 1/72 1/76 1/80 1/84 1/8873

83

93

103

113

123

Traf

fic

actualpronósticoLímites del 95.0%

Medias Móviles El modelo de Medias Móviles usa el promedio de las más recientes c observaciones para pronosticar los valores futuros. Los pronósticos son dados por:

c

YkF

c

iit

t

∑−

=−

=

1

0)( para toda k ≥ 1 (13)

Tal modelo puede modelar series que se mueven hacia arriba y abajo, pero tienden retrasar atrás de la serie actual. Experimentando con varias ordenes de medias móviles, se encontró que c = 2 encuentra el mejor ajuste para los datos de trafico durante el periodo de validación. Modelo Orden Aj. Estacional Validación RMSE Validación MAPE Medias Móviles 2 Multiplicativo 1.44 1.27%

© 2006 por StatPoint, Inc. Pronósticos - 10

Page 11: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Gráfica de Secuencia en Tiempo para TrafficPromedio móvil simple de 2 términos

1/68 1/72 1/76 1/80 1/84 1/8873

83

93

103

113

123Tr

affic

actualpronósticoLímites del 95.0%

Observe que la función de pronósticos no tiene tendencia, lo cual es intuitivo dado el comportamiento observado. Sin embargo, el pronóstico un mes adelante parece ser muy bueno. Suavizamiento Exponencial Los modelos Suavizamiento Exponencial Simple, Suavizamiento Exponencial Lineal de Brown, y Suavizamiento Exponencial Cuadrático estiman tendencias similares a los modelos de Tendencias Media, Lineal, y Cuadrática, respectivamente. Sin embargo, estos lo hacen ponderando las observaciones recientes más pesadamente que las que están más allá en el pasado. Para generar los pronósticos, hasta tres pasos de un suavizamiento exponencial son hechos: 1)1( −′−+=′ ttt SYS αα (14)

1)1( −′′−+′=′′ ttt SSS αα (15)

1)1( −′′′−+′′=′′′ ttt SSS α (16) Los valores iniciales en el tiempo t = 0 son determinados por pronósticos hacia atrás (a menos de que se suprima usando el botón Estimación en la caja de dialogo Opciones del Análisis), lo cual primero suaviza la serie hacia atrás y después usa el pronostico hacia atrás para inicializar el suavizamiento hacia adelante. Los pronósticos son generados de Suavizamiento Simple: tt SkF ′=)( (17)

© 2006 por StatPoint, Inc. Pronósticos - 11

Page 12: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Suavizamiento Lineal: ( ttttt SSkSSkF ′′−′−

+′′−′=α

)α1

2)( (18)

Suavizamiento Cuadrático:

Ft(k)=( )

( )ttt

tttttt

SSSk

SSSkSSS

′′′+′′−′−

+

′′′−+′′−−′−−

+′′+′′−′

2)1(2

)34()810()56()1(2

33

2

22

2

αα

αααα

α

(19)

El Suavizamiento Exponencial Cuadrático produce los mejores resultados de los tres procedimientos durante el periodo de validación cuando se pronostica un paso adelante. Sin embargo, la extrapolación de una tendencia cuadrática en el futuro siempre es problemática, como puede verse en la grafica anterior.

Modelo Alfa

(Optimizado)Aj. Estacional Validación

RMSE Validación MAPE

Suavizamiento Exp. Cuadrático

0.2211 Multiplicativo 1.55 1.31%

Gráfica de Secuencia en Tiempo para TrafficSuavización exp. cuadrática de Brown con alfa = 0.2211

1/68 1/72 1/76 1/80 1/84 1/880

20

40

60

80

100

120

Traf

fic

actualpronósticoLímites del 95.0%

Este ejemplo ilustra varios hechos importantes:

1. Es importante ver en los resultados cuando un modelo de pronóstico es ajustado adecuadamente a los datos.

2. Los modelos que son buenos para pronósticos en corto plazo no pueden

pronosticar bien los valores futuros muy lejanos.

© 2006 por StatPoint, Inc. Pronósticos - 12

Page 13: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

3. Los modelos que involucran polinomios de orden 2 o mayor pueden comportarse

erráticamente. Suavizamiento Exponencial Lineal de Holt El Suavizamiento Exponencial Lineal de Holt es similar al Suavizamiento Exponencial de Brown en que genera pronósticos que siguen una tendencia lineal. Aunque, el procedimiento de Holt usa dos constantes de suavizamiento, α y β, uno para estimar el nivel de la serie en el tiempo t y la segunda para estimar la pendiente. El procedimiento es como sigue:

1. Suavizar los datos para estimar el nivel usando

( )11)1( −− +−+= tttt TSYS αα (20)

2. Suavizar el primer suavizador para estimar la pendiente usando

( ) 11 )1( −− −+−= tttt TSST ββ (21) 3. Calcular el pronóstico usando

ttt kTSkF +=)( (22) Lo siguiente muestra los resultados de optimizar el suavizador de Holt después de ajustar la estacionalidad: Modelo Alfa

(optimizado) Beta (optimizado)

Aj. Estacional Validación RMSE

Validación MAPE

Suavizamiento Exponencial Lineal de Holt

0.6843 0.0152 Multiplicativo 1.48 1.32

© 2006 por StatPoint, Inc. Pronósticos - 13

Page 14: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Gráfica de Secuencia en Tiempo para TrafficSuavización exp. De Holt con alfa = 0.6843 y beta = 0.0152

1/68 1/72 1/76 1/80 1/84 1/8873

93

113

133

153Tr

affic

actualpronósticoLímites del 95.0%

Los resultados parecen bastantes razonables. Suavizamiento Exponencial de Winter Todos los métodos de pronósticos descritos anteriormente manejan la estacionalidad primero ajustando estacionalmente los datos, después aplicando el modelo de pronóstico, y por último regresando la estacionalidad. El procedimiento Suavizamiento Exponencial de Winter maneja la estacionalidad directamente al mismo tiempo que estima el nivel y la tendencia. Esto extiende el procedimiento de Holt adhiriendo un parámetro adicional γ para usar un tercer suavizador. El procedimiento es como sigue:

1. Estimar la estacionalidad suavizando la razón de los datos al nivel estimado en el tiempo t usando:

stt

tt I

SY

I −−+= )1( γγ (23)

donde s es el tamaño de la estacionalidad.

2. Estimar el nivel de la serie suavizando los datos divididos por la estacionalidad

estimada usando

( 11)1( −−−

+−+= ttst

tt TS

IY

S αα ) (24)

3. Estimar la pendiente de la serie usando

( ) 11 )1( −− −+−= tttt TSST ββ (25)

© 2006 por StatPoint, Inc. Pronósticos - 14

Page 15: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

4. Calcular el pronostico usando

( ) mstttt IkTSkF +−+=)( (26) Lo siguiente muestra los resultados de optimizar el suavizamiento de Winter: Modelo Alfa

(optimizado) Beta (optimizado)

Gama (optimizado)

Validación RMSE

Validación MAPE

Suavizamiento Exponencial de Winter

0.5162 0.0180 0.4993 1.81 1.57%

Gráfica de Secuencia en Tiempo para TrafficSuavización exp. de Winter con alfa = 0.5162, beta = 0.018, gama = 0.4993

1/68 1/72 1/76 1/80 1/84 1/8873

93

113

133

153

Traf

fic

actualpronósticoLímites del 95.0%

Su desarrollo con los datos del tráfico no es muy bueno como los otros métodos. También los estimadores son mas difíciles de estimar numéricamente y pueden variar bastante dependiendo de los valores iniciales del procedimiento de búsqueda. Modelos ARIMA La opción final de los modelos de pronósticos, los modelos ARIMA, son los mas generales e incluyen muchos de los otros modelos como casos particulares. Los modelos ARIMA (es un acrónimo de “AutoRegressive, Integrated, Moving Average”), expresan la observación en el tiempo t como una función lineal de las observaciones previas, un termino del error actual, y una combinación lineal de los términos del error previo. La forma general del modelo es mas fácilmente expresada en términos del operador de rezago B, el cual opera en el índice del tiempo de un dato tal como BjYt = Yt-j. Usando este operador, el modelo toma la forma

( )( ) tDsdPsssp ZBBBBBBBB )1()1(...1...1 22 −−−−−−−−−−

( )( ) t

Qsssq aBBBBBB −−−−−−−−= ...1...1 22 (27)

© 2006 por StatPoint, Inc. Pronósticos - 15

Page 16: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

donde

μ−= tt YZ (28) y at es un error aleatorio o choque del sistema en el tiempo t, usualmente asumido normal con media 0 y desviación estándar σa. Para una serie estacionaria, μ representa la media del proceso. En caso contrario, esta relacionada a la pendiente de la función de pronóstico, μ es algunas veces asumida igual a 0. El modelo anterior es frecuentemente representado como ARIMA(p,d,q)x(P,D,Q)s Esto consiste de varios términos:

1. Un término auto-regresivo no estacional de orden p. 2. Diferenciación no estacional de orden d. 3. Un término de media móvil no estacional de orden q. 4. Un termino auto-regresivo estacional de orden P 5. Diferenciación estacional de orden D. 6. Un término de media móvil estacional de orden Q.

Mientras que el modelo general luce formidable, los modelos mas comúnmente usados son casos relativamente simples especiales. Estos incluyen: AR(1) – Auto-regresivo de orden 1 La observación en el tiempo t es expresada como una media más un múltiplo de la desviación de la media en el periodo de tiempo previo más un error aleatorio:

( ) ttt aYY +−+= − μφμ 11 (29)

AR(2) – Auto-regresivo de orden 2 La observación en el tiempo t es expresada como una media más un múltiplo de la media en dos periodos previos más un error aleatorio:

( ) ( ) tttt aYYY +−+−+= −− μφμφμ 2211 (30)

MA(1) – Media móvil de orden 1 La observación en el tiempo t es expresada como una media más un error aleatorio en el periodo de tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo previo:

11 −−+= ttt aaY θμ (31)

© 2006 por StatPoint, Inc. Pronósticos - 16

Page 17: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

MA(2) – Media móvil de orden 2 La observación en el tiempo t es expresada como una media más un error aleatorio en el periodo de tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de tiempo previos:

2211 −− −−+= tttt aaaY θθμ (32)

ARMA(1,1) – Modelo mixto con dos términos de primer orden La observación en el tiempo t es expresada como una media más un múltiplo de la desviación media en el periodo de tiempo previo más un error aleatorio en el periodo de tiempo actual más un múltiplo del error aleatorio en el periodo de tiempo previo:

( ) 1111 −− −+−+= tttt aaYY θμφμ (33)

ARIMA(0,1,1) – Media móvil de orden 1 aplicada a la primer diferencia La diferencia entre el periodo actual y el previo es expresada como un error aleatorio del periodo actual más un múltiplo del error aleatorio en el periodo de tiempo previo:

111 −− −=− tttt aaYY θ (34) Esto modelo es equivalente al modelo de Suavizamiento Exponencial Simple. ARIMA(0,2,2) – Media móvil de orden 2 aplicada a la segunda diferencia La diferencia de las diferencias es expresada como un error aleatorio en el periodo de tiempo actual más múltiplos de los errores aleatorios en los 2 periodos de tiempo previos:

( ) ( ) 2211211 −−−−− −−=−−− ttttttt aaaYYYY θθ (35) Este modelo es equivalente al modelo de Suavizamiento Exponencial Lineal de Holt. ARIMA(0,1,1)x(0,1,1)s –MA términos de orden 1 estaciónales y no estaciónales La observación en el tiempo t es expresada como una combinación de la observación en estacionalidad más la diferencia entre la observación del ultimo periodo y su contraparte estacional mas un múltiplo de error de este periodo, el ultimo periodo y dos periodos uno estacional:

11111111 −−−−−−−− Θ+Θ−−+−+= ststttsttstt aaaaYYYY θθ (36) Muchas series de tiempo económicas con un componente estacional pueden representarse con este modelo. Este modelo también representa muy bien a los datos del tráfico Golden Gate Bridge:

© 2006 por StatPoint, Inc. Pronósticos - 17

Page 18: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Modelo MA(1) SMA(1) Validación

RMSE Validación MAPE

ARIMA 0.2273 0.8568 1.47 1.27%

Gráfica de Secuencia en Tiempo para TrafficARIMA(0,1,1)x(0,1,1)12

1/68 1/72 1/76 1/80 1/84 1/8873

83

93

103

113

123

133

Traf

fic

actualpronósticoLímites del 95.0%

Intuitivamente, el modelo expresa la diferencia del trafico en este mes comparado con el mismo mes del ultimo año como si fuera igual a la diferencia observada en el ultimo mes, mas una combinación de ruido observada del ultimo mes, del ultimo año y hace 13 meses. La referencia clásica para construir modelos ARIMA es Box, Jenkins y Reinsel (1994).

© 2006 por StatPoint, Inc. Pronósticos - 18

Page 19: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Resumen del Análisis Los resultados para ajustar un modelo de pronósticos son mostrados en Resumen del Análisis. Como ejemplo, la tabla siguiente muestra los resultados de ajustar el modelo ARIMA(0,1,1)x(0,1,1)12 a los datos de trafico del puente Golden Gate: Pronósticos - Traffic Datos/Variable: Traffic (Golden Gate Bridge Traffic Volume) Número de observaciones = 168 Indice Inicial = 1/68 Intervalo de Muestra = 1.0 mes(es) Longitud de la estacionalidad = 12 Resumen de Pronósticos Diferenciación no estacional de orden: 1 Diferenciación estacional de orden: 1 Modelo de pronóstico seleccionado: ARIMA(0,1,1)x(0,1,1)12 Número de pronósticos generados: 36 Número de periodos retenidos para validación: 24 Periodo de Periodo de Estadístico Estimación Validación RMSE 2.1868 1.46574 MAE 1.38616 1.23025 MAPE 1.52679 1.26567 ME -0.0410165 -0.000900154 MPE -0.080606 -0.0111287

Resumen de Modelo ARIMA Parámetro Estimado Error Estd. t Valor-P MA(1) 0.277336 0.0843672 3.28724 0.001255 SMA(1) 0.85681 0.0283923 30.1776 0.000000

Pronóstico Histórico: sí Varianza estimada de ruido blanco = 4.93026 con 153 grados de libertad Desviación estándar estimada de ruido blanco = 2.22042 Número de iteraciones: 6

Hay varias secciones importantes en esta salida: • Resumen de los Datos: La sección superior resume los datos de entrada y el tamaño

de la estacionalidad s, si la hay. • Resumen del Pronóstico: Indica cualquier transformación que fue hecha a los datos,

como tan bien el tipo de modelo que fue ajustado. El numero de periodos m que fueron usados para propósitos de validación también son mostrados.

• Tabla de Estadísticas: Muestra las estadísticas calculadas del error un paso adelante

durante los periodos de estimación y validación. Además la raíz del cuadrado medio del error (RMSE) y el porcentaje de la media de error absoluto (MAPE) descrito anteriormente, el programa también despliega la medio del error absoluto (MAE), la media del error (ME), y el porcentaje medio del error (MPE). Idealmente, RMSE,

© 2006 por StatPoint, Inc. Pronósticos - 19

Page 20: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

MAE, y MAPE deben ser pequeños, ya que miden la variabilidad de los errores del pronóstico. ME y MPE deben acercarse a 0 si el pronostico no esta sesgado.

• Resumen del Modelo ARIMA – Despliega estadísticas para los coeficientes del

modelo ARIMA estimado. Una tabla similar será desplegada cuando los modelos de tendencias son ajustados usando regresión de mínimos cuadrados. Es de interés:

o Estimación: Los coeficientes estimados.

o Error Est.: El error estándar de los coeficientes.

o Valor t: El valor de un estadístico t calculado dividiendo el coeficiente estimado

entre su error estándar.

o Valor-P: El valor-P de los dos lados calculado de la distribución t de Student con los grados de libertad indicados debajo de la tabla. Los valores P pequeños (menores que 0.05 si opera a un nivel de confianza del 95%) corresponden a coeficientes estadísticamente significativos. Si cualquier Valor-P es mayor que 0.05, se debe considerar reducir la complejidad del modelo.

o Estimación Desviación Estándar del Ruido Blanco: Para estimar la desviación

estándar del ruido blanco aσ̂ que es acumulada por el modelo.

o Numero de Iteraciones: El numero de iteraciones usadas por el procedimiento de estimación no lineal.

En el ejemplo, el modelo ARIMA estimado tiene 2 parámetros, ambos son estadísticamente significativos. El ME y MPE son cercanos a 0 en la estimación y en la validación, indicando poco sesgo sobre el pronostico un paso adelante. Examinando el RMSE, MAE, y MAPE, el modelo no parece ser peor (y posiblemente mejor) durante el periodo de validación que en el periodo de estimación.

Gráfico Secuencial del Tiempo El Gráfico Secuencial del Tiempo despliega los datos, los pronósticos y los límites de pronóstico:

© 2006 por StatPoint, Inc. Pronósticos - 20

Page 21: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Gráfica de Secuencia en Tiempo para TrafficARIMA(0,1,1)x(0,1,1)12

1/68 1/72 1/76 1/80 1/84 1/8873

83

93

103

113

123

133Tr

affic

actualpronósticoLímites del 95.0%

El grafico muestra:

1. Los datos observados Yt, incluyendo algunos remplazaos para datos perdidos, mostrados como puntos símbolos.

2. El pronostico un paso adelante Ft(1), grafica una línea sólida a través de los

puntos. Esta es creada usando el modelo estimado, pronosticando cada periodo de tiempo t+1 usando solo la información disponible hasta el tiempo t. Los errores del pronostico un paso adelante et son observables como la distancia vertical entre las observaciones y la línea sólida.

3. Los pronósticos para valores futuros Fn+m(k) hechos en el tiempo t = n+m, para el

ultimo tiempo en el cual los datos son disponibles. Estos son mostrados por la extensión de la línea de pronósticos sólida más allá de la última observación.

4. Los limites de probabilidad para los pronósticos en el nivel 100(1-α)% de

confianza, son calculados asumiendo que el ruido en el sistema sigue una distribución normal. Los limites están dados por

)(ˆ)( 2/ kVzkF mn α±+ (37)

donde es igual a la varianza estimada del pronostico k periodos antes del final de los datos. La formula para la varianza depende del modelo usado, conforme a la sección Cálculos. Se deberá notar que los límites son solamente validos si varias suposiciones se cumplen, incluyendo:

)(ˆ kV

a. El modelo apropiado ha sido seleccionado. b. El modelo seleccionado fue valido para todo el historial de los

datos.

© 2006 por StatPoint, Inc. Pronósticos - 21

Page 22: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

c. El modelo seleccionado continua siendo valido en el futuro. d. Los errores del sistema siguen una distribución normal. e. El modelo ha sido estimado de una serie suficientemente larga tal

que el error de estimación del modelo es pequeño comparado con la variabilidad del termino error (excepto para modelos estimados por regresión lineal los cuales incluyen el error de estimación del modelo).

En la practica, los límites se deben considerar como una aproximación de hasta dónde la serie de tiempo puede variar los valores pronosticados en el futuro.

El patrón pronosticado para el tráfico del Puente Golden Gate tiene una tendencia ascendente con una fuerte oscilación estacional. Aunque los límites de pronósticos pueden parecer bastante amplios, se debe permitir la posibilidad de eventos dramáticos tales como los que fueron observados un par de veces en el pasado. Opciones del Panel

• Nivel de Confianza: El porcentaje usado para los limites de probabilidad.

© 2006 por StatPoint, Inc. Pronósticos - 22

Page 23: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Tabla de Pronósticos La Tabla de Pronósticos despliega los pronósticos para el histórico y el futuro. Una porción de la salida se muestra abajo:

Tabla de Pronósticos para Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 V = Retenido para validación Periodo Datos Pronóstico Residuo 1/68 73.637 8/81 109.385 110.652 -1.26658 V 9/81 103.266 104.117 -0.850957 V 10/81 99.432 99.1015 0.330487 V 11/81 93.965 96.5951 -2.63007 V

Inferior 95.0% Superior 95.0% Periodo Pronóstico (Límite) (Límite) 1/82 90.5668 86.1802 94.9535 2/82 93.3945 87.9823 98.8067 3/82 96.3379 90.0656 102.61 4/82 98.8411 91.8132 105.869 5/82 99.3509 91.6412 107.061

La sección superior de la salida muestra:

• Periodo: El periodo de tiempo t correspondiente a cada observación histórica. • Datos: Los valores observados Yt, incluyendo reemplazos por valores perdidos. • Pronóstico: El pronostico para el tiempo t usando toda la información disponible

hasta el tiempo t-1. • Residuos: El error del pronostico un paso adelante et, es calculado sustrayendo el

pronostico del valor observado.

• V: Indica que la observación correspondiente no fue usada para ajustar el modelo pero en lugar de eso fue incluida para la validación.

La sección inferior de la salida muestra:

• Periodo: El periodo de tiempo t correspondiente a periodos mas allá del final de los datos observados.

• Pronóstico: El pronostico Fn+m(k) para el tiempo t usando toda la información

disponible . • Limites: Limites de probabilidad para los pronósticos.

© 2006 por StatPoint, Inc. Pronósticos - 23

Page 24: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Por ejemplo, el tráfico pronosticado en el puente Golden Gate en junio de 1982, fue hecho al final de 1981, con 104.8. El límite al 95% es de 96.5 hasta 113.2.

Gráfico del Pronóstico El Gráfico del Pronostico muestra las últimas observaciones, los pronósticos y los limites de pronósticos:

Gráfica de Pronósticos para TrafficARIMA(0,1,1)x(0,1,1)12

12/81 12/82 12/83 12/84 12/8574

84

94

104

114

124

134

Traf

fic

actualpronósticoLímites del 95.0%

Es similar al Gráfico Secuencial del Tiempo, excepto que proporciona una vista más cercana sobre los pronósticos.

© 2006 por StatPoint, Inc. Pronósticos - 24

Page 25: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Comparación de Modelos El panel Comparación de Modelos despliega estadísticas que comparan cada uno de los modelos seleccionados en la caja de dialogo Opciones del Análisis.

Comparación de Modelos Variable de datos: Traffic Número de observaciones = 168 Indice Inicial = 1/68 Intervalo de Muestra = 1.0 mes(es) Longitud de la estacionalidad = 12 Número de periodos retenidos para validación: 24 Modelos (A) ARIMA(0,1,1)x(0,1,1)12 (B) Suavización exp. de Winter con alfa = 0.5167, beta = 0.0209, gama = 0.4997 Periodo de Estimación Modelo RMSE MAE MAPE ME MPE (A) 2.1868 1.38616 1.52679 -0.0410165 -0.080606 (B) 2.40367 1.55478 1.70574 -0.272691 -0.312487

Modelo RMSE RUNS RUNM AUTO MEDIA VAR (A) 2.1868 OK OK OK OK *** (B) 2.40367 OK OK OK OK ***

Periodo de Validación Modelo RMSE MAE MAPE ME MPE (A) 1.46574 1.23025 1.26567 -0.000900154 -0.0111287 (B) 1.81155 1.56671 1.57305 -0.0889473 -0.0567873

Clave: RMSE = Root Mean Squared Error (Raíz del Cuadrado Medio del Error) RUNS = Prueba corridas excesivas arriba y abajo RUNM = Prueba corridas excesivas arriba y abajo de la mediana AUTO = Prueba de Box-Pierce para autocorrelación excesiva MEDIA = Test for difference in mean 1st half to 2nd half VAR = Prueba para diferencia en varianza entre la 1ª mitad y la 2ª mitad OK = no significativo (p >= 0.05) * = marginalmente significativo (0.01 < p <= 0.05) ** = significativo (0.001 < p <= 0.01) *** = altamente significativo (p <= 0.001)

Las tablas etiquetadas Periodo de Estimación y Periodo de Validación despliegan estadísticas calculadas de los errores de pronósticos un paso adelante et en sus periodos respectivos:

RMSE: Raíz del cuadrado medio del error. MAE: La media del error absoluto. MAPE: El porcentaje de la media del error absoluto. ME: La media del error. MPE: El porcentaje de la media del error.

© 2006 por StatPoint, Inc. Pronósticos - 25

Page 26: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Los mejores modelos tienen RMSE, MAE y MAPE más pequeños, los cuales miden la varianza de los errores del pronóstico. ME y MPE son medidas del sesgo y deberán ser cercanos a 0. Para el periodo de estimación solamente, varias pruebas son aplicadas a los errores de pronósticos para determinar si el modelo toma en cuenta toda la estructura en los datos. Estas pruebas son diseñadas para determinar si los residuos forman una serie aleatoria (“ruido blanco”) y son descritas en la documentación Métodos Descriptivos de Series Tiempo – Estas incluyen:

RUNS: Prueba basada sobre el número de corridas arriba y abajo. RUNM: Prueba basada sobre el número de corridas por encima y por debajo de la mediana. AUTO: Prueba chi-cuadrada basada en los primeras k auto-correlaciones de los residuos, donde k es fijado en Opciones del Panel en la tabla que despliega las auto-correlaciones de los residuos. MEAN: Prueba t que compara la medias de los residuos en la primera y segunda mitad de los datos. VAR: Prueba F que compara la varianza de los residuos en dos mitades.

Si la entrada para una prueba particular es OK, entonces la prueba no es estadísticamente significativa a un nivel del 95% de confianza y la suposición de residuos aleatorios no será rechazada. En caso contrario, el numero de estrellas (*) indican el nivel de significancia sobre el cual la suposición de residuos aleatorios será rechazada. Ambos modelos estimados a los datos del tráfico pasan todas las pruebas excepto la que compara las dos varianzas. La última prueba es altamente significativa. Esto se observara cuando los residuos sean examinados, esta falla es debido a la presencia de tres grandes residuos durante la segunda mitad del periodo de estimación.

Gráficos de Residuos El Gráfico de Residuos despliega el error un paso adelante et de varias maneras. Por defecto la grafica muestra los residuos en orden secuencial:

© 2006 por StatPoint, Inc. Pronósticos - 26

Page 27: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Gráfica de Residuos para ajustada TrafficARIMA(0,1,1)x(0,1,1)12

1/68 1/71 1/74 1/77 1/80 1/83-12

-8

-4

0

4

8

Res

iduo

Observe que los tres más grandes picos ocurren entre marzo y abril de 1974 y mayo de 1979. El tráfico en esos meses cambia mucho de lo normal. Usando Opciones del Panel, un gráfico de probabilidad de residuos puede ser desplegado:

Gráfica de Probabilidad Normal para ResiduosARIMA(0,1,1)x(0,1,1)12

-12 -8 -4 0 4 8Residuo

0.1

1

5

20

50

80

95

99

99.9

porc

enta

je

Si los residuos vienen de una distribución normal, deberían caer cerca de la línea recta. La grafica anterior muestra alguna curvatura en las colas, más 3 datos atípicos.

© 2006 por StatPoint, Inc. Pronósticos - 27

Page 28: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Opciones del Panel

Tres diferentes graficas pueden desplegarse:

1. Gráfico Secuencial del Tiempo – Grafica de residuos contra el tiempo. 2. Gráfico de Probabilidad (Horz.) – Grafica de probabilidad con los porcentajes

desplegados sobre el eje horizontal. 3. Gráfico de Probabilidad (Vert.) – Grafica de probabilidad con los porcentajes

desplegados sobre el eje vertical (como se mostró anteriormente).

Auto-correlaciones de Residuos Es usual también examinar las auto-correlaciones de los residuos. La auto-correlación de los residuos en un retraso k mide la fuerza de la correlación entre residuos de k periodos distantes. La auto-correlación de los residuos un retraso k es calculada de

( )( )

( )∑

=

=+

−−= n

tt

kn

tktt

k

ee

eeeer

1

2

1 (38)

Si el modelo describe toda la estructura dinámica de la serie de tiempo, entonces los residuos deberán ser aleatorios y sus auto-correlaciones insignificantes. El panel Auto-correlaciones de Residuos muestra las auto-correlaciones de los residuos junto con sus errores estándar y limites de probabilidad:

© 2006 por StatPoint, Inc. Pronósticos - 28

Page 29: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Autocorrelaciones Estimadas para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 Inferior 95.0% Superior 95.0% Retraso Autocorrelación Error Estd. Límite de Prob. PLímite de Prob. 1 0.020701 0.0803219 -0.157428 0.157428 2 -0.14092 0.0803563 -0.157496 0.157496 3 -0.0782807 0.0819352 -0.16059 0.16059 4 -0.0613474 0.0824163 -0.161533 0.161533 5 -0.0687687 0.0827104 -0.16211 0.16211 6 0.0266528 0.0830785 -0.162831 0.162831 7 0.0390244 0.0831336 -0.162939 0.162939 8 0.0182106 0.0832517 -0.163171 0.163171 9 -0.0183478 0.0832774 -0.163221 0.163221 10 -0.0917506 0.0833035 -0.163272 0.163272 11 0.040521 0.0839529 -0.164545 0.164545 12 -0.0970784 0.084079 -0.164792 0.164792 13 0.0550271 0.0847991 -0.166203 0.166203 14 -0.0223925 0.0850291 -0.166654 0.166654 15 0.0119691 0.0850672 -0.166729 0.166729 16 0.0101773 0.085078 -0.16675 0.16675 17 -0.00617232 0.0850859 -0.166766 0.166766 18 0.00450753 0.0850888 -0.166771 0.166771 19 0.0562645 0.0850903 -0.166774 0.166774 20 -0.00489781 0.08533 -0.167244 0.167244 21 -0.125667 0.0853318 -0.167248 0.167248 22 0.0167626 0.0865176 -0.169572 0.169572 23 0.0627018 0.0865385 -0.169613 0.169613 24 -0.059002 0.0868311 -0.170186 0.170186

Cualquier auto-correlación que cae fuera de los límites de probabilidad es estadísticamente significativa en el nivel indicado. El StatAdvisor resalta cualquiera de estas correlaciones en rojo. Opciones del Panel

• Numero de retrasos: El máximo retraso k para calcular la auto-correlación. • Nivel de Confianza: El valor de 100(1-α)% usado para calcular los limites de

probabilidad.

© 2006 por StatPoint, Inc. Pronósticos - 29

Page 30: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Función de Auto-correlación Residual La Función de Auto-correlación Residual despliega las auto-correlaciones de los residuos y los limites de probabilidad:

Autocorrelaciones Residuales para ajustada TrafficARIMA(0,1,1)x(0,1,1)12

0 5 10 15 20 25retraso

-1

-0.6

-0.2

0.2

0.6

1

Aut

ocor

rela

cion

es

Las barras que se extienden más allá de los límites corresponden a auto-correlaciones estadísticamente significativas. Para los datos del trafico, la única estimación que esta cercana a un limite de probabilidad es la estimación con k = 2. De hecho, una leve reducción leve de RMSE durante el periodo de estimación puede realizarse incrementando el orden con el termino no estacional MA de 1 a 2. Sin embargo, la realización del modelo durante el periodo de validación es peor que con el modelo actual, se seleccionara el modelo más simple.

Auto-correlaciones Residuales Parciales Si el modelo se ajusta bien, las auto-correlaciones parciales de los residuos deberán ser también insignificantes. El panel Auto-correlaciones Residuales Parciales despliega las auto-correlaciones parciales de los residuos junto con sus errores estándar de retraso y los limites de probabilidad:

© 2006 por StatPoint, Inc. Pronósticos - 30

Page 31: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Autocorrelaciones Parciales Estimadas para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 Parcial Inferior 95.0% Superior 95.0% Retraso Autocorrelación Error Estd. Límite de Prob. PLímite de Prob. 1 0.020701 0.0803219 -0.157428 0.157428 2 -0.141409 0.0803219 -0.157428 0.157428 3 -0.0735248 0.0803219 -0.157428 0.157428 4 -0.0805431 0.0803219 -0.157428 0.157428 5 -0.0916127 0.0803219 -0.157428 0.157428 6 0.000904756 0.0803219 -0.157428 0.157428 7 0.00389133 0.0803219 -0.157428 0.157428 8 0.004734 0.0803219 -0.157428 0.157428 9 -0.0212021 0.0803219 -0.157428 0.157428 10 -0.092355 0.0803219 -0.157428 0.157428 11 0.0442202 0.0803219 -0.157428 0.157428 12 -0.129774 0.0803219 -0.157428 0.157428 13 0.0568189 0.0803219 -0.157428 0.157428 14 -0.0730993 0.0803219 -0.157428 0.157428 15 0.00455603 0.0803219 -0.157428 0.157428 16 -0.00205713 0.0803219 -0.157428 0.157428 17 -0.0218083 0.0803219 -0.157428 0.157428 18 0.0148837 0.0803219 -0.157428 0.157428 19 0.0466933 0.0803219 -0.157428 0.157428 20 -0.0104909 0.0803219 -0.157428 0.157428 21 -0.10974 0.0803219 -0.157428 0.157428 22 0.0036704 0.0803219 -0.157428 0.157428 23 0.0558175 0.0803219 -0.157428 0.157428 24 -0.104699 0.0803219 -0.157428 0.157428

El StatAdvisor resaltara cualquier auto-correlación parcial significativa con rojo. Opciones del Panel

• Número de Retrasos: Máximo retraso para estimar la auto-correlación parcial. • Nivel de Confianza: Nivel usado para calcular los limites de probabilidad.

© 2006 por StatPoint, Inc. Pronósticos - 31

Page 32: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Función de Auto-correlación Parcial Residual La Función de Auto-correlación Parcial Residual grafica las auto-correlaciones parciales de los residuos y los limites de probabilidad:

Autocorrelaciones Residuales Parciales para ajustada TrafficARIMA(0,1,1)x(0,1,1)12

0 5 10 15 20 25retraso

-1

-0.6

-0.2

0.2

0.6

1

Aut

ocor

rela

cion

es P

arci

ales

Todos las auto-correlaciones deberán estar dentro de estos límites, como en la grafica anterior.

Tabla de Períodograma Residual También usual examinar los residuos sobre el dominio de frecuencia, considerando cuanta variabilidad existe en las diferentes frecuencias. Como se describe en la documentación Métodos Descriptivos en Series de Tiempo, el períodograma grafica la potencia en cada una de las frecuencias de Fourier. Si los residuos son aleatorios, deberán ser aproximadamente iguales en todas las frecuencias, lo cual es una serie de tiempo aleatoria llamada frecuentemente “ruido blanco”. El panel Tabla de Períodograma Residual despliega la siguiente tabla:

© 2006 por StatPoint, Inc. Pronósticos - 32

Page 33: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Periodograma para residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 Cumulative Integrated i Frequency Period Ordinate Sum Periodogram 0 0.0 5.15304E-32 5.15304E-32 7.71106E-35 1 0.00645161 155.0 0.377934 0.377934 0.000565545 2 0.0129032 77.5 7.63606 8.01399 0.0119922 3 0.0193548 51.6667 2.11531 10.1293 0.0151576 4 0.0258065 38.75 2.96824 13.0975 0.0195993 5 0.0322581 31.0 8.73905 21.8366 0.0326765 6 0.0387097 25.8333 1.13413 22.9707 0.0343736 7 0.0451613 22.1429 10.7466 33.7174 0.050455 8 0.0516129 19.375 4.51085 38.2282 0.0572051 9 0.0580645 17.2222 3.25441 41.4826 0.062075 10 0.0645161 15.5 20.2058 61.6884 0.0923111 11 0.0709677 14.0909 2.03049 63.7189 0.0953496 12 0.0774194 12.9167 5.83907 69.558 0.104087 13 0.083871 11.9231 6.57417 76.1321 0.113925 14 0.0903226 11.0714 0.310867 76.443 0.11439 15 0.0967742 10.3333 19.5081 95.9511 0.143582

La tabla incluye: • Frecuencia: La i-ésima frecuencia de Fourier fi = i/n. • Periodo: El periodo asociado con la frecuencia de Fourier , dado por 1/ fi. Esto es el

número de observaciones en un ciclo completo de esta frecuencia. • Ordenada: La ordenada del períodograma I(fi). • Suma Acumulada: La suma acumuladas de las ordenadas del períodograma en todas

las frecuencias hasta la i-ésima. • Períodograma Integrado: La suma acumulada dividida por la suma de las ordenadas

del períodograma en todas las frecuencias de Fourier. Esta columna representa la proporción de la potencia en la serie en o por debajo de la i-ésima frecuencia.

A diferencia del períodograma a la serie original del tráfico, no presenta grandes picos en una frecuencia de una vez cada 12 meses. Opciones del Panel

© 2006 por StatPoint, Inc. Pronósticos - 33

Page 34: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

• Remover media: Activar para restar la media de la serie de tiempo antes de calcular el períodograma.

• Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de

ahusamiento será aplicado antes de que el períodograma sea calculado. Siguiendo Bloomfield (2000), STATGRAPHICS usa un coseno de ahusamiento para las observaciones con ponderación baja a las cercanas en i = 1 y i = n. Esto es útil para corregir sesgo si las ordenadas del períodograma son suavizadas para crear un estimador de la función de densidad espectral subyacente.

Períodograma de Residuos El Períodograma de Residuos grafica las ordenadas del períodogramas de los residuos:

Periodograma Residual para ajustada TrafficARIMA(0,1,1)x(0,1,1)12

0 0.1 0.2 0.3 0.4 0.5frecuencia

0

10

20

30

40

Ord

enad

a

Si los residuos son aleatorios, no deberá haber picos notables. Permitiendo algún sesgo natural en la distribución de las ordenadas, la grafica anterior no muestra grandes picos. Opciones del Panel

© 2006 por StatPoint, Inc. Pronósticos - 34

Page 35: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

• Remover media: Activar para restar la media de la serie de tiempo antes de calcular el períodograma.

• Puntos: Si se selecciona, puntos símbolos que serán mostrados. • Líneas: Si se selecciona, las ordenadas serán conectadas por una línea. • Ahusamiento: Porcentaje de los datos al final de la serie a los cuales un dato de

ahusamiento será aplicado antes de que el períodograma sea calculado.

Períodograma Integrado de Residuos El Períodograma Integrado de Residuos despliega las sumas acumuladas de las ordenadas del períodograma de los residuos, divididas por la suma de las ordenadas sobre todas las frecuencias de Fourier:

Periodograma para Residuos

0 0.1 0.2 0.3 0.4 0.5frecuencia

0

0.2

0.4

0.6

0.8

1

Ord

enad

a

Una línea diagonal será incluida en el grafico, junto con límites de Kolmogorov-Smirnov al 95% y 99%. Si los residuos son aleatorios, el períodograma integrado debería caer entre de estos límites al 95% y 99%. Para los datos del tráfico, los residuos parecen ser ruido blanco.

© 2006 por StatPoint, Inc. Pronósticos - 35

Page 36: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Pruebas de Aleatoriedad El panel Pruebas de Aleatoriedad muestra resultados de pruebas para corridas adicionales para determinar si los residuales son o no puramente aleatorios:

Prueba de Aleatoriedad de residuos Variable de datos: Traffic Modelo: ARIMA(0,1,1)x(0,1,1)12 (1) Corridas arriba o abajo de la mediana Mediana = 0.092978 Número de corridas arriba o abajo de la mediana = 79 Número esperado de corridas = 78.0 Estadístico z para muestras grandes = 0.0808469 Valor-P = 0.935558 (2) Corridas arriba y abajo Número de corridas arriba y abajo = 99 Número esperado de corridas = 103.0 Estadístico z para muestras grandes = 0.670684 Valor-P = 0.50242 (3) Prueba Box-Pierce Prueba basada en las primeras 24 autocorrelaciones Estadístico de prueba para muestras grandes = 13.6096 Valor-P = 0.914755

Tres pruebas son realizadas:

1. Corridas por encima y por debajo de la mediana: Cuenta el número de veces que la serie va por arriba y por debajo de su mediana. Este número es comparado con el valor esperado para una serie aleatoria. Los valores P pequeños (menores que 0.05 si opera a un nivel de confianza del 95%) indican que los residuos no son puramente aleatorios.

2. Corridas arriba y abajo: Cuenta el número de veces que la serie sube o baja. Este

número es comparado con el valor esperado para una serie aleatoria. Los valores P pequeños indican que los residuos no son puramente aleatorios.

3. Prueba Box-Pierce: Construye un estadístico de prueba basada en las primeras k

auto-correlaciones de residuos, calculado por:

∑=

=k

iirnQ

1

2 (39)

Este estadístico es comparado en una distribución chi-cuadrada con k grados de libertad. Como con las otras dos pruebas, los valores P pequeños indican que los residuos no son puramente aleatorios.

Ya que los valores P para las tres pruebas están por encima de 0.05, no hay razón para dudar que los residuos sean ruido blanco.

© 2006 por StatPoint, Inc. Pronósticos - 36

Page 37: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Opciones del Panel

• Numero de Retrasos: Numero de retrasos k para incluirse en la prueba Box-Pierce.

Correlaciones Cruzadas de los Residuos El panel Correlaciones Cruzadas de los Residuos despliega correlaciones cruzadas entre residuos y una segunda serie, se especifica usando Opciones del Panel. Las correlaciones cruzadas entre una serie Y en el tiempo t y una segunda serie X en el tiempo t-k es denotada por cxy(k). Un uso típico de correlaciones cruzadas es la identificación “indicadores leadings” o en una relación entrada salida. Por ejemplo, Box, Jenkins y Reinsel (1994) presentan datos de la entrada y salida de un horno de gas en intervalos de 9 segundos, contenidos en el archivo furnace.sf6. Los datos consisten de:

1. Salida de la Serie Y: % CO2 del gas a la salida 2. Entrada de la Serie X: Razón de gas a la entrada en pies cúbico por minuto

La salida de la serie de tiempo esta bien descrita por un modelo ARIMA(3,1,0). La siguiente tabla muestra las auto-correlaciones de residuos para el modelo de salida y similarmente para serie tiempo en la entrada diferenciada: Correlaciones Cruzadas Estimadas para residuos con DIFF(Input) Variable de datos: Output Modelo: ARIMA(3,1,0) Retraso Retraso -8 -0.0530088 -7 0.00912287 -6 0.0463566 -5 0.127723 -4 0.13986 -3 0.163528 -2 0.206428 -1 0.174213 0 0.09082 1 -0.0977499 2 -0.364327 3 -0.515241 4 -0.417341 5 -0.237661 6 -0.0153997 7 0.0512618 8 0.0298728

© 2006 por StatPoint, Inc. Pronósticos - 37

Page 38: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Alguna correlaciones negativas grandes son observadas, despuntando en k = 3. Esto sugiere que los cambios en la razón del gas a la entrada están correlacionados con los residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el pronóstico. Opciones del Panel

• Segunda Serie de Tiempo: Las observaciones para la serie X. Observe el uso del

operador DIFF para calcular la primera diferencia de la columna de Entrada. • Numero de Retrasos: Máximo retraso k (positivo y negativo) para calcular la

correlación cruzada

Gráfico de Correlaciones Cruzadas de los Residuos El Gráfico Correlaciones Cruzadas de los Residuos muestra las correlaciones cruzadas estimadas:

© 2006 por StatPoint, Inc. Pronósticos - 38

Page 39: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Correlaciones Cruzadas Estimadas para Residuos con DIFF(Input)ARIMA(3,1,0)

-25 -15 -5 5 15 25retraso

-1

-0.6

-0.2

0.2

0.6

1C

orre

laci

ones

Cru

zada

s

Observe los picos más grandes de correlaciones negativas en el retraso 3. Esto implica que los cambos los cambios en la razón del gas a la entrada están correlacionados con los residuos del modelo ajustado a la salida y podrían ser utilizados para mejorar el pronóstico.

Grabar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos:

1. Datos – Las observaciones originales, junto con cualquier reemplazamiento para valores perdidos.

2. Datos Ajustados – La serie de tiempo para los datos después de cualquier ajuste

hecho.

3. Pronósticos – Los valores de pronósticos dentro y más allá del periodo muestral.

4. Limites Superior de Pronósticos – Los límites superiores de probabilidad para los pronósticos.

5. Limites Inferior de Pronósticos – Los límites inferiores de probabilidad para los

pronósticos.

6. Residuos – Los errores del pronostico un paso adelante.

7. Autocorrelaciones – Las auto-correlaciones de los residuos.

8. Autocorrelaciones Parciales – Las auto-correlaciones parciales de los residuos.

© 2006 por StatPoint, Inc. Pronósticos - 39

Page 40: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

9. Correlaciones Cruzadas – Las correlaciones cruzadas entre los residuos y la segunda serie.

10. Ordenadas residuales de períodograma – Calcula las ordenadas del períodograma

para los residuos.

11. Frecuencias de Fourier – Las frecuencias de Fourier correspondientes a las ordenadas del períodograma para los residuos.

Cálculos Estadísticos del Error – periodo de validación RMSE = Raíz del Cuadrado Medio del Error

m

eRMSE

m

iin∑

=+

= 1

2

(40)

MAPE = Porcentaje de la Media del Error Absoluto

%/

100 1

m

YeMAPE

m

iitin∑

=++

= (41)

MAE = Media del Error Absoluto

m

eMAE

m

iin∑

=+

= 1 (42)

ME = Media del Error

m

eME

m

iin∑

=+

= 1 (43)

MPE = Porcentaje de la Media del Error

%100 1

mYe

MPE

m

i in

in∑= +

+

= (44)

© 2006 por StatPoint, Inc. Pronósticos - 40

Page 41: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Función de Varianza para Pronósticos Modelo Aleatorio de Walk

akkV σ̂)(ˆ = (45) Modelo de Medias

⎟⎠⎞

⎜⎝⎛ +=

nkV a

11ˆ)(ˆ σ (46)

Modelo de Media Móvil

⎟⎠⎞

⎜⎝⎛ +=

ckV a

11ˆ)(ˆ σ (47)

Suavizamiento Exponencial Simple

( 2)1(1ˆ)(ˆ ασ −+= kkV a ) (48) Suavizamiento Exponencial Lineal y Cuadrático de Brown

⎟⎟⎠

⎞⎜⎜⎝

⎛−+

−−+−+= )1(

6)12)(1()1(1ˆ)(ˆ

10

212

0 kkkkkkkV a λλλ

λσ (49)

donde λ0 = α (2-α) y λ1 = α2

Suavizamiento Exponencial Lineal de Holt

⎟⎟⎠

⎞⎜⎜⎝

⎛−+

−−+−+= )1(

6)12)(1()1(1ˆ)(ˆ

10

212

0 kkkkkkkV a λλλ

λσ (50)

donde λ0 = α y λ1 = αβ Suavizamiento Exponencial de Winter La varianza del pronóstico es calculada de manera similar a Holt con la contribución adicional de los índices de estacionalidad.

© 2006 por StatPoint, Inc. Pronósticos - 41

Page 42: Time Series – Descriptive Methods - STATGRAPHICS

STATGRAPHICS – Rev. 9/14/2006

Modelos de Tendencias Los limites de pronostico son calculados con formulas de regresión para predecir una nueva observación en el tiempo t = n + m + k, incluidas el uso de la distribución t de Student con el numero apropiado de grados de libertad. Modelos ARIMA Los cálculos que siguen los métodos de Box, Jenkins y Reinsel (1994), los cuales involucran encontrar la función Ψ para expresar las observaciones en el tiempo t en términos de errores actuales y previos.

© 2006 por StatPoint, Inc. Pronósticos - 42