< Previous 31 Prima Directa – Mercado de Seguros de Vida. Cifras en UF 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 Rentas Vitalicias 71.228.504 74.210.326 68.731.644 91.448.775 104.731.846 91.672.371 100.407.609 86.746.064 39.614.886 63.884.300 Vejez 50.521.823 55.803.170 50.528.066 71.436.288 80.453.421 68.926.073 77.105.732 63.451.720 26.519.757 47.772.327 Invalidez 14.604.345 12.675.720 12.562.923 12.814.883 16.869.800 16.248.355 17.070.097 16.985.789 10.360.685 12.292.583 Sobrevivencia 6.102.336 5.731.437 5.640.654 7.197.603 7.408.626 6.497.943 6.231.781 6.308.555 2.734.443 3.819.390 Seguro CUI 10.425.401 13.684.297 19.308.331 23.922.428 27.043.413 27.182.530 21.115.793 19.536.236 20.763.155 21.835.456 Primer Pago 2.608.641 5.893.850 8.150.740 10.087.052 11.431.997 11.928.949 9.194.260 7.427.448 7.875.233 8.993.064 Renovación 7.816.760 7.790.447 11.157.591 13.835.376 15.611.416 15.253.581 11.921.534 12.108.788 12.887.922 12.842.392 SIS 19.145.916 19.179.239 18.362.403 18.286.101 20.692.241 23.255.806 25.625.971 28.532.808 31.038.219 36.653.471 Salud 11.385.878 14.745.847 15.390.615 16.822.056 17.753.628 19.418.854 21.143.764 21.551.379 22.689.703 23.948.511 Desgravamen 18.708.184 17.276.269 16.547.213 16.451.121 16.917.803 17.161.105 18.972.620 20.330.819 18.284.520 19.498.946 Vida 11.293.461 11.952.128 12.015.765 13.327.993 15.059.046 15.475.531 15.921.723 14.962.895 13.470.547 14.371.025 APV 9.422.222 8.723.958 9.627.171 10.456.073 11.423.443 11.826.431 11.895.850 12.300.430 12.174.189 12.942.700 Accidentes Personales 3.021.801 3.010.471 3.522.513 4.120.310 4.171.395 5.019.091 5.250.091 5.739.414 5.470.668 5.956.623 Otros Seguros Vida 2.911.557 3.474.746 3.661.490 3.376.343 4.051.429 3.376.001 3.318.238 2.945.393 2.764.263 2.790.886 Seguros de Vida 157.542.924 166.257.281 167.167.145 198.211.200 221.844.244 214.387.720 223.651.660 212.645.438 166.270.151 201.881.918 Rentas Vitalicias 4,2% -7,4% 33,1% 14,5% -12,5% 9,5% -13,6% -54,3% 61,3% Vejez 10,5% -9,5% 41,4% 12,6% -14,3% 11,9% -17,7% -58,2% 80,1% Invalidez -13,2% -0,9% 2,0% 31,6% -3,7% 5,1% -0,5% -39,0% 18,6% Sobrevivencia -6,1% -1,6% 27,6% 2,9% -12,3% -4,1% 1,2% -56,7% 39,7% Seguro CUI 31,3% 41,1% 23,9% 13,0% 0,5% -22,3% -7,5% 6,3% 5,2% Primer Pago 125,9% 38,3% 23,8% 13,3% 4,3% -22,9% -19,2% 6,0% 14,2% Renovación -0,3% 43,2% 24,0% 12,8% -2,3% -21,8% 1,6% 6,4% -0,4% SIS 0,2% -4,3% -0,4% 13,2% 12,4% 10,2% 11,3% 8,8% 18,1% Salud 29,5% 4,4% 9,3% 5,5% 9,4% 8,9% 1,9% 5,3% 5,5% Desgravamen -7,7% -4,2% -0,6% 2,8% 1,4% 10,6% 7,2% -10,1% 6,6% Vida 5,8% 0,5% 10,9% 13,0% 2,8% 2,9% -6,0% -10,0% 6,7% APV -7,4% 10,4% 8,6% 9,3% 3,5% 0,6% 3,4% -1,0% 6,3% Accidentes Personales -0,4% 17,0% 17,0% 1,2% 20,3% 4,6% 9,3% -4,7% 8,9% Otros Seguros Vida 19,3% 5,4% -7,8% 20,0% -16,7% -1,7% -11,2% -6,1% 1,0% Seguros de Vida 5,5% 0,5% 18,6% 11,9% -3,4% 4,3% -4,9% -21,8% 21,4% 32 Prima Directa – Mercado de Seguros Generales. Cifras en UF 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 Incendio 10.942.653 10.581.697 11.277.121 12.212.485 11.494.788 11.436.644 12.139.965 14.158.816 18.674.454 18.936.625 Terremoto 18.612.754 16.981.073 17.490.120 18.689.034 19.438.960 17.724.575 19.351.390 20.499.229 23.285.534 23.320.101 Vehículos 21.001.764 22.823.073 23.186.573 24.695.479 26.320.329 28.083.117 30.383.066 30.425.128 25.131.216 31.133.728 Responsabilidad Civil 3.483.258 3.838.275 4.167.592 4.339.088 3.927.605 3.952.056 4.347.193 4.797.504 4.790.142 4.755.336 Garantía y Crédito 2.503.077 2.996.407 3.250.262 4.016.215 4.263.320 4.428.178 4.519.178 4.615.785 4.450.814 4.808.605 Robo 2.021.867 2.632.896 2.842.257 3.429.691 3.309.229 3.520.247 3.813.845 3.898.180 3.852.066 3.865.065 Ingeniería 3.629.583 3.929.319 4.037.760 3.391.148 3.147.615 2.677.074 3.221.002 3.451.141 3.142.166 3.232.230 Transporte 2.859.441 2.993.389 2.969.755 3.242.278 3.059.231 2.945.681 3.185.252 3.550.478 3.665.319 3.723.494 Accidentes Personales 2.727.483 3.128.910 3.019.747 2.896.246 3.183.985 3.459.152 3.528.948 2.994.553 2.399.341 2.698.840 SOAP 2.283.726 2.276.234 2.021.826 1.898.019 1.726.786 1.799.932 1.920.610 1.914.997 1.791.541 1.692.898 Otros Seguros Generales 11.925.954 10.442.349 11.270.305 12.038.998 13.347.258 14.127.618 14.267.393 14.007.239 12.769.675 12.971.443 Seguros Generales 81.991.560 82.623.622 85.533.318 90.848.681 93.219.106 94.154.274 100.677.842 104.313.050 103.952.267 111.138.365 Incendio -3,3% 6,6% 8,3% -5,9% -0,5% 6,1% 16,6% 31,9% 1,4% Terremoto -8,8% 3,0% 6,9% 4,0% -8,8% 9,2% 5,9% 13,6% 0,1% Vehículos 8,7% 1,6% 6,5% 6,6% 6,7% 8,2% 0,1% -17,4% 23,9% Responsabilidad Civil 10,2% 8,6% 4,1% -9,5% 0,6% 10,0% 10,4% -0,2% -0,7% Garantía y Crédito 19,7% 8,5% 23,6% 6,2% 3,9% 2,1% 2,1% -3,6% 8,0% Robo 30,2% 8,0% 20,7% -3,5% 6,4% 8,3% 2,2% -1,2% 0,3% Ingeniería 8,3% 2,8% -16,0% -7,2% -14,9% 20,3% 7,1% -9,0% 2,9% Transporte 4,7% -0,8% 9,2% -5,6% -3,7% 8,1% 11,5% 3,2% 1,6% Accidentes Personales 14,7% -3,5% -4,1% 9,9% 8,6% 2,0% -15,1% -19,9% 12,5% SOAP -0,3% -11,2% -6,1% -9,0% 4,2% 6,7% -0,3% -6,4% -5,5% Otros Seguros Generales -12,4% 7,9% 6,8% 10,9% 5,8% 1,0% -1,8% -8,8% 1,6% Seguros Generales 0,8% 3,5% 6,2% 2,6% 1,0% 6,9% 3,6% -0,3% 6,9% Las cifras en Excel se pueden descargar del siguiente link: Proyecciones 2020-2021 31 Anexo: Metodología proyecciones 2020-2021 Resumen El siguiente documento detalla el marco metodológico utilizado en la construcción de las proyecciones de prima directa para el mercado asegurador chileno, así como para cada uno de los ramos que este mercado contiene. En esta versión se optó por desarrollar modelos univariados de series de tiempo que proyectaron el primaje en seguros para los años 2020 y 2021, complementado en algunos casos con tendencias por efectos de la pandemia. Los datos utilizados son de carácter público, con periodicidad trimestral desde 1980 1 . Los modelos considerados para estos efectos fueron los siguientes: SARIMA, Redes Neuronales (Neural Networks autoregression en inglés; NNAR), de componentes no observables (Unobserved Components Models en inglés; UCM) y LSTAR (Modelos logísticos auto-regresivos de transición suavizada). Para llevar a cabo los diversos análisis que se explicitan en este documento, se utilizó el paquete estadístico R. Introducción Cada año, la Asociación de Aseguradores de Chile (AACH) elabora un estudio sobre la evolución de la prima directa del mercado asegurador chileno, generando proyecciones sobre el volumen de prima al cierre de año en curso y para el horizonte de un año y medio. Para estos efectos, se realiza un modelamiento de tipo estocástico sobre la serie de información de prima directa y, conforme a ciertos criterios predefinidos de precisión y eficiencia, se escoge aquel modelo ad hoc, entregando proyecciones de prima con sus respectivos intervalos de confianza. El siguiente documento muestra la metodología elaborada por la Gerencia de Estudios de la AACH en su versión 2020, cuyo objetivo se enmarca en encontrar una combinación de modelos univariados, que cumpla supuestos probabilísticos mínimos y que presente el mayor nivel de precisión, dentro de una gama de modelos propuestos. Este enfoque metodológico se encuentra en línea con aquellos estudios elaborados por entidades internacionales de seguros e industria bancaria. En la sección 1 se describen los datos a utilizar, las variables que se consideraron en el modelamiento y su justificación; en la sección 2 se describe el análisis exploratorio de los datos; en la sección 3 se define el algoritmo elaborado; en la sección 4 se muestran los modelos utilizados; en la sección 5 se explican los diversos test estadísticos usados e indicadores de precisión evaluados, y en la sección 6 se expone tanto la construcción de las proyecciones combinadas como de los intervalos de confianza. 1 Cabe señalar que no todas las series tienen un inicio desde 1980. 32 Sección 1: Datos Para recopilar la información sobre prima directa del mercado asegurador chileno, así como para cada uno de los ramos, se utilizaron los datos contenidos en los informes financieros de las compañías de seguros 2 . La unidad de medida de cada una de las observaciones es en Unidades de Fomento (UF); la periodicidad de la información utilizada fue trimestral, disponiendo de datos desde 1980 (esto es particular a cada uno de los ramos). Variables Exógenas En el contexto de análisis de información sobre el primaje en seguros se deben tener presente, al menos desde un punto de vista teórico, aquellas variables macroeconómicas que impactan en el dinamismo del mercado asegurador chileno en materia de primaje. Como señala Concha y Taborda (2014), “la industria aseguradora juega un rol clave en el sector financiero […], numerosos estudios han mostrado evidencia empírica de la existencia de una relación positiva entre el sector financiero y crecimiento económico en Latinoamérica”. Si bien el Producto Interno Bruto (PIB) es una variable que incorpora información del crecimiento económico del país, para poder ser utilizada como variable explicativa, es necesario proyectar esta covariable, lo que añade una fuente de error y posiblemente conlleve a una menor precisión de los modelos, es por esto que se ha decidido no incorporar covariables y solo trabajar con modelos univariados. Sección 2: Análisis exploratorio de los datos Para cada serie de datos se procedió a realizar una revisión del comportamiento de la misma, en búsqueda de algún patrón de la serie que diera indicio de irregularidad. Si bien esta búsqueda tiene un carácter exploratorio, existen metodologías que presentan principios estadísticos más sólidos. Es de relevancia, además, poder identificar aquellas irregularidades de las series de datos pues la omisión de ellas tiene una influencia directa en la estimación y rendimiento en cuanto a predicción del modelo. A continuación, se detalla la metodología usada en este trabajo. Detección de Outliers Las series de datos, generalmente, presentan observaciones con comportamientos no esperados. Estos comportamientos son causados, por ejemplo, por cambios en la normativa vigente, alguna decisión económica de los gobiernos centrales, entre otras. A este tipo de observaciones las llamaremos outliers. Para detectar estos comportamientos irregulares se escogió la metodología de detección de outliers derivada del trabajo hecho por Chen y Liu 3 (1993), cuya implementación se encuentra desarrollada en el paquete tsoutliers 4 de R. En esta metodología se describen diferentes tipos de outliers, cada uno de ellos con su naturaleza específica. Entre ellos podemos destacar: Tipos de outliers cuyo efecto es instantáneo (outlier de tipo aditivo, AO); Tipos de outliers cuyo efecto se extiende más que un cambio instantáneo, pero su efecto va desapareciendo gradualmente (cambio temporal, TC); Tipos de outliers cuyo efecto produce un “quiebre” en la estructura de la serie, provocando un cambio de nivel de esta. Este efecto se asume permanente desde ese momento (cambio de nivel, LS). 2 Específicamente, se utiliza la información de prima directa contenida en los cuadros técnicos de cada compañía desde 1980. Esta información se encuentra disponible en la sección “Información Financiera” de cada compañía de seguros en http://www.svs.cl. 3 https://www.jstor.org/stable/2290724?seq=1#page_scan_tab_contents 4 https://cran.r-project.org/web/packages/tsoutliers/tsoutliers.pdf 33 La detección de este tipo de observaciones puede tener un impacto importante en la efectividad de la metodología a utilizar. Dentro de las consecuencias se pueden destacar: problemas de identificabilidad del modelo, problemas en la estimación de los parámetros y en las consecuentes proyecciones. En el algoritmo que se describe a continuación se detalla cómo los outliers detectados se integraron en el proceso de modelamiento. Nota 1: Información adicional sobre seguros de Rentas Vitalicias. El ramo de Rentas vitalicias se compone de tres sub ramos, Rentas Vitalicias de Vejez, Rentas Vitalicias de Invalidez y finalmente Rentas Vitalicias de Sobrevivencia, para los dos últimos se considero el resultado de la proyección realizada con la combinación de los modelos univariados, sin embargo para el primero, Rentas Vitalicias de Vejez, se consideró el efecto que tienen las caídas en las tasas de descuento lo cual ya se expresa en la pérdida de participación de mercado de las rentas vitalicias en los últimos meses, por lo tanto, considerando que la caída en las tasas se debiese mantener al menos 1 año más, se consideró un ajuste sobre la proyección de este ramo, en donde se fija la participación de las rentas vitalicias en un 44% versus el 56% del Retiro programado (lo estimado para el último trimestre), y con esa participación se proyectó el segundo semestre del 2019 y el periodo completo del 2020. Sección 3: Descripción del algoritmo utilizado Para evaluar la precisión de cada uno de los modelos, se separó la muestra en dos conjuntos: uno de entrenamiento y otro de testeo. En el primero se estima el modelo y con este se efectúan proyecciones para la ventana de testeo. La lógica de este procedimiento radica en el hecho que estas proyecciones generarán errores de predicción verdaderos, ya que se utiliza solo la información conocida en la ventana de entrenamiento. La ventana de entrenamiento se fijó entre el primer trimestre de 1980 y el cuarto trimestre del 2014, mientras que la de testeo se fijó entre el primer trimestre del 2015 y el segundo trimestre del 2018. Luego las ventanas se fueron moviendo un trimestre hacia adelante, generando 14 iteraciones. Con esto, se obtuvieron series de errores de predicción de hasta 14 datos. Paso a paso, el algoritmo desarrollado consta de las siguientes etapas: 1. Entrenamiento. Cada una de las familias de modelos univariados (descritos en la sección 4) fue estimada en la ventana de testeo con diversas combinaciones paramétricas, en particular: SARIMA: primero se encontró aquella combinación de parámetros (rezagos autoregresivos y de media móvil, tanto normales como estacionales) que entregara el mejor ajuste (medido con un criterio de información). Y en base a esto, se iteró en la cercanía, lo que en la práctica corresponde a probar combinaciones desde -1 a +2 parámetros para los componentes autoregresivos y desde -1 a +1 parámetros para los componentes de media móvil, generándose un máximo de 144 combinaciones de parámetros. UCM: dentro de las especificaciones de este modelo se probó la inclusión/exclusión de transformación box-cox y la inclusión/exclusión de errores ARMA. TBATS: se probó la incorporación de transformación box-cox y componente tendencial. 2. Testeo. Para cada una de las familias de modelos y cada una de las combinaciones paramétricas se realizaron proyecciones sobre la serie de testeo, obteniéndose así una serie de errores de predicción. Estos errores fueron testeados y calculado la precisión de la proyección en base a lo expuesto en la sección 5. 3. Selección. Con los criterios de selección y medidas de precisión ya calculadas, para cada familia de modelos se genera un subconjunto con aquellas combinaciones paramétricas que aprueben los tests de selección, y dentro de estos se escoge al que presente la mejor medida de precisión. 34 4. Combinación. Después de escoger un modelo seleccionado por cada familia, se combinan tres proyecciones en base a lo descrito en la sección 6. Sección 4: Modelamiento Las series de tiempo pueden entenderse como una “simplificación” de las variables que influyen en un proceso de interés. Por tanto, es importante considerar que elegir un modelo específico y no explorar otras alternativas de modelamiento conllevaría problemas, por ejemplo, en la predicción. Dado que cada tipo de modelo utiliza distinta información, cada uno de ellos provee diversos enfoques en el modelamiento. En base a lo anterior, la combinación de predicciones realizadas por distintos modelos incorporaría información variada, agregando una mayor precisión a las predicciones. En esta metodología se exploraron diversas familias de modelos de series de tiempo univariado, como son: SARIMA, UCM, NNAR y LSTAR. Posteriormente, se combinaron las distintas predicciones generadas. SARIMA Los modelos SARIMA incorporan un componente de estacionalidad al tradicional modelamiento ARIMA, donde este componente es también identificado en base a rezagos autoregresivos y de media móvil además de incorporar la diferencia estacional. La serie definida es como sigue: Φ 푃푃 ( 퐿퐿 푠푠 ) ϕ 푝푝 ( 퐿퐿 )( 1−퐿퐿 ) 푑푑 (1−퐿퐿 푠푠 ) 퐷퐷 푓푓(푦푦 푡푡 )=Θ 푄푄 ( 퐿퐿 푠푠 ) 휃휃 푞푞 ( 퐿퐿 ) 휀휀 푡푡 Con Φ 푃푃 ( 퐿퐿 푠푠 ) el polinomio autoregresivo estacional; ϕ 푝푝 ( 퐿퐿 ) el polinomio autoregresivo normal; Θ 푄푄 ( 퐿퐿 푠푠 ) polinomio de media móvil estacional; 휃휃 푞푞 ( 퐿퐿 ) polinomio de media móvil normal; ( 1−퐿퐿 ) 푑푑 operador de diferencias; (1−퐿퐿 푠푠 ) 퐷퐷 operador de diferencia estacional; 푓푓(∙) transformación aplicada a la serie (identidad o logarítmica). Modelo de Componentes no Observables (UCM) Una de las alternativas consideradas en este análisis es la realización del modelamiento de las series de tiempo a través de modelos de componentes no observables (UCM), que tiene por objetivo “descomponer” una serie de datos a través de sus componentes estacionales, de tendencia y de ciclo. Para realizar las estimaciones correspondientes de los parámetros involucrados, se utilizaron métodos de suavizamiento exponencial, debido a que en este tipo de modelos es admisible realizar un cálculo de la función de verosimilitud, logrando con esto derivar intervalos de predicción más consistentes y realizando una selección de modelo a través de algún criterio de información (AIC, por ejemplo). La metodología utilizada se denomina “Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components” (TBATS model). Existen modificaciones al modelo antes mencionado, con el objetivo de situar el análisis en supuestos más “flexibles”. Uno de estos supuestos es la no-linealidad, es decir realizar una transformación de la serie original a través de Box-Cox. También, el componente del error del modelo puede ser definido mediante una estructura ARMA. Otra flexibilización al modelo original es dar una representación trigonométrica al componente estacional basado en series de Fourier. En base a lo anterior, el modelo propuesto en Livera, Hydman & Snyder (2011) queda expresado de la siguiente manera: 푦푦 푡푡 =푙푙 푡푡−1 +휙휙푏푏 푡푡−1 + �푠푠 푡푡−푚푚 푖푖 (푖푖) 푇푇 푖푖=1 +푑푑 푡푡 Con 푙푙 푡푡−1 el componente de ciclo, 푏푏 푡푡−1 el componente de tendencia, 푠푠 푡푡 (푖푖) el componente estacional, y 푑푑 푡푡 el componente idiosincrático o error del modelo. 35 Dadas las especificaciones anteriores, se realizó el proceso de estimación y selección de modelo utilizando criterios de información. Este proceso se llevó a cabo en R utilizando la función tbats del paquete forecast . Neural Networks Autoregression Este tipo de modelo es una red de puntos o neuronas organizadas en capas, en donde cada neurona interpreta una característica de los datos. Las primeras neuronas son los predictores, o variables explicativas (input en inglés), las neuronas entremedio son procesamiento de los datos y las neuronas finales son los datos de salida (output en inglés) del modelo o predicciones. La capa de neuronas entre los predictores y las predicciones se llama capa oculta (hidden layer en inglés), el dato que ingresa a estas neuronas son combinaciones lineales de los predictores de la forma: 푧푧 푗푗 = 푏푏 푗푗 + �푤푤 푖푖,푗푗 ∗푥푥 푖푖 푁푁 푖푖=1 Donde 푏푏 푗푗 : parámetro definido en la fase de aprendizaje del modelo; 푤푤 푖푖,푗푗 : ponderador o peso asignado a la neurona predictiva 푖푖 para la neurona 푗푗 en la capa oculta; 푥푥 푖푖 : el dato proveniente de la neurona predictiva 푖푖 . Luego de una fase de entrenamiento y aprendizaje el modelo define los parámetros 푏푏 y 푤푤 , para luego iterar con los datos, en este caso con las series de tiempo y entregar finalmente predicciones para los periodos definidos. Neural Networks Autoregression es un caso particular de los modelos de redes neuronales adaptado para trabajar con series de tiempo. Este proceso se llevó a cabo en R utilizando la función nnetar del paquete forecast . Modelos Univariados No lineales En la literatura estadística existen diversas alternativas de modelos no-lineales para series de tiempo. Esta consideración presenta relevancia, puesto que, por causa de factores externos, el fenómeno a modelar podría presentar un cambio en su estructura dinámica. Esta “no-linealidad” de la serie es semejante a detectar “regímenes” en el comportamiento de la serie, y según sea el modelo escogido es que se definirán los pasos entre regímenes. Entre las familias de modelos no-lineales se pueden destacar las siguientes: Modelo de Regime-Switching; extensiones de los modelos AR desarrollados por Chan y Tong (1986) como los “Modelos auto-regresivos de transición suavizada” (STAR) y STAR logístico (LSTAR), entre otros. La especificación de los modelos no-lineales que se tratarán en este trabajo está dada por la siguiente expresión (Di Narzo, 2008): y 푡푡 =(휙휙 1 +휙휙 10 푦푦 푡푡−1 +⋯+휙휙 1푝푝 푦푦 푡푡−푝푝 )(1−퐺퐺 ( 푧푧 푡푡 ,휁휁,푐푐 ) ) + (휙휙 2 +휙휙 20 푦푦 푡푡−1 +⋯+휙휙 2푝푝 푦푦 푡푡−푝푝 )퐺퐺 ( 푧푧 푡푡 ,휁휁,푐푐 ) +휖휖 푡푡 con 푧푧 푡푡 variable umbral; 푝푝 número de rezagos; 푐푐 umbral predefinido; 휁휁 parámetro de la función logística. 36 Para el caso de LSTAR, la función 퐺퐺(⋅) es la función logística: 퐺퐺 ( 푍푍 푡푡 ,휁휁,푐푐 ) =(1+exp ( −휁휁 ( 푍푍 푡푡 −푐푐 ) ) ) −1 ,휁휁>0 La implementación de este modelo se encuentra en la función lstar del paquete tsDyn de R. Sección 5: Criterios de selección del modelo univariado Para asegurar que los modelos utilizados para proyectar presenten características mínimas, es que se evalúan tres criterios deseables de cualquier proyección: que sea insesgada (esto es que no esté sistemáticamente por encima o debajo de los valores reales), que sea eficiente (que la proyección esté correlacionada con el valor real, o dicho de otro modo, que la proyección siga los movimientos de la variable), y que el error de proyección sea ruido blanco (que no presente una estructura de correlación). El no rechazo de estos tres tests valida que la proyección esté usando de forma efectiva toda la información suficiente. Sesgo y Eficiencia Para evaluar el sesgo y eficiencia en las predicciones de los modelos, se utilizó como referencia la metodología expuesta en Bank of England (2015), que evalúa la correlación entre los valores reales y proyectados por el modelo, utilizando una regresión del tipo “Mincer-Zarnowitz”. La regresión propuesta es de la forma: 푦푦 푡푡 =훽훽 0 +훽훽 1 푦푦 푡푡 푡푡−ℎ +푢푢 푡푡 donde 푢푢 푡푡 es el término de error (con media cero); 푦푦 푡푡 es la realización de la variable aleatoria 푦푦 en el tiempo 푡푡 y 푦푦 푡푡 푡푡−ℎ es la proyección de la variable aleatoria 푦푦 en el tiempo 푡푡 realizada ℎ períodos atrás. Para evaluar el sesgo ( 훽훽 0 ) y correlación entre el dato y la predicción ( 훽훽 1 ), se debe testear conjuntamente la hipótesis nula: 퐻퐻 0 :훽훽 0 =0 ∧훽훽 1 =1 usando, para estos efectos, un test de Wald para esas especificaciones del espacio paramétrico y concluir a través del valor-p que arroja el estadístico F de este test (se utilizó una significancia de 훼훼=5% ). Ruido Blanco Para testear la hipótesis de ruido blanco en los residuos, se procedió a utilizar el test propuesto por Box y Ljung (1978), que plantea la siguiente hipótesis nula: 퐻퐻 0 : Los errores de predicción no tienen una estructura de auto-correlación El estadístico de testeo derivado de esta hipótesis nula es: 푄푄 � ( 푟푟̂ ) =푛푛 ( 푛푛+2 ) � ( 푛푛−푘푘 ) −1 푚푚 푘푘=1 푟푟 푘푘 � 2 ~ 휒휒 푚푚−푝푝−푞푞,1−훼훼 2 donde 푟푟 푘푘 � auto-correlación de los errores de predicción de orden k. Precisión 37 Los indicadores de precisión utilizados para la elección del modelo fueron el “Error Promedio Porcentual Absoluto” (Mean Absolute Percentaje Error, en inglés) y la “Raíz del Error Cuadrático Medio” (Root Mean Square Error, en inglés), los cuales se calcularon para cada horizonte. Estos indicadores se definen como: 푀푀푀푀푀푀푀푀 ℎ = 1 푝푝−ℎ �� 푌푌 푡푡+ℎ −푌푌 � 푡푡+ℎ|푡푡 푌푌 푡푡+ℎ � 푛푛+푝푝−ℎ 푡푡=푛푛+1 ; 푅푅푀푀푅푅푀푀 ℎ = � 1 푝푝−ℎ �(푌푌 푡푡+ℎ 푛푛+푝푝−ℎ 푡푡=푛푛+1 − 푌푌 � 푡푡+ℎ|푡푡 ) 2 donde ℎ es el horizonte de proyección; 푌푌 푡푡+ℎ es el valor real de la variable dependiente en el horizonte ℎ ; 푌푌 � 푡푡+ℎ|푡푡 es el valor proyectado para el horizonte ℎ que genera el modelo con información hasta 푡푡 ; y 푝푝 es el tamaño de la ventana de testeo. Sección 6: Proyección combinada e intervalos de predicción Una vez seleccionado el mejor modelo de cada una de las tres familias de modelos univariados descritos anteriormente, se efectúa una combinación lineal de los 3 mejores preseleccionados. El método para escoger a los 3 mejores se basa en un ranking en base al menor error cuadrático en la fase de testeo. Una vez seleccionado el mejor 5 modelo de cada una de las tres familias de modelos univariados consideradas, se efectúa una combinación lineal de estos. El combinar proyecciones obedece a la lógica de reducir el “riesgo de modelo”, esto dado que el modelo que genera los datos es desconocido y por tanto los modelos estimados pueden estar mal especificados conduciendo a errores que pueden ser reducidos al diversificar los modelos a utilizar. Además, las especificaciones propuestas en las tres familias de modelos recogen de forma distinta la información de la serie a proyectar, por lo que el combinarlas permite considerar toda esta información que es imposible de capturar mediante un solo modelamiento. Existen varias formas de asignar ponderadores a cada uno de los modelos (véase Timmermann, 2006), sin embargo, muchas de estas metodologías requieren estimar los pesos y por tanto agregan otra fuente de error. En la literatura se ha mostrado empíricamente que el promedio simple de las proyecciones, vale decir asignar pesos idénticos a cada modelo, resulta en una mejora sustantiva de la precisión en contraste a ponderadores estimados. En base a esto, la proyección final queda como sigue: 푦푦 푡푡+ℎ ∗ =�푦푦 푡푡+ℎ 1 +푦푦 푡푡+ℎ 2 +푦푦 푡푡+ℎ 3 �/3 en donde se escogieron los 3 mejores modelos de acuerdo con su medida de error en la fase de prueba, los cuales fueron combinados. Luego de elaborar la proyección final se calculan los intervalos de predicción para acompañar la proyección puntual con el fin de incorporar la incertidumbre asociada en términos de que existen fuentes de error como son la incorrecta especificación del modelo (aun cuando mediante combinación esta se reduce), la incorrecta estimación de los parámetros, el cambio estructural, entre otros, que harán que el valor futuro de la variable pueda ser distinto al proyectado. Con esto intervalos de predicción, las proyecciones pueden ser graficadas en un “fan chart” que muestra de forma simple la distribución de probabilidades del error de predicción. Para construir los intervalos se asume una distribución normal del error de predicción (el cual fue testeado utilizando el test de Shapiro-Wilk (Shapiro and Wilk, 1965)) centrada en cero (dado que ya se testeó que la proyección fuera insesgada) y simétrica, mediante la siguiente fórmula: 퐼퐼퐼퐼 ( 푦푦 푡푡+ℎ ) =푦푦 푡푡+ℎ ±푧푧 훼훼/2 휎휎 푒푒 ℎ con 휎휎 푒푒 ℎ la desviación estándar del error de predicción en el horizonte ℎ . 5 Donde mejor es aquel que cumpliendo con los criterios de selección, presenta la mejor medida de precisión. 38 Referencias Bank of England (2015). “Evaluating forecast performance”. Independent Evaluation Office, Bank of England. Concha, A and Taborda, R (2014). “Insurance use and economic growth in Latin America. Some panel data evidence”. Lecturas de Economía, N°81, pp. 31-55. Chan, K S and Tong, H (1986). “On estimating thresholds in autoregressive models”. Journal of Time Series Analysis, Vol. 7, N°3, pp. 179-190. Chatfield, C. (2001). “Prediction Intervals for Time-Series Forecasting”. En Armstrong “Principles of Forecasting”. Chen, C and Liu, Lon-Mu (1993). “Joint Estimation of Model Parameters and Outlier Effects in Time Series”. Journal of the American Statistical Association, Vol. 88, N°421, pp. 284-297. De Livera, A M, Hyndman, R J and Snyder, D (2011). “Forecasting Time Series With Complex Seasonal Patterns Using Exponential Smoothing”. Journal of the American Statistical Association, Vol. 106, N°496, pp. 1513-1527. Diebold, F and Lopez, J (1996). “Forecast Evaluation and Combination”. En Maddala and Rao, “Handbook of Statistics”. Di Narzo, A F (2008). “Nonlinear autoregressive time series models in R using tsDyn”, version 0.7. CRAN documentary repository. Hamilton, J D (1989). “A New Approach to the Economic Analysis of Nonstionary Time Series and the Business Cycle”. Econometrica, Vol. 57, N°2, pp. 357-384. Kapetanios, G, Labhard V and Price, S (2007). “Forecast combination and the Bank of England’s suite of statistical forecasting models”. Bank of England, Working Paper N°323. Ljung, G M and Box, G (1978). “On a measure of lack of fit in time series models”. Biometrika, Vol. 65, N°2, pp. 297-303. López-de-Lacalle, J. (2016). Package tsoutliers , version 0.6-3. CRAN documentation repository. Timmermann, A (2006). “Forecast Combination”. Capítulo 4 en Elliot and Timmermann, “Handbook of Economic Forecasting”. Shapiro, S and Wilk, M (1965). "An analysis of variance test for normality (complete samples)". Biometrika. 52 (3–4): 591–611 Next >