Estimación de modelos de regresión lineales múltiples con restricciones aleatorias lineales

García Bárzana, Marta

Estimación de modelos de regresión lineales múltiples con restricciones aleatorias lineales

García Bárzana, Marta

Dirigida por:

Ana María Colubi Cervero Directora
Erricos John Kontoghiorghes Codirector/a

Universidad de defensa: Universidad de Oviedo

Fecha de defensa: 26 de febrero de 2016

Tribunal:

Domingo Morales González Presidente/a
María Angeles Gil Alvarez Secretaria
Peter Winker Vocal

Departamento:

Estadística e Investigación Operativa y Didáctica de la Matemática

Tipo: Tesis

Teseo: 401313 DIALNET

Resumen

El objetivo de la tesis es encontrar estimadores consistentes y eficientes de los parámetros de un modelo de regresión múltiple sujetos a restricciones. El problema analizado se motiva con la necesidad de relacionar intervalos aleatorios mediante modelos lineales flexibles y se extenderá al caso general de trabajar en espacios de Hilbert. En la vida real, hay variables estadísticas que no pueden ser observadas con precisión o que tienen carácter intrínsecamente intervalar. Este es el caso, por ejemplo, de las medidas proporcionadas por ciertos instrumentos que tienen algún margen de error o tolerancia en sus mediciones o el rango de temperaturas de una ciudad a lo largo de varios días. En cuanto a la naturaleza de los intervalos, algunos autores consideran que la incertidumbre surge de observar una variable aleatoria real con cierta imprecisión. Así, el verdadero valor de la variable está contenido en el intervalo. Otros autores trabajan con intervalos obtenidos a través de la censura de datos. Los denominados datos simbólicos incluyen también intervalos, que se utilizan para resumir grandes conjuntos de datos. Por último, hay intervalos, que surgen de forma natural al tratar de representar una magnitud. Por ejemplo, las fluctuaciones o rangos. Estos son el tipo de intervalos que se consideran durante esta tesis. Dentro de los diferentes estudios que existen para trabajar con intervalos en Estadística, el objetivo se centra en la regresión. El análisis de regresión múltiple es una conocida técnica estadística usada para modelar la relación entre un conjunto de variables independientes, también llamadas variables explicativas o predictores, con una variable dependiente o variable respuesta. Los modelos de regresión múltiple estándares encuentran aplicación en diversas áreas del conocimiento tales como la Economía, la Medicina, los estudios ambientales, etc. Los modelos de regresión se han estudiado ampliamente en la literatura en diferentes contextos. Hay una gran cantidad de trabajos dedicados al estudio de los modelos de regresión en el entorno real, donde los datos utilizados son vectores reales en espacios euclídeos. En cuanto a los modelos de regresión que involucran datos intervalares, existen diferentes alternativas. En el contexto posibilista, los datos intervalares son generalmente considerados como observaciones imprecisas de datos reales. En este caso, la imprecisión se propaga al modelo, y los coeficientes se calculan minimizando la imprecisión (spreads) de la variable respuesta intervalar. Un segundo enfoque considera la estimación de modelos separados para ínfimo-supremo o centro y semiamplitud. Hasta ahora estos modelos han sido estudiados desde un punto de vista descriptivo, ya que no establecen ninguna hipótesis de probabilidad en los intervalos aleatorios. Por lo tanto, podría no ser factible el estudio de las propiedades estadísticas de los estimadores y de los estudios inferenciales en este contexto. Por ejemplo, como no se garantiza la incorrelación entre predictor y error, podría surgir un problema de identificación del modelo. Por otra parte, debido a la inclusión de las restricciones de no negatividad cumplidas por las semiamplitudes, esos modelos se pueden tratar como una regresión lineal clásica. De hecho, como no se requieren supuestos con el fin de asegurar la existencia de los residuos, estos modelos pueden producir estimaciones mal definidas. Un enfoque alternativo se basa en la aritmética de conjuntos. En este caso, las relaciones lineales entre las variables aleatorias intervalares, asociadas a un espacio de probabilidad, se expresan en términos de la aritmética intervalar, y los estimadores de dichos coeficientes se pueden calcular e interpretar en el sentido clásico, a través de técnicas de mínimos cuadrados restringidos. Este enfoque contempla a la perfección la naturaleza de los intervalos aleatorios que se plantean en este trabajo y que será el considerado. La mayoría de los modelos de regresión bajo este enfoque se desarrollan en el caso simple, es decir, teniendo en cuenta una única variable independiente. Por lo tanto, uno de los objetivos de esta tesis será el introducir varios modelos de regresión múltiples, formalizados de acuerdo con la aritmética natural para tratar con datos intervalares, con el fin de superar esta falta de generalidad. Por otro lado, con frecuencia, se dispone de datos funcionales, como las series pluviométricas en distintas estaciones meteorológicas, y las técnicas reales clásicas no son directas de aplicar. El estudio de los modelos de regresión funcionales con esos datos ha experimentado un notable crecimiento en los últimos años y se considerará también en esta memoria a través de su generalización en espacios de Hilbert. Cuando se conoce información adicional sobre el modelo, por ejemplo que las variables se ven afectadas por restricciones, se plantea un modelo de regresión restringido. En el contexto intervalar surgen de manera natural ciertas restricciones de desigualdad y de no negatividad para asegurar que todos los elementos involucrados están bien definidos. El número de restricciones siempre depende del número de observaciones, por lo que si se incluye una nueva observación, se añade una nueva restricción al problema. Este tipo de restricciones no se han considerado aún en otros marcos, ni en el caso real ni en caso general de espacios de Hilbert. En el caso real, los modelos de regresión múltiples con restricciones se han estudiado en profundidad cuando se dispone de un número fijo de restricciones. Sin embargo, los métodos utilizados no se pueden generalizar de manera directa al caso de disponer de un número de restricciones que aumenta con el tamaño de la muestra. Además, en el caso funcional, la inclusión de restricciones apenas se ha abordado aun. Esta tesis doctoral trata de completar la investigación de modelos de regresión en este sentido y se centra en el problema de estimación de modelos de regresión múltiples restringidos, donde la principal novedad recae en que las restricciones se derivan de los datos, por lo que el número de restricciones en el problema de estimación asociado está relacionado con el tamaño de la muestra. Aunque el problema surgió inicialmente en el contexto intervalo, donde aparece de forma natural, en aras de la exhaustividad, la tesis abordará el problema en diversos espacios, que incluyen los datos reales, intervalares y funcionales. Como los espacios funcionales son, a su vez, casos particulares de los de Hilbert, el objetivo será formalizar el problema en el marco más general. En resumen, se considerarán problemas de estimación de modelos de regresión con restricciones para datos reales, intervalares y con valores en espacios de Hilbert. La tesis se ha estructurado con el fin de abordar el problema anteriormente mencionado, en los contextos real, intervalar y de Hilbert. Por lo tanto, se ha estructurado en cuatro capítulos. El capítulo 1 contiene los conceptos y resultados relativos a modelos previamente introducidos en la literatura que serán necesarios para los capítulos sucesivos. Se muestra el problema de mínimos cuadrados restringidos en Rk, recordando los diferentes enfoques que se han considerado en la literatura. Se presentan los espacios intervalares y de Hilbert incluyendo un resumen de modelos de regresión previos que se han estudiado en estos campos. Finalmente, se presentan algunas técnicas numéricas, tales como la descomposición QR o las condiciones KKT, así como el método de Lemke, que es uno de los métodos más utilizados para resolver el problema de mínimos cuadrados restringido. En el capítulo 2, el problema de mínimos cuadrados restringido se extiende al caso en que el número de restricciones aumenta con el tamaño de la muestra. Se proponen tres estimadores: estimador de Lemke, el estimador de mínima distancia y el estimador de corte ajustado. El estimador de Lemke ya fue utilizado previamente con el fin de abordar el proceso de estimación, pero tiene algunos inconvenientes: su complejidad en este nuevo contexto aumenta drásticamente y su consistencia no está correctamente probada, incluso para el caso de un número fijo de restricciones. Aunque la aplicación de la descomposición QR mejora su estabilidad, aún conserva la alta complejidad. Por esta razón se introducen los otros dos estimadores. El estimador de mínima distancia no solo reduce la complejidad alcanzada por el de Lemke sino que también se ha podido probar su convergencia al parámetro poblacional de manera casi segura. En el mismo sentido, se propone el estimador de corte ajustado, un estimador que explota toda la información derivada de la forma de las restricciones y del conocimiento de que el origen es siempre un punto factible, con el fin de encontrar una solución. Además, tiene incluso una menor complejidad que la de los dos primeros y se demuestra que es consistente. Se desarrollan estudios comparativos de los estimadores. En cuanto a los estudios de inferencia desarrollados sobre el modelo de regresión múltiple propuesto, se estudia la distribución asintótica del estimador con menor complejidad, es decir, el estimador de corte ajustado. Con este objetivo, se encuentran condiciones suficientes para establecer una distribución asintótica útil. La distribución asintótica se ha simulado por Montecarlo para encontrar en la práctica intervalos de confianza asintóticos. Se han ejecutado una serie de simulaciones con el fin de mostrar el comportamiento empírico de los intervalos de confianza. De manera análoga, se han abordado contrastes de hipótesis. En el capítulo 3 se extienden modelos de regresión intervalares que han sido propuestos anteriormente. Se aborda la extensión al caso múltiple de un modelo de regresión simple, el llamado modelo MG, que ya se había formalizado en el caso de trabajar con una sola variable independiente. Además, se presentan dos nuevos modelos de regresión capaces de combinar variables intervalares con variables reales al mismo tiempo. En todos los casos, el problema de estimación está expresado en términos de un problema de mínimos cuadrados restringido, de manera que las técnicas y los estimadores introducidos en el capítulo anterior pueden ser adaptados para ser utilizados también en este contexto. Se presentan ejemplos reales procedentes de diferentes áreas del conocimiento junto con simulaciones para mostrar el comportamiento empírico de los estimadores. Por otra parte, como resultado de la colaboración con el Instituto EPIC en Asturias, se ha hecho un estudio aplicado que implica un modelo de regresión Cox, el modelo típico utilizado para trabajar con datos de supervivencia. Los resultados inferenciales desarrollados en el Capítulo 2 se pueden aplicar directamente al problema con datos intervalares. El capítulo concluye con una técnica de estimación Lasso para trabajar con datos intervalares y problemas de alta dimensionalidad. El capítulo 4 generaliza el problema mínimo-cuadrático restringido en el marco de Hilbert. Cualquier elemento en un espacio de Hilbert se puede expresar en función de una base infinito-dimensional. Sin embargo, con el fin de poder estimar los parámetros de regresión, el problema de estimación se transforma en un problema finito recortando la base. Por lo tanto, vectorizando el problema de estimación, se consigue escribirlo como uno real de gran dimensión, que se estimará por uno de los siguientes métodos: mínimos cuadrados o mínimos cuadrados penalizados. En el primer caso, los mismos estimadores desarrollados en los capítulos anteriores se pueden utilizar para resolver el nuevo problema. En cuanto a la segunda aproximación, se aplica una técnica de estimación Lasso, análoga a la del Capítulo 3. De nuevo, los resultados inferenciales desarrollados en el Capítulo 2 se pueden aplicar directamente al problema vectorizado. Un ejemplo para el caso de trabajar con datos funcionales se incluye como ilustración. La tesis finaliza con un epílogo resaltando los principales resultados obtenidos y un apéndice. Se pueden descargar códigos y algunos conjuntos de datos de http://bellman.ciencias.uniovi.es/smire/Applications.html.