Sobre expectiles, generalizaciones y algunas aplicaciones en análisis multivariante

  1. Ochoa Arellano, Maicol Jesus
Dirigida por:
  1. Ignacio Cascos Fernández Director/a

Universidad de defensa: Universidad Carlos III de Madrid

Fecha de defensa: 21 de diciembre de 2022

Tribunal:
  1. Antonio Cuevas González Presidente/a
  2. Ana Arribas Gil Secretario/a
  3. Alfonso Suárez Llorens Vocal

Tipo: Tesis

Resumen

El objetivo general de la tesis es construir nuevas funciones de profundidad, entendidas como el grado de centralidad de un punto respecto a una distribución multivariante, y sus respectivas regiones centrales. La utilidad de estas construcciones en el campo multivariante radica en que permiten construir un orden según el grado de centralidad que puede utilizarse para extender ciertas técnicas de estadística univariante que se basan en la relación de orden menor o igual. El trabajo está enmarcado en la Estadística Matemática, utiliza nociones y técnicas de Análisis Convexo, mientras que los algoritmos para calcular profundidades y regiones pueden ubicarse dentro de la Geometría Computacional. Primeramente, se introducen los expectiles y algunas de sus características más conocidas. Luego, se construyen la profundidad expectílica y las regiones centrales asociadas, usando una técnica de proyecciones univariantes sobre cada dirección determinada por la esfera unitaria. Se presenta un estudio exhaustivo de las propiedades analíticas y topológicas de la profundidad y las regiones expectílicas respectivamente, mostrando particularmente resultados asintóticos, así como algunas aplicaciones en el caso bidimensional, como el uso de los llamados DD-plots, y se da especial énfasis a un objeto novedoso, llamado BExPlot (del inglés Bivariate Expectile Plot), que resulta ser útil en el análisis descriptivo, pues como se observa en los ejemplos, el BExPlot es capaz de capturar aspectos tales como dispersión, tendencia, simetrías, entre otros, cuando se analizan dos variables conjuntamente. Sin embargo, también a través de ejemplos, se pone en evidencia que las regiones expectílicas son sensibles a la presencia de puntos extremos (outliers), es decir, tales puntos pueden de alguna manera deformar las regiones expectílicas, y en especial las de más baja profundidad. Con el objetivo de subsanar esta debilidad de las regiones expectílicas, seguidamente se introducen los M-cuantiles con pérdidas potenciales y sus principales características. En la definición de estos objetos aparecen de manera natural unas funciones llamadas distorsiones, que básicamente serán usadas para penalizar los puntos extremos de una distribución dada. Resulta inmediato, además, que tales M-cuantiles generalizan a los cuantiles y expectiles y por ende comparten algunas de sus propiedades analíticas. Así pues, el siguiente paso es la construcción de la profundidad M-cuantílica distorsionada y las correspondientes regiones centrales. Como es de esperarse, al igual que las expectílicas, estas regiones también son capaces de capturar aspectos de interés en el estudio descriptivo de una distribución bivariante, pero a diferencia de las primeras, las M-cuantílicas son completamente inmunes a la presencia de puntos extremos y esto es debido a la penalización hecha con la función de profundidad utilizada. Quedan establecidas las versiones empíricas de estos nuevos objetos, y el cómputo de los mismos también se basa en proyecciones univariantes de la distribución original sobre las direcciones marcadas por la esfera unitaria. Finalmente se introduce una técnica de regresión de respuesta múltiple basada en los M-cuantiles con pérdidas potenciales. En este modelo de regresión los residuos son calculados usando una fórmula análoga a la que define a los M-cuantiles, pero con la novedad de que se permite estudiar, simultáneamente, dos o más variables en función de un conjunto de regresores. Así como un modelo de regresión lineal puede ser usado para estimar un valor esperado, el modelo de regresión M-cuantílico puede ser usado para obtener un cierto M-cuantil (o bien un cuantil o un expectil, según la distorsión que se use) de la distribución conjunta de un grupo de variables, dado un conjunto de valores de los regresores. Para tal fin, resulta útil nuevamente usar las proyecciones univariantes de la distribución original sobre las direcciones marcadas por la esfera unitaria. Seguidamente surgen las llamadas regiones de regresión M-cualtílica de respuesta múltiple que pretenden ser herramientas descriptivas de la distribución conjunta de las variables de estudio condicionadas a los regresores. Si bien estas regiones pueden resultar vacías o no satisfacer estrictamente la condición de anidamiento, también es cierto que parecen capturar la información que recogían las regiones bidimensionales en otros contextos. Es decir, que a través de estas regiones de regresión nos podemos hacer una idea de la presencia de tendencias, de puntos extremos, del grado dispersión, entre otros aspectos, de la distribución conjunta en estudio. Además, tal como muestran algunos ejemplos numéricos, se observa que estas regiones de regresión también son inmunes a la presencia de puntos extremos, esto es, no sufren deformaciones por éstos. En el trabajo se han incluido las demostraciones de aquellos resultados que consideramos originales, y las de aquellos resultados clásicos han quedado debidamente referenciados. Además, se han introducido en el anexo una serie de algoritmos de complejidad óptima (comparados con sus versiones análogas en otros contextos) en lenguaje pseudoformal para el cálculo de las regiones expectílicas bidimensionales, la profundidad expectílica bidimensional y para la profundidad expectílica distorsionada bidimensional, aunque en la práctica todos esos algoritmos fueron implementados en R. El resto de gráficas, incluidas las regiones de regresión M-cuantílica expuestas en el último capítulo, fueron hechas a fuerza bruta.