Análisis inferencial basado en medidas de fi-divergencia para modelos loglineales con muestreo multinomial y sobredispersión

  1. ALONSO REVENGA, JUANA MARIA
Dirigida por:
  1. Nirian Martín Apaolaza Director/a
  2. Leandro Pardo Llorente Director/a

Universidad de defensa: Universidad Complutense de Madrid

Fecha de defensa: 19 de septiembre de 2017

Tribunal:
  1. Lina Vicente Herranz Presidente/a
  2. Pedro Miranda Menéndez Secretario/a
  3. Carlos Maté Jiménez Vocal
  4. Domingo Morales González Vocal
  5. Gerardo Sanz Sáiz Vocal

Tipo: Tesis

Resumen

En algunos estudios epidemiológicos, estudios médicos o investigaciones clínicas, se tienen datos agrupados en conglomerados o clusters. Estas agrupaciones generan observaciones altamente correladas dentro de cada uno de los grupos; las técnicas estadísticas que implican muestreo aleatorio simple, pueden llevar en estos casos a conclusiones erróneas. Cuando se utiliza el muestreo por conglomerados hay dos fuentes de variación: variación entre individuos de un mismo cluster y variación entre clusters. El efecto del aumento de la variabilidad implica un aumento de los errores estándar de los estimadores, lo que da lugar a intervalos de confianza más anchos y errores de tipo I inflados. Luego, si se realiza este muestreo y se ignora su efecto utilizando técnicas estadísticas habituales, se puede llegar a conclusiones equivocadas. Altham, Cohen y Brier enfocaron dicho estudio bajo la hipótesis de una distribución de probabilidad que modelizara este tipo de datos. La primera distribución, propuesta por Mosimann, fue la distribución Dirichlet multinomial, Cohen y Altham propusieron la distribución multinomial -inflada y Morel and Nagaraj la multinomial agrupada aleatoriamente. En esta memoria, se presenta un enfoque diferente donde no se asume ninguna distribución subyacente para los datos, solamente se parte de la hipótesis de datos multinomiales con sobredispersión, que serán analizados mediante un modelo loglineal. El objetivo es presentar nuevos estimadores basados en medidas de phidivergencia, tanto para los parámetros propios del modelo loglineal como para los necesarios para medir el efecto del diseño del muestro por conglomerados. En el Capítulo 1 se presentan los modelos loglineales para datos multinomiales agrupados en clusters. Se introduce el concepto de sobredispersión en los datos con respecto a la distribución multinomial y su relación con el coeficiente de correlación intracluster. Puesto que no se supondrá ninguna distribución específica subyacente, sino simplemente hipótesis sobre los dos primeros momentos de la distribución que introducen la medida de sobredispersión, en el Capítulo 2 se obtendrán los estimadores de mínima cuasi phi-divergencia para los parámetros del modelo loglineal, así como su distribución asintótica. Los estimadores de máxima cuasiverosimilitud, introducidos por Wedderburn, son un caso particular de los anteriores para este tipo de muestreo. Además, se presentan nuevos estimadores del parámetro de sobredispersión para el caso de clusters de igual tamaño. En el Capítulo 3 se extienden los resultados al caso en el que los tamaños de los clusters sean diferentes. Se define el parámetro de sobredispersión asociado al tamaño medio de cluster. Además, se presenta un estimador específico del parámetro de sobredispersión para el caso en el que el tamaño de los clusters es grande. Una vez definidos los estimadores se analiza el procedimiento para encontrar la parametrización del modelo loglineal que mejor se ajuste a los datos. A tal fin, en el Capítulo 4, se introduce una familia de estadísticos de contraste de bondad de ajuste basada en medidas de phidivergencia, en la que el efecto del diseño se corrige mediante los nuevos estimadores del parámetro de sobredispersión presentados en los Capítulos 2 y 3. Se aborda el problema cuando los tamaños de los conglomerados son iguales y desiguales. Por último, en el Capítulo 5 se estudian los modelos loglineales de tipo jerárquico con una aplicación al estudio del grado de acuerdo entre evaluadores según el modelo presentado por Agresti, cuando los individuos examinados por los diferentes evaluadores están agrupados en clusters. En cada capítulo se presenta una aplicación práctica de los nuevos estimadores y estadísticos y se realiza un estudio de simulación comparando el comportamiento de los nuevos estimadores y estadísticos con los ya existentes, comprobándose el mejor comportamiento de los propuestos en esta memoria.