Síntesis distribuida de teorías

  1. GAYA LOPEZ, MARIA CRUZ
Dirigida por:
  1. Ignacio Giráldez Director/a

Universidad de defensa: Universidad Europea de Madrid

Fecha de defensa: 12 de julio de 2011

Tribunal:
  1. Manuel de Buenaga Rodríguez Presidente/a
  2. Víctor Manuel Flores Fonseca Secretario/a
  3. David Camacho Fernández Vocal
  4. Óscar Marbán Vocal
  5. Daniel Borrajo Millán Vocal

Tipo: Tesis

Resumen

Hoy día es muy común el almacenamiento de grandes bases de datos de forma distribuida entre distintos servidores geográficamente dispersos. Se hace necesaria la implementación de mecanismos que permitan obtener información útil para la toma de decisiones a partir de este escenario distribuido. Estos mecanismos son los que estudia la Minería de Datos Distribuida (DDM, Distributed Data Mining). El objetivo de la tesis doctoral es obtener un mecanismo para sintetizar el conocimiento obtenido de forma distribuida en cada fuente de datos local (representado por las teorías locales) en una única teoría global. Esta teoría global permitirá clasificar nuevas instancias del problema con una calidad igual ó mejor que la mejor de las conseguidas por las teorías locales. Más aún, pretendemos obtener una teoría de una calidad superior a la del problema monolítico, es decir, la calidad obtenida a partir del problema en el hipotético caso de que pudiésemos centralizar en un servidor único todas las fuentes de datos locales. La calidad la medimos en base a la precisión de la teoría resultado. Se utiliza un Sistema Multi-Agente (MAS) con un enfoque evolutivo para implementar un mecanismo de DDM aplicado a problemas de clasificación con aprendizaje supervisado: Multi Agent System for Evolutionary Theory Synthesis (MASETS). Nuestro sistema toma como entrada un conjunto de datos clasificado y distribuido geográficamente entre los distintos servidores. A cada uno de estos subconjuntos del problema original lo llamamos fuente de datos local. A partir de cada una de éstas un agente del sistema puede crear un patrón de clasificación llamado Teoría Local (TL). Esta teoría local está compuesta por un conjunto de reglas de decisión que describen qué características ha de tener una nueva instancia del problema para poder clasificarse de una u otra forma. Nuestro sistema es capaz de unificar el conocimiento de todos los agentes que forman el sistema para crear un patrón único denominado Teoría Global. Otras ventajas que proporciona MASETS en comparación con otros mecanismos de DDM son: 1. Ofrece una explicación de la clasificación aportada. De esta forma un operario humano que obtenga el resultado del sistema puede conocer en base a qué se ha ofrecido esa clasificación y, por tanto, verificarla. 2. Soluciona las contradicciones entre agentes. En otros sistemas puede ocurrir que agentes distintos ofrezcan distintas clasificaciones lo que puede dar lugar a contradicciones. En nuestro caso solo la teoría global decide la salida final por lo que no pueden aparecer contradicciones. 3. Aplicable al procesamiento paralelo. Nuestro sistema puede ser utilizado para conseguir la paralelización del proceso de clasificación en caso de grandes bases de datos centralizadas. Permitiendo abordar problemas que, a priori, serían inabordables.