Modelo matemático paramétrico de estimación para proyectos de data mining

  1. Marbán, Óscar
Dirigida por:
  1. Ernestina Menasalvas Director/a
  2. Juan José Cuadrado Gallego Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 23 de junio de 2003

Tribunal:
  1. Francisco Javier Segovia Pérez Presidente/a
  2. Ana María Moreno Sánchez-Capuchino Secretario/a
  3. Esperanza Marcos Martínez Vocal
  4. Antonio de Amescua Seco Vocal
  5. Marta Elena Millan González Vocal

Tipo: Tesis

Resumen

Data Mining surgió como línea de investigación a finales de la década de los 80 con el propósito de buscar una solución al problema de descubrimiento de conocimiento en bases de datos. El conocimiento adquirido de las bases de datos se utiliza para dar soporte a los procesos de toma de decisiones en las empresas. En este sentido, el desarrollo de técnicas de Data Mining sirvió como soporte para los proyectos de CRM. Desde entonces son muchos los proyectos de este tipo que se han venido desarrollando en todo tipo de organizaciones. Sin embargo, aún a día de hoy estos proyectos se realizan sin una estimación clara de ningún tipo de recursos. Como consecuencia, si bien son muchos los proyectos que se han terminado con éxito, son numerosas las referencias de fracasos de proyectos de Data Mining por falta de estimación al comienzo de los mismos. Los veinte años de investigación en Data Mining han dado como resultado un gran número de referencias bibliográficas referente a algoritmos de descubrimiento, sin embargo, son escasas las referencias que abordan el problema de aplicación de Data Mining en una empresa desde la perspectiva de la Ingeniería del Software. De hecho la única aproximación es la definición del modelo de proceso estándar CRISP-DM. Tanto los estándares de modelo de proceso para desarrollo de software como el propuesto en CRISP-DM incluyen procesos y tareas similares con relación a la generación del Presupuesto y del Plan de proyecto. En el caso de desarrollo de software, la estimación de la duración y del esfuerzo que llevará la realización del proyecto se apoya en múltiples métodos de estimación como SLIM, SEER-SEM, PRICE-S o COCOMO, entre otros. Si lo que se trata es de hacer la estimación para un proyecto de Data Mining estos métodos no resultan apropiados, dado que su entrada principal es el tamaño del software a desarrollar y en los proyectos de Data Mining no se trata de desarrollar software. Aunque para ciertos tipos de problemas de Data Mining hay métodos de estimación en fases avanzadas del proyecto no hay un método genérico de estimación, cuyos resultados, esfuerzo y tiempo, sirvan como punto de partida para realizar el plan de proyecto y el presupuesto. Esta es la motivación central de este trabajo de tesis doctoral en el que se propone establecer un método paramétrico de estimación para proyectos de Data Mining. Con este propósito se definen en esta tesis los principales drivers de coste para establecer, basándose en proyectos reales y mediante regresión lineal la ecuación del modelo.