( Capítulo 1) Serie Minería de datos – Oracle Data Miner en Práctica

in

Introducción
 
Talvez lo primero que se debe tener claro es el concepto de minería de datos:
 
¿Qué es minería de datos?
 
Bueno, según Hand:
 
“Minería de datos es el análisis de conjuntos de datos observables para encontrar relaciones inesperadas y resumir los datos en novedosas formas que son tanto entendibles como útiles para el dueño de los datos”
 
Si no es del todo claro la anterior, entonces transformémosla:
Minería de datos es la exploración y explotación de grandes repositorios de datos cuya finalidad es la consecución o generación de conocimiento útil y novedoso que pueda ayudar a una mejor toma de decisiones.
 
¿Minería de datos o descubrimiento de información o descubrimiento de conocimiento?
Minería de datos o descubrimiento de conocimiento son los nombres mas utilizados y mas apropiados para este tipo de análisis, ya que lo que se busca es la obtención de modelos de conocimiento.
Nota. En adelante llamaremos Minería de Datos MD por efectos de simplificación
 
¿De donde nació la MD?
Nace de la necesidad de explicar el porqué de unos sucesos, de unos comportamientos, los cuales están ocultos en datos históricos.
Ahora, la MD no solamente tiene un enfoque descriptivo o explicativo, sino también un enfoque predictivo, que suele ser muy importante en algunos casos de negocio
 
Para que la MD?
La minería de datos es el proceso sistemático que tiene como objetivo la exploración y explotación de datos para la generación de patrones y modelos de conocimiento. Está encaminada hacia el análisis de aquellas bases de datos y conjuntos de datos cuya función está relacionada con otros intereses. Por ejemplo, análisis a bases de datos transaccionales que almacenan información relevante a la operación de la empresa, como bases de datos bancarias, de registro académico, de ventas, de inventarios, de bibliotecas, de créditos, entre otras. Es precisamente, un estudio y manipulación secuencial y organizada de las estructuras y relaciones que presentan los datos, para la obtención de resultados que desde el punto de vista funcional de la empresa o institución, puedan apoyar la toma de decisiones.
 
Como se lleva a cabo?
Se puede afirmar que es una confluencia de las áreas estadística, inteligencia artificial  y bases de datos pues en cada una de sus etapas, varios conceptos pertenecientes a estas áreas, son involucrados. Como se ha mencionado, es un proceso claro en el sentido de que se encuentran definidas cada una de las etapas a seguir desde la identificación del problema hasta la obtención de los resultados. Y además es un proceso flexible en el sentido de que no existe una única receta con la cual pueda llevarse a cabo dicho estudio. Así, la exploración es uno de los aspectos más relevantes en dicho proceso, ya permite la combinación de diversas estrategias y técnicas a fin de consolidar un modelo final que intente resolver el problema inicialmente planteado.
 
 
 
En seguida se describen  de manera breve cada una de las etapas de la minería de datos.
 
--Coleccion de Datos
Consiste en la recolección de los datos que intervienen en el estudio, ya sean tomados de las bases de datos operacionales o de archivos planos o con algún otro formato. Esta fase esta directamente relacionada con el quehacer de la empresa, en el sentido en que se vale de los archivos operacionales con los cuales la institución soporta sus procesos (hojas de cálculo, sistemas manejadores de bases de datos DBMS, documentos tipo texto)
 
--Preparación de Datos
Esta etapa tiene como finalidad el entendimiento del comportamiento de los datos, tarea que generalmente está acompañada por el uso de conceptos estadísticos que permiten describir las variables origen del estudio. Además comprende  la aplicación de algunas tareas de preprocesamiento para reducir o eliminar la posible basura o inconsistencias en los datos y dejar limpios y listos los datos para posteriormente hacer la minería. Esta etapa consume entre el 60 y el 90% del proceso de minería y contribuye con un 80% aproximadamente del éxito del proyecto[YE2003]. Esta etapa comprende:
 
Limpieza
Como su nombre lo indica consiste en limpiar los datos; lo que significa, eliminar aquellos aspectos que puedan incidir negativamente en los patrones que serán extraídos posteriormente. Datos que se encuentran duplicados, datos que no existen, datos extremos, extraños, con formatos distintos, son algunos de los problemas que generalmente presentan los datos que provienen de las bases de datos operacionales, bien sea por error en el ingreso manual de las personas que interactúan con los sistemas de información, por la flexibilidad en los datos de dichos sistemas, o por el mismo diseño que presentan las bases de datos.
Aunque no existe una forma única de hacer limpieza de datos a cualquier conjunto de datos, se tienen algunos elementos que pueden ayudar a hacer una buena limpieza. Se busca finalmente que tras la limpieza de los datos, las propiedades estadísticas de cada de variable y del conjunto de datos mismo no sean modificadas drásticamente para evitar sesgos en los resultados finales y por consiguiente la presencia de resultados inconsistentes.
 
Selección
Se busca precisamente analizar los atributos que comprenden los conjuntos de datos y escoger únicamente aquellos que participarán en el resto del proceso. Otras áreas como la estadística aportan técnicas de análisis univariado y multivariado para este fin. Técnicas como análisis de componentes principales (siglas en ingles PCA), análisis de variables latentes, análisis de clustering, permiten identificar las componentes que tienen mayor influencia en determinado conjunto de datos, y que de alguna manera pueden explicar el comportamiento de otras variables.
 
Transformación
Mientras  las anteriores tareas se encaminan al tratamiento de cada dato en particular, la transformación se refiere a las tareas necesarias para la definición de los ejemplos (o instancias) que serán las entradas al algoritmo de minería de datos en la próxima fase. En este respecto, la técnica de transformación que se aplique a los datos depende en gran medida del modelo que se vaya a aplicar. Algunas de las tareas de transformación más comunes son normalización, numerización, discretización, las cuales requieren un formato (continuo, discreto) para los datos de entrada para su correcto funcionamiento.
 
Cuando los datos son extraídos de bases de datos operacionales, uno de los inconvenientes más frecuentes es la presencia de gran número de variables, que por el carácter relacional de la mayoría de los DBMS, resultan en una forma de duplicidad de datos. Este aumento en la dimensión del conjunto de datos, resulta ser también uno de los problemas en el proceso de MD. Se puede decir que a mayor dimensión o número de atributos en el conjunto a explorar, es mayor la complejidad del problema y mayor el tiempo a emplear en su solución. Lo anterior ha sido un tema abordado por muchos investigadores quienes han buscado definir técnicas que permitan reducir la dimensionalidad del conjunto de datos sin tener perdida de información. PCA y análisis de clustering son algunas de las estrategias para hacer esta reducción de dimensión.
 
--Extracción de Patrones
Esta tercera etapa, consiste en la extracción del conocimiento por medio de la aplicación de las técnicas de minería de datos. La definición de los parámetros, y la ejecución iterada de los algoritmos permiten establecer el modelo final que intenta resolver el problema inicial.
Dentro de los tipos de actividades de minería de datos se encuentran
Análisis exploratorio (visualización)
Modelamiento descriptivo(segmentación y análisis de cluster)
Modelamiento predictivo (clasificación y regresión)
Descubrimiento de reglas y patrones
Recuperación basada en contenido
 
--Validación
Validar un modelo es la etapa más crítica en el proceso; puesto que permiten verificar la funcionalidad del modelo y establecer si las etapas anteriores fueron realizadas correctamente. Si un modelo no valida bien, puede deberse a problemas en los datos, transformaciones no apropiada o técnica  de minería no adecuada. La aplicación del modelo a otro conjunto de datos, el remuestreo, son algunas de las técnicas más apropiadas en este sentido. A su vez el uso de algunas estrategias para mejorar la precisión, como en el caso de validación de modelos de clasificación y predicción, conforman esta etapa.

Average: 4.4 (9 votes)
Otros links Externos relacionados con este tema:

excelente trabajo

excelente trabajo

CAPITULO I

EXELENTE TRABAJO,