Minería de datos

El volumen de datos que guarda actualmente las bases se ha convertido en un recurso importante que debe analizarse. Este análisis permitiría describir y entender los procesos económicos y financieros de las organizaciones. Además, se cuenta con enormes bases de datos científicas, como las relacionadas al genoma o la astronomía, que encierran conocimiento que debe ser descubierto.

Una manera de obtener este análisis es mediante el descubrimiento de patrones en los datos. Un patrón es una serie de características o de eventos que presenta alguna regularidad, suceden cada cierto tiempo, en las mismas circunstancias o con los mismos efectos. Si vemos una base de datos, será difícil percibir a simple vista si existe un patrón, de aquí que necesitemos utilizar técnicas especializadas llamadas, en conjunto, minería de datos.

Francais. (2017). Libro [ilustración].
Tomada de https://pixabay.com/es/libro-leer-lectura-estudios-2247427

Definición

La minería de datos (MD) es también conocida como descubrimiento de conocimiento en bases de datos (knowledge discovery in databases, KDD). Podemos definirla como la aplicación de técnicas estadísticas y de aprendizaje automático para encontrar patrones no triviales en bases de datos, que resulten de interés para el experto de un dominio determinado.

La MD tiene dos enfoques. El primero es descriptivo y consiste en encontrar patrones que nos permitan describir la situación actual de la organización. El segundo es predictivo y trata de obtener modelos que pronostiquen, a partir de los patrones, algún comportamiento interesante en el futuro.

Pasos generales de la minería de datos (MD)

Esquema mostrando los cinco pasos generales de la minería de datos

Dueñas, M. (2009). Pasos generales de la minería de datos [ilustración].
Tomada de http://www.scielo.org.co/scielo.php?pid=S0123-21262009000100007&script=sci_arttext

La MD se lleva a cabo siempre bajo la idea de cooperación entre el experto del dominio —finanzas, mercadotecnia, ventas— y el personal de informática. A continuación, lo pasos generales de la MD:

Esquema mostrando los elementos de la MD

(s. a.) (2017). Elementos de la minería de datos [ilustración].
Tomada de http://www.ehu.eus/ehusfera/ifbloga/2016/10/06/hitzaldiak_charlas-datu-meatzaritza-mineria-de-datos/

El proceso de MD produce un modelo que puede ser descriptivo o predictivo, según los patrones identificados en los datos. Con él, se analizan posibles cursos de acción para tomar decisiones. Este modelo puede ser desde una gráfica hasta una red neuronal. La recolección de datos se realiza a partir de las bases transaccionales o de un data warehouse. Finalmente, debes saber que el modelo de MD puede ser estadístico o de aprendizaje automático.

Proceso de minería de datos

Primer paso

El proceso de MD comienza con la definición del objetivo de la minería. Esto se hace entre el experto del dominio y el de minería. En el objetivo, se pueden explorar los datos de forma general —conocer las características de los clientes—, obtener un modelo descriptivo o clasificador —un modelo que clasifique a los clientes en sujetos de crédito o no— o demostrar una hipótesis —¿es cierto que los cursos más rentables se dan en Guadalajara a personas mayores de 40 años, con puestos gerenciales y con ingresos superiores a $ 20 000?—.

Segundo paso

Una vez identificado el objetivo, será necesario definir las fuentes de datos y los datos relevantes para el análisis. Éstos pueden estar resumidos o acumulados.

Tercer paso

Enseguida, se puede hacer un acercamiento preliminar a los datos. Por lo general, se tratan de aplicar medidas estadísticas y obtener gráficas representativas de los datos; por ejemplo, promedios, máximos, mínimos, histogramas, diagramas de barras, pareto o análisis de correlación.

Cuarto paso

En esta etapa, se deciden los métodos estadísticos o de aprendizaje automático que serán aplicados a los datos.

Quinto paso

Este paso consiste en obtener los datos y adaptarlos al formato de entrada de nuestro método. Es común que se llegue a una sola tabla con datos no normalizados como insumo de la minería. Esta tabla suele llamarse vista minable.

Sexto paso

Se corren los procesos de aprendizaje automático para obtener un modelo a partir de los datos. Por lo general, se utiliza un 70 % de los datos originales, como datos de entrenamiento, y el resto se emplea para evaluar si el modelo obtenido es bueno.

Séptimo paso

Se evalúa el modelo obtenido mediante medidas especiales, por ejemplo, precision y recall. Esto nos permitirá saber si el modelo obtenido es bueno.

Octavo paso

Se evalúan los resultados del proceso de MD con el experto del dominio, para saber si son útiles y no triviales.

Estrategias de minería de datos

Las estrategias de minería pueden clasificarse en supervisadas —clasificación y estimación—, no supervisada—agrupamiento o clustering— y análisis de canasta.

Supervisadas

En éstas, se construyen modelos que asignan o clasifican nuevos ejemplos a un conjunto de clases, definidas previamente. Los modelos de clasificación pueden servirnos para:

• Estimación

Consiste en determinar el valor de un atributo numérico; por ejemplo:

Signo de porcentaje y Tarjetas bancarias

No supervisadas

• Agrupamiento

En este caso, no existen categorías predefinidas para clasificar ejemplos o instancias. Estas clases o clusters se proponen como resultado del proceso de minería de datos. A este modelo de agrupamiento le acompañan medidas de cercanía entre instancias agrupadas. Algunos ejemplos son:

Análisis de canasta

Este análisis nos permite encontrar relaciones entre productos de acuerdo con sus ventas. Para este análisis, suelen utilizarse algoritmos que producen reglas de asociación.

Técnicas de minería de datos

Las técnicas de MD se usan para aplicar una estrategia determinada a un conjunto de datos. Éstas cuentan generalmente con un algoritmo y una estructura de conocimiento. Las principales técnicas de minería son:

a) Reglas de producción:

Son reglas con la forma:

IF —antecedente—
THEN —consecuencia—

b) Regresión lineal:

Permite crear ecuaciones matemáticas con más de una variable independiente.

c) Árboles de decisión:

Es un conjunto de nodos que representan preguntas con las que se clasifica un ejemplo o instancia en una categoría predefinida.

d) Clustering:

Como lo habíamos mencionado, consiste en encontrar clusters, también llamados cúmulos, nubes, agrupamientos o categorías en conjuntos de datos. Lo empleamos cuando no estamos seguros de las categorías que existen en ellos.

e) Reglas de asociación —análisis de canasta—:

Representan asociaciones entre atributos, contenidos en las bases de datos.

Aplicaciones de la minería de datos

Algunas de las actividades en las que resulta útil el uso de la minería de datos:

Data warehousing

Los avances en la tecnología de bases y el desarrollo de un conjunto variado de sistemas manejadores han brindado invaluables beneficios al procesamiento automatizado de información. Así, las organizaciones se han convertido en continuos desarrolladores de bases de datos transaccionales para apoyar sus actividades económico-administrativas. Se volvió práctica común que distintos departamentos de una misma organización decidieran trabajar con distintos sistemas manejadores de bases, situación que ha generado problemas para el análisis y procesamiento consolidado de datos.

Grupos de personas utilizando diferentes manejadores de bases de datos en una organización

Departamentos de una organización trabajando con distintos manejadores de base de datos

Las organizaciones no contemplaron la labor del análisis de los datos. De esta manera, es normal encontrar, en muchas organizaciones, enormes bases de datos transaccionales y procesos de análisis de datos manuales, basados en reportes automatizados. Con el afán de responder a estas problemáticas, se propusieron nuevos modelos de bases de datos que permiten contar con un gran almacén consolidado de datos, listo para aplicarle procesos de análisis automático. A esta nueva tecnología se le llamó data warehousing.

Data warehousing.

Francais. (2017). Libro [ilustración].
Tomada de https://pixabay.com/es/libro-leer-lectura-estudios-2247427

Definición

Para Chaudhuri y Dayal (1997), el data warehousing consiste en una colección de tecnologías que permiten mejores y más rápidas decisiones; su objetivo es brindar la tecnología necesaria para obtener resúmenes complejos de información y conocimiento. Asimismo, empleando las respectivas tecnologías, herramientas y metodologías, se podría crear, usar y mantener un data warehouse.

Esquema mostrando el análisis de datos del Data warehousing

Cicirelli, A. (2010). Diagrama de data warehouse [ilustración].
Tomada de http://semanticworld.altervista.org/blog/2010/06/cosa-centra-il-web-semantico-con-il-data-warehousing/

Por su parte, el concepto de data warehouse (DW) se puede entender como un depósito centralizado de datos que ayuda al análisis del negocio. Es un almacén que unifica las bases de datos empresariales o departamentales sin importar el sistema manejador en el que se encuentren. Inmon (2002) indica que “[…] Un almacén de datos es una colección orientada a un dominio integrado, no volátil y variable en el tiempo, que ayuda a las decisiones de la administración”.

Características

A partir de la definición del llamado padre del data warehouse, William H. Inmon, podemos identificar sus características:

Orientados a temas

Los datos de un DW deben estar recolectados para proporcionar información sobre los temas importantes de la empresa y no sobre sus operaciones diarias.

Integrado

Los datos están integrados a partir de una variedad de bases de datos transaccionales, provenientes de los sistemas online transaction processing (OLTP) de la organización. Los datos deben ofrecer una imagen corporativa general de ella.

No volátil

Los datos de un DW no son eliminados ni modificados, ya que se quiere representar la historia de la organización.

Variante en el tiempo

Los datos están asociados a periodos de tiempo, específicos y bien identificados.

Componentes

Los principales componentes de un DW incluyen el data warehouse como tal y algunos elementos adicionales, como las fuentes y destinos del mismo.

Bases de datos transaccionales y otros recursos externos

Son las fuentes de origen de los datos las que forman el DW. De ellas, se extraen los datos y se cargan en las estructuras del DW. Es común que los datos se tengan que limpiar y transformar. Este proceso es conocido como extract, transform and load (ETL).

Metadatos

Son datos que describen el contenido del DW. Entre éstos, se incluyen el origen de los datos, el responsable y las descripciones sobre los tipos de resúmenes.

La base de datos del DW

Es la base de datos que almacena los datos del DW. Es normal observar que el almacenamiento se haya realizado bajo un modelo dimensional y no relacional. Este modelo consiste en un grupo de tablas de dimensiones que guardan una relación de uno a muchos, con una tabla principal o de hechos.

Herramientas de consulta

La construcción de un DW conlleva la creación de herramientas de procesamiento y análisis de los datos contenidos en él. Estas herramientas pueden ser parte de lo que se conoce como un sistema online analytical processing (OLAP) o ser herramientas de minería de datos.

Los usuarios

Son el último componente de un DW y son los que explotan sus beneficios, ya sea mediante el resultado de la minería de datos o de sistemas de consulta para soporte de las decisiones.

Áreas

A continuación, se enlistan las diversas áreas que, en la actualidad, han adoptado la tecnología del DW para mejorar sus negocios:

Introducción