Nuevas Tecnologías Aplicadas a las Bases de Datos: Minería de Datos y Data Warehouse

Unidad de Apoyo para el Aprendizaje

Iniciar

Introducción

Las necesidades de información del ser humano y de las organizaciones evolucionan con el tiempo. Con el surgimiento de las bases de datos, se pudo resolver el problema de registrar información útil para su futura recuperación; fueron posibles cálculos más rápidos y se le dio confiabilidad al procesamiento de grandes cantidades de transacciones. Hoy en día, podemos decir que estas necesidades están prácticamente cubiertas.

De esta forma, la primera necesidad ya no consiste en el almacenamiento y procesamiento, sino en el análisis; por tanto, las nuevas tecnologías de bases de datos se están orientando al análisis automático de información para brindar soporte a las decisiones y generar conocimiento.

Antes, las necesidades de información respondían, por ejemplo, a cuánto fue vendido en Nuevo León en septiembre del año pasado, cuya solución era aplicada con una consulta simple de SQL —query—. Hoy en día, se pregunta cuántas unidades se vendieron en Nuevo León, respecto con Guadalajara el año pasado, a comparación con el presente o, con base en las ventas del último lustro, cuántas podrían ser las unidades vendidas este año. Esta situación obliga a usar métodos que permitan predecir el comportamiento de los datos.

Por otro lado, no es raro encontrar organizaciones que utilicen las bases de datos como centros de almacenaje del acontecer diario de la organización, ya que, por ejemplo, esto les permite facturar y llevar control de stocks, pero pocas veces las usan para producir un análisis.

Entonces, ¿qué necesitan las organizaciones para utilizar este análisis automático de información y predecir el comportamiento? Primero, un almacén de datos construido con ese fin, un data warehouse; después, un conjunto de estrategias y métodos de análisis, es decir, la minería de datos. Este tema presenta los conceptos y características generales de ambas tecnologías. Una vez revisado, podrás realizar dos actividades de aprendizaje y una autoevaluación para verificar tus conocimientos adquiridos; si lo crees necesario, puedes revisar nuevamente el contenido y realizar las actividades para obtener un mejor desempeño.

Esquema mostrando el proceso de generación de conocimiento a través de una base de datos

González, E. (s. f.). Generación de conocimiento [ilustración].
Tomada de https://topiavandebasedatos.wikispaces.com/3.4.3+Dise%C3%B1o+de+mineros+de+datos


El estudio de este tema te permitirá:

Revisar la minería de datos y el data warehouse, a través de sus conceptos y características, con la finalidad de identificar nuevas tecnologías aplicadas en bases de datos.

Minería de datos


El volumen de datos que guarda actualmente las bases se ha convertido en un recurso importante que debe analizarse. Este análisis permitiría describir y entender los procesos económicos y financieros de las organizaciones. Además, se cuenta con enormes bases de datos científicas, como las relacionadas al genoma o la astronomía, que encierran conocimiento que debe ser descubierto.

Una manera de obtener este análisis es mediante el descubrimiento de patrones en los datos. Un patrón es una serie de características o de eventos que presenta alguna regularidad, suceden cada cierto tiempo, en las mismas circunstancias o con los mismos efectos. Si vemos una base de datos, será difícil percibir a simple vista si existe un patrón, de aquí que necesitemos utilizar técnicas especializadas llamadas, en conjunto, minería de datos.

Libro cerrado

Francais. (2017). Libro [ilustración].
Tomada de https://pixabay.com/es/libro-leer-lectura-estudios-2247427

Definición

La minería de datos (MD) es también conocida como descubrimiento de conocimiento en bases de datos (knowledge discovery in databases, KDD). Podemos definirla como la aplicación de técnicas estadísticas y de aprendizaje automático para encontrar patrones no triviales en bases de datos, que resulten de interés para el experto de un dominio determinado.

La MD tiene dos enfoques. El primero es descriptivo y consiste en encontrar patrones que nos permitan describir la situación actual de la organización. El segundo es predictivo y trata de obtener modelos que pronostiquen, a partir de los patrones, algún comportamiento interesante en el futuro.


Pasos generales de la minería de datos (MD)


Esquema mostrando los cinco pasos generales de la minería de datos

Dueñas, M. (2009). Pasos generales de la minería de datos [ilustración].
Tomada de http://www.scielo.org.co/scielo.php?pid=S0123-21262009000100007&script=sci_arttext


La MD se lleva a cabo siempre bajo la idea de cooperación entre el experto del dominio —finanzas, mercadotecnia, ventas— y el personal de informática. A continuación, lo pasos generales de la MD:


Esquema mostrando los elementos de la MD

(s. a.) (2017). Elementos de la minería de datos [ilustración].
Tomada de http://www.ehu.eus/ehusfera/ifbloga/2016/10/06/hitzaldiak_charlas-datu-meatzaritza-mineria-de-datos/


El proceso de MD produce un modelo que puede ser descriptivo o predictivo, según los patrones identificados en los datos. Con él, se analizan posibles cursos de acción para tomar decisiones. Este modelo puede ser desde una gráfica hasta una red neuronal. La recolección de datos se realiza a partir de las bases transaccionales o de un data warehouse. Finalmente, debes saber que el modelo de MD puede ser estadístico o de aprendizaje automático.


Proceso de minería de datos


El proceso de MD comienza con la definición del objetivo de la minería. Esto se hace entre el experto del dominio y el de minería. En el objetivo, se pueden explorar los datos de forma general —conocer las características de los clientes—, obtener un modelo descriptivo o clasificador —un modelo que clasifique a los clientes en sujetos de crédito o no— o demostrar una hipótesis —¿es cierto que los cursos más rentables se dan en Guadalajara a personas mayores de 40 años, con puestos gerenciales y con ingresos superiores a $ 20 000?—.

Una vez identificado el objetivo, será necesario definir las fuentes de datos y los datos relevantes para el análisis. Éstos pueden estar resumidos o acumulados.

Enseguida, se puede hacer un acercamiento preliminar a los datos. Por lo general, se tratan de aplicar medidas estadísticas y obtener gráficas representativas de los datos; por ejemplo, promedios, máximos, mínimos, histogramas, diagramas de barras, pareto o análisis de correlación.

En esta etapa, se deciden los métodos estadísticos o de aprendizaje automático que serán aplicados a los datos.

Este paso consiste en obtener los datos y adaptarlos al formato de entrada de nuestro método. Es común que se llegue a una sola tabla con datos no normalizados como insumo de la minería. Esta tabla suele llamarse vista minable.

Se corren los procesos de aprendizaje automático para obtener un modelo a partir de los datos. Por lo general, se utiliza un 70 % de los datos originales, como datos de entrenamiento, y el resto se emplea para evaluar si el modelo obtenido es bueno.

Se evalúa el modelo obtenido mediante medidas especiales, por ejemplo, precision y recall. Esto nos permitirá saber si el modelo obtenido es bueno.

Se evalúan los resultados del proceso de MD con el experto del dominio, para saber si son útiles y no triviales.

Estrategias de minería de datos

Las estrategias de minería pueden clasificarse en supervisadas —clasificación y estimación—, no supervisada—agrupamiento o clustering— y análisis de canasta.


Supervisadas

En éstas, se construyen modelos que asignan o clasifican nuevos ejemplos a un conjunto de clases, definidas previamente. Los modelos de clasificación pueden servirnos para:


Corazón y Tarjeta de crédito

• Estimación

Consiste en determinar el valor de un atributo numérico; por ejemplo:


Signo de porcentaje y Tarjetas bancarias


No supervisadas

• Agrupamiento

En este caso, no existen categorías predefinidas para clasificar ejemplos o instancias. Estas clases o clusters se proponen como resultado del proceso de minería de datos. A este modelo de agrupamiento le acompañan medidas de cercanía entre instancias agrupadas. Algunos ejemplos son:


Grupo de clientes y Grupo de flores


Análisis de canasta

Este análisis nos permite encontrar relaciones entre productos de acuerdo con sus ventas. Para este análisis, suelen utilizarse algoritmos que producen reglas de asociación.


Pan y leche


Técnicas de minería de datos

Las técnicas de MD se usan para aplicar una estrategia determinada a un conjunto de datos. Éstas cuentan generalmente con un algoritmo y una estructura de conocimiento. Las principales técnicas de minería son:

a) Reglas de producción:

Son reglas con la forma:

  • IF —antecedente—
  • THEN —consecuencia—

b) Regresión lineal:

Permite crear ecuaciones matemáticas con más de una variable independiente.

c) Árboles de decisión:

Es un conjunto de nodos que representan preguntas con las que se clasifica un ejemplo o instancia en una categoría predefinida.

d) Clustering:

Como lo habíamos mencionado, consiste en encontrar clusters, también llamados cúmulos, nubes, agrupamientos o categorías en conjuntos de datos. Lo empleamos cuando no estamos seguros de las categorías que existen en ellos.

e) Reglas de asociación —análisis de canasta—:

Representan asociaciones entre atributos, contenidos en las bases de datos.


Aplicaciones de la minería de datos

Algunas de las actividades en las que resulta útil el uso de la minería de datos:


Listado mostrando seis aplicaciones de la minería de datos

Data warehousing


Los avances en la tecnología de bases y el desarrollo de un conjunto variado de sistemas manejadores han brindado invaluables beneficios al procesamiento automatizado de información. Así, las organizaciones se han convertido en continuos desarrolladores de bases de datos transaccionales para apoyar sus actividades económico-administrativas. Se volvió práctica común que distintos departamentos de una misma organización decidieran trabajar con distintos sistemas manejadores de bases, situación que ha generado problemas para el análisis y procesamiento consolidado de datos.


Grupos de personas utilizando diferentes manejadores de bases de datos en una organización

Departamentos de una organización trabajando con distintos manejadores de base de datos


Las organizaciones no contemplaron la labor del análisis de los datos. De esta manera, es normal encontrar, en muchas organizaciones, enormes bases de datos transaccionales y procesos de análisis de datos manuales, basados en reportes automatizados. Con el afán de responder a estas problemáticas, se propusieron nuevos modelos de bases de datos que permiten contar con un gran almacén consolidado de datos, listo para aplicarle procesos de análisis automático. A esta nueva tecnología se le llamó data warehousing.



Esquema mostrando el proceso de la tecnología Data warehousing

Data warehousing.


Libro cerrado

Francais. (2017). Libro [ilustración].
Tomada de https://pixabay.com/es/libro-leer-lectura-estudios-2247427

Definición

Para Chaudhuri y Dayal (1997), el data warehousing consiste en una colección de tecnologías que permiten mejores y más rápidas decisiones; su objetivo es brindar la tecnología necesaria para obtener resúmenes complejos de información y conocimiento. Asimismo, empleando las respectivas tecnologías, herramientas y metodologías, se podría crear, usar y mantener un data warehouse.


Esquema mostrando el análisis de datos del Data warehousing

Cicirelli, A. (2010). Diagrama de data warehouse [ilustración].
Tomada de http://semanticworld.altervista.org/blog/2010/06/cosa-centra-il-web-semantico-con-il-data-warehousing/


Por su parte, el concepto de data warehouse (DW) se puede entender como un depósito centralizado de datos que ayuda al análisis del negocio. Es un almacén que unifica las bases de datos empresariales o departamentales sin importar el sistema manejador en el que se encuentren. Inmon (2002) indica que “[…] Un almacén de datos es una colección orientada a un dominio integrado, no volátil y variable en el tiempo, que ayuda a las decisiones de la administración”.


Características

A partir de la definición del llamado padre del data warehouse, William H. Inmon, podemos identificar sus características:

Orientados a temas

Los datos de un DW deben estar recolectados para proporcionar información sobre los temas importantes de la empresa y no sobre sus operaciones diarias.

Integrado

Los datos están integrados a partir de una variedad de bases de datos transaccionales, provenientes de los sistemas online transaction processing (OLTP) de la organización. Los datos deben ofrecer una imagen corporativa general de ella.

No volátil

Los datos de un DW no son eliminados ni modificados, ya que se quiere representar la historia de la organización.

Variante en el tiempo

Los datos están asociados a periodos de tiempo, específicos y bien identificados.


Componentes

Los principales componentes de un DW incluyen el data warehouse como tal y algunos elementos adicionales, como las fuentes y destinos del mismo.


Bases de datos transaccionales y otros recursos externos

Son las fuentes de origen de los datos las que forman el DW. De ellas, se extraen los datos y se cargan en las estructuras del DW. Es común que los datos se tengan que limpiar y transformar. Este proceso es conocido como extract, transform and load (ETL).

Metadatos

Son datos que describen el contenido del DW. Entre éstos, se incluyen el origen de los datos, el responsable y las descripciones sobre los tipos de resúmenes.

La base de datos del DW

Es la base de datos que almacena los datos del DW. Es normal observar que el almacenamiento se haya realizado bajo un modelo dimensional y no relacional. Este modelo consiste en un grupo de tablas de dimensiones que guardan una relación de uno a muchos, con una tabla principal o de hechos.

Herramientas de consulta

La construcción de un DW conlleva la creación de herramientas de procesamiento y análisis de los datos contenidos en él. Estas herramientas pueden ser parte de lo que se conoce como un sistema online analytical processing (OLAP) o ser herramientas de minería de datos.

Los usuarios

Son el último componente de un DW y son los que explotan sus beneficios, ya sea mediante el resultado de la minería de datos o de sistemas de consulta para soporte de las decisiones.



Áreas

A continuación, se enlistan las diversas áreas que, en la actualidad, han adoptado la tecnología del DW para mejorar sus negocios:


Listado mostrando diez áreas que utilizan la tecnología DW.

Actividad 1. Características del data warehouse

Existen nuevos modelos de bases de datos que permiten contar con un gran almacén consolidado de datos, listo para aplicarle procesos de análisis automático. A esto se le llama data warehouse (DW). En la siguiente actividad, deberás relacionar las características del DW, con su descripción.

Arrastra el nombre de las características que componen el DW hacia el espacio que completa cada una de sus definiciones.


Actividad 2. Minería de datos

La minería de datos busca encontrar patrones no triviales en una base de datos; para esto, existen conceptos y características que debes conocer. ¿Eres capaz de identificarlos?

Elige el nombre del concepto o característica que complete cada una de las descripciones relacionadas con la minería de datos.


Autoevaluación. Nuevas tecnologías aplicadas a las bases de datos: minería de datos y data warehouse

Como revisaste en este tema, la minería de datos (MD) y el data warehouse (DW) implican varios conceptos.

Indica si las siguientes aseveraciones corresponden a los conceptos y características de la minería de datos y el data warehouse.

Fuentes de información

Básicas

Bibliografía


Chaudhuri, S. y Dayal, U. (1997). An overview of data warehousing and OLAP technology. ACM SIGMOD Record, 26(1), 517-526.

Gutiérrez, G. y Barranco, V. (2008). Minería de datos dentro del proceso de KDD aplicado a la base de datos de circulación bibliográfica de la Biblioteca Central (tesis de licenciatura). UNAM, México.

Ibáñez, A. R. (2008). Data Warehouse. Guía para el diseño de un Data Warehouse (tesis de licenciatura). UNAM, México.

Inmon, H. (2002). Building the data warehouse (3.a ed.). Nueva York: John Wiley & Sons.

Kimball, R. (2002). The data warehouse toolkit: the complete guide to dimensional modeling (2.a ed.). Nueva York: John Wiley & Sons.

Mallach, E. (2000). Decision support and data warehouse systems. Nueva York: McGraw-Hill.

Reyes, C. T. (2007). La minería de datos como herramienta para la toma de decisiones en el proceso de calendarización de cursos de cómputo (tesis de licenciatura). UNAM, México.


Complementarias

Documentos electrónicos

Abella, R., Cóppola, L. y Olave, D. (1999). Sistema Data Warehousing: carga y control de calidad. Montevideo: Facultad de Ingeniería-Universidad de la República. Consultado el 30 de noviembre de 2017 de https://www.fing.edu.uy/~ruggia/T5s/T5DWBede98ETL_InfoPrincipal.pdf

Beltrán, B. (s. f). Minería de datos. Puebla: Facultad de Ciencias de la Computación-Benemérita Universidad Autónoma de Puebla. Consultado el 30 de noviembre de 2017 de http://bbeltran.cs.buap.mx/NotasMD.pdf




Cómo citar