El surgimiento de organizaciones bien establecidas con distintos fines, económicos o sociales, trajo consigo la utilización de libros de registros. El crecimiento de estas empresas, además, produjo que dichos registros se volvieran difíciles de manejar. Afortunadamente, la llegada de las computadoras proporcionó medios de registro y procesamiento más simples y ágiles, y nació una nueva tecnología de almacenamiento de datos. Los archivos de datos fueron la primera solución para resolver los problemas tecnológicos de las empresas durante mucho tiempo; de esta manera, apareció la primera tecnología de almacenamiento: la base de datos.
(s. a.) (2017). Libros de registro [ilustración]. Tomada de https://pixabay.com/es/anillas-alineados-organizaci%C3%B3n-2654130/
Para establecer una definición del concepto base de datos se deben separar los datos en sí mismos de los programas de aplicación que los procesan y controlan; en este sentido, podemos definir:
Definición de una base de datos
De esta manera, la colección de datos debe estar organizada de acuerdo con un modelo que dictará la forma de las estructuras que almacenarán los datos. Estos modelos serán abordados en los temas siguientes, en los que se analizará preferentemente el modelo relacional, el más utilizado en las empresas.
Una base de datos es, finalmente, un reflejo de la realidad. Esto quiere decir que, a partir de observar un hecho del mundo, podemos modelarlo en términos de datos y crear una estructura que los almacene. En este orden, y siendo estrictos, una base de datos no necesariamente debe estar computarizada, pero hoy día no es fácil concebirlo así.Las organizaciones privadas y públicas no pueden existir sin una base de datos computarizada que les brinde información veraz y oportuna para su toma de decisiones.
Para terminar este apartado, se debe puntualizar que una base de datos requiere de programas que procesen, recuperen, compartan, aseguren y controlen sus datos. El conjunto de programas que hacen esto conforma lo que se llama sistema administrador de bases de datos.
La clasificación de las bases de datos puede hacerse de diferentes maneras, de acuerdo al contexto en que se manejen, utilidad o necesidad que satisfagan.
Tipos de bases de datos
1. Según la variabilidad de los datos almacenados
Son bases de datos de sólo lectura que se utilizan, primeramente, para el almacenamiento de datos históricos, y después pueden ser empleadas para analizar la conducta de un conjunto de datos al paso del tiempo, llevar a cabo proyecciones y, sobre todo, para la toma de decisiones.
Contienen información que se modifica con el tiempo y sobre la cual pueden efectuarse operaciones de actualización, eliminación y adicción de datos, así como operaciones básicas de consulta. Ejemplos de este tipo de base de datos son las utilizadas en los supermercados, tiendas de autoservicio y videoclubes y farmacias.
2. Según el contenido
•Base de datos bibliográficos
Contiene índices de las fuentes primarias que permiten su localización. El registro representativo de estas bases posee información relacionada con el autor, fecha de publicación, editorial, título y edición de una publicación determinada. En ocasiones, puede incluirse un extracto o resumen de la publicación original.
Generalmente comprende números, cifras o cantidades. Puede referirse, por ejemplo, a los resultados de análisis de laboratorio o investigación.
•Base de datos de texto completo
Permite almacenar datos de fuentes primarias; por ejemplo, contenidos completos de colecciones de revistas científicas.
•Directorios
Por ejemplo, agendas telefónicas en formato electrónico.
Bases de datos o bibliotecas de información química o biología
Son bases especializadas con información referente a la química, ciencias naturales y médicas. Se clasifican en varios subtipos:
•Bases especializadas que resguardan las secuencias de nucleótidos y proteínas.
•Bases de datos rutas metabólicas.
•Base de datos de estructura: almacena información sobre los modelos experimentales de estructura biomolecular en 3D.
•Base de datos clínica: guarda el registro de los historiales clínicos y tiramientos medicinales.
•Base de datos bibliográfica: almacena registro sobre todo tipo de publicaciones especializada en el campo de la biología, química, medicina y otras áreas; por ejemplo, PubChem, MEdline y EBSCOhost.
3. Según el modelo de administración
Cuando se hace referencia a un modelo de datos se alude básicamente a una descripción de la forma conceptual de cómo van a estar contenidos los datos en una base de datos, y se describen las formas o métodos que serán empleados para almacenar y recuperar la información contenida.
Los modelos de datos son una representación conceptual que a la postre servirá para la implementación de una base de datos eficiente. Esta conceptualización, por lo regular, hace referencia a una serie de algoritmos y conceptos matemáticos que permiten realizar una abstracción de lo que se desea modelar.
Algunos modelos de base de datos empleados en la actualidad:
•Bases de datos jerárquicas
Se basan en una estructura jerárquica para el almacenamiento de los datos. Los datos son organizados en una estructura de árbol compuesta por una serie de nodos de información, donde cada nodo padre puede tener varios nodos asociados hijos. El nodo principal se denomina raíz y todos los nodos terminales o que no tienen nodos asociados son las hojas.
Las bases de datos que trabajan con el esquema jerárquico sólo empleadas comúnmente en el manejo de grandes volúmenes de información, facilitan compartir los datos, ya que su estructura arbórea, por lo general, es muy estable y permite excelente rendimiento, aunque su inconveniente principal es la representación de la redundancia de datos.
•Base de datos de red
Este modelo es muy similar al jerárquico, pero su diferencia principal es el manejo del concepto de los nodos; permite que un nodo pueda tener varios nodos padres. El enfoque en el manejo de los nodos representa una mejora significativa respecto al modelo jerárquico, en razón de que posibilita solucionar el problema de la redundancia de datos.
Con toda la complejidad que resulta de la implementación de una base de datos de red ha provocado que esta sea empleada mayormente por programadores y no por usuarios finales.
•Base de datos relacional
Fue creada en 1970 por Edgar Codd en la IBM, en San Jose California, cuando formuló sus postulados fundamentales. Como su nombre lo indica, el modelo basa su funcionamiento de establecimiento de relaciones, consideradas como una representacion lógica de conjuntos o tuplas. En otras palabras, las bases de datos relacionales representan relaciones entre tablas compuestas de registros o filas que representan a las tuplas y campos o columnas.
En el modelo relacional, la forma de almacenar la informacion pasa a un segundo término, lo que permite que sea más sencillo de entender y usar por los usuarios finales. El modo de almacenar y recuperar la información en este modelo se hace mediante “consultas”, empleando un lenguaje especializado denominado SQL (lenguaje estructurado de consulta), que permite a los usuarios una forma flexible y dinámica para administrar la información. Estas características hacen que las bases de datos relacionadas sean ampliamente utilizadas en la actualidad.
•Bases de datos multidimensionales
Son bases especializadas desarrolladas para trabajar en conjunto con aplicaciones específicas, como el caso de los cubos OLAP. Muy similares en la relación, se distinguen de éstas en el manejo de conceptos, ya que los campos y atributos asociados a una tabla pueden pertenecer a dos tipos, ya sea que sirvan para representar las dimensiones de una tabla o métricas, que serán estudiadas.
•Base de datos orientados a objetos
Con el desarrollo del paradigma de la programación orientada a objetos, las bases de datos debían ser ajustadas a este mismo paradigma; el resultado fue el modelo orientado a objetos. Así, este tipo de base de datos almacena y manipula objetos (definidos a partir del paradigma de objetos, incorporando los conceptos de herencia, encapsulamiento, polimorfismo, entre otros).
•Gestión de base de datos distribuida (SGBD)
Con el auge de las telecomunicaciones e Internet surge la base de datos que puede estar contenida en diversos servidores a través de una red, así como el software empleado para su administración.
Dentro del software de administración de base de datos (SGBD) hay dos tipos básicos:
•Distribuidos homogéneos
Hacen referencia a un mismo tipo de software de administración de base de datos empleado en diversos servidores.
•Distribuidos heterogéneos
Tienen cierto grado de autonomía sobre el servidor, en donde se encuentran instalados y posibilitan el acceso y gestión de varias bases de datos autónomas y creadas al momento de la instalación del mismo software. La arquitectura empleada con mayor frecuencia para su funcionamiento es la del cliente-servidor, que permite a los usuarios conectarse de forma remota para unir base de datos en diferentes zonas geográficas y acceder a diversos sitios, como universidades y comercios. Deben su existencia a la aparición de organismos descentralizados.
•Base de datos documental
Permite generar índices en documentos completos, lo que posibilita realizar búsquedas de información más completas. Un ejemplo de sistemas que emplea este tipo de base de datos es el Tesaurus.
•Base de datos deductiva
También denominada base lógica o de conocimientos, es ampliamente utilizada en el campo de la inteligencia artificial; basa su funcionamiento en reglas de inferencia que permiten al sistema deducir un hecho a partir de una serie de conocimientos previos almacenados a ella.
Una vez que contamos con una colección de datos surge la necesidad de programas de aplicación que dejen almacenar, procesar, recuperar, compartir y asegurar esos datos. Estos conjuntos de programas son denominados sistema administrador de bases de datos, sistemas gestores de bases de datos, sistemas manejadores de bases de datos, sistemas de bases de datos o DBMS (database management systems).
Los sistemas de bases de datos ayudan a manejar grandes volúmenes de información, en tanto permiten modificar y recuperar datos de forma ágil. Pero un sistema de base de datos debe tener mecanismos de seguridad que garanticen la integridad de la información e impidan intentos de accesos no autorizados. Esta seguridad se vuelve aún más importante, porque los datos están compartidos para muchos usuarios al mismo tiempo en una red de cómputo.
Una de las principales ventajas que ofrece el uso de un sistema de administración de bases de datos es la división de niveles de abstracción de datos. En este orden, en el cuadro siguiente se presentan los tres niveles y su descripción.
Nivel | Descripción |
Nivel físico o interno | En este nivel, se describe cómo están almacenados físicamente los datos. |
Nivel conceptual o lógico | Describe la base de datos en términos de estructuras de almacenamiento. Este conjunto de estructuras es también llamado esquema. Las estructuras están basadas en el modelo de datos que seleccionemos. |
Nivel externo o de vistas | Es un conjunto de vistas a los datos que ocultan la base completa y están orientados a usuarios específicos. |
Cuadro de niveles de abstracción
La división de lenguajes no es consistente entre los distintos autores del cuadro anterior; algunos consideran que son sólo dos: DML (lenguaje de manipulación de datos) y DDL (lenguaje de definición de datos); además, es común que se afirme que el DML incluye al DQL (información de query language) y el DDL al DCL (lenguaje de control de datos); así lo hace, por ejemplo, Silberschatz (2006: 6).
Un DBMS cuenta con una arquitectura, la cual muestra la interacción de los distintos programas involucrados en la operación del sistema, es decir, cómo son procesadas las peticiones del usuario y cómo son manipulados los datos. Presentamos a continuación la arquitectura propuesta por Date (2001), a manera de ejemplo, que confronta esta arquitectura con la de Johnson (1997: 17) y Silberschatz (2006: 20).
Arquitectura de un DBMS
Para Date (2001: 5), un sistema de administración de base de datos comprende cuatro elementos: datos, hardware, software y usuarios.
Los datos deben estar disponibles para varios usuarios al mismo tiempo; esto significa que el DBMS proporciona concurrencia de datos; además, estarán protegidos contra caídas del sistema e intentos de modificación por personas ajenas a la organización.
El software de un sistema administrador de bases de datos debe ser instalado en computadoras con características de hardware suficientes para brindar buen desempeño. Actualmente existen fabricantes especializados en sistemas de cómputo idóneos para bases de datos corporativas. Por lo general, basta con ponerse en contacto con ellos y exponerles las necesidades de información y las proyecciones de tamaño de la base de datos solicitada.
Un DBMS comprende también un software encargado de hacer las gestiones con el sistema operativo y dar los servicios de cómputo de la base de datos. Cuando este software está en funcionamiento es frecuente llamarlo servidor de base de datos, e incluye programas especializados para actualizar, recuperar, asegurar y compartir los datos de la base.
Por otro lado, es habitual referirse al sistema administrador de bases de datos como un producto de software ofrecido por alguna compañía tecnológica.
En el siguiente cuadro se enlistan algunos de los manejadores comerciales y de software libre más conocidos.
Compañía | Software | Tipos |
Oracle | Oracle http://www.oracle.com | Comercial |
Microsoft | SQL Server http://www.microsoft.com | Comercial |
PostgreSQL Developer Group | PostgreSQL http://www.postgresql.org | Libre |
MySQL | MySQL http://www.mysql.com | Libre |
IBM | DB2 Universal Database | Comercial |
Manejadores de bases de datos comerciales y libres
Los usuarios que entran en juego con un sistema de bases de datos son los siguientes:
Existen dos modelos principales: el relacional y el orientado a objetos. Al adoptar un determinado modelo para crear la base de datos, las estructuras de almacenamiento y sus relaciones estarán apoyadas en principios preestablecidos por ese modelo concreto. Por ejemplo, si se elige el orientado a objetos, para construir la base de datos se tienen los conceptos de herencia, polimorfismo y encapsulación.
Hoy día, el modelo más utilizado es el relacional, surgido a raíz de la propuesta de Edgar Codd en la década de 1970.
En cuanto a los objetivos principales de un sistema de base de datos, consisten en disminuir los siguientes aspectos:
Es necesario evitar, en la medida de lo posible, la información repetida, ya que aumenta el costo de almacenamiento y puede provocar problemas en el acceso a los datos. La inconsistencia en los datos se da cuando se pierde la relación lógica entre la información; por ejemplo, permitir que en la base de datos se registre un cargo sin su abono correspondiente.
Un DBMS debe cubrir las necesidades de información del usuario mediante un lenguaje de consultas sólido; esto implica prevenir cualquier petición o situación posible de ser solicitada.
Antes del surgimiento de los sistemas administradores de bases de datos se empleaban grupos de archivos por cada departamento de la empresa, los cuales muchas veces eran de distintos tipos, textuales o binarios, tratados mediante diversos lenguajes de programación. Esto causaba problemas para tener información centralizada, ya que los sistemas de bases de datos deben permitir la centralización de datos reduciendo su aislamiento.
Evitar inconsistencias por actualizaciones de usuarios que acceden al mismo tiempo a la base de datos. Era común que los administradores de archivos tuvieran problemas con esta concurrencia.
La información que se guarda en una base de datos no debe ser vista con la misma profundidad por todos los usuarios. Por esta razón, el DBMS debe admitir niveles de usuarios y restricciones para consultar la información. También se requieren niveles de seguridad en contra del haking o craking.
Los datos que ingresan a una base deben estar bien filtrados, de manera que no se almacene información errónea o sin el formato adecuado. Para esto será necesario que el DBMS cuente con mecanismos para implementar restricciones de integridad basadas en reglas de negocio.
Se ha expuesto arriba una cantidad considerable de conceptos asociados a la tecnología de bases de datos. Dos de ellos son fundamentales: base de datos y sistema manejador de base de datos. En la actualidad es prácticamente imposible imaginar una organización que no utilice bases de datos como parte de su labor cotidiana; éstas vinieron a mejorar la tecnología de almacenamiento de datos y se han vuelto indispensables gracias a los beneficios que ofrecen los DBMS actuales.
La expresión base de datos apareció a comienzos de la década de 1970. A diferencia de ese entonces, las bases de datos han dejado de ser uso exclusivo de grandes corporativos con impresionantes infraestructuras tecnológicas, tan es así que hoy día, con la popularización de las tecnologías de la información, se han extendido a pequeñas y medianas empresas, incluso al hogar.
En las empresas, las bases de datos pretenden servir al conjunto de la organización, manejando los datos como otro recurso que viene a añadirse a los ya tradicionales. Por lo tanto, han de atender a múltiples usuarios y diferentes aplicaciones en actividades preponderantes, como la investigación, planeación y toma de decisiones. Exigen, entonces, una información precisa, oportuna, completa, coherente y adaptada a las necesidades específicas de cada beneficiario.
Recientemente ha surgido el concepto datamining (minería de datos), a partir del cual se han desarrollado herramientas y técnicas que buscan tener un mejor entendimiento de los datos que poseen las organizaciones, e identificar dependencias entre variables no tan visibles o evidentes.
En otras palabras, la minería de datos prepara, sondea y explora los datos para extraer la información oculta en ellos.
Con el nombre minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos.
A continuación se describen las aplicaciones más comunes de las bases de datos vistas desde la perspectiva de minería de datos.
Uno de los usos más comunes para la minería de datos es obtener información que ayude a los establecimientos comerciales; en este caso, a los supermercados, a realizar estudios de hábitos y comportamiento de sus clientes. Lo anterior permite a los administradores detectar conductas específicas de los clientes, lo que posibilita ajustar sus estrategias de venta. Por ejemplo, un estudio detectó que varios de sus clientes adquirían cervezas y pañales los días viernes; esto debido a que la mayoría de ellos eran padres de familia jóvenes y se prestaban a pasar el fin de semana con sus hijos viendo la televisión con una cerveza en mano. El ajuste realizado por el comercio consistió en colocar los pañales y las cervezas en una zona cercana, lo que resultó en un incremento de las ventas de cerveza.
Otro ejemplo del uso de la minería de datos en el estudio del comportamiento de los clientes se presenta en el sector de servicios (banca, telecomunicaciones, etcétera). En este sector se busca encontrar indicios que permitan detectar usuarios inconformes con el servicio y que estén pensando en cambiar de proveedor. Lo anterior se alcanza mediante una comparación de clientes que poco a poco disminuyen el uso del servicio y clientes que en el pasado reciente cambiaron de compañía. Esto ayuda a los proveedores a detectar al cliente y hacerle ofertas personalizadas acordes con sus necesidades, para retenerlos.
El área de recursos humanos de las empresas también se apoya en la minería de datos. Así, los datos recabados ayudan a establecer los niveles de productividad de los empleados, ayudando a generar perfiles con las características de los miembros más productivos y exitosos. Los perfiles generados, además, permiten definir las características de vacantes en la empresa que la hagan más productiva. La información obtenida por la minería de datos también es una herramienta de toma de decisiones para los directivos de las empresas, en la medida que les permite establecer nuevos objetivos y estrategias que aprovechen las características de sus empleados para obtener ventajas competitivas y compartir objetivos, así como en la toma de decisiones operativas (desarrollo de planes de producción y gestión de mano de obra).
Una de las aplicaciones más recientes de la minería de datos se ha presentado en el comercio electrónico. Los datos recabados por las empresas monitoreando sus sitios en Internet permiten estudiar el comportamiento de los usuarios cuando visitan su sitio, determinando cuáles son las secciones y productos más visitados. Ello hace que la empresa genere estrategias de mercadotecnia personalizadas adecuadas al perfil de cada cliente, para inducirlo a la adquisición de los productos ofertados por el sitio. La información obtenida del historial de ventas también es de gran utilidad, porque permite a la empresa determinar qué productos pudieran ser complementarios a los adquiridos por su cliente, y hacerle una oferta personalizada.
La minería de datos también es empleada para reunir información de inteligencia gubernamental que ayude a conocer patrones de comportamiento y dar seguimiento a la conducta de personas sospechosas que pudieran representar un peligro para el país. Un ejemplo es la unidad ABLE DANGER del ejército de Estados Unidos. Mediante la minería de datos se pudo identificar al líder de los atentados del 11 de septiembre de 2001, Mohammed Atta y sus asociados.
Desde la aparición de los primeros juegos de video en la década de 1960 y la creación de máquinas de inferencia conocidas como oráculos, para los juegos combinacionales, como el ajedrez o de damas, se ha empezado a emplear la minería de datos para determinar estrategias y mejorar los oráculos en los juegos. Si bien lo anterior no se ha podido lograr de forma efectiva, sí se han podido construir motores de inteligencia artificial para identificar patrones de comportamiento en los movimientos de los jugadores, con lo que es posible que el juego establezca estrategias adecuadas. Ejemplos en este campo son Berlekamp, en el juego de puntos y cajas (conocido como timbiriche), y John Nun, en el ajedrez.
Uno de los usos más extendidos de la minería de datos se ha presentado en las áreas de las ciencias duras (matemáticas, biología, química, etcétera) y la ingeniería; por ejemplo:
Genética: su objetivo principal es el estudio y entendimiento de las relaciones entre las diversas características del ser humano presentadas en las cadenas de ADN y su vínculo y vulnerabilidad a las enfermedades. En esta área, la minería de datos ayuda en el monitoreo de las instalaciones eléctricas de alta tensión, para detectar cambios en el estado del aislamiento de equipos, monitoreo de vibraciones y cambios de tensión en transformadores. Para realizar estas tareas se emplean técnicas de agrupación de datos (clustering), como los mapas autoorganizativos (SOM, selforganizing map), útiles para detectar condiciones anormales en los equipos y determinar su naturaleza.
A partir de lo anterior, el mantenimiento de las bases de datos resulta de suma importancia, ya que son un instrumento de información muy valioso para cualquier empresa, sin importar su giro. Sin embargo, administrar bases de datos conlleva un problema de información, el cual genera consideraciones de almacenamiento, seguridad y uso; por eso, el manejo de una base de datos debe ser muy prudente y profesional.
Actividad. Introducción a las bases de datos
Las bases de datos desempeñan un papel muy importante en la actualidad, ya que nos posibilitan el acceso a una infinidad de información, que puede ser utilizada con diversos fines, dependiendo de sus características y aplicaciones.
Autoevaluación. Base de datos
Mediante esta actividad de autoevaluación podrás saber si tu aprendizaje ha sido satisfactorio.