Objetivos:
La Integración de Datos y Interoperabilidad (IDI) describe los procesos relativos al movimiento y a la consolidación de los datos dentro de y entre almacenes de datos, aplicaciones y organizaciones. La integración consolida los datos en formas coherentes, físicas o virtuales; la interoperabilidad de los datos es la capacidad de comunicación entre múltiples sistemas.
Las soluciones IDI permiten funciones básicas de gestión de datos de las que dependen la mayoría de las organizaciones:
- Migración y conversión de datos
- Consolidación de datos en hub o mart
- Integración de paquetes de proveedores en la cartera de aplicaciones de una organización
- Uso compartido de datos entre aplicaciones y organizaciones
- Distribución de datos entre almacenes de datos y centro de procesamiento de datos
- Almacenamiento de datos
- Gestión de las interfaces de datos
- Obtención y entrada de datos externos
- Integración de datos estructurados y datos no estructurados
- Suministro de inteligencia operativa y apoyo a la toma de decisiones de gestión
La IDI depende de otros ámbitos de la gestión de datos:
- Gobierno de datos
- Arquitectura de datos
- Seguridad de datos
- Metadatos
- Almacenamiento y operaciones de datos
- Modelado de Datos y Design
La integración de Datos y la interoperabilidad son cruciales para el Almacén de Datos y la Inteligencia Empresarial, así como para los Datos de Referencia y la Gestión de Datos Maestros, ya que todos ellos se centran en la transformación e integración de datos desde los sistemas de origen a los hub de datos consolidados y desde los hubs a los sistemas target, donde pueden entregarse a los usuarios de datos, tanto sistemas como humanos.
También son fundamentales en el ámbito emergente de la gestión de Big Data. Los Big Data tienden a integrar varios tipos de datos, incluidos datos estructurados almacenados en bases de datos, datos de texto no estructurados en documentos o archivos, otros tipos de datos no estructurados como audio, vídeo y datos de streaming. Estos datos integrados pueden extraerse, utilizarse para desarrollar modelos predictivos e implementarse en actividades de inteligencia operativa.
Las actividades de integración e interoperabilidad de datos consisten en encontrar los datos donde se necesitan, cuando se necesitan y en la forma en que se necesitan. Las actividades de integración de datos siguen un ciclo de vida de desarrollo: comienzan con la planificación y pasan por el diseño, el desarrollo, las pruebas y la implantación. Una vez implantados, los sistemas integrados deben gestionarse, supervisarse y mejorarse.
Actividades realizadas por nuestro Equipo:
Planificar y analizar
- Definición de los requisitos y el ciclo de vida: Definir los requisitos de integración de datos implica comprender los objetivos empresariales de la organización, así como los datos necesarios y las iniciativas tecnológicas propuestas para alcanzar dichos objetivos. El proceso de definición de requisitos crea y revela valiosos metadatos, que deben gestionarse a lo largo del ciclo de vida de los datos, desde su descubrimiento hasta su uso en procesos operativos. Cuanto más completos y precisos sean los metadatos de una organización, mejor podrá gestionar los riesgos y costes de la integración de datos.
- Realizar el Data Discovery: el Data Discovery debe realizarse antes del diseño. El objetivo del Data Discovery es identificar las posibles fuentes de datos para la actividad de integración de datos. El descubrimiento identifica dónde pueden adquirirse los datos y dónde pueden integrarse. El proceso combina la investigación técnica, mediante herramientas que leen los metadatos y/o el contenido de los conjuntos de datos de una organización, con la competencia en la materia.
- Documentar el Linaje de Datos (Data Lineage): El proceso de linaje de datos permite descubrir información sobre cómo fluyen los datos en una organización. Esta información puede utilizarse para documentar el linaje de los datos a alto nivel: cómo adquiere o crea la organización los datos que se analizan, por dónde se mueven y modifican dentro de la organización y cómo los utiliza la organización para el análisis, la toma de decisiones o la activación de eventos.
- Elaboración de perfiles de datos: Comprender el contenido y la estructura de los datos es esencial para una corecta integración de datos. La elaboración de perfiles puede ayudar a los equipos de integración a descubrir estas diferencias y a utilizar estos conocimientos para tomar mejores decisiones de aprovisionamiento y diseño. Si se ignora el perfilado de datos, la información que debería influir en el diseño no se descubrirá hasta las pruebas o las operaciones. La creación de perfiles básicos implica analizar lo siguiente:
- Formato de los datos tal como se define en las estructuras de datos y se deduce de los datos reales
- Población de los datos, incluidas las capas de datos null, blank o default
- Valores de los datos y sus correspondencia con un conjunto definido de valores válidos
- Patrones y relaciones dentro del conjunto de datos, como campos relacionados y reglas de cardinalidad
- Relaciones con otros conjuntos de datos
- Reunir las reglas de negocio: Las reglas de negocio son un subconjunto de requisitos. Una regla de negocio es una declaración que define o limita un aspecto de los procesos de negocio. Las reglas de negocio tienen como objetivo lo de apoyar la estructura empresarial o de controlar o influir el comportamiento empresarial; se clasifican en una de las cuatro categorías siguientes: definiciones de términos empresariales, hechos sobre términos mutuos, restricciones o afirmaciones de acciones y derivaciones.
Planear soluciones de integración de datos
- Planear la arquitectura de integración de datos: Las soluciones de integración de datos deben especificarse tanto a nivel empresarial como a nivel de solución individual, y al establecer estándares de empresa, la organización ahorra tiempo en la implantación de soluciones individuales, ya que las evaluaciones y negociaciones se han realizado con antelación a la necesidad. Un enfoque empresarial permite ahorrar en el coste de la licencias gracias a descuentos por grupo y en los costes de gestión de un conjunto coherente y menos complejo de soluciones.
- Modelar hub de datos, interfaces, mensajes y servicios de datos: Las estructuras de datos necesarias a la Integración de Datos y Interoperabilidad incluyen aquellas en las que los datos persisten, como los hubs de Gestión de Datos Maestros, almacén de datos, mart y los almacenes de datos operativos, y aquellas que son transitorias y solo se utilizan para la transferencia o transformación de datos, como las interfaces, layout de mensajes y modelos canónicos.
- Localizar las orígenes de datos en los destinos: Casi todas las soluciones de integración de datos incluyen la transformación de datos de estructuras de origen a estructuras de destino. La localización de las orígenes de datos en los destinos implica la especificación de reglas para la transformación de datos de una ubicación y formato a otro. La transformación puede realizarse con una programación batch o provocarse al producirse un evento en tiempo real. Puede realizarse mediante la persistencia física del formato de destino o mediante la presentación virtual de los datos en el formato de destino.
- Planear la orquestación de datos: El flujo de datos en una solución de integración de datos debe diseñarse y documentarse. La orquestación de datos es el patrón de flujos de datos de principio a fin, incluidos los pasos intermedios, necesarios para completar la transformación y/o transacción.
Desarrollar soluciones de integración de datos
- Desarrolar Servicios de Datos: Es posible desarrollar servicios para acceder a los datos, transformarlos y entregarlos según se especifique, combinando el modelo de integración seleccionado. Las herramientas o las suite de los proveedores se utilizan con mayor frecuencia para la implementación de las sociluciones de integración de datos, como la como la transformación de datos, la gestión de datos maestros, el almacenamiento de datos, etc. El uso de herramientas coherentes o suite estándar de proveedores para estos distintos fines en toda la organización puede simplificar el soporte operativo y reducir los costes operativos al permitir soluciones de soporte compartidas.
- Desarrolar flujos de datos: Los flujos de datos de integración o ETL suelen desarollarse en herramientas especializadas en la gestión de dichos flujos de forma propietaria. Los flujos de datos batch se desarrollan en un planificador (normalmente el planificador estándar de la empresa) que gestiona el orden, la frecuenciay la dependencia de la ejecución de las partes de integración de datos que se han desarrollado. Los requisitos de interoperabilidad pueden incluir el desarrollo de localizaciones o puntos de coordinación entre almacenes de datos.
- Desarrollar el enfoque a la migración de datos: Los datos deben transferirse cuando se implementan nuevas aplicaciones o cuando éstas cesan o se fusionan. Los proyectos de migración de datos suelen ser subestimados o diseñados mal, ya que a los programadores se les dice simplemente que «muevan los datos» y ellos no realizan las actividades de análisis y diseño necesarias para la integración de datos. Cuando los datos se migran sin un análisis adecuado, a menudo parecen diferentes de los que derivan de un processing normal o los datos migrados pueden no funcionar como se esperaba con la aplicación.
- Desarrollar un enfoque a la publicación: Los sistemas en los que se crean o gestionan datos críticos deben poner estos datos a disposición de otros sistemas de la organización. Los datos nuevos o modificados deben enviarse desde las aplicaciones que producen datos a otros sistemas cuando se modifican los datos o en base a calendario periódico. La mejor práctica consiste en establecer definiciones de mensajes comunes para los distintos tipos de datos de la organización y permitir que los usuarios de datos con la autoridad de acceso adecuada sean notificados de cualquier cambio en los datos de interés.
- Desarrollar flujos de processing de eventos complejos: El desarrollo de soluciones de processing de eventos complejos requiere:
- La preparación de datos históricos sobre un individuo, organización, producto o mercado y la prepoblación de modelos predictivos
- El processing del flujo de datos en tiempo real para completar el modelo predictivo e identificar eventos significativos (oportunidades o amenazas)
- La ejecución de la acción provocada en respuesta a la predicción
- Conservar los metadatos IDI: Durante el proceso de desarrollo de solucione IDI, una organización creará y descubrirá metadatos valiosos que deben gestionarse y mantenerse para garanzitar la correcta comprensión de los datos en el sistema y evitar la necesidad de redescubrirlos para futuras soluciones. Los metadatos fiables mejoran la capadidad de una organización para gestionar riesgos, reducir costes y obtener más valor de sus datos. Las estructuras de datos de todos los sistemas implicados en la integración de datos deben documentarse como origen, target o staging, e incluir definiciones empresariales y técnicas (estructura, formato, tamaño), así como la transformación de los datos entre almacenes de datos persistentes.
Implementar y supervisar
Los Servicios de Datos desarrollados y probados deben activarse. El processing de los datos en tiempo real requiere la supervisión de los problemas en tiempo real. Deben establecerse parámetros que indiquen posibles problemas de processing y la notificación directa de los problemas. Debe establecerse una supervisión automática y manual de los problemas, sobre todo a medida que aumenta la complejidad y el riesgo de las respuestas provocadas.