Objetivos:
Desde la incorporacón de Macrodatos en el Almacén de datos y en la Inteligencia Empresarial, las técnicas de Ciencia de datos se están utilizando para proporcionar una visión con miras hacia el futuro de la organización. las capacidade predictivas, en tiempo real o basadas en modelos que utilizan diferentes tipos de recursos de datos, proporcionan a las organizaciones una mejor visión interna de hacia dónde se dirigen.
Sin embrago, para explotar mejor los Macrodatos es necesario cambiar las modalidades de Gestión de datos. La mayoría de los almacenes de datos se basan en modelos relacionales. Los Macrodatos no suelen organizarse en un modelo relacional. La mayoría de los almacenes de datos dependen del concepto de ETL (Extraer, Transformar y Cargar). Las soluciones de Macrodatos , como los lagos de datos, dependen del concepto de ETL, carga y, a continuación, transformación. Igualmente importante es el hecho de que la velocidad y el volumen de los datos plantean retos que requieren distintos tipos de enfoques para los aspectos críticos de la gestión de datos, como la integración, la Gestión de Metadatos y la evaluación de la Calidad de Datos.
Actividades realizadas por nuestro Equipo:
Definición de la estrategia y las necesidades empresariales para Macrodatos
La estrategia de Macrodatos de una organización debe estar alineada con la estrategia corporativa global y los requisitos de negocio, y ser parte de la estrategia de datos. Una estrategia de Macrodatos debe incluir criterios para evaluar:
- Qué problemas intenta resolver la organización. Para qué sirve la Analytics.
- Qué fuentes de datos utilizar o adquirir.
- La tempestividad y el alcance de los datos proporcionados.
- El impacto y la relación con otras estructuras de datos.
- Influencia en los datos modelizados existentes.
Elección de las Orígenes de Datos
Al igual que con cualquier proyecto de desarrollo, la elección de las orígenes de datos (data source) para el trabajo de Ciencia de Datos debe guiarse por los problemas que la organización está tratando de resolver. La diferencia con el desarrollo de Macrodatos / Ciencia de Datos es que la gama de orígenes de datos es más amplia; no está limitada por el formato y puede incluir datos tanto externos como internos a la organización. La capacidad de incorporar estos datos a una solución también conlleva riesgos. Hay que evaluar la calidad y fiabilidad de los datos y establecer un plan para su uso a lo largo del tiempo.
Adquirir y archivar (Ingest) orígenes de datos
Una vez identificadas, las orígenes deben encontrarse, a veces adquirirse y absorberse (ingestarse) en el entorno de Macrodatos. Durante este proceso, deben adquirirse Metadatos críticos sobre la fuente, por ejemplo, origen, tamaño, estado e información adicional sobre el contenido. Muchos motores de ingesta perfilan los datos durante la ingesta, proporcionando a los analistas Metadatos al menos parciales. Una vez que los datos están en un lago de datos, pueden evaluarse en función de su idoneidad para múltiples tareas de análisis. Dado que la creación de modelos de ciencia de datos es un proceso iterativo, también lo es la ingestión de datos. Las lagunas en la base de activos de datos actual y la incorporación de estas fuentes deben identificarse de forma iterativa.
Desarrollo de hipótesis y métodos para los datos
La Ciencia de Datos consiste en crear conjuntos de respuestas que puedan encontrar significado o información detallada dentro de los datos. El desarrollo de soluciones de Ciencia de Datos implica la creación de modelos estadísticos que identifiquen correlaciones y tendencias dentro y entre elementos de datos y conjuntos de datos. Habrá múltiples respuestas a una pregunta en función de las entradas de un modelo.
Integración/alineación de los datos para el análisis
Preparar los datos para el análisis implica comprenderlos, encontrar vínculos entre los datos de las distintas orígenes y alinearlos para su uso. En muchos casos, unir orígenes de datos es más un arte que una ciencia. Un método consiste en utilizar un modelo que integre los datos utilizando una clave común. Otro método consiste en realizar análisis y fusionar datos utilizando índices dentro de motores de bases de datos para encontrar similitudes y algoritmos y métodos para vincular registros. Otros métodos permiten encontrar correlaciones que se utilizarán para elaborar el modelo de visualización de resultados. Es necesario considerar el uso de técnicas durante las fases iniciales que ayuden a comprender cómo el modelo visualizará los resultados una vez publicados.
Implantación y supervisión
Un modelo que satisfaga las necesidades de la empresa de forma viable puede implantarse en el entorno de producción para su supervisión continua. Estos modelos requieren perfeccionamiento y mantenimiento. Existen varias técnicas de modelización para su implantación. Los modelos pueden gestionar procesos por lotes y mensajes de integración en tiempo real. También pueden incorporarse a programas informáticos de análisis como entrada en sistemas de gestión de decisiones, análisis históricos o cuadros de mando de gestión del rendimiento.