Objectifs:
Depuis l’incorporation du Big Data dans les environnements d’entrepôt de données et de Business Intelligence, les techniques de Science des Données sont utilisées pour fournir une vision future (« windshield ») de l’organisation. Les capacités prédictives, en temps réel ou basées sur des modèles utilisant différents types de ressources de données permettent aux organisations d’avoir une meilleure vision interne de leur évolution.
Pour mieux exploiter les Big Data, il faut toutefois changer la façon dont la gestion des données est effectuée. La plupart des entrepôts de données sont basés sur des modèles relationnels. Les Big Data ne sont normalement pas organisées selon un modèle relationnel. La plupart des entrepôts de données reposent sur le concept ETL (Extract, Transform and Load). Les solutions Big Data, telles que les lacs de données, reposent sur le concept d’extraction, de chargement et de transformation. Tout aussi important, la vitesse et le volume des données posent des défis qui nécessitent différents types d’approches pour les aspects critiques de la gestion des données, tels que l’intégration, la gestion des métadonnées et l’évaluation de la qualité des données.
Activités réalisées par notre équipe:
Définir la stratégie et les besoins de l’entreprise en matière de Big Data
La stratégie de Big Data d’une organisation doit être alignée et soutenir la stratégie globale de l’entreprise et les exigences commerciales, et faire partie de la stratégie de données. Une stratégie Big Data doit inclure des critères d’évaluation:
- Les problèmes que l’organisation tente de résoudre. À quoi servent les Analytics.
- Les sources de données à utiliser ou à acquérir.
- L’actualité et la portée des données fournies.
- L’impact et la relation avec d’autres structures de données.
- Les influences sur les données modélisées existantes.
Choix des sources de données
Comme pour tout projet de développement, le choix des sources de données pour le travail de Data Science doit être guidé par les problèmes que l’organisation tente de résoudre. La différence avec le développement Big Data / Data Science est que l’éventail des sources de données est plus large; il n’est pas limité par le format et peut inclure des données à la fois externes et internes à l’organisation. La capacité à intégrer ces données dans une solution comporte également des risques. La qualité et la fiabilité des données doivent être évaluées et un plan doit être mis en place pour leur utilisation dans le temps.
Acquérir et archiver (ingérer) les sources de données
Une fois identifiées, les sources doivent être trouvées, parfois acquises et absorbées (ingérées) dans l’environnement Big Data. Au cours de ce processus, des métadonnées essentielles sur la source, par exemple l’origine, la taille, l’état et des informations supplémentaires sur le contenu, doivent être acquises. De nombreux moteurs d’ingestion profilent les données pendant l’ingestion, fournissant aux analystes des métadonnées au moins partielles. Une fois que les données se trouvent dans un lac de données, elles peuvent être évaluées en termes d’adéquation à de multiples tâches d’analyse. La création de modèles de science des données étant un processus itératif, l’ingestion des données l’est également. Les lacunes dans la base de données actuelle et l’intégration de ces sources doivent être identifiées de manière itérative.
Développer des hypothèses et des méthodes pour les données
La science des données consiste à créer des ensembles de réponses qui permettent de trouver un sens ou des informations détaillées dans les données. Le développement de solutions de science des données implique la création de modèles statistiques qui identifient les corrélations et les tendances au sein et entre les éléments de données et les ensembles de données. Il y aura plusieurs réponses à une question en fonction des données d’entrée d’un modèle.
Intégration/alignement des données pour l’analyse
La préparation des données pour l’analyse implique de comprendre les données, de trouver des liens entre les données des différentes sources et d’aligner les données en vue de leur utilisation. Dans de nombreux cas, l’association de sources de données relève plus de l’art que de la science. Une méthode consiste à utiliser un modèle qui intègre les données à l’aide d’une clé commune. Une autre méthode consiste à effectuer une analyse et à fusionner les données à l’aide d’index dans les moteurs de base de données afin de trouver des similitudes et des algorithmes et méthodes pour relier les enregistrements. D’autres méthodes permettent de trouver des corrélations qui seront utilisées pour compiler le modèle de visualisation des résultats. Il est nécessaire d’envisager l’utilisation de techniques au cours des étapes initiales qui aideront à comprendre comment le modèle affichera les résultats une fois publiés.
Mise en œuvre et suivi
Un modèle qui répond de manière réaliste aux besoins de l’entreprise peut être déployé dans l’environnement de production en vue d’un contrôle continu. Ces modèles doivent être affinés et entretenus. Différentes techniques de modélisation sont disponibles pour la mise en œuvre. Les modèles peuvent gérer des processus par lots et des messages d’intégration en temps réel. Ils peuvent également être incorporés dans des logiciels d’analyse pour alimenter des systèmes de gestion des décisions, des analyses historiques ou des tableaux de bord de gestion des performances.