Obiettivi:
Integrazione dei dati e interoperabilità (Data Integration & Interoperability, DII) descrive i processi relativi allo spostamento e al consolidamento dei dati all’interno e tra data store, applicazioni e organizzazioni. L’integrazione consolida i dati in forme coerenti, fisiche o virtuali; l’interoperabilità dei dati è la capacità di comunicazione tra più sistemi.
Le soluzioni DII abilitano funzioni base di data management da cui dipendono la maggior parte delle organizzazioni:
- Migrazione e conversione dei dati
- Consolidamento dei dati in hub o mart
- Integrazione di pacchetti di fornitori nel portafoglio di applicazioni di un’organizzazione
- Condivisione dei dati tra applicazioni e tra organizzazioni
- Distribuzione dei dati tra data store e data center
- Archiviazione dei dati
- Gestione delle interfacce dati
- Ottenimento e inserimento di dati esterni
- Integrazione di dati strutturati e non strutturati
- Fornitura di intelligence operativa e supporto alle decisioni del management
DII dipende da altre aree di data management:
- Data Governance
- Data Architetture
- Data Security
- Metadata
- Data Storage e Operations
- Data modeling and design
L’integrazione dei dati e l’interoperabilità sono cruciali per il Data Warehousing e la Business Intelligence, nonché per i Reference Data e il Master Data Management, poiché tutti questi sono focalizzati sulla trasformazione e l’integrazione dei dati dai sistemi di origine a hub di dati consolidati e dagli hub ai sistemi target, dove possono essere forniti agli utilizzatori di dati, sia sistemi che umani.
Sono anche fondamentali per l’area emergente del Big Data management. I Big Data tendono a integrare vari tipi di dati, tra cui i dati strutturati e archiviati nei database, i dati di testo non strutturati nei documenti o nei file, altri tipi di dati non strutturati come quelli audio, video e di streaming. Questi dati integrati possono essere estratti, utilizzati per sviluppare modelli predittivi e implementati nelle attività di intelligence operativa.
Le attività di Data Integration and Interoperability comportano il reperimento dei dati dove sono necessari, quando sono necessari e nella forma in cui sono necessari. Le attività di integrazione dei dati seguono un ciclo di vita di sviluppo: iniziano con la pianificazione e passano attraverso la progettazione, lo sviluppo, i test e l’implementazione. Una volta implementati, i sistemi integrati devono essere gestiti, monitorati e migliorati.
Attività svolte dal nostro Team:
Pianificare e analizzare
- Definire i requisiti di integrazione dei dati e del ciclo di vita: La definizione dei requisiti di integrazione dei dati implica la comprensione degli obiettivi di business dell’organizzazione, nonché i dati richiesti e le iniziative tecnologiche proposte per raggiungere tali obiettivi. Il processo di definizione dei requisiti crea e rivela Metadati preziosi, che devono essere gestiti per tutto il ciclo di vita dei dati, dalla scoperta (discovery) all’utilizzo nei processi operativi. Più i metadati di un’organizzazione sono completi e precisi, migliore è la capacità della stessa di gestire i rischi e i costi dell’integrazione dei dati.
- Eseguire il Data Discovery: Il Data Discovery (scoperta dei dati) deve essere eseguito prima della progettazione. L’obiettivo del data discovery è identificare potenziali origini di dati per l’attività di integrazione dei dati. La scoperta identifica dove possono essere acquisiti i dati e dove possono essere integrati. Il processo combina una ricerca tecnica mediante strumenti che leggono i metadati e/o i contenuti effettivi sui set di dati di un’organizzazione, con competenze nella materia.
- Documentare il Data Lineage: Il processo di data Lineage consente di scoprire informazioni su come i dati fluiscono in un’organizzazione. Queste informazioni possono essere utilizzate per documentare il lineage dei dati ad alto livello: in che modo i dati in analisi vengono acquisiti o creati dall’organizzazione, dove si spostano e vengono modificati all’interno dell’organizzazione e come vengono utilizzati dall’organizzazione per le analytics, il decision-making o l’attivazione di eventi.
- Profilare i dati: Capire il contenuto e la struttura dei dati è essenziale per una corretta integrazione dei dati. La profilazione può aiutare i team di integrazione a scoprire queste differenze e a utilizzare tali conoscenze per prendere decisioni migliori sul sourcing e sul design. Se la profilazione dei dati viene ignorata, le informazioni che dovrebbero influenzare la progettazione non verranno scoperte fino al collaudo o alle operations. La profilazione di base prevede l’analisi di quanto segue:
- Formato dei dati così come definito nelle strutture dei dati e dedotto dai dati reali
- Popolamento dei dati, inclusi i livelli di dati null, blank o di default
- Valori dei dati e quanto corrispondono a un insieme definito di valori validi
- Pattern e relazioni interni al set di dati, come campi correlati e regole di cardinalità
- Rapporti con altri set di dati
- Raccogliere le regole di business: Le regole di business sono un sottoinsieme cruciale di requisiti. Una regola di business è una dichiarazione (statement) che definisce o vincola un aspetto dei processi di business. Le regole di business hanno lo scopo di sostenere la struttura dei business o di controllare o influenzare il comportamento del business; esse rientrano in una delle seguenti quattro categorie: definizioni dei termini di business, fatti relativi a termini reciproci, vincoli o asserzioni di azioni e derivazioni.
Progettare soluzioni di integrazione dei dati
- Progettare l’architettura di integrazione dei dati: Le soluzioni di integrazione dei dati devono essere specificate sia a livello aziendale, sia a livello di soluzione individuale e stabilendo standard aziendali, l’organizzazione risparmia tempo nell’implementazione di soluzioni individuali, poiché le valutazioni e le negoziazioni sono state eseguite in anticipo rispetto alle necessità. Un approccio aziendale consente risparmi nel costo delle licenze attraverso sconti di gruppo e nei costi di gestione di un insieme coerente e meno complesso di soluzioni.
- Modellare hub di dati, interfacce, messaggi e data service: Le strutture di dati necessarie a Data Integration and Interoperability comprendono quelle in cui i dati persistono, come gli hub di Master Data Management, data warehouse e mart e data store operativi, e quelli transitori e utilizzati solo per il trasferimento o la trasformazione dei dati, come interfaccia, layout dei messaggi e modelli canonici.
- Mappare le origini dati sui target: Quasi tutte le soluzioni di integrazione dei dati includono la trasformazione dei dati dalle strutture di origine a quelle target. La mappatura delle origini sui target implica la specifica delle regole per la trasformazione dei dati da una posizione e un formato ad altri. La trasformazione può essere eseguita con una pianificazione batch o innescata dal verificarsi di un evento in tempo reale. Può essere realizzata attraverso la persistenza fisica del formato target o attraverso la presentazione virtuale dei dati nel formato target.
- Progettare l’orchestrazione dei dati: Il flusso di dati in una soluzione di integrazione dei dati deve essere progettato e documentato. L’orchestrazione dei dati (data orchestration ) è il pattern dei flussi di dati dall’inizio alla fine, inclusi i passaggi intermedi, necessari a completare la trasformazione e/o la transazione.
Sviluppare soluzioni di integrazione dei dati
- Sviluppare Data Service: È possibile sviluppare servizi per accedere, trasformare e consegnare i dati secondo quanto specificato, abbinando il modello di interazione selezionato. Gli strumenti o le suite dei fornitori sono utilizzate più frequentemente per l’implementazione delle soluzioni di integrazione dei dati, come la trasformazione dei dati, il Master Data Management, il data warehousing, ecc. L’utilizzo di strumenti coerenti o suite standard di fornitori per questi scopi differenti in tutta l’organizzazione può semplificare il supporto operativo e ridurre i costi operativi abilitando soluzioni di supporto condivise.
- Sviluppare flussi di dati: I flussi di dati di integrazione o ETL si sviluppano, in generale, all’interno di strumenti specializzati nella gestione di tali flussi in modo proprietario. I flussi di dati batch si sviluppano in uno scheduler (di solito lo scheduler standard aziendale) che gestisce l’ordine, la frequenza e la dipendenza dell’esecuzione delle parti di integrazione dei dati che sono state sviluppate. I requisiti di interoperabilità possono comprendere lo sviluppo di mappature o punti di coordinamento tra data store.
- Sviluppare l’approccio alla migrazione dei dati: I dati devono essere trasferiti quando si implementano nuove applicazioni o quando le applicazioni vengono dismesse o unificate. I progetti di migrazione dei dati sono spesso sottostimati o progettati in modo insufficiente, in quanto ai programmatori viene detto semplicemente di “spostare i dati”, ed essi non svolgono le attività di analisi e progettazione necessarie per l’integrazione dei dati. Quando i dati vengono migrati senza un’adeguata analisi, appaiono spesso diversi da quelli provenienti da un processing normale oppure i dati migrati potrebbero non funzionare come previsto con l’applicazione.
- Sviluppare un approccio alla pubblicazione: I sistemi in cui vengono creati o gestiti dati critici devono rendere tali dati disponibili ad altri sistemi dell’organizzazione. I dati nuovi o modificati devono essere inviati da applicazioni che producono dati ad altri sistemi al momento della modifica dei dati o in base a pianificazione periodica. La best practice è istituire definizioni dei messaggi comuni per i vari tipi di dati dell’organizzazione e consentire agli utilizzatori di dati che dispongono dell’autorità di accesso appropriata per l’iscrizione a ricevere notifica di eventuali modifiche ai dati di interesse.
- Sviluppare flussi di processing di eventi complessi: Lo sviluppo di soluzioni di processing di eventi complessi richiede:
- La preparazione dei dati storici su un individuo, organizzazione, prodotto o mercato e pre-popolamento dei modelli predittivi
- Il processing del flusso di dati in tempo reale per il popolamento completo del modello predittivo e l’identificazione di eventi significativi (opportunità o minacce)
- L’esecuzione dell’azione innescata in risposta alla previsione
- Mantenere i metadati DII: Durante il processo di sviluppo di soluzioni DII, un’organizzazione creerà e scoprirà metadati preziosi, che sarebbe opportuno gestire e mantenere per garantire la corretta comprensione dei dati nel sistema e per evitare la necessità di riscoprirli per soluzioni future. I metadati affidabili migliorano la capacità di un’organizzazione di gestire i rischi, ridurre i costi e ottenere più valore dai propri dati. E opportuno documentare le strutture di dati di tutti i sistemi coinvolti nell’integrazione dei dati come origine, target o staging e includere definizioni di business e definizioni tecniche (struttura, formato, dimensione), nonché la trasformazione dei dati tra data store persistenti.
Implementare e monitorare
I data service che sono stati sviluppati e testati devono essere attivati. Il processing dei dati in tempo reale richiede il monitoraggio dei problemi in tempo reale. Occorre istituire parametri che indicano i potenziali problemi del processing, nonché la notifica diretta dei problemi. È necessario stabilire un monitoraggio automatico e manuale delle problematiche, in particolare con l’aumentare della complessità e del rischio delle risposte innescate.