Obiettivi:
Dall’inserimento dei Big Data all’interno del data warehousing e degli ambienti di Business Intelligence, le tecniche di Data Science vengono utilizzate per fornire una vista proiettata sul futuro (“windshield”) dell’organizzazione. Le capacità predittive, in tempo reale o basate su modelli, che utilizzano diversi tipi di risorse di dati, offrono alle organizzazioni una migliore visione interna su dove stiano andando.
Per meglio sfruttare i Big Data, tuttavia, si richiede un cambiamento nelle modalità di data management. La maggior parte dei data warehouse si basano su modelli relazionali. I Big Data non sono normalmente organizzati in un modello relazionale. La maggior parte dei data warehouse dipendono sul concetto di ETL (Extract, Transform and Load). Le soluzioni Big Data, come i data lake, dipendono sul concetto di ELT, di caricamento e successivamente trasformazione. Altrettanto importante, la velocità e il volume dei dati presenta sfide che richiedono differenti tipi di approccio per gli aspetti critici del data management, come l’integrazione, la Gestione dei Metadati, e la valutazione della Data Quality.
Attività svolte dal nostro Team:
Definire la strategia e le esigenze di business per Big Data
La strategia di Big Data di un’organizzazione deve essere allineata e supportare la strategia aziendale complessiva e i requisiti di business e far parte della data strategy. Una strategia di Big Data deve includere criteri per valutare:
- Quali problemi l’organizzazione sta cercando di risolvere. A cosa servono gli Analytics.
- Quali fonti dati utilizzare o acquisire.
- La tempestività e l’ambito dei dati forniti.
- L’impatto e la relazione con altre strutture di dati.
- Influenze sui dati modellati esistenti.
Scegliere le Fonti Dati
Come per qualsiasi progetto di sviluppo, la scelta delle fonti dati (data source) per il lavoro di Data Science deve essere guidata dalle issue che l’organizzazione sta cercando di risolvere. La differenza con lo sviluppo di Big Data / Data Science è che la gamma di fonti dati è più ampia; non è limitata dal formato e può includere dati sia esterni che interni all’organizzazione. La capacità di incorporare questi dati in una soluzione comporta anche dei rischi. La qualità e l’affidabilità dei dati devono essere valutate e deve essere messo in atto un piano per l’uso nel tempo.
Acquisire e Archiviare (Ingest) Fonti Dati
Una volta identificate, le fonti devono essere trovate, a volte acquistate e assorbite (ingested) nell’ambiente di Big Data. Durante questo processo, bisogna acquisire i Metadati critici sulla fonte, ad esempio l’origine, le dimensioni, lo stato e le informazioni aggiuntive sul contenuto. Molti motori di inserimento profilano i dati durante l’inserimento, fornendo agli analisti Metadati almeno parziali. Una volta che i dati si trovano in un data lake, possono essere valutati in termini di idoneità per più attività di analisi. Poiché la creazione di modelli di data science è un processo iterativo, lo è anche la data ingestion. Bisogna identificare in modo iterativo le lacune nell’attuale base di data asset e l’onboarding di tali fonti.
Sviluppare ipotesi e metodi per i dati
La Data Science riguarda la creazione di set di risposte in grado di trovare un significato o informazioni dettagliate all’interno di dati. Lo sviluppo di soluzioni di Data Science comporta la creazione di modelli statistici che individuano correlazioni e tendenze all’interno e tra elementi di dati e set di dati. Ci saranno più risposte a una domanda in base agli input di un modello.
Integrazione /allineamento dei dati per l’analisi
La preparazione dei dati per l’analisi implica la comprensione dei dati, trovare collegamenti tra i dati dalle varie fonti e allineare i dati per l’utilizzo. In molti casi, l’unione di fonti dati è più un’arte che una scienza. Un metodo consiste nell’utilizzare un modello che integri i dati utilizzando una chiave comune. Un altro metodo consiste nell’eseguire analisi e unire i dati utilizzando indici all’interno dei motori di database per trovare similitudini e algoritmi e metodi di collegamento dei record. Altri metodi possono trovare correlazioni che verranno utilizzate per compilare il modello di visualizzazione dei risultati. È necessario valutare la possibilità di utilizzare tecniche durante le fasi iniziali che aiuteranno a comprendere in che modo il modello mostrerà i risultati una volta pubblicati.
Implementazione e monitoraggio
Un modello che soddisfi le esigenze aziendali in modo fattibile può essere distribuito nell’ambiente di produzione per il monitoraggio continuo. Tali modelli richiedono raffinatezza e manutenzione. Sono disponibili diverse tecniche di modellazione per l’implementazione. I modelli possono gestire processi batch e messaggi di integrazione in tempo reale. Possono anche essere incorporati nel software di analisi come input nei sistemi di gestione delle decisioni, nell’analisi storica o nei dashboard di gestione delle prestazioni.