Ziele:
Informationsintegration und Interoperabilität (Data Integration & Interoperability, DII) beschreibt die Prozesse, die mit der Verlagerung und Konsolidierung von Daten innerhalb und zwischen Datenspeicher, Anwendungen und Organisationen verbunden sind. Die Integration konsolidiert Daten in kohärenten physischen oder virtuellen Formen. Die Interoperabilität von Daten ist die Fähigkeit, zwischen mehreren Systemen zu kommunizieren.
Die DII-Lösungen befähigen grundlegende Datenverwaltungsfunktionen, auf die die meisten Unternehmen angewiesen sind:
- Datenmigration und Datenkonvertierung
- Datenkonsolidierung in hub oder mart
- Integrierung von Anbieterpaketen in das Anwendungsportfolio einer Organisation
- Gemeinnutzung von Daten zwischen Anwendungen und Organisationen
- Datenverteilung zwischen Datenspeichern und Datenzentren
- Datenspeicherung
- Verwaltung von Datenschnittstellen
- Erhalten und Dateneingabe
- Integration von strukturierten und unstrukturierten Daten
- Bereitstellung von operativen Erkentnisse und Entscheidungshilfen für das Management
Die DII hängt von anderen Bereichen der Datenverwaltung ab:
- Data Governance
- Datenarchitektur
- Datensicherheit
- Metadaten
- Datenspeicherung und Datenoperationen
- Datenmodellierung und Design
Informationsintegration und Interoperabilität sind von entscheidender Bedeutung für Data Warehousing und Business Intelligence sowie für die Reference Data und Master Data Management, da sie sich alle auf die Umwandlung und Integration von Daten aus den Quellsystemen in konsolidierte Datenhub und aus den Hubs in Zielsystemen fokussieren, wo sie den Datennutzern (sowohl Systemen als auch Menschen) zur Verfügung gestellt werden können.
Sie sind auch von zentraler Bedeutung für den neu entstehenden Bereich des Big-Data-Managements. Bei Big Data werden verschiedene Datentypen integriert, darunter in Datenbanken gespeicherte strukturierte Daten, unstrukturierte Textdaten in Dokumenten oder Dateien und andere Arten von unstrukturierten Daten wie Audio-, Video- und Streaming-Daten.
Die Aktivitäten von Informationsintegration und Interoperabilität bringen mit sich die Auffindung von Daten, wo sie gebraucht werden, wann sie gebraucht werden und in der Form, in der sie gebraucht werden. Datenintegrationsaktivitäten folgen einem Entwicklungslebenszyklus: Sie beginnen mit der Planung und gehen über Design, Entwicklung, Tests und Implementierung. Nach der Implementierung müssen die integrierten Systeme verwaltet, überwacht und verbessert werden.
Von unserem Team durchgeführte Aktivitäten:
Planen und untersuchen
- Festlegung der Anforderungen an die Datenintegration und Lebenszyclus: Die Festlegung der Anforderungen an die Datenintegration erfordert das Verständnis der Geschäftsziele des Unternehmens sowie der erforderlichen Daten und der zur Erreichung dieser Ziele vorgeschlagenen Technologieinitiativen. Der Prozess der Anforderungsdefinition schafft und enthüllt wertvolle Metadaten, die während des gesamten Datenlebenszyklus verwaltet werden müssen, von der Erfassung bis zur Verwendung in betrieblichen Prozessen. Je vollständiger und genauer die Metadaten einer Organisation sind, desto besser ist die Fähigkeit der Organisation, die Risiken und Kosten der Datenintegration zu verwalten.
- Data Discovery durchführen: Das Data Discovery muss vor der Planung durchgeführt werden. Ziel des Data Discovery ist es, potenzielle Datenquelle für die Datenintegrationsaktivität zu entdecken. Die Entdeckung zeigt, wo die Daten erworben und wo sie integriert werden können. Der Prozess kombiniert technische Recherchen durch Mittel, Metadaten und/oder Inhalte der Daten einer Organisation mit Fachwissen lesen.
- Data-Lineage dokumentieren: Der Prozess des Data-Lineages ermöglicht es, Informationen über den Datenfluss in einer Organisation zu ermitteln. Diese Informationen können verwendet werden, um das Data-Lineage auf einer hohen Ebene zu dokumentieren: wie die zu analysierenden Daten von der Organisation erworben oder erstellt werden, wo sie innerhalb der Organisation bewegt und verändert werden und wie sie von der Organisation für Analytics, Entscheidungsfindung oder Auslösung von Ereignisse verwendet werden.
- Profiling von Daten: Für eine erfolgreiche Datenintegration ist es unerlässlich, den Inhalt und die Struktur der Daten zu verstehen. Profiling kann Integrationsteams dabei helfen, diese Unterschiede zu entdecken und dieses Wissen zu nutzen, um bessere Beschaffungs- und Designentscheidungen zu treffen. Wenn Datenprofiling ignoriert wird, werden Informationen, die das Design beeinflussen sollten, erst beim Testen oder Operations entdeckt. Das grundlegende Profiling umfasst die Analyse der folgenden Punkte:
- Datenformat, wie es in den Datenstrukturen definiert ist und aus den tatsächlichen Daten abgeleitet wird
- Füllen der Daten, einschließlich Null-, Blank- oder Defaultdatenebenen
- Datenwerte und ihre Übereinstimmung mit einem definierten Satz gültiger Werte
- Muster und Beziehungen innerhalb des Datensatzes, wie z. B. Bezugsfelder und Kardinalitätsregeln
- Beziehungen zu anderen Datensätzen
- Geschäftsregeln aufsammeln: Geschäftsregeln sind eine entscheidende Teilmenge der Anforderungen. Eine Geschäftsregel ist eine Aussage, die einen Aspekt der Geschäftsprozesse definiert oder einschränkt. Geschäftsregeln sollen die Geschäftsstruktur unterstützen oder das Geschäftsverhalten kontrollieren oder beeinflussen; sie fallen in eine der folgenden vier Kategorien: Definitionen von Geschäftsbegriffen, Fakten über gegenseitige Begriffe, Einschränkungen oder Behauptungen von Aktionen und Ableitungen.
Lösungen zur Datenintegration entwerfen
- Entwurf der Datenintegrationsarchitektur: Datenintegrationslösungen müssen sowohl auf Unternehmensebene als auch auf der Ebene der Einzellösungen spezifiziert werden. Durch die Festlegung von Unternehmensstandards spart die Organisation Zeit bei der Implementierung von Einzellösungen, da Bewertungen und Verhandlungen bereits im Vorfeld durchgeführt wurden, bevor der Bedarf entstand. Ein unternehmensweiter Ansatz ermöglicht Einsparungen bei den Lizenzkosten durch Gruppenrabatte und bei den Kosten für die Verwaltung eines kohärenten und weniger komplexen Lösungssatzes.
- Modellierung von Datenhubs, Schnittstellen, Nachrichten und Data service: Zu den für die Informationsintegration und Interoperabilität erforderlichen Datenstrukturen gehören solche, in denen Daten dauerhaft gespeichert sind, wie z. B. Hubs von Master Data Management, Data-Warehouse und -Marts, Data Sotreund solche, die vergänglich sind und nur für die Datenübertragung oder -umwandlung verwendet werden, wie z. B. Schnittstellen, Nachrichtenlayouts und kanonische Vorlagen.
- Zuordnen von Daten auf Ziele: Fast alle Datenintegrationslösungen beinhalten die Umwandlung von Daten aus Quell- in Zielstrukturen. Die Zuordnung von Quellen auf Ziele beinhaltet die Festlegung von Regeln für die Umwandlung von Daten von einem Ort und Format in andere. Die Transformation kann mit einem Batch-Zeitplan durchgeführt oder durch das Auftreten eines Echtzeit-Ereignisses ausgelöst werden. Sie kann durch die physische Persistenz des Zielformats oder durch die virtuelle Präsentation von Daten im Zielformat realisiert werden.
- Data Orchestration planen: Der Datenfluss in einer Datenintegrationslösung muss entworfen und dokumentiert werden. Das Data Orchestration ist das Muster der Datenflüsse vom Anfang bis zum Ende, einschließlich der Zwischenschritte, die für den Abschluss der Transformation und/oder Transaktion erforderlich sind.
Entwicklung von Datenintegrationslösungen
- Entwicklung von Data Services: Dienste können entwickelt werden, um auf Daten zuzugreifen, sie umzuwandeln und sie entsprechend dem gewählten Interaktionsmodell bereitzustellen. Für die Implementierung von Datenintegrationslösungen wie Datenumwandlung, Master Data Management, Data Warehousing usw. werden am häufigsten Tools oder Suites von Anbietern verwendet. Die Verwendung einheitlicher Tools oder Standard-Suites von Anbietern für diese verschiedenen Zwecke im gesamten Unternehmen kann den betrieblichen Support vereinfachen und die Betriebskosten senken, indem sie gemeinsame Support-Lösungen ermöglicht.
- Entwicklung von Datenstrom: Integrations- oder ETL-Datenströme werden im Allgemeinen mit Tools entwickelt, die auf die Verwaltung solcher Flüsse spezialisiert sind. Batch-Datenströme werden in einem Scheduler (in der Regel dem Standard-Unternehmensscheduler) entwickelt, der die Reihenfolge, Häufigkeit und Abhängigkeit der Ausführung der entwickelten Datenintegrationsteile verwaltet. Zu den Interoperabilitätsanforderungen kann die Entwicklung von Mappings oder Koordinationspunkten zwischen Data Stores gehören.
- Entwicklung einer Annäherung für die Datenmigration: Daten müssen verschoben werden, wenn neue Anwendungen implementiert oder Anwendungen außer Betrieb genommen oder zusammengelegt werden. Datenmigrationsprojekte werden oft unterschätzt oder schlecht konzipiert, da den Programmierern einfach gesagt wird, sie sollen „die Daten verschieben“, und sie führen nicht die für die Datenintegration erforderlichen Analyse- und Designaktivitäten durch. Wenn Daten ohne angemessene Analyse migriert werden, unterscheiden sie sich oft von der normalen Verarbeitung oder die migrierten Daten funktionieren nicht wie erwartet mit der Anwendung.
- Entwicklung einer Veröffentlichungsannäherung: Systeme, in denen wichtige Daten erstellt oder verwaltet werden, müssen diese Daten anderen Systemen im Unternehmen zur Verfügung stellen. Neue oder geänderte Daten müssen von Anwendungen, die Daten erzeugen, an andere Systeme gesendet werden, wenn die Daten geändert werden oder in einem regelmäßigen Zeitplan. Die best practices besteht darin, gemeinsame Meldungsdefinitionen für die verschiedenen Datentypen der Organisation festzulegen und es den Datenbenutzern mit der entsprechenden Zugriffsberechtigung zu ermöglichen, über alle Änderungen an den betreffenden Daten informiert zu werden.
- Entwicklung von Processingströmen komplexer Ereignisse: Die Entwicklung von Processingströmen komplexer Ereignisse erfordert:
- Die Aufbereitung historischer Daten über eine Person, ein Unternehmen, ein Produkt oder einen Markt und die Erarbeitung von Vorhersagemodellen
- Das Processing des Echtzeit-Datenstroms, um das Vorhersagemodell vollständig zu füllen und wichtige Ereignisse (Chancen oder Bedrohungen) zu identifizieren
- Die Ausführung der ausgelösten Aktion als Reaktion auf die Vorhersage
- Die Metadaten DII bewahren: Während der Entwicklung von DII-Lösungen erstellt und entdeckt eine Organisation wertvolle Metadaten, die verwaltet und bewahrt werden sollten, um ein korrektes Verständnis der Daten im System zu gewährleisten und zu vermeiden, dass sie für künftige Lösungen wiedergefunden werden müssen. Zuverlässige Metadaten verbessern die Fähigkeit einer Organisation, Risiken zu managen, Kosten zu senken und mehr Wert aus ihren Daten zu ziehen. Die Datenstrukturen aller an der Datenintegration beteiligten Systeme sollten als Quelle, Ziel oder Staging dokumentiert werden und geschäftliche und technische Definitionen (Struktur, Format, Größe) sowie die Transformation von Daten zwischen persistenten Datenspeichern enthalten.
Implementierung und Überwachung
Die entwickelten und getesteten Data Service müssen aktiviert werden. Das Processing von Daten in Echtzeit erfordert die Überwachung von Problemen in Echtzeit. Es müssen Parameter festgelegt werden, die auf potenzielle Prozessingsprobleme hinweisen, sowie eine direkte Benachrichtigung bei Problemen. Die automatische und manuelle Überwachung von Problemen muss eingerichtet werden, insbesondere wenn die Komplexität und das Risiko der ausgelösten Reaktionen erhöhen.