Kommende Trends in der Disaster Recovery für Data Lakes

Emerging trends in disaster recovery for data lakes

Immer mehr Unternehmen gehen dazu über, ihre großen und stetig wachsenden Datenvolumen in Data Lakes abzulegen, statt sie auf verschiedene Silos zu verteilen. Diese Methode bietet zahlreiche Vorteile für den Zugriff und die Verwaltung – und auch in puncto IT-Sicherheit und Compliance. Unser Partner WANdisco trägt mit seinen Lösungen stark dazu bei. Im Interview spricht Katherine Sheehan, Senior Solutions Architect bei WANdisco, über aktuelle Trends in den Bereichen Disaster Recovery und Hochverfügbarkeit für On-Premise- und Cloud Hadoop Data-Lake-Implementierungen.

In den letzten Jahren haben wir gesehen, wie sich Hadoop entwickelt hat und die Akzeptanz der Unternehmen steigt. Wie wirkt sich das auf Disaster-Recovery- und Hochverfügbarkeitsstrategien aus?

Wenn es um Hadoop-Workloads geht, ist klar, dass die Objektspeicherung die Zukunft ist – und der Gartner Hype Cycle prognostiziert für das Data Management in den nächsten Jahren eine massiv zunehmende Akzeptanz von Hadoop in der Cloud. Derzeit nutzt eine Vielzahl von Unternehmen allerdings noch On-Premises Hadoop-Implementierungen für den täglichen Betrieb, so dass die Entwicklung zur Cloud eher schrittweise vonstattengeht.

Da diese lokalen Hadoop-Plattformen oft kritische Workloads unterstützen, können ungeplante Ausfallzeiten einen erheblichen Einfluss auf das Ergebnis eines Unternehmens haben. Dies hat zu immer strengeren Service Level Agreements (SLAs) für die Verfügbarkeit geführt. In der IT-Abteilung ändern diese SLAs den Fokus von „wie können wir unsere Daten in einem Recovery-Szenario wiederherstellen“ auf „wie schnell können wir unsere Daten in einem Recovery-Szenario wiederherstellen“.

Je mehr Daten in einer Hadoop-Umgebung vorhanden sind, desto länger kann der Wiederherstellungsprozess dauern. In machen Fällen sogar mehreren Wochen. Für Unternehmen mit SLAs, die in Stunden gemessen werden, sind Disaster Recovery und Hochverfügbarkeit deshalb von entscheidender Bedeutung. Das wird in unseren Gesprächen mit Kunden immer wieder deutlich.

Für viele IT-Abteilungen erscheinen Open-Source-Tools wie DistCp als attraktive Optionen für eine effektive Disaster Recovery. Doch sind sie tatsächlich für große unternehmensweite Datenvolumen geeignet?

Es stimmt, dass Tools wie DistCp ein probater Ausgangspunkt für Hadoop Disaster Recovery sind. Dieser chargenbasierte Ansatz zum Datenschutz hat jedoch seine Grenzen – insbesondere bei großen Datenmengen.

Geht es um RPO [Recovery Point Objective, also der Wiederanlaufzeitpunkt nach einem Ausfall eines IT-Systems oder der IT-Infrastruktur], muss man allerdings wissen, was Open-Source-Tools nicht leisten können. Verlässt man sich zum Beispiel auf Snapshots von Hadoop-Daten – also die regelmäßige Sicherung von Daten, in Abständen über den Tag verteilt –, verliert das Unternehmen im Wiederherstellungsfall alle Änderungen, die nach dem letzten Batch-Fenster vorgenommen wurden. Darüber belastet die Erstellung von Snapshots großer Datenmengen die Umgebung erheblich und kann etwa die Produktivität von Teams behindern, die gerade einen Daten-Cluster für Analyse-Workloads nutzen wollen.

Open-Source-Ansätze zur Disaster Recovery erfordern in der Regel auch manuelle, zeitaufwändige Prozesse, um einen Hadoop-Cluster neu aufzubauen und zu reaktivieren. Und während das ganze Cluster offline ist, entstehen für das Unternehmen potenziell Kosten von Tausenden von Dollar pro Tag durch Produktivitätsverluste, verpasste Verkaufschancen oder sogar Compliance-Strafen.

Wie also lösen Unternehmen diese Herausforderungen?

Anspruchsvolle SLAs für Verfügbarkeit und Datenschutz zu erfüllen, erfordert in der Regel die Gewährleistung der kontinuierlichen Verfügbarkeit, was erhebliche technische Herausforderungen für große Hadoop-Workloads mit sich bringt.

Die herkömmliche Vorgehensweise ist hier, Kopien von Daten auf einen oder mehrere Cluster zu verteilen, um sicherzustellen, dass ein Ausfall an einem Standort nicht zu Datenverlusten oder Ausfallzeiten der gesamten Analysedienste führt. Die größte Herausforderung bei solchen verteilten hochverfügbaren Konfigurationen ist jedoch die Datenkonsistenz. Da mehrere Cluster an den selben Daten arbeiten, muss sichergestellt, dass Änderungen kontinuierlich an jedem Standort repliziert werden. Mit Open-Source-Tools ist das nicht möglich.

Für manche Unternehmen scheinen an dieser Stelle kommerzielle Angebote wie Cloudera Backup and Disaster Recovery (BDR) eine mögliche Lösung zu sein, aber solche Tools sind im Kern nur einfache Erweiterungen der bereits von DistCp angebotenen Funktionalität. Deshalb können Cloudera BDR und ähnliche Tools die Herausforderung gar nicht bewältigen, die Konsistenz über große und sich schnell verändernde Datensätze auf mehreren Clustern zu gewährleisten.

WANdisco Fusion ist die einzige Plattform auf dem Markt, die eine kontinuierliche Replikation zwischen Clustern ermöglicht und die Datenkonsistenz gewährleistet. Das liegt daran, dass WANdisco Fusion auf einer einzigartigen Technologie namens DConE basiert, die mit einem Konsensverfahren Hadoop- und Objektspeicherdaten an verteilten Standorten und in jeder gemischten Speicherumgebung zugänglich, genau und konsistent hält. Unternehmen können WANdisco Fusion nutzen, um konsistente Daten zwischen lokalen Hadoop-Clustern und Cloud-Instanzen und sogar zwischen Multi-Cloud-Plattformen sicherzustellen.

Du sagtest, dass zukünftig Hadoop in der Cloud dominieren wird. Kann eine hybride Disaster Recovery-Strategie für Clouds diesen Übergang erleichtern?

Auf jeden Fall. Obwohl wir wissen, dass immer mehr Unternehmen auf eine reine Cloud-Strategie setzen, sind viele noch nicht bereit, sich von ihren lokalen Hadoop-Implementierungen zu lösen. Ein hybrides Cloud-Szenario mit lokaler Produktion und synchronisiertem Cloud-Betrieb zu aktivieren, bietet dafür die optimale Lösung: Durch die Sicherstellung der Konsistenz von lokalen und Cloud-basierten Datensätzen können Unternehmen Anwendungen und Analysen auf der Plattform ausführen, die am besten zu den jeweiligen Anforderungen passt. Und wenn sie bereit sind, komplett in die Cloud umzusteigen, ist die neueste Version ihrer Daten dort bereits vorhanden und einsatzbereit.

Das ist übrigens keine bloße Theorie: Einige der weltweit größten Unternehmen nutzen bereits WANdisco Fusion für die Hybrid- und Multi-Cloud Disaster Recovery zum Schutz ihrer Daten. Als zum Beispiel AMD sicherstellen wollte, dass seine Halbleiterfertigung auch dann noch laufen kann, wenn sein primäres Rechenzentrum offline geht, beauftragte das Unternehmen WANdisco mit der Bereitstellung einer Lösung.

WANdisco Fusion hilft AMD seitdem nicht nur dabei, 100 TB lokale Daten unterbrechungsfrei auf Azure zu übertragen, sondern ermöglicht nun auch, Produktionsdaten kontinuierlich in die Cloud zu replizieren. Da die Daten in beiden Umgebungen identisch sind, können die datengesteuerten Fertigungsprozesse von AMD wie gewohnt fortgesetzt werden, auch wenn der Hauptstandort einen Ausfall erleiden sollte. Die Details und den aktuellen Stand des Projekts kann man auch in einem aktuellen Video sehen.

Was ist der nächste Schritt, wenn Entscheider mehr darüber erfahren möchten, wie sie eine maximale Verfügbarkeit für ihre geschäftskritischen Hadoop-Dienste erreichen können?

Wenn man mehr über LiveData-Strategien erfahren möchte, ist das Video unseres VP Product Management, Paul Scott-Murphy, ein guter Anfang. Wer mehr wissen will und einen zukunftsorientierten Ansatz für die Disaster Recovery und Hochverfügbarkeit der Daten in seinem Unternehmen entwickeln will, sollte sich am besten unser aktuelles Whitepaper herunterladen – und einen Termin mit einem Experten bei Unbelievable Machine vereinbaren.

Jetzt kostenlos herunterladen

Über die Autorin:
Katherine Sheehan ist Senior Solutions Architect bei WANdisco und verantwortlich für die Entwicklung der nordamerikanischen Channel-Partnerschaften. – Das Interview führte der DISCOtecher, WANdiscos Director Product & Channel Marketing, der u.a. für das Blog des Unternehmens verantwortlich zeichnet.