IT-ARCHITECTURE AND CONCEPTS COMMUNITY = IT Infrastructure Architectures - Concepts - Methods - Trends =
07 December 2006
03 December 2006
Storage als Dienst
Anstatt einheitliche Bausteine für möglicherweise sehr heterogene Arbeitslasten zu definieren, können autonome Bereiche definiert werden, die anderen Bereichen Dienste liefern. Dies folgt der Idee, Infrastruktur als Dienst bereitzustellen. Hierfür ist eine weitgehende Entkopplung zwischen dem Dienst und der Art, wie er erstellt wird, eine Voraussetzung. Aus der Sicht des Rechenzentrums kann die Entkopplung von Diensten, wie z.B. Server, Sicherheit und Speicher, auch separate und unterschiedlich definierte Bausteine je Dienst erfordern.
Speicherkapazität wurde schon seit geraumer Zeit als Managed Service derart angeboten, dass Speichersysteme im Rechenzentrum des Nutzers implementiert werden und von einem Dienstleister administriert und betrieben werden. Abgerechnet wird in diesem Fall nur die tatsächlich genutzte Speicherkapazität einschließlich der Kosten für Administration und es gibt Zusagen bezüglich Bereitstellungsfristen.
Neuere Vorstellungen zu Speicherdiensten wollen Speicherkapazität über mehrere Lokationen hinweg und durch Virtualisierung losgelöst von spezifischen Systemen bereitstellen.
Die technische Weiterentwicklung der Speicherumgebung teilt sich in zwei große Bereiche. Zum einen wird Block-IO in Richtung von Netzwerken basierend auf Serial Attached SCSI (SAS) und Converged Enhanced Ethernet als Nachfolge von Fibre Channel entwickelt. Diese Entwicklungsrichtung bietet sich an, wenn hoher Durchsatz gefordert wird und die Charakteristik der Arbeitslast von einer großen Anzahl, bzgl. der bewegten Datenmenge, vergleichsweise kleiner Zugriffe geprägt ist. Die Entwicklungsziele in diesem Bereich betreffen Speichersysteme zu den Kosten von server-internen Speicherlaufwerken (gegenwärtig USD 1/GB), die von mehreren physischen und virtuellen Servern im gemeinsamen Zugriff gehalten werden können und einem einheitlichen Management unterliegen, das Server, interne Speicherlaufwerke und externe Speicher abdeckt.
Im Bereich Verfügbarkeitsmanagement geht der Trend zu unterschiedlichen Formen von Continuous Data Protection (CDP) und Server-Mirroring, um auch die auf server-internen ("baustein-internen") Plattenspeichern gespeicherten Daten bei einem Ausfall des Servers (Bausteins) verfügbar zu haben. Dabei werden zyklisch-diskrete Verfahren der Datensicherung durch kontinuierliche ersetzt.
Dieser Ansatz zur Implementierung von Speicher ist für die Implementierung mit Hilfe der gleichen Bausteine oder als Teil von ihnen positioniert, wie sie für die Implementierung von Verarbeitungsleistung eingesetzt werden. Er ist wenig geeignet, Speicher als autonomen, völlig von Servern getrennten Dienst bereitzustellen.
Die andere, wichtige Entwicklungslinie ist "Cloud Storage" als Nachfolge von Network Attached Storage (NAS), wofür Systeme wie EMC Atmos, Ibrix Cirrus, Cleversafe, Caringo oder Nirvanix Beispiele sind.
NAS integriert ein Dateisystem im gemeinsamen Zugriff mehrerer Server, das sich wie ein lokales Dateisystem darstellt.
NAS kam der Vorstellung des Speichers als Dienst schon recht nahe und die neuen "Cloud Storage" Systeme bauen diesen Aspekt noch aus.
In Umgebungen mit einer hohen Zahl von Servern wurde schon seit über einem Jahrzehnt häufig NAS genutzt, um die architekturellen Begrenzungen von Fibre Channel und die Kosten der erforderlichen Netzwerke und des Systemmanagements im Vergleich z.B. zu Block-IO und Fibre Channel gering zu halten. Die bei NAS genutzten Protokolle NFS und CIFS sind trotz der Möglichkeit, Protokollbeschleuniger einzusetzen, wenig für den Einsatz über große Entfernungen oder das Internet geeignet.
Cloud Storage will Speicher als Dienst lokal oder auch über große Entfernungen bereitstellen. Deshalb unterstützen diese Lösungen häufig auch Protokolle wie WebDAV, FTP und Erweiterungen von HTTP wie z.B. REST für diesen Zweck.
(s.a. EMC's Vision für Cloud Storage) . Siehe auch EMC's Kursentwicklung.
Das herausragendste Merkmal ist die Nutzung einer Programmschnittstelle, d.h. eine zugreifende Software, z.B. ein Dateisystem oder eine Managementanwendung, muss die entsprechende proprietäre Programmbibliothek bzw. eine Art Softwaretreiber integrieren, denn diese Art Technologie ist noch nicht standardisiert. In diesem Bereich werden mit z.B. XAM (eXtendible Access Method, XML-orientiert, SNIA) oder CIMS (Content Management Interoperability Service, SQL-orientiert, unterstützt von EMC, Microsoft, IBM) hersteller-übergreifende Schnittstellen vorangetrieben, die proprietäre Programmschnittstellen ersetzen können sollen.
Amazon S3 nutzt z.B. sein REST-basierendes API und Ibrix sein Cirrus API.
Traditionelle Speichertechnologie sieht normalerweise eine separate Administrationsschnittstelle vor und nutzt allenfalls für z.B. das Auslösen eines Snapshots den gleichen Kommunikationspfad, der auch für den Zugriff auf die Daten genutzt wird. Demgegenüber nutzen Cloud Storage Systeme ein "in-band" Management, bei dem Daten und Managementbefehle gemischt über denselben Kommunikationspfad übertragen werden. Die Managementbefehle betreffen Funktionen wie Kapazitätszuordnung einschließlich Dienstqualitätsmerkmalen wie die mehrfache Speicherung an verschiedenen Orten, die Datensicherungsintervalle (Snapshots) und verbundene Integritätsregeln. Dienstqualitätsmerkmale können auch Zielwerte zu Performance einschließen, die automatisch und laufend eingehalten werden sollen.
Die Schnittstelle ist also komplexer als die bei konventionellen Speichersystemen für Block-IO oder NAS. Entsprechend komplex muss das Metadatenmanagement gestaltet sein, auf dem die Software-Funktionen aufbauen, die diese Dienstqualitätsmerkmale umsetzen und die Bezeichnung "Speicherdienst" rechtfertigen.
Die Speicherdienste können auf sog. "virtuellen Dateisystemen" basieren, die jedem Benutzer oder jeder Arbeitslast ein separates Dateisystem oder Speicherumgebung bereitstellen, das aus Sicht des Betreibers nur Teile eines gesamtheitlich gemanageten Ganzen darstellt. Dies kann als ein Aspekt der Mandantenfähigkeit dieser Umgebung gesehen werden, die Hosting-Dienste erfordern.
Der Trend geht dahin, auf allen Ebenen einen einheitlichen Namensraum für Objekte bereitzustellen, der völlig unabhängig vom physischen Aufbau der Hardware-Systeme ist. Die Administrationsrechte müssen jedoch nach fein aufgeteilten Rollen und Objektbereichen verteilt werden können.
Allerdings geht der Trend zu höherwertigen Diensten als die eines Dateisystems. Dies schließt z.B. verschiedene Formen feinkörniger Replikation und Synchronisierung, als auch Versionsverwaltung und komplexes Metadatenmanagement ein.
Die häufig angebotene Unterstützung für WebDAV und integrierte Funktionen eines Archivierungssystems ist ein Hinweis darauf, dass ein Content Management System integriert wird, das z.B. verschiedene Versionen eines Objektes und deren Beziehung zueinander verwalten kann.
Die Fähigkeit, mehrere Versionen eines Objekts verwalten zu können, erlaubt, unter bestimmten Voraussetzungen das Vor- und Zurücksetzen von Zuständen, wie es bei Datenbanken möglich ist. Neben einer semantischen Schnittstelle für den Datenzugriff, stellen Datenbank-Systeme vor allem ein weitgehend ausgereiftes Systemmanagement und eine Integritätssteuerung bereit, die über die bei Dateisystemen üblichen Fähigkeiten hinausgehen. So wird in Web Rechenzentren die Open Source Datenbank MySQL meist nicht zur Speicherung von relational und normalisiert organisierte Daten genutzt, sondern im wesentlichen als komfortables Dateisystem. Ähnliches gilt für die von Oracle angebotene Emulation eines Dateisystems basierend auf seiner Datenbank-Software.
Eine weitere Fähigkeit ist die Verwaltung und Integritätssicherung mehrerer, verteilt gespeicherter Kopien desselben Objekts, wie für die Katastrophenabsicherung oder für Web Caching nutzbar. Amazon hat seinen Speicherdienst S3 um seinen Web Caching oder Content Delivery Network Dienst "CloudFront" erweitert, der mit Diensten wie Limelight oder Akamai im Wettbewerb steht.
Vor diesem Hintergrund verliert die Vernetzungstechnik, z.B. Fibre Channel SAN oder NAS, als Klassifizierungsmerkmal für Speichersysteme an Bedeutung. Viele der angebotenen Cloud Storage Systeme unterstützen mehrere Vernetzungstechniken gleichzeitig.
Amazon S3 ist gegenwärtig der prominenteste Speicher-Dienst, der mit Erfolg über Web angeboten wird. Die als Cloud Storage angebotenen Geräte sollen einen vergleichbaren Dienst als "private cloud" für den Einsatz im Umfeld eines Betreibers bereitstellen.
Da Amazon S3 eine Programmschnittstelle zur Steuerung besitzt, haben andere Anbieter schon erweiternde Dienste eingeführt. Rackspace, einer der größten US Betreiber von Web Hosting-Diensten und des Cloud-Dienstes CloudSites (zuvor "Mosso"), hat 10/08 die Neugründung Jungle Disk übernommen. Die von Jungle genutzte Technologie ist ein Beispiel für einen sogenannten Meta-Dienst, der auf andere Cloud Dienste zugreift und diese aufwertet. Jungle Disk, das Rackspace inzwischen als Cloud Files anbietet, erweitert die Funktionalität von Amazon S3 und baut seine Speicherdienste wie z.B. Content Distribution Network (in Zusammenarbeit mit Limelight und Wettbewerb zu Akamai oder Amazon CloudFront) hierauf auf.
Rackspace Cloud Files ist auch ein Beispiel dafür, dass selbst die größten Betreiber von Rechenzentren sich spezialisieren und nicht alle Arten von Diensten, wie z.B. Speicherdienste, selbst betreiben werden.
Meta-Dienste bieten auch die Möglichkeit, von den proprietären Schnittstellen eines bestimmten Speicherdienstes unabhängig zu sein. Allerdings entsteht eine Abhängigkeit zum Meta-Dienst. Rackspace plant, mit Cloud Files zukünftig weitere Dienste zusätzlich zu Amazon S3 zu unterstützen.
Die Vielfältigkeit der Entwicklungen in diesem Bereich wird auch dadurch deutlich, dass z.B. historische Daten zum Finanzhandel sowohl als Data Warehouse entsprechend dem Geschäftsmodell Colocation für sehr hohen Durchsatz oder auch als Hosted Web Service für geringe Kosten angeboten wird. Die US-Börse NASDAQ nutzt Amazon S3, um historische Daten zu speichern, auf die im Rahmen einer Dienstleistung zugegriffen werden kann.
Diese Entwicklungen werfen die Frage auf, ob die enge Integration einer Vielzahl von Fähigkeiten in einem "Cloud Storage" System, wie in EMC Atmos, Ibrix oder Nirvanix, womöglich den Grundgedanken des Cloud Computing widerspricht. Lösungen, die eine flexible Kombination von spezifischen, unabhängigen Speicherdiensten ermöglichen, könnten eher dem Cloud Computing Ansatz entsprechen.
In "Cloud Storage" Systemen sind höhere Dienste wie Datensicherung, Archivierung, Katastrophenabsicherung oder Web Caching mittels replizierter Kopien integriert. Das Management der Verfügbarkeit und Dienstqualität des "Speicherdienstes" ist also eine integrale Komponente innerhalb des speicher-orientierten "Bausteins".
Cloud Storage Systeme unterstützen meist eine Vernetzung mehrerer Geräte lokal oder über größere Entfernungen im Sinne eines Grid. Dies dürfte zukünftig auch die Integration mit Speicherdiensten einschließen, die z.B. für die kostengünstige Speicherung von Datensicherungen oder Archivierung dienen.
Diese Strukturen versprechen, Speicherdienste zu geringen Kosten mit einem hohen Grad an Industrialisierung ohne regelmäßige, manuelle Eingriffe.
Speicherkapazität wurde schon seit geraumer Zeit als Managed Service derart angeboten, dass Speichersysteme im Rechenzentrum des Nutzers implementiert werden und von einem Dienstleister administriert und betrieben werden. Abgerechnet wird in diesem Fall nur die tatsächlich genutzte Speicherkapazität einschließlich der Kosten für Administration und es gibt Zusagen bezüglich Bereitstellungsfristen.
Neuere Vorstellungen zu Speicherdiensten wollen Speicherkapazität über mehrere Lokationen hinweg und durch Virtualisierung losgelöst von spezifischen Systemen bereitstellen.
Die technische Weiterentwicklung der Speicherumgebung teilt sich in zwei große Bereiche. Zum einen wird Block-IO in Richtung von Netzwerken basierend auf Serial Attached SCSI (SAS) und Converged Enhanced Ethernet als Nachfolge von Fibre Channel entwickelt. Diese Entwicklungsrichtung bietet sich an, wenn hoher Durchsatz gefordert wird und die Charakteristik der Arbeitslast von einer großen Anzahl, bzgl. der bewegten Datenmenge, vergleichsweise kleiner Zugriffe geprägt ist. Die Entwicklungsziele in diesem Bereich betreffen Speichersysteme zu den Kosten von server-internen Speicherlaufwerken (gegenwärtig USD 1/GB), die von mehreren physischen und virtuellen Servern im gemeinsamen Zugriff gehalten werden können und einem einheitlichen Management unterliegen, das Server, interne Speicherlaufwerke und externe Speicher abdeckt.
Im Bereich Verfügbarkeitsmanagement geht der Trend zu unterschiedlichen Formen von Continuous Data Protection (CDP) und Server-Mirroring, um auch die auf server-internen ("baustein-internen") Plattenspeichern gespeicherten Daten bei einem Ausfall des Servers (Bausteins) verfügbar zu haben. Dabei werden zyklisch-diskrete Verfahren der Datensicherung durch kontinuierliche ersetzt.
Dieser Ansatz zur Implementierung von Speicher ist für die Implementierung mit Hilfe der gleichen Bausteine oder als Teil von ihnen positioniert, wie sie für die Implementierung von Verarbeitungsleistung eingesetzt werden. Er ist wenig geeignet, Speicher als autonomen, völlig von Servern getrennten Dienst bereitzustellen.
Die andere, wichtige Entwicklungslinie ist "Cloud Storage" als Nachfolge von Network Attached Storage (NAS), wofür Systeme wie EMC Atmos, Ibrix Cirrus, Cleversafe, Caringo oder Nirvanix Beispiele sind.
NAS integriert ein Dateisystem im gemeinsamen Zugriff mehrerer Server, das sich wie ein lokales Dateisystem darstellt.
NAS kam der Vorstellung des Speichers als Dienst schon recht nahe und die neuen "Cloud Storage" Systeme bauen diesen Aspekt noch aus.
In Umgebungen mit einer hohen Zahl von Servern wurde schon seit über einem Jahrzehnt häufig NAS genutzt, um die architekturellen Begrenzungen von Fibre Channel und die Kosten der erforderlichen Netzwerke und des Systemmanagements im Vergleich z.B. zu Block-IO und Fibre Channel gering zu halten. Die bei NAS genutzten Protokolle NFS und CIFS sind trotz der Möglichkeit, Protokollbeschleuniger einzusetzen, wenig für den Einsatz über große Entfernungen oder das Internet geeignet.
Cloud Storage will Speicher als Dienst lokal oder auch über große Entfernungen bereitstellen. Deshalb unterstützen diese Lösungen häufig auch Protokolle wie WebDAV, FTP und Erweiterungen von HTTP wie z.B. REST für diesen Zweck.
(s.a. EMC's Vision für Cloud Storage) . Siehe auch EMC's Kursentwicklung.
Das herausragendste Merkmal ist die Nutzung einer Programmschnittstelle, d.h. eine zugreifende Software, z.B. ein Dateisystem oder eine Managementanwendung, muss die entsprechende proprietäre Programmbibliothek bzw. eine Art Softwaretreiber integrieren, denn diese Art Technologie ist noch nicht standardisiert. In diesem Bereich werden mit z.B. XAM (eXtendible Access Method, XML-orientiert, SNIA) oder CIMS (Content Management Interoperability Service, SQL-orientiert, unterstützt von EMC, Microsoft, IBM) hersteller-übergreifende Schnittstellen vorangetrieben, die proprietäre Programmschnittstellen ersetzen können sollen.
Amazon S3 nutzt z.B. sein REST-basierendes API und Ibrix sein Cirrus API.
Traditionelle Speichertechnologie sieht normalerweise eine separate Administrationsschnittstelle vor und nutzt allenfalls für z.B. das Auslösen eines Snapshots den gleichen Kommunikationspfad, der auch für den Zugriff auf die Daten genutzt wird. Demgegenüber nutzen Cloud Storage Systeme ein "in-band" Management, bei dem Daten und Managementbefehle gemischt über denselben Kommunikationspfad übertragen werden. Die Managementbefehle betreffen Funktionen wie Kapazitätszuordnung einschließlich Dienstqualitätsmerkmalen wie die mehrfache Speicherung an verschiedenen Orten, die Datensicherungsintervalle (Snapshots) und verbundene Integritätsregeln. Dienstqualitätsmerkmale können auch Zielwerte zu Performance einschließen, die automatisch und laufend eingehalten werden sollen.
Die Schnittstelle ist also komplexer als die bei konventionellen Speichersystemen für Block-IO oder NAS. Entsprechend komplex muss das Metadatenmanagement gestaltet sein, auf dem die Software-Funktionen aufbauen, die diese Dienstqualitätsmerkmale umsetzen und die Bezeichnung "Speicherdienst" rechtfertigen.
Die Speicherdienste können auf sog. "virtuellen Dateisystemen" basieren, die jedem Benutzer oder jeder Arbeitslast ein separates Dateisystem oder Speicherumgebung bereitstellen, das aus Sicht des Betreibers nur Teile eines gesamtheitlich gemanageten Ganzen darstellt. Dies kann als ein Aspekt der Mandantenfähigkeit dieser Umgebung gesehen werden, die Hosting-Dienste erfordern.
Der Trend geht dahin, auf allen Ebenen einen einheitlichen Namensraum für Objekte bereitzustellen, der völlig unabhängig vom physischen Aufbau der Hardware-Systeme ist. Die Administrationsrechte müssen jedoch nach fein aufgeteilten Rollen und Objektbereichen verteilt werden können.
Allerdings geht der Trend zu höherwertigen Diensten als die eines Dateisystems. Dies schließt z.B. verschiedene Formen feinkörniger Replikation und Synchronisierung, als auch Versionsverwaltung und komplexes Metadatenmanagement ein.
Die häufig angebotene Unterstützung für WebDAV und integrierte Funktionen eines Archivierungssystems ist ein Hinweis darauf, dass ein Content Management System integriert wird, das z.B. verschiedene Versionen eines Objektes und deren Beziehung zueinander verwalten kann.
Die Fähigkeit, mehrere Versionen eines Objekts verwalten zu können, erlaubt, unter bestimmten Voraussetzungen das Vor- und Zurücksetzen von Zuständen, wie es bei Datenbanken möglich ist. Neben einer semantischen Schnittstelle für den Datenzugriff, stellen Datenbank-Systeme vor allem ein weitgehend ausgereiftes Systemmanagement und eine Integritätssteuerung bereit, die über die bei Dateisystemen üblichen Fähigkeiten hinausgehen. So wird in Web Rechenzentren die Open Source Datenbank MySQL meist nicht zur Speicherung von relational und normalisiert organisierte Daten genutzt, sondern im wesentlichen als komfortables Dateisystem. Ähnliches gilt für die von Oracle angebotene Emulation eines Dateisystems basierend auf seiner Datenbank-Software.
Eine weitere Fähigkeit ist die Verwaltung und Integritätssicherung mehrerer, verteilt gespeicherter Kopien desselben Objekts, wie für die Katastrophenabsicherung oder für Web Caching nutzbar. Amazon hat seinen Speicherdienst S3 um seinen Web Caching oder Content Delivery Network Dienst "CloudFront" erweitert, der mit Diensten wie Limelight oder Akamai im Wettbewerb steht.
Vor diesem Hintergrund verliert die Vernetzungstechnik, z.B. Fibre Channel SAN oder NAS, als Klassifizierungsmerkmal für Speichersysteme an Bedeutung. Viele der angebotenen Cloud Storage Systeme unterstützen mehrere Vernetzungstechniken gleichzeitig.
Amazon S3 ist gegenwärtig der prominenteste Speicher-Dienst, der mit Erfolg über Web angeboten wird. Die als Cloud Storage angebotenen Geräte sollen einen vergleichbaren Dienst als "private cloud" für den Einsatz im Umfeld eines Betreibers bereitstellen.
Da Amazon S3 eine Programmschnittstelle zur Steuerung besitzt, haben andere Anbieter schon erweiternde Dienste eingeführt. Rackspace, einer der größten US Betreiber von Web Hosting-Diensten und des Cloud-Dienstes CloudSites (zuvor "Mosso"), hat 10/08 die Neugründung Jungle Disk übernommen. Die von Jungle genutzte Technologie ist ein Beispiel für einen sogenannten Meta-Dienst, der auf andere Cloud Dienste zugreift und diese aufwertet. Jungle Disk, das Rackspace inzwischen als Cloud Files anbietet, erweitert die Funktionalität von Amazon S3 und baut seine Speicherdienste wie z.B. Content Distribution Network (in Zusammenarbeit mit Limelight und Wettbewerb zu Akamai oder Amazon CloudFront) hierauf auf.
Rackspace Cloud Files ist auch ein Beispiel dafür, dass selbst die größten Betreiber von Rechenzentren sich spezialisieren und nicht alle Arten von Diensten, wie z.B. Speicherdienste, selbst betreiben werden.
Meta-Dienste bieten auch die Möglichkeit, von den proprietären Schnittstellen eines bestimmten Speicherdienstes unabhängig zu sein. Allerdings entsteht eine Abhängigkeit zum Meta-Dienst. Rackspace plant, mit Cloud Files zukünftig weitere Dienste zusätzlich zu Amazon S3 zu unterstützen.
Die Vielfältigkeit der Entwicklungen in diesem Bereich wird auch dadurch deutlich, dass z.B. historische Daten zum Finanzhandel sowohl als Data Warehouse entsprechend dem Geschäftsmodell Colocation für sehr hohen Durchsatz oder auch als Hosted Web Service für geringe Kosten angeboten wird. Die US-Börse NASDAQ nutzt Amazon S3, um historische Daten zu speichern, auf die im Rahmen einer Dienstleistung zugegriffen werden kann.
Diese Entwicklungen werfen die Frage auf, ob die enge Integration einer Vielzahl von Fähigkeiten in einem "Cloud Storage" System, wie in EMC Atmos, Ibrix oder Nirvanix, womöglich den Grundgedanken des Cloud Computing widerspricht. Lösungen, die eine flexible Kombination von spezifischen, unabhängigen Speicherdiensten ermöglichen, könnten eher dem Cloud Computing Ansatz entsprechen.
In "Cloud Storage" Systemen sind höhere Dienste wie Datensicherung, Archivierung, Katastrophenabsicherung oder Web Caching mittels replizierter Kopien integriert. Das Management der Verfügbarkeit und Dienstqualität des "Speicherdienstes" ist also eine integrale Komponente innerhalb des speicher-orientierten "Bausteins".
Cloud Storage Systeme unterstützen meist eine Vernetzung mehrerer Geräte lokal oder über größere Entfernungen im Sinne eines Grid. Dies dürfte zukünftig auch die Integration mit Speicherdiensten einschließen, die z.B. für die kostengünstige Speicherung von Datensicherungen oder Archivierung dienen.
Diese Strukturen versprechen, Speicherdienste zu geringen Kosten mit einem hohen Grad an Industrialisierung ohne regelmäßige, manuelle Eingriffe.
Subscribe to:
Posts (Atom)