data domain
DESCRIPTION
Data Domain. DeDuplication Speicher Systeme Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte Umsatz: 2006 ca. $52 M. / 2007 ca. $122 M. / 1 HJ 2008 ca. $114 M. Weltweite Support Infrastruktur (1.630 Stützpunkte) + 5.500 installierte Systeme weltweit + 2.100 Kunden - PowerPoint PPT PresentationTRANSCRIPT
1
DeDuplication Speicher Systeme
> Gründung: 2001/ Hauptsitz in Santa Clara (CA) / +600 Angestellte> Umsatz: 2006 ca. $52 M. / 2007 ca. $122 M. / 1 HJ 2008 ca. $114 M.> Weltweite Support Infrastruktur (1.630 Stützpunkte) > + 5.500 installierte Systeme weltweit> + 2.100 Kunden> + 600 Petabyte Daten
Zeitlinie
Data Domain
First Dedupe NASFirst Dedupe NAS
First Dedupe Volume ReplicationFirst Dedupe Volume Replication
First Dedupe GatewayFirst Dedupe Gateway Largest Dedupe ArrayLargest Dedupe Array
First DedupeDirectory ReplicationFirst DedupeDirectory Replication
First Dedupe VTLFirst Dedupe VTL
2003 2004 2005 2006 2007
First Dedupe Nearline StorageFirst Dedupe Nearline Storage
2008
2
0
500
1000
1500
2000
2500
3000
3500
2006 2007 2008 2009 2010
Marktbetrachtung: Capacity Optimized Storage (COS)
COS
Tape Automation
2006 Revenues
$M
“When viewed through the data deduplication lens, Data Domain took a lion’s share of the market with 53% of the storage with data deduplication in 2006, according to our estimates.”Source: Arun Taneja, SearchStorage.com, May 2, 2007
Data Domain has enjoyed the market leadership position in the midrange data deduplication space for at least two years now. We believe that Data Domain today continues to hold a 9 to 12 month technology lead over its nearest competitor. Meanwhile the company is aggressively expanding its products both up and down the performance spectrum. Source: RBC Capital Markets Corp. - Enterprise Systems Perspectives Deduplication: Proliferation and Confrontation Ahead, June 2008
Source: Taneja Group - Next Generation Data Protection Market Profile, December 2006
3
Data Domain – Hauptmerkmale
Integration: Einfache Einbindung in bestehende Umgebungen
Technologie: DeDuplizierung
Sicherheit: “Data Invulnerability” Architektur
Effizienz: Replikation für DR
4
Integration
3U(15) 500 GB SATA drives
RAID-6NVRAMN+1 Fan
1 - 4 Ports5.4 to 21.6 TB with Shelves
File System
(Gateway: EMC, HDS, Nexsan, Pillar, NetApp, 3PAR, LSI, IBM, HP)
CIFS, NFS, NDMP
OST
FC = VTL
Replikation
…
Nearline Applikationen
5
3FB0734C 5B2B36AC842194A3214DCF8947
Technologie im Detail
3FB0734CD7DC8B935B2B36AC842194A3214DCF8947D7DC8B93
Pointer
6
94A3214DCF89475B23FB0734C 5B2B36AC842194A3214DCF8947B36AC84213FB0734C
Pointer
Technologie im Detail
7
94 94794A3214DCF89475B23FB0734C A3214DCF8
Technologie im Detail
8
94 9475B23FB0734C
3FB0734C5B294947
Technologie im Detail
9
Variable Segmente vs. Blocklevel
Segmemte von variabler Größe haben entscheidende Vorteile !
Feste Blockgröße versagt bei den meisten Veränderungen
Variable Startpunkte verbessern das Auffinden von Dubletten
StartpunkteRedundante Segmente
Ich bin im Z oo b ei d en A ffen
Sie sind im Zoo bei den Affe
Ich war bei den Affe n im Zoo
Paul und ich waren im Z oo b ei d en A ffen
10
Second Friday Full BackupSecond Friday Full Backup
B C D E F L G H
Daten-DeDuplizierungseffekt
A B C D E F G H I J
Friday Full BackupFriday Full Backup
A B C D A E F G
Mon IncrMon Incr A B H
Tues IncrTues Incr C B I
Thurs IncrThurs Incr A C K
Weds IncrWeds Incr E G J
BACKUP DATA LOGICAL ESTIMATED PHYSICALREDUCTION
Monday Incr 100 GB 7-10x 10 GB
Tuesday Incr 100 GB 7-10x 10 GB
K L
Wednesday Incr 100 GB 7-10x 10 GB
Thursday Incr 100 GB 7-10x 10 GB
2nd FRIDAY FULL 1 TB 50-60x 18 GB
TOTAL 2.4 TB 7.8x 308 GB
FRIDAY FULL 1 TB 2- 4x 250 GB
11
Week 1Week 1
BACKUP DATA LOGICAL ESTIMATED PHYSICALREDUCTION
Feb. 28 12.8 TB 14x 890 GB
März 31 15.2 TB 16x 940 GB
April 7 18.0 TB 18x 980 GB
April 14 19,4 TB 18x 1050 GB
April 21 21.5 TB 19x 1130 GB
TOTAL 23.4 TB 20x 1178 GB
Jan 31 8.4 TB 11x 714 GB
Längere Aufbewahrungszeiten mit der selben Diskkapazität !
Week 2Week 2
Week 3Week 3
Month 1Month 1
Month 2Month 2
Month 3Month 3
Month 4Month 4 April 28 23.4 TB 20x 1178 GB
Daten-Deduplizierungseffekt
12
Online-DeDuplizierung
► Online Erkennung von Redundanzen IO basierender Prozess benötigt CPU & RAM
► Leseverifizierung der Daten direkt beim Schreiben
► Asynchrone Replikation der Daten während dem Backup
► 1 X Schreiben auf primärer DD; 1 x Lesen für Replikation
13
Online-DeDuplizierung
4 TB 4 TB 4 TB
BackupReplikation
Kein zusätzlicher Plattenbedarf geringere Stromkosten
Keine Software-Upgradegebühren für z.B. NetWorker notwendig
Replikation kann unmittelbar mit dem Backup angestoßen werden DR fähig
14
Online versus Post - DeDuplizierung
► Festplatten I/O basierende Architektur
► Backup erfolgt direkt auf VTL Device und wird in Native Format abgelegt
► Wenn genügend System Ressourcen vorhanden sind beginnt die Deduplizierung
► Nach Abschluss der Deduplizierung beginnt die Replikation
► Kritisch im Bezug auf die Überwachung des Systemzustands
► Kritisch im Bezug auf die Systemperformance und Datenkonsistenz
► Benötigt zusätzliche Diskkapazität
► 1 x Schreiben Native; 1 x Lesen für DeDup; 1 x schreiben DeDup; 1 x Lesen für Replikation
15
Post-DeDuplizierung
10 TB
Backup Replikation
4 TB 4 TB4 TB
DeDup
Zusätzlicher Platzbedarf höhereStromkosten Zusätzliche Software-Upgradegebühren für z.B. NetWorker notwendig Extrem I/O-lastig Anfällig für Datenkonstistenzprobleme / hohe Wahrscheinlichkeit für
Diskfragmentierung Replikation kann erst nach Post-Deduplizierung angestoßen werden DR fähig ?
16
Performance: CPU vs. HDD
Source: http://seagate.com/docs/pdf/whitepaper/economies_capacity_spd_tp.pdf
Klassische Lösungen haben Nachteile gegenüber CPU bassierender DeDuplizierung
Mehr Geschwindigkeit nur durch mehr Festplatten Verschwendung von Plattenplatz Höherer Managementaufwand / Kosten
1987 2004 Faktor
CPU Performance 1 MIPS 2,000,000 MIPS 2,000,000 x
Memory Size 16 Kbytes 32 Gbytes 2,000,000 x
Disc Drive Performance 60 msec 5.3 msec 11 x
17
Durchsatz: CPU-centric Design
Mit jeder Verdopplung der # “Cores” erhöht sich bei DD der Durchsatz um ~50% SISL™ (Stream Informed Segment Layout) CPU-centric Design
Laufwerke
Durchsatz
300 MB/sec
100 MB/sec
50 MB/sec
2001005010
Most Dedupe V
endors
Most Dedupe V
endors
FC Drives:2x SATA Geschw.3-5x SATA Preis
SATA Drives
Data Domain
18
Recovery: “Data Invulnerability” Architektur
Zusätzlicher Schutz• RAID-6• NVRAM• Snapshots
DatenüberprüfungCheck-SummeDeDup, auf Platte schreibenVerifizieren
Selbstheilendes file systemCleaningDefragVerifizieren
Trust but verify – hope is not a strategy !
19
Replikation: WAN–Effizienz
WAN
home
Backup Daten
Backup DatenBackup
Daten
home
DIR A
Quelle: Remote Sites
Ziel: Data Center Hub
95- 99% Bandbreitenreduzierung95- 99% Bandbreitenreduzierung
1- 5%
1- 5%
1- 5%
Echtes DR; reduziert WAN–Kosten; verbessert SLAs !
Backup Daten
20
Einheitliche Plattform für Archiv- und Backupdaten
home
• Archiv und Backup auf einem System
• eine Plattform für mehrere ApplikationenBackup Daten
Backup Daten
Backup Daten
Archiv Daten
Archiv Daten
Archiv Daten
WAN
• SnapShot für Datenintegrität
• Effiziente Replikation für DR
21
Skalierbarste Inline Deduplication Systeme
DD500 Appliance Series
DDX Array Series
Replicator, VTL, Open Storage, Retention Lock Software Optionen
Bis zu 16 Kontrollerinterner oder externer Storage
DD120 DD510 DD530 DD565 DD580/g DD690/g DDX Array
Durchsatz (GB/h) 150 290 360 630 800 1,4 TB/h 22,4 TB/h
Logische Kap. (TB) 7-18 55-135 110-285 320-810 430-1,08 PB 710-1,7 PB 11,3-28 PB
Roh Kap. (TB) ,750 Bis zu 3,75 Bis zu 7,5 Bis zu 23,5 Bis zu 31,5 Bis zu 48 Bis zu 768
Nutzbare Kap. (TB) ,373 Bis zu 2,7 Bis zu 5,7 Bis zu 16,2 Bis zu 21,6 Bis zu 35,3 Bis zu 564
DD120 Für Außenstellen
Gateway Series
DD690 System
DD690g
DD580g
22
Data Domain – 10 Vorteile auf einen Blick !
Problemlose Einbindung in die vorhandene Backup-Software und Vereinfachung des Managements
Datenreduktion von über 90% möglich (variables SI auf Segmentebene) Reduzierung von Wiederherstellungszeiten durch viel längere Aufbewahrung
der Backupläufe auf Disk Extreme Datensicherheit durch eingesetzte Technologie z.B. RAID 6,
Replikation, permanente Überprüfung der Daten auf Korruption (physisch und logisch)
Einfache Umsetzung von DR-Konzepten durch Replikation Außenstellen mit Replikation über WAN-Leitung anbinden Performantes Backup/Recovery gerade auch in unternehmenskritischen
Umgebungen und bei Datenbanken Optimal auch in virtuellen Umgebungen mit VMware Kosten für weniger benötigte Dokumente reduzieren (Speicherung von
Archiv- und Backup-Daten auf der gleichen Data Domain Appliance) Green-IT: drastische Reduktion der Stromkosten, des Platzbedarfes und der
Klimakosten
23
Was beim Thema DeDup berücksichtigt werden sollte
Ist die Datenstruktur DeDup fähig ?
Gibt es Referenzen mit meiner Applikation ?
Können Außenstellen mit eingebunden werden ?
Kann ein Leistungsfähiges DR–Konzept erstellt werden ?
Technologie: Online oder Postprozess / CPU- oder Platten-basiert /
fixe oder variable Blöcke?
VTL oder Filesystem ?
Managementaufwand & Sicherheit des Systems (bspw. Metadaten,
Datenkorruption, Selbstheilung, RAID-Typ, Gegenmaßnahmen zur
Fragmentierung) ?
Implementierungsaufwand ?
24
Fortune 1000 Kunden
Technology
Telecom
Public Sector
Media/Entertainment
Healthcare
Industrial/Auto
Consumer/Retail
Financial Services
Source: Data DomainSource: Data Domain
25
Kunden in Deutschland
EMC NetWorker
Gateway mit EMC Clariion Speicher
4 TB Daten
Oracle, Mail und Flat File
4 Wochen retention
SAN
26
Kunden in Deutschland
“Data Domain hat unsere Erwartungen mehr als erfüllt, in dem bei hoher Performance sehr gute DeDuplication Werte erreicht werden und der Betrieb absolut problemlos und zuverlässig läuft”(Peter Langwieder)
27
Kunden in Deutschland
“Die Betreuung und der Know-How Transfer … hat sehr gut funktioniert und durch den Test konnte schon im Vorfeld die hervorragende Funktionsweise der DeDuplication der Data Domain Lösung ermittelt werden. Dies hat sich mittlerweile im produktiven Praxisbetrieb bestätigt.”(Ljudevic Katovic)
28
Data Domain …the proven way to do DeDuplication