analyticsconf : azure sql data warehouse
TRANSCRIPT
Azure SQL Data Warehouse
Wlodek [email protected]
Kompetencje
2
SOFTWARE DEVELOPMENT PERFORMANCE MANAGEMENT
CLOUD OUTSOURCING
DATA SCIENCE MANAGED SERVICES
DATA MANAGEMENT ERP
Fakty i plany
3
Konsultanci
2014
1762015
2802016
450
Zrealizowane projekty
2014
902015
1742016
376
Capacity (MH/Miesiąc)
2014 2015
47k
Przychody (mPLN)
2014
22,52015
43,5
29K2016
76k
2016
73,1
Międzynarodowy zasięg
450% przychodów pochodzi z kontraktów międzynarodowych>
Klienci
5
Technologie, narzędzia i partnerzy
6
• Geneza Azure SQL DWH
• Architektura
• Ładowanie danych
• Zapytania SQL i raportowanie
• Demo
Agenda
7
• Usługa PaaS na platformie Azure
• Hurtownia danych „on demand”
• Implementuje podzbiór T-SQL
• Wydajna, skalowalna, elastyczna
• Architektura MPP, oparta na SQL Server
• SQL Server PDW/APS w chmurze
Azure SQL Data Warehouse
8
Architektura MPP
9
SMP MPP
2008 DATAAllegro
2010SQL Server PDW (2008 R2)
2013SQL Server 2012 PDW
2014Microsoft APS
2015/2016AzureSQL DWH
Geneza SQL Server MPP
10
Microsoft APS
11
Microsoft APS
12
Analytics Platform System
SQL Server2012 PDW
Microsoft HDInsight
PolyBase
• Parallel Data Warehouse – SQL Server w wersji MPP
• HDInsight – Hadoop, zintegrowany z platformą MS
• PolyBase – łączenie w locie danych PDW i HDInsight
• Skalowalny, wydajny, drogi
• On-premises (HP, Dell, Quanta)
Microsoft APS
13
Analytics Platform System
SQL Server2012 PDW
Microsoft HDInsight
PolyBase
Architektura Azure SQL DWH
14https://azure.microsoft.com/en-us/documentation/articles/sql-data-warehouse-overview-what-is/
• Analogicznie do HDInsight:
• Tani, trwały Storage
• Compute „on demand”
• Pause/Start, Scale
• Dane pozostają nienaruszone, nie ma potrzeby ponownego ładowania
• Automatyzacja przez PowerShell / Rest API
• Koncepcja DWU
Sposób użycia i koszty
15
• Syntetyczna miara mocy obliczeniowej
• 100 – 6000 DWU (wersja próbna 200 DWU)
• 100 DWU = 1,17 EUR/h
Data Warehouse Unit (DWU)
16
100 DWU = 297 sec
400 DWU = 74 sec
800 DWU = 37 sec
1,600 DWU = 19 sec
Scan 1B Rows
Scan Rate xx M row/sec
Loading Rate xx K row/sec
Table Copy Rate xx K row/sec
100 DWU
17
DemoTworzenie i zarządzanie Azure SQL Data Warehouse
17
• Wszystkie tabele są rozproszone
• 60 kubełków / dystrybucji
• Sposoby dystrybucji:
• Hash – duże tabele faktów
• Round Robin – słowniki wymiarów lub tabele bez dobrego kandydata na hashowanie
• Każdy węzeł obliczeniowy (Compute Node) zawiera jedną lub więcej dystrybucji
Dystrybucja danych
18
• SSIS (ADO.NET)
• Azure Data Factory
• BCP
• PolyBase
Ładowanie danych
19
Ładowanie via Contol Node – wąskie gardło
• Ładowanie bezpośrednio na Compute Node• Pliki płaskie (np. CSV)
• Ładowanie plików Hadoop lub Azure Blob Storage
• Pull, nie Push – pomijanie Control Node, skalowalna wydajność
• Formaty: RC, ORC, Parquet, CSV/Flat
Idealny scenariusz:
PolyBase
20
Eksport źródłowych
danych do CSV
Załadowanie plików na Azure
Blob Storage
Załadowanie do DWH poprzez
PolyBase
21
DemoPolyBase
21
• Niektóre elementy T-SQL nie są wspierane
• Wybór właściwego sposobu dystrybucji (Hash vs Round Robin)
• Data Warehouse Migration Utility
• Red Gate Data Platform Studio
Migracja do Azure SQL DWH
22
23
DemoData Warehouse Migration Utility
23
• Ad-hoc
• SQL Server Management Studio
• Analysis Services Tabular
• SQL Server 2016 Enterprise – IaaS / VM
• Azure Analysis Services Preview
• Power BI
• Dedykowany konektor
• Wersja Pro (darmowa 60-dniowa wersja próbna)
Raportowanie i analityka
24
25
DemoPower BI
25
Rola i miejsce Azure SQL DWH
26https://azure.microsoft.com/en-us/services/sql-data-warehouse/
Scenariusz biznesowy
27
• Uzupełnienie klasycznego DWH/BI o Big Data
• Clickstream – aktywność użytkowników na portalu
• Rozmiar danych zbyt duży dla Analysis Services (G5 VM – 448 GB RAM)
• Analitycy znający SQL / Hive
• Zapytania ad-hoc + eksport do SQL Server IaaS / VM
• Próbna subskrypcja Azure
• https://azure.microsoft.com/pl-pl/free/
• Rozszerzona wersja próbna Azure SQL DWH (do końca 2016)
• https://azure.microsoft.com/en-us/services/sql-data-warehouse/extended-trial/
• SQL Server Management Studio
• https://msdn.microsoft.com/en-us/library/mt238290.aspx
• Data Warehouse Migration Utility
• https://migrhoststorage.blob.core.windows.net/sqldwsample/DataWarehouseMigrationUtility.zip
• Próbna wersja Power BI Pro
• https://powerbi.microsoft.com/en-us/get-started/
Jak zacząć
28
29
Q & AAzure SQL Data Warehouse
29