implementing the logical data warehouse with oracle big ... · statistik über performance end...

32
www.ise-informatik.de Implementing the Logical Data Warehouse with Oracle Big Data SQL Matthias Fuchs DWH Architekt ISE Information Systems Engineering GmbH

Upload: others

Post on 11-Oct-2019

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Implementing the Logical Data Warehouse

with Oracle Big Data SQL

Matthias Fuchs DWH Architekt

ISE Information Systems Engineering GmbH

Page 2: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 2

Enable

eXtreme

Performance. ISE Information Systems Engineering

Gegründet 1991

Mitarbeiteranzahl: 60

Hauptsitz in Gräfenberg, Niederlassungen in München und Nürnberg

Schwerpunkte:

Oracle Engineered Systems (Exadata / Exalogic / Exalytics)

Data Warehousing & Business Intelligence

Oracle DB – Migrationen, Optimierungen, Hochverfügbarkeit

Managed Service für Datenbanken, BI und Middlewareapplikationen

Oracle Partner Engineered Systems Award 2013

Page 3: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 3

Enable

eXtreme

Performance.

ISE Oracle Technology Center

Page 4: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 4

Enable

eXtreme

Performance.

Erstes und einziges Exastack Technology Center in

Deutschland in Nürnberg

ISE Oracle Technology Center

Coming soon ODA X5

Page 5: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 5

Enable

eXtreme

Performance. Agenda

LDW - Logical Datawarehouse

Big Data SQL Infrastructure

Sqoop - der Anfang

Customer case

Page 6: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 6

Enable

eXtreme

Performance.

LDW – Logical Datawarehouse

Page 7: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 7

Enable

eXtreme

Performance. Logical Data Warehouse

Gartner Hype Cycle for Information Infrastructure, 2012,

“the Logical Data Warehouse (LDW) is a new data

management architecture for analytics which combines the

strengths of traditional repository warehouses with

alternative data management and access strategy. The

LDW will form a new best practices by the end of 2015.”

Page 8: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 8

Enable

eXtreme

Performance.

Repository Management

Verschiedene Typen u.a. Metadaten

Konsolidierung

Data Virtualization

Virtuelle Daten Schicht

Distributed Processes

Aufruf externer Prozesse

z.B. Bilder oder Content Analyse, aber auch MapReduce

Cloud

Auditing statistics and performance Evaluation

Statistik über Performance

End User, Applikationen oder Verbindungen

SLA Management

Metadataset über erwartete Ausführungenzeiten etc.

Überwachung und ggf. Änderung der Ausführung

Taxonomy - Ontology resolution

a taxonomy “tree” in an ontological “forest”

Metadata Management

Gartner: Logical Dataware House

Page 9: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 9

Enable

eXtreme

Performance.

Repository Management

Verschiedene Typen u.a. Metadaten

Konsolidierung

Data Virtualization

Virtuelle Daten Schicht

Distributed Processes

Aufruf externer Prozesse

z.B. Bilder oder Content Analyse, aber auch MapReduce

Cloud

Auditing statistics and performance Evaluation

Statistik über Performance

End User, Applikationen oder Verbindungen

SLA Management

Metadataset über erwartete Ausführungenzeiten etc.

Überwachung und ggf. Änderung der Ausführung

Taxonomy - Ontology resolution

a taxonomy “tree” in an ontological “forest”

Metadata Management

Gartner: Logical Dataware House

‚Data-to-insight cycle ' schneller

günstiges Framework um neue

Inhalte einzubeziehen

Höhere Flexibilität

Page 10: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 10

Enable

eXtreme

Performance. Gartner: Übersicht

Aus Gartner Newsletter Logical Data Warehousing for Big Data

Page 11: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 11

Enable

eXtreme

Performance.

Information Management Reference Architecture

Oracle

Data Reservoir & Enterprise Information Store – complete view

Enterprise Performance Management

Vir

tua

lis

ati

on

&

Qu

ery

Fe

de

rati

on

Pre-built & Ad-hoc BI Assets

Information

Services

Data Ingestion

Information Interpretation

Access & Performance Layer

Foundation Data Layer

Raw Data Reservoir

Data Science

Data Engines & Poly-structured sources

Content

Docs Web & Social Media

SMS

Structured Data Sources

• Operational Data

• COTS Data

• Streaming & BAM

Immutable raw data reservoir

Raw data at rest is not interpreted

Immutable modelled data. Business

Process Neutral form. Abstracted

from business process changes

Past, current and future interpretation of

enterprise data. Structured to support

agile access & navigation

Discovery Lab Sandboxes Rapid Development Sandboxes

Project based data stores

to support specific

discovery objectives

Project based data

stored to facilitate rapid

content / presentation

delivery

Data Sources

Master & Reference Data Sources

http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/2297765.pdf

Auditing statistics/performance Evaluation

SLA Management

Page 12: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 12

Enable

eXtreme

Performance.

Big Data SQL Infrastructure

Page 13: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 13

Enable

eXtreme

Performance. Big Data Sql - Übersicht

Oracle Big Data SQL

Cloudera

Hadoop

NOSQL

R Advanced

Analytics

Exadata

Advanced

Analytics

Advanced

Security

Connectors

ODI

Or BigData Lite VM

Page 14: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 14

Enable

eXtreme

Performance. Big Data Systemübersicht

Storage Layer

Filesystem (HDFS)

Resource Management YARN + MapReduce

Processing Layer

Big Data SQL

Page 15: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 15

Enable

eXtreme

Performance. Big Data und DB im LDW

ODI, BPM, SOA

Enterprise Metadata

Management

Oracle Big Data

Appliance

Repository Management

Data Virtualization

Distributed Processes

Auditing statistics and performance

SLA Management

Taxonomy - Ontology resolution

Page 16: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 16

Enable

eXtreme

Performance.

Sqoop - der Anfang

Page 17: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 17

Enable

eXtreme

Performance.

Sqoop = SQL- to – Hadoop

Paralleles kopieren von JDBC <-> HDFS

MapReduce jobs zum Daten laden/schreiben

Sqoop

DB

HDFS

Map

Reduce

Page 18: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 18

Enable

eXtreme

Performance.

OraOOP Guy Harrison team Quest (Dell)

Ab version 1.4.5 (CDH 5.1)

Oracle direct path (non-buffered) IO for all reads

Auf mappers werden Anzahl Blöcke verteilt

Bei partitionierten Tabellen, kann der Mapper pro Partition arbeiten

Sqoop mit Oracle

ORACLE TABLE

HDFS

HADOOP MAPPER

ORACLE SESSION

HADOOP MAPPER

ORACLE SESSION

Page 19: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 19

Enable

eXtreme

Performance.

Oracle Change Data Capture

Supported in 11.2 – but not recommended by Oracle

Desupported in 12.1

Oracle Golden Gate

1. RDBMS to HIVE

2. RDBMS to Flume

3. RDBMS to HDFS

Andere Hersteller:

(Dell) Quest SharePlex – Auslesen redologs

(VMWare) Continuent Tungsten – uses CDC im Hintergrund

Libelle

Real Time

Page 20: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 20

Enable

eXtreme

Performance.

Customer case

Page 21: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 21

Enable

eXtreme

Performance.

Ziel

Daten von Servicecalls (OSB) auswerten

Daten Historisieren

Feststellen von Anomalien

Mappen von Strukturierten und Unstrukturierten Daten

Tabellen/View und Datei Import

Auswertung mit ausgewählten Werkzeugen

Analyse von Infrastrukturdaten

HDFS

Analytic output

Weblogs

CC RDBMS

Flume SQOOP

YARN/MR

• R • Elasticsearch

Page 22: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 22

Enable

eXtreme

Performance.

Wahl der Hadoop Distribution

Cloudera – Oracle supported

Ohne -> sehr aufwendig

Filedaten

Flume

Weblogic und Apache Logs

Gut dokumentiert im Netz

Ggf. Realtime Auswertung mit Elasticsearch or Solr

Hive

CDH 5.1

OCRFile Format

Vorbereitung

Page 23: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 23

Enable

eXtreme

Performance.

Optimized Row Columnar File Format

light-weight indexes bereits im Fileformat

block-mode compression auf basis des Datentyps

Hive ORCFile

TPC-DS Scale 500 Dataset GB, Hortonworks

585

• Encoded Text

• CSV File

505

• RCFile

• Record Columnar File

221

• Parquet

• Columnar Storage Format, impala

131

• ORCFile

• Hive

Größenvergleich

über

verschiedene

Typen

Page 24: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 24

Enable

eXtreme

Performance.

Teil 1 Datenladen

Teil 2

Create Big Data SQL Layer

Ablauf Datenintegration

DB

HDFS HIVE

Oracle Big Data SQL

Page 25: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 25

Enable

eXtreme

Performance. Prozess Teil 1

DB

HDFS HIVE

• Start sqoop job to HDFS

• Create external table on

HDFS Files

• insert as select in hive ocr

data table

• Import parallel 1, da view daten

• Kein primary key, keine parallelen MapReduce Prozesse

• Direct read notwendig, da sonst tmp Tablespace zu klein

• Start mit sqoop2, ende mit sqoop1 inklusiv Optimierung

• ODI statt oozie

Page 26: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 26

Enable

eXtreme

Performance.

Suche Tabelle in Hive aus DB

select table_name, input_format, Location from ALL_HIVE_tables

where table_name like '%oem%';

Prozess Teil 2

Page 27: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 27

Enable

eXtreme

Performance.

Create Table in DB (nur in Test VM)

DDL mit CREATE_EXTDDL_FOR_HIVE erzeugen

DDL ausführen

Prozess Teil 2

dbms_hadoop.create_extddl_for_hive(

CLUSTER_ID=>'bigdatalite',

DB_NAME=>'default',

HIVE_TABLE_NAME=>'oem_data',

HIVE_PARTITION=>FALSE,

TABLE_NAME=>'oem_data',

PERFORM_DDL=>FALSE,

TEXT_OF_DDL=>DDLout

);

CREATE TABLE OEM_DATA ( target_name

VARCHAR2(4000), target_guid …..

key_value6 VARCHAR2(4000),

collection_timestamp VARCHAR2(4000))

ORGANIZATION EXTERNAL

(TYPE ORACLE_HIVE

DEFAULT DIRECTORY DEFAULT_DIR

ACCESS PARAMETERS (

com.oracle.bigdata.cluster=bigdatalite

com.oracle.bigdata.tablename=default.oem_

data)

) ;

DDL Erzeugen

DDL Asuführen

Page 28: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 28

Enable

eXtreme

Performance. Ausführungsplan

Page 29: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 29

Enable

eXtreme

Performance.

Daten für einen Tag

~ 239.634.928 Zeilen/12 Spalten

TXT Files

~100 G unkomprimiert

Ladezeit ca. 1h aus CC DB

OCR Files in hive

~ 27 M komprimiert

~ Ladezeit ca. 30 Minuten

Ergebnisse: Laden der Daten

Type Größe Select

count

Where

Oem_data BigDataSQL 2,8 MB

2,1 Mio

11s 8s

Oem_data local

kopiert

Oracle 558 MB

2,1 Mio

0,5s 0,5s

Oem_data Hive 57s 50s

Teil 1

Teil 2

Page 30: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 30

Enable

eXtreme

Performance.

Only data retrieval (TABLE ACCESS FULL und Filter ) werden

offloaded!

Datenbearbeitung im DB Layer GROUP BY, ORDER BY, JOIN, PL/SQL etc

BigDataSQL 2.0 (Aggregation in Hadoop?)

Alternativ Connect über ODBC

Lastverteilung Big Data SQL

Tool Beschreibung Decompress

CPU

Filtering CPU Datatype

Conversion

Sqoop Hadoop Oracle Oracle

Oracle SQL

Connector

für HDFS

Text Dateien HDFS

oder DataPump

HDFS

Oracle Oracle

Big Data

SQL

12c

Exadata&BDA

Hadoop Hadoop Hadoop

ODBC Hadoop Hadoop Oracle

Page 31: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 31

Enable

eXtreme

Performance. Zusammenfassung

Exadata €€€

DB/EMC €€€

Integration Layer

Exadata €

DB/EMC €

Hadoop

Vorher:

Nacher:

Page 32: Implementing the Logical Data Warehouse with Oracle Big ... · Statistik über Performance End User, Applikationen oder Verbindungen SLA Management Metadataset über erwartete Ausführungenzeiten

www.ise-informatik.de

Copyright (C) ISE GmbH - All Rights Reserved 32

Enable

eXtreme

Performance.

Q & A