【webinar-slide】data quality icon talend data quality による 日本語のクレンジング

14
© Talend 2011 1 Talend Data Quality ににににににににににににに Talend, Global Leader in Open Source Integration Solutions にににに : [email protected] [#521] ver.1.0.0 にににににににににににににににに↓ http://info.talend.com/jp_dq_cleansing.html?id=webinar_jp_dq_ cleansing

Upload: talend-kk

Post on 28-Jun-2015

30.650 views

Category:

Self Improvement


6 download

DESCRIPTION

Talendのウェビナーオンデマンドのご視聴はこちら↓  http://info.talend.com/jp_dq_cleansing.html?id=webinar_jp_dq_cleansing 新たに追加された、Talend Data Qualityの日本語クレンジングの機能についてご紹介します。 -Talend Data Qualityの概要 -Talend Data Qualityの日本語への対応 -Talend Data Qualityに標準追加された機能 -それらを使用したジョブの作成 下記の方々の受講をお待ちしております。 -Talend製品を既にお使いの方 -高機能かつ安価なデータ統合ツールをお探しの方 -Talend製品に興味がある方

TRANSCRIPT

Page 1: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011 1

Talend Data Quality による日本語のクレンジング

Talend, Global Leader in Open Source Integration Solutions

お問合せ : [email protected]

[#521] ver.1.0.0

本ウェビナーのオンデマンドリンク↓http://info.talend.com/jp_dq_cleansing.html?id=webinar_jp_dq_cleansing

Page 2: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011 2

Agenda

(1)Talend ソリューションの概要

(2)Talend Open Profiler / Talend Data Quality の概要

(3)Talend Data Quality の日本語対応

(4)Talend JP Cleansing Functions の詳細

(5)Talend JP Cleansing Functions で出来る事 / 出来ない事

(6)Demonstration

Page 3: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011 3

Talend Unified Platform標準テクノロジを製品基盤に採用 - GUI : Eclipse, ブラウザ - リポジトリ: Subversion, RDBMS

Talend ソリューションの概要

Talend MDM Community Editionコミュニティベースのマスタデータ管理- GPLv2 製品、無制限に使用可能- XML ベースのアクティブデータモデル- 業務ユーザ向け軽量 GUI

Talend Data Qualityクレンジングと検知- クレンジング / 名寄せ用 コンポーネント- 検証レポート機能- データ品質に関する ポータル機能

Talend Integration Suiteミッションクリティカルなデータ運用を実現- チーム開発機能- 自動デプロイ、ロードバランシング、 HA- ジョブフロー制御機能- 運用監理機能

Talend MDM Enterprise Edition全社を俯瞰したマスタデータ管理 - 権限管理・制御 - 妥当性ルールの定義 - 高度なワークフローエンジン

Talend Open Profilerデータの内容・品質検証- GPLv2 製品、無制限に使用可能- 品質指標の作成が可能

GPL 製品

Talend Open Studioデータフローの構築- GPLv2 製品、無制限に使用可能- 多機能・高速データプロセッシング- 450+ のコンポーネントが利用可能

GPL 製品

GPL 製品

Page 4: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend Open Profiler の概要

世界初のオープンソースによるデータプロファイリング製品 ソースシステムのデータ検証を支援 データに関する情報と統計情報を収集

主要機能 DB スキーマ分析(テーブルキー、インデックス定義の抽出、

スキーマ変更履歴のツリー表示等) カラム分析(最大値、最小値、ユニーク性、空白有無、 NULL 値等) 重複度分析、関連性分析 分析パターン、指標の自由定義等

導入効果 データの品質レベルを調査検証可能 データの特性と特徴を把握可能 製造開発工程前にデータに関する潜在的な問題を発見することが可能 仕様の疑わしいデータの発見に費やす時間と工数を削減 業務分析担当者がデータ内容の把握と維持に必要な作業を発見することを支援

Data Quality

Page 5: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend Data Quality の概要

サブスクリプション製品、 Talend Open Profiler の拡張版であり、 Talend Integration Suite のアドオン製品

Data Profiler Talend Data Quality Portal によるデータ品質情報の公開 データ品質に関する統計情報の履歴管理と遷移の評価

Data Cleanser データ変換処理の品質自体を向上 「誤った」データの除去または再利用を促進 例外データの収集 基本的な日本語データクレンジングが可能 以下との I/F が可能 :

個人名、法人名、住所、電話番号のマスタ辞書 同音異義語、異音同義語のマスタ辞書 外部のデータクレンジングエンジン

データマッチング / フィルタリング / エンリッチメント、名寄せ、標準化に適用可能

Data Quality

※ 本日のメイントピック

※ 日本固有データへの拡張機能をメトロ社(弊社パートナー)が開発し、リリース

Page 6: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend Integration Suite名寄せ用辞書・定期更新・随時更新

・基本的なクレンジング機能を 標準で装備   * 名前    * 住所   * 電話番号   * 郵便番号等

Talend Data Quality

・高度なクレンジング機能に加え、名寄せ、マッチング等の機能を提供

・専用辞書に加え、他社製辞書や既存データとのリンクも可能

他社製辞書

お客様既存のデータ

・ TDQ に標準機能として追加

・メトロ社(弊社パートナー)によるオプション製品 (MDQ) としてご提供

Talend Data Quality の日本語対応①

AdvancedData

CleansingEngine

for Japanese

Talend JPCleansingFunctions

MDQ

※ 本日のメイントピック

Page 7: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend Data Quality の日本語対応②

半角全角変換 / 空白削除

半角全角変換 / 空白削除 /丁目、番地、号等のハイフン統一

全角半角変換 / 空白削除 /数字以外の文字削除

名前クレンジング

住所クレンジング

電話番号クレンジング

郵便番号クレンジング

日本語を含むデータに対して基本的なクレンジングを行う機能

Talend Data Quality に標準実装※Talend がご提供

※本日のメイントピック

メトロ社(弊社パートナー)よりご提供※オプション機能

Talend JP Cleansing Functions

旧字⇒新字変換 /姓名分割 / 法人格統一 /法人名部署等分離

住所妥当性判定 /旧住所⇒新住所変換 /住所辞書からの住所補完 /郵便番号からの住所補完 /住所コード付加 / 住所分割、連結

名前クレンジング

住所クレンジング

全角⇒半角変換 / 数字以外削除 /住所からの局番補完 /住所との電話番号妥当性判定 /局番区切り補正

電話番号クレンジング

全角⇒半角変換 / 数字以外削除 /住所から郵便番号補完 /住所との郵便番号の妥当性判定 /郵便番号の種類判定 /ビルの郵便番号判定

郵便番号クレンジング

個人・法人名寄せ /世帯名寄せ / 住所名寄せ /電話番号名寄せ

名寄せマッチング

総合判定

MDQ(Option)

電話帳データベースマッチング /電話番号調査

データの信用性判定

全角半角変換 / 空白削除 /数字以外の文字削除

Page 8: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend JP Cleansing Functions の詳細

クラス ファンクション パラメータ 戻り値 機 能

TalendJPCleansing

allTrimAllstr :空白削除対象文字列 (String )

空白削除済み文字列 (String )

文字列内の全ての空白(全角スペース+半角スペース)を削除します。

HanZenConvertinStr :全半角混在文字列 (String )

全角文字列(String )

全半角混在文字列内の全ての半角文字を全角文字に変換します。

ZenHanConvertinStr :全半角混在文字列 (String )

半角文字列(String )

全半角混在文字列内の全ての全角文字を半角文字に変換します。

delNotNumAlldata :文字列(String )

数値文字列(String )

文字列から数値を抽出します。

HyphenToStdHyphen

inAddr :全角文字列 (String)

ハイフン統一後文字列 (String)

文字列中の全角ハイフン、全角マイナス、全角ダッシュ、全角長音を '- '( 全角マイナス ) に統一します。

Page 9: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Talend JP Cleansing Functions で出来る事 / 出来ない事

9

出来る事

① 全半角スペースの削除

② 半角全角変換(文字列単位)

③ 全角ハイフン統一(文字列単位)

④ 数字以外の文字の削除(文字列単位 郵便・電話番号に使用)

出来ない事

① 漢数字アラビア数字の変換

② 丁目番地号表記の変換( Ex : “1丁目2番地3号””1-2-3”)

③ 区切付き郵便・電話番号のフォーマットチェック・変換

④ 辞書をベースとした整合性チェック、文字列補完

※ TDQ で拡張実装可能

※ メトロ社が MDQ でオプション機能としてご提供

Page 10: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011 10

Demonstration

では、実際に Talend JP Cleansing Functionsを使ってみましょう

Page 11: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Demonstration – Case 1

11

氏名のクレンジング[元データ ]

氏 名 データの状態

鈴木一郎 区切無し

佐藤 二郎 半角 SP区切

田中 三郎 全角 SP区切

ササキ シロウ 半角カナ 半角 SP 区切

①スペース削除②半角⇒全角変換

Page 12: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Demonstration – Case 2

12

郵便番号・電話番号のクレンジング[元データ ]

郵便番号 電話番号 データの状態

222-1111 03-222-1111 半角アラビア数字 半角ハイフン区切

222―2222 03―222―2222 半角アラビア数字 全角ダッシュ区切

222‐3333 03‐222‐3333 半角アラビア数字 全角ハイフン区切

222- 4444 03- 222- 4444 半角アラビア数字 全角マイナス区切

222 ー 5555 03 ー 222 ー 5555 半角アラビア数字 全角長音区切

2226666 032226666 半角アラビア数字 区切無し

222-7777 03-222-7777 全角アラビア数字 全角マイナス区切

①数字以外の文字を削除②半角に統一

Page 13: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Demonstration – Case 3

13

住所のクレンジング[元データ ]

住 所 データの状態

東京都港区六本木3丁目1-1 全角アラビア数字 全角マイナス区切

東京都港区六本木三丁目1-2 丁目 全角漢数字 番地号 全角アラビア数字 全角マイナス区切

東京都港区六本木 3-1-3 半角アラビア数字 半角ハイフン区切

東京都港区六本木3丁目1ー4 全角アラビア数字 全角長音区切

東京都新宿区西新宿3丁目2-1 新宿パークビル16階

全角アラビア数字 全角マイナス区切 その他住所 全角

東京都北区赤羽3丁目2-2 赤羽第三ビルディング 3F

全角アラビア数字 全角マイナス区切 その他住所 全半角混在

①半角⇒全角変換②ハイフン統一

Page 14: 【Webinar-Slide】Data Quality Icon  Talend Data Quality による 日本語のクレンジング

© Talend 2011

Resources

HIRING: Talend is growing rapidly…

今回の Webinar の内容に関するご質問、その他、資料請求、お問合せ、デモンストレーションのご依頼等ございましたら、下記メールアドレスにお気軽にご連絡下さい。

email to [email protected]

ダウンロード : http://www.talend.com/download.php

チュートリアル : http://www.talendforge.org/tutorials/menu.php

フォーラム : http://www.talendforge.org/forum/

14