비정형빅데이타통합관리218.38.3.14/files/sdb_bigdata_v1.0.pdf ·...

39
비정형 빅데이타 통합관리 - 클라우드 저장소(NoSQL+In Memory DB+Full/Like검색) 2018

Upload: others

Post on 22-Aug-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합관리- 클라우드 저장소(NoSQL+In Memory DB+Full/Like검색)

2018

Page 2: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형
Page 3: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

기업內중요지식정보저장

80%

20%

비정형자료

< Source : Doculabs >

90%(개인PC 內존재)

10% (공유)

“비정형빅데이터정보자동분석환경프레임워크기반지식산업활성화 “

정보보호-통합관리비정형정보통합관리

문서컨탠츠통합DB

지적재산권정보지식자산화

고부가가치창출글로벌경챙력

컨텐츠통합관리혁신

비정형빅데이터통합관리

정보보호, 정보관리대상

문서작성과관련정보획득소요시간

60~70%

문서작성시어려움느낀부문

23.5%참고문서부재

문서작성어렵다!

72%

전체직장인의

기업내부소행자에의한정보유출

73%

정형정보 (20%)

비정형정보 (80%)- 디지털컨텐츠 -

데이터기반, 지식산업의출발점

정형자료

지식산업원천자산

(90%)

관리및공유

(10%)

▪ 지적재산권

▪ 기술자료

▪ 관련문서

Page 4: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

■ 정형 및 비정형 빅데이터의 구성과 빅데이터 분석 및 클라우드 서비스

데이터생성

Information

Source : IDC 2012 report “The Digital Universe in 2020”

데이터수집 데이터저장 데이터분석데이터발생

빅데이타

클라우드

ITO클라우드 서비스

문서데이타이미지

다양성(Variety)

규모(Volume)

RTE

AI, 딥러닝

정형 정보 (20%)

비정형 정보

(80%)

Page 5: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

Page 6: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

■ 비정형 빅데이터의 특징과 비정형DB 아키텍쳐

서비스 내용 서비스 예시

⚫ Internal Memory를사용한 DB 처리 속도 매우 빠름

⚫ 빠른처리를위한과금 DB에서주로사용

⚫ 데이터의 규칙을 규정하지 않고 만들어지는 DB

⚫ 문서를비롯한사진, 음성 동영상을저장

⚫ 많은 수의 DB를 Network로 묶어 구축하는 DB 형태

⚫ Backup 및 고속 DB에서 주로 사용하는 형태

⚫ 데이터의 관리 및 검색을 분산처리로 구현한 DB

⚫ 특정 데이터 또는 처리의 집중화를 분산하여 저 성능

H/W에서 고 성능을 발휘하는 처리 구조

⚫ “슈퍼 컴퓨터”를 만드는 원리

Page 7: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

■ 정형 및 비정형 빅데이터의 구성과 빅데이터 분석 및 클라우드서비스

Indexing DB

SQL

SQL

데이터생성

Information

Source : IDC 2012 report “The Digital Universe in 2020”

클라우드저장소Repository

정형 데이터20%

비정형 데이터

80%

메타데이타

파일저장소, Storage

검색 및 분석

분석결과

Clustering

Classify

Sentimental Analysis

데이터수집 데이터저장 데이터분석데이터발생

빅데이타

클라우드

클라우드 서비스

NoSQL

AI(딥러닝)HANA DB

몽고DB

TerradataExadata,ZetaVertica……

Splunk하둡(SPARC)

ITO문서데이타

이미지

RTE

비정형 정보

(80%)

정형 정보 (20%)

Page 8: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 현 데이터 처리 및 업무흐름도

Page 9: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

■ 정형 및 비정형 빅데이터의 구성과 빅데이터 분석 및 클라우드서비스

NoSQL

SQL

데이터생성

Information

Source : IDC 2012 report “The Digital Universe in 2020”

클라우드저장소Repository

정형 데이터20%

비정형 데이터

80%

메타데이타

파일저장소, Storage

데이터수집 데이터저장 데이터분석데이터발생

빅데이타

클라우드

ITO클라우드 서비스

문서데이타이미지,동영상

검색 및 분석

분석결과

Clustering

Classify

Sentimental Analysis

AI(딥러닝)

PUREDATA

POPSTORE

RTE

비정형 정보

(80%)

정형 정보 (20%)

Page 10: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 개선 후 업무흐름도1) 기존 Data ☞ HTML기반 전환● 기존 Flash기반으로 구축되어

있는 Data를 HTML기반의 통계업무 지식형포털로 전환

2) 비정형 빅데이터 수집체계 도입● 다양한 문서 및 데이터(비정형 Data)를

산업분야별 통계 분석 영역에활용이 가능 하도록 문서자료 DB화 및검색기능 제공

● 문서 출력의 효율적 관리(보고서형식변화 없음)

3) 데이터 분석시스템● 단순 통계함수 외에 전문 통계SW의 분석

기능을 제공

4) 시각화 및 대쉬보드 개선● 주요 이슈에 대한 통계 모니터링 기능 삽입

(도식화 및 시각화)● 보고서 생성 시 표, 그래프 등 지원

Page 11: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 정형 및 비정형데이터 통합구축 방안

연계

Page 12: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

1) 기계가 만들어내는 데이터(machine-generated data)

In_Memory

NoSQL

popStroeTM

In_Memory

SQL,DW

대용량분산처리

File System

1)

In_Memory

SQL

NoSQL

대용량분산처리

File System

In_Memory

비정형 빅데이터의 특징 및 클라우드 저장소

■빅데이터의 기반 제품별 포트폴리오

Multi-TransactionFull검색/Like검색

Full검색/Like검색불가능

Multi-Transaction처리 가능

Full검색/Like검색불가능

Page 13: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

하둡(Hadoop)은)은 대량의 자료를 처리할 수 있는 대규모 컴퓨터 클러스터에서 동작하는 분산 애플리케이션을 지원하는 오픈 자바 소프트웨어File System 프레임워크. 하둡(Hadoop)은 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템 HDFS과 분산 처리 시스템인 맵리듀스(MapReduce) 등 두가지 오픈소스 기반으로 구성.

■빅데이터의 기반 기술 - 하둡(Hadoop) 에코시스템

비정형 빅데이터의 특징 및 클라우드 저장소

하둡의 부족한 기능을 서로 보완하는 ‘하둡 에코시스템’이 등장. 자세히 살펴보면 하둡과 연동해 사용할 수 있는 서브 프로젝트 대부분은 동물 이름과 관련 있다. Hadoop(하둡, 노란코끼리), Pig(피그, 돼지), Hive(하이브, 벌떼) 그리고 이들을 관리하는 Zookeeper(동물 사육사) 등의 프로젝트가 있으며, 기타 플럼, 스쿱, HBase, 마후트 등이 하둡 생태계를 구성하고 있는 주요 솔루션임

Page 14: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

구분 RDMS NSQL

데이터 타입 구조화 데이터 비구조화 데이터

스키마 사전관계정의, 고정적 스키마 없음

데이터 일관성ACID 일관성 엄밀하

게 유지일시적 일관성 유지안됨(결과적 정합성 보장)

확장성Scale Up

서버 하나의 성능확장Scale Out

서버 추가 확장

서버 1대 가동 서버 분산.협조

장애 허용성장애 허용 비용 높음

(이중화)단일 장애점 없음

(3 Node 복사 기본)

질의 언어 SQL No SQL

데이터 양 상대적으로 적음 상대적으로 큼

빅데이터솔루션의대용량분산저장처리프레임워크로써하둡(Hadoop)과 NoSQL DB(Hbase)가있으나뛰어난 성능을 보장하기 위해 In_Memory시스템을 추가적으로 구축하여야 하는 한계가 있음. 또한 이러한해당시스템이모든정답은아님.목표시스템을만들기위해기존인프라 (RDBMS 등)와신규솔루션들을적절히잘구성,배치연동하는것이더중요한포인트임.

비정형 빅데이터의 특징 및 클라우드 저장소

■빅데이터의 기반 기술 - 하둡(Hadoop) & NoSQL DB & Internal_In_Memory

RDBMS와 NoSQL DB의 비교

하둡(Hadoop)은 HDFS, MapReduce 두가지 오픈소스 기반으로 구성된대용량데이터를 분산저장 처리하는 File System 프레임워크

NoSQL DB는 SQL표준질의어를사용하지않으며 ,비구조화된데이터를저장하며 RDMS와상호보완적으로사용될수있음.

(Cassandra Mongo DB )

하둡(Hadoop)과 NoSQL DB의 연계 SQL & NoSQL 과 In Memory

하둡과 연동되는 Hbase나Mongo DB, Cassandra등의NoSQL DB의 경우 일반적인SQL DB와 마찬가지로 데이터처리성능의 한계가 있으며, 그결과 멀티 트랜젝션 등의 기능지원이 힘듬

이런한 성능을 높이고 보강하기위해 In Memory 시스템이 추가 요구됨

하둡의 경우도 Spark를 채택하여 In Memory의 구조를 도입

그러나 NoSQL과 in_Memory를 연계구성함으로써 시스템 구성과 관리가 복잡해짐

하둡 분산 파일 시스템

대용량 파일 분할 저장하는분산 파일 시스템

하둡 맵리듀스(Hadoop MapReduce)

HBase

대량의 데이터를분산 처리하는 프레임워크 초거대 데이터 테이블

(Hadoop Distributed File System )

정형DB를Indexing테이블로구성된

반정형DB

HBASE는 하둡의 NoSQL 로서 하둡분산파일시스템(HDFS)을 바탕으로작동하는 키벨류 데이터베이스관리시스템(DBMS)이다.

Page 15: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

컨트롤 노드

NoSQL

NoSQL

NoSQL

NoSQL

데이터 노드

데이터 노드

데이터 노드

16core 64GB

32core 128GB

8core, 8GB(+16GB)

8core, 8GB(+16GB)

8core, 8GB(+16GB)

8core, 8GB(+16GB)

서버

가상화

32core, 128GB

기존검색·조회 시스템(File 또는 DB)Meta Data

8GB 8GB 8GB 8GB ………

NoSQL+In_Memory

검색,조회

빅데이타 기반검색·조회시스템

병렬 확장

병렬 확장

클라우드 저장소_빅데이타 검색 시스템

컨트롤 노드NoSQL

16core 64GB

32core 128GB

NoSQL데이터 노드

Multi-Transaction처리 가능

Like검색 가능Full Search

In_Memory캐싱

Page 16: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

고성능 빅데이타플랫폼

검색/AI분석/통계

`

Data Node(Ware House)

`

Control Node(Store Keeper)

…..

시각화대쉬보드

Service Process

…..

데이터변환문서변환

Data Pre-Process

Popstore 빅데이타플랫폼

Wharehouse

Wharehouse

Wharehouse

Wharehouse

구분 Popstore Hadoop+HBase+Spark

Internal In-MemoryNoSQL+In_Memory이 원천적으로 통합설계된 모듈 구성방식

File System+ NoSQL+In_Memory각각 모듈이 분리 통합된 구성방식

NoSQL Yes(PopStore) Yes(HBase, but, Indexing DB)

Clustering(분산처리)

Yes (32GB x n)으로 최적화- 물리적 다른 서버노드간

클러스터링

Yes(max 256GB x 1) - Spark(In_Memory 모듈)은

Clustering의 한계가 있음)

Network(많은 수 DB 연결)

Yes(Scale Out) No (Scale Up, 단일 서버내 확장)

Velocity 매우 빠름 (0.1초) 느림 20-30초 이상

Volume 무제한 무제한

Storekeeper

Command Line Interface External Network Interface

Scripting Engine v8

Warehouse interface layer

Warehouse Communication layer

StorekeeperManagement

LayerLoad Balancer Distributor Network

Storekeeper Communication layer

Scripting Engine v8

Query Analyzer

Memory Cache

Physical Access Layer

Meta Data Real Data

Query Executor

Hadoop+Hbase+Spark빅데이타플랫폼

Nane Node

Data Node

Data Node

Data Mpde

분석

NoSQL?

Hadoop기반에서 데이터 처리File Sytem 구조임SQL 또는 NoSQL(Indexing DB)

성능을 높이기 위해 Internal In Memory를추가 도입하여 DB처리 성능개선

별도

별도

비정형 빅데이터의 특징 및 클라우드 저장소

NoSQL?

NoSQL?

NoSQL

NoSQL

NoSQL

NoSQL

통합구조

Page 17: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

# 각 W.H는 6-7GB의 데이터를 관리# 일정량 이상의 데이터가 쌓일 경우 디스크에 저장

# 이후 증설 구성시 256GB당 WH 8개 생성 가능

[Z!Desktop] Service Host2Core, 64GB

문서변환기

4Core32GB

RDB(Oracle)

/HadoopWeb Server

[Store Keeper]

4Core32GB

TA, AI

4Core32GB

[W.H - 4]

4Core32GB

[W.H - 5]

4Core32GB

[W.H - 3]

4Core32GB

SSD 600G

[W.H - 9]

4Core32GB

[W.H - 10]

4Core32GB

[W.H - 11]

4Core32GB

[W.H - 12]

4Core32GB

[W.H - 13]

4Core32GB

SSD 600G

[W.H - 8]

4Core32GB

일일 전송 데이터 2GB

[W.H - 1]

4Core32GB

[W.H - 2]

4Core32GB

[W.H - 6]

4Core32GB

[W.H - 7]

4Core32GB

[Z!Desktop] Service Host2Core, 64GB

Page 18: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

■빅데이터의 기반 기술 – 하둡(Hadoop)+HBase+Spark 대비 PopStoreTM의 처리성능 및 응답속도증가

<Spark Architecture>

<Hive Architecture>

Wharehouse

Storekeeper

2~3배

100배이상

100배이상

+=

100배이상

0

0.5

1

1.5

Redis Popstore

Redis & PopstoreTM

하둡1.0

하둡2.0

하둡2.0

하둡1.0

Page 19: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

[하둡 1.0~2.0] [Redis] [Popstore]

대용량파일스템 비정형빅데이터 AI클라우드저장소

Full/Like 검색가능SQL연동 트랜잭션 처리가능

Bunch

Type 선언 없음

Mapping

Graph 구조(데이터 구조설계 없음)

Key/Value 없이 가능Object처리

(문서,음성,영상 포함)

In_Memory(+Disk Swap)

통합모듈(Nosql+In_Memory+검색엔진)

초당 처리속도 0.7 이하

Index

Table Type선언 및 구분

Raw Document

Schema Mapping

Tree 구조(데이터 구조설계 필요)

ColumnField

Disk Swap In_memory(+Disk Swap)

정형데이터

NoSQL별도(Hbase,Mongo,Cassandra)

초당 처리속도 10~100 초당 처리속도 32~100

Java

Tree 검색

SQL

C/Assemblor

데이터 캐싱DB / SQL스냅샷

Full/Like 검색불가트랜젝션 처리불가

Mapping

In_Memory(+Disk Swap)

초당 처리속도 0.7~1

C/Assemblor

Key/Value 처리

Elastic Search 별도Elastic Search 별도

In_Memory 별도(Spark) 통합모듈(NoSQL+In_Memmory)

[관계형 RDBMS]

Full/Like 검색불가

In_Memory 별도

트랜잭션 처리가능

Page 20: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

Indexing(색인표)

검색

*TA(형태소분석, 자연어 처리)

문서,음성,영상

OBJECT 검색

*TA(형태소분석,자연어 처리)

Memory 모듈직접 AccessFull/Like검색

Indexing / Key Value 없음

XML

시만택 검색, AI(*MRC·)등RDF

Ontology

XML

HTML

LOD

*TA(Text Analysis)*MRC(Machine Read Comprehension)

메타데이터

Page 21: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소

Page 22: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이터의 특징 및 클라우드 저장소입력(Ediotr) 저장소 검색 장/단점 출력

설치형 Editor/Office/OA광파일 시스템HDD / SAN / NAS

폴더 및 파일 이름 검색광파일 시스템의 경우, Indexing 된 내용 검색Index DB (Oracle)기반 분류검색

내용검색/통계 불가 문서 출력

웹오피스E-Form(VOC/STT/챗봇)

Index DB+File저장소 구조온라인 문서유통분류체계에 따른 검색 가능(제목/목록 중심)

협업/공유 가능별도 DB설계 필요, Full/ Like검색 제한

Reporting Tool

내용DB/CMDB비정형 BigData 전문 아키텍쳐내용검색 중심

Full / Like / Pattern 검색 가능(문서 내용중심)

통계 기능AI 활용문서 양식을 활용한 새로운 문서 작성모바일 연동 확대 가능

지정된 문서 양식

• 웹오피스 엔진• EDMS 엔진

Web/WAS

음성인식

음성

사용자

사용자

사용자

Text

인터넷

설치형 OA 문서

e-Form 문서웹오피스 문서

e-Form 문서

비정형BigData

Metadata

CMDB사용자

OracleSQL

FileSystem

Index DB

문서내용조회문서목록조회

[문서생산] [문서내용검색 및 분석][문서분류 및 목록검색]

RDF

Ontology

XML ∬매크로 호환성

HTMLXML

LOD

메타데이터

Page 23: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

종이문서 스캐너

기존/타사 시스템대용량

저장장치

데이터베이스

수작업관리=>EDMS 관리방식

ConvertingxPopcornTM

popStoreTM

xMedeeTM

Applications

연동

GroupwareERPCRMSCMDW…

Document

Converting비정형 Data

*보안취약성 증가

*복잡한 유통구조

*파일단위 유통

•HTML5기반 비정형데이타 통합관리 시스템(ATDCS)

*DRM,개인정보유출방지,망연계 등 각종 보안솔루션추가도입 필요

*호환성 문제발생

방식의패러다임 전환

생성-저장-재가공

자동화 통합관리=>SOA 관리방식

비정형데이타의 내용중심관리X 비정형 DB 기반 문서분류체계

☞ 비정형데이타 중요도↗☞ 빅데이타 증가↗☞ 저장,분석,통합 어려움↗☞ 문서문류체계 어려움 ↗☞ 문서호환셩 어려움 ↗

데이터추출/가공(전자문서화)

기업 내 각종 전자문서(Word, Text, HWP,……)

EDMS플랫폼

검색조회출력

비정형 DB기반

문서분류체계 자동화

EXEL

HWPDOC

비정형DB(NoSQL)+메모리DB

• 전자문서의 Raw Data 변환 기술 및 비정형 DB 구현 기술• 문서 내용 검색 및 내용에 따른 문서분류체계 자동화

■ 비정형 데이터의 자료변환 및 비정형DB(NoSQL+메모리DB) 구축 아키텍쳐

*제목만 검색됨*내용keyword검색 안됨

Page 24: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

종이문서 스캐너 데이터추출/가공(전자문서화)

기업 내 각종 전자문서(Word, Text, HWP,……)

기존/타사 시스템

EDMS플랫폼

대용량저장장치

데이터베이스

수작업관리=>EDMS 관리방식

Converting

검색조회출력

연동

GroupwareERPCRMSCMDW…

Document

Converting

•HTML5기반 비정형데이타 통합관리 시스템(ATDCS)

방식의패러다임 전환

생성-저장-재가공

비정형데이타의 내용중심관리X 비정형 DB 기반 문서분류체계

☞ 비정형데이타 중요도↗☞ 빅데이타 증가↗☞ 저장,분석,통합 어려움↗☞ 문서문류체계 어려움 ↗☞ 문서호환셩 어려움 ↗

HWP문서DOC문서

변환기

데이터입력

융합기

다양한 문서에 대해서 변환과정을 거쳐사용자 입력 폼 생성

문서 템플릿과 내용을 분리하여 저장

문서 템플릿과 데이터 내용을융합하여문서 생성

문서 내용

문서 템플릿

DB

문서변환

문서융합

EXEL문서HWP 문서

자동화 통합관리=>SOA 관리방식

비정형 Data

• 전자문서의 Raw Data 변환 기술 및 비정형 DB 구현 기술• 문서 내용 검색 및 내용에 따른 문서분류체계 자동화

■ 비정형 데이터의 자료변환 및 비정형DB(NoSQL+메모리DB) 구축 아키텍쳐

*보안취약성 증가

*복잡한 유통구조

*파일단위 유통

*DRM,개인정보유출방지,망연계 등 각종 보안솔루션추가도입 필요

*호환성 문제발생

*제목만 검색됨*내용keyword검색 안됨

비정형DB(NoSQL)+메모리DB

Page 25: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 비정형 데이터의 자료변환 및 비정형DB(NoSQL+메모리DB) 구축 아키텍쳐

문서융합

다양한 문서에 대해서 변환과정을 거쳐 사용자 입력양식을 생성

변환기

융합기

문서변환·

비정형DB

문서원본

데이터입력

웹.포털.그룹웨어

입력양식

User

Data 입력

웹에디터

Upload

문서출력

데이터출력

Server

Administrator

양식 정보Toolkit

비정형

DB문서

템플릿문서내용

입력문서양식생성

HTML5

보고서출력

팝업창 형태로웹/포털로 표출

기간계 DB연동

기간계

NoSQL+메모리DB

입력한 내용을 문서 템플릿과 문서 내용을 분리하여 클라우드 저장소(In매모리 DB)에 저장

비정형데이터 컴포넌트(객체 Object로 구성되어 있음)를 Drag&Drop형식으로조합검색

AI검색

클라우드저장소

보고문서 템플릿과문서복원, 융합 및 출력

입력문서양식

Pop-Up

DRM

EDMS

UI/UX

현업 문서 및 보고서 원본양식

1. 도면,이미지,사진,동영상2. Office 문서 업로드

3. Pdf는 OCR활용 변환

비정형DB(NoSQL)

1. 원본양식과 동일출력2. 전혀다른 양식으로 출력④

기간계 연동 EDMS, DRM

ERP

그굽웨어

RDBMS

통계분석 SW모듈⑤

⑥⑦

Page 26: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 비정형DB 데이타 통합 아키텍쳐(HTML5기반 문서유통체계)

일반 문서

양식 정보입력

xFormula 입력

양식 정보 입력 툴

변환 가능 문서

양식 변환

전산화 완료

사용자 정보 입력

데이터베이스

문서 출력

Admin Tool End User Tool

입력문서생성

☞ Flow Chart

Page 27: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

☞ 개념도

유료 상용SW※

※ MSA : Micro Service Architecture

MSA

DBDocument Template

Server Script Layer

( PHP, Java … )

개발언어

문서변환기

Web User Interface [UI/UX]

통합검색원문검색엔진

Web Server

Reporting Tool

개발 Frame Work

DB설계

Time Stamp

Any Frame

ezPDF

Oracle,몽고DB하둡(SPARC)

Mariner3 Java, Servlet/JSP

Flex Flex

Oz 5.0

- ActiveX Viewer- Flash Viewer

xPlatform웹스퀘어

As_Is

DBDocument Template

Server Script Layer

( PHP, Java … )

개발언어

문서변환기+Reporting Tool

Web User Interface [UI/UX]

통합검색원문검색엔진

Web Server

개발 Frame Work

DB설계

Time Stamp

【xMedee】기본제공

【xMedeeTM & Java 】기본제공

【xPopcorn 히스토링】기본제공

【Popstore Analyzer】

통계SW기본제공

To_Be

■ 비정형 데이터의 자료변환 및 비정형DB(NoSQL+메모리DB) 구축 아키텍쳐

popStroeTM

xPopCornTM

Page 28: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

▶ATDCS(비정형데이타 통합관리시스템)_HTML5기반 문서유통체계

차세대 업무포털_MSA 아키텍쳐

☞ 개념도

Database Document Template

Server Script Layer ( PHP, Java … )

【 xMedeeTM】

Fusion machineconversion machine

Web User InterfacexPopcorn

Search MachinexPopcornServer Module

Client

ServerWeb Server

Page 29: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 다양한 통계분석 기법 지원

다중공선성 (Multicollinearity)

고유값과 고유벡터

요인분석 (Factor Analysis)

상관분석 (Correlation Analysis)

회귀분석 (Regression Analysis)

카이제곱 검정 (Chisquare test)

정규분포 (Normal Distribution)

t-검정

F-검정

교차표 분석

신뢰도 평가척도 : Cronbach's α(Alpha)

모수통계학과 비모수통계학 (Parametric vs Nonparametric)

Page 30: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

비정형 빅데이타 통합 및 지식형 업무포털 구축

■ 상관관계 분석 예시(수출입 경보)

Page 31: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객

KTL 성적서 자동화시스템 Claydox

1단계 : 시험실정보관리시스템(LIMS) 2단계 : 성적서자동화시스템(LAS)

3단계 : 장비자동화시스템

Page 32: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객

■ 국방망 품질종합정보체계 구축

(1) 국방망 품질종합정보체계 홈페이지(2) 품보활동관리*재개발

(3) 개발단계 품질보증 참여업무(4) 품질경영문서*재개발

(5) 시험분석업무*재개발

(6) 대군지원정보*재개발

(7) 품질정보데이터뱅크*재개발

(8) 품질정보 신고*재개발

(9) 대외 사용자 품질정보 검색 서비스(10) 사용자관리 (가입/승인/관리)(11) 관리자

■ 빅 데이터 파일럿(1) 군수품 품질정보 빅데이터 분석주제 발굴(2) 저장탄약 수명예측 빅데이터 분석모델 시범 개발(3) 빅데이터 활용전략 수립(4) 데이터 모델 최적화, 표준화 및 이전(5) 데이터 모델 최적화(6) 데이터 표준화 및 품질개선(7) 구 정보체계 자료를 신규체계로 데이터 이전

■ 지능형산업인프라(NIA)

o 특허 지식 베이스 구축- 특허정보와 특허분쟁 등 부가정보를 연결하여 인공지능기계학습이 가능한 형태의 지식베이스 구축- 전기전자 분야의 특허정보를 우선하여 특허지식정보를구축하고, 특허분쟁정보 등 부가정보를 연계- 특허정보활용서비스(plus.kipris.or.kr)에 구축된 특허공보서지정보의 LOD데이터 연계 방안 제시o 특허 도면 태그정보 구축- 전기전자 분야의 특허도면에 대한 설명 내용 및 부호 등

도면 구성요소에 대한 태깅 정보 구축<특허도면 태그 정보구축 예시>

o 구축된 지식베이스를 민간 기업 등 외부에서 AI학습, 지능정보 서비스 개발 등에 활용할 수 있도록 외부 제공용 기반(오픈API 등) 구축o 개방형 백과사전인 위키피디아(위키미디어 협회) 등과의 협력을 통한 특허분야 관련 데이터 및 지식의 고도화 방안 제시‧시행

Page 33: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객

■ 방위사업청 사업관리 고도화 문서유통■ 방위사업청 사업관리 고도화 문서유통

Page 34: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객

제 안 요 청 서(안)

【군수업무빅데이터분석·활용체계구축시범사업】

■ 군수업무 빅데이타 분석,활용체계 ■ 대검찰청 수사정보 내용DB구축

사 업 명지능형 범죄예방 협업체계 구현을 위한

시범서비스 구축 사업

주관기관 대 검 찰 청

Page 35: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객■ 빅데이터/인공지능 기반의 소송 관련 지식정보 제공 시스템 구축 설계

● 사건처리 유형 제시, 유사/관련 사건 자동 추천, 각종 법률 정보의 지능형

통합검색, 판결문 등 작성 보조 서비스 등 재판업무를 보조하기 위한 지능

형 지식정보 제공 시스템 구축 설계

● 빅데이터 분석으로 최근 사건의 동향, 쟁점에 대한 논거와 구체적 입증

방식, 결론의 경향 등을 제시하거나 판결문 초고 자동 생성 기능

● 판례, 종합법률 등 각종 법률 정보를 빅데이터 기반으로 구축하여 추천

알고리즘을 이용하여 사용자가 원하는 검색결과를 제공하는 지능형 통

검색서비스 기능

● 판결문, 명령․결정문 등 작성 시 유사/관련 사건의 판결문 등을 분석하

유사 판결문, 유사 사건, 각종 법률정보 등을 제시하는 지능형 판결문 작

성 보조 서비스 기능 등

● 모든 종이서류의 전자문서화 시스템 구축 상세 설계

● 스캔 이미지의 데이터화 포함하여 빅데이터 기반의 전면 전자화 설계

● 클라우드 기반의 스마트워크/재택근무 시스템 구축 상세 설계 등

■ 지능형산업인프라(NIA)

o 법률분야 지식베이스 구축o 법령 데이터 수집(3개 분야 : 교통사고, 창업인허가, 층간소음 관련)

- 형식화된 법령정보․법제처의 법령, 조문, 부칙, 별표․대법원의 판례정보․각 부처, 지자체의 행정규칙 및 자치법규- 자주 사용하는 비정형 법령정보․법제처 생활법령 정보․대법원 상담사례, 사건사고․주요 포털사이트(네이버, 다음) 법령 질의응답 정보․법령구조공단 상담 사례

Page 36: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객

분류 작성기관 종류 분류 작성기관 종류

농업

환경

농식품부 농약 및 화학비료 사용량

농업

농식품부

양정자료

한국동물약품협회 동물의약품통계 농림축산식품통계연보

한국작물보호협회 농약연보 농림축산식품주요통계

한국비료공업협회 비료연감 과실류 생산량

농식품

소비

유통

농식품부

전통식품산업현황 단미 보조사료 생산실적

식생활 실태조사 농산물 수급 기초 통계

인삼통계자료집 농림축산검역본부 식물검역연보

과실류생산량현황

국립농산물

품질관리원

수입농산물 검사실적

농촌진흥청 농식품소비자 패널조사 농산물이력추적관리등록

국립농산물

품질관리원

유기가공식품인증기관및인증업체현황 친환경농산물 인증현황

쇠고기이력표시단속실적 전통식품 품질인증업체현황

술품질인증실적 농산물품질관리연보

농경연 식품소비행태조사 농축산물 원산지표시단속실적

축산물품질평가원 축산물유통실태조사 지리적표시제 등록현황

축산물품질평가원 한국의 축산물 유통(매년) 농경연 식품수급표

한국농수산

식품유통공사

외식트렌드조사국립종자원

종자공급량 및 공급률

외식업경기지수 정부보급종 생산 및 공급자료

농림수산식품 수출입동향및 통계 국립종자원 종자DB

가공식품 소비자태도조사

축산

농식품부 기타가축통계

주요원자재 주간가격동향 농림축산

검역본부

수출입동축산물검역검사현황

식품산업분기별모니터링조사 농장소독실적 이력정보통계

도매시장통계연보한국마사회

말산업 통계 및 실태조사

농산물유통정보조사 마사연감

쌀가공산업 통계 현황 농협중앙회 축산물 가격 및 수급자료

연도별 거래연보낙농진흥회

원유검사현황

농수산물가격월보 유제품유통가격

농촌 농촌진흥청

농촌노인일상활동능력실태조사한국육류유통

수출입협회육류유통실태조사

농촌다움자원정보 한국육계협회 주간계육정보

농업환경변동조사 합계 91

■ 행정자료(91종) 원문DB화 및 종합DB 구축

사 업 명 스마트농정 농식품통계 생산․활용 기반 구축

주관기관 농림축산식품부

Page 37: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

목표 고객■ 행정자료(91종) 원문DB화 및 종합DB 구축

Page 38: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

■ 비정형 데이터 수집체계 도입

● 다양한 문서 및 데이터를 철강산업 통계로 활용기반 확립

● 현재 업무프로세스에서 생산 및 유통되는 비정형 Data를 철강산업분야통계 분석 영역에 활용이 가능 하도록 문서자료 DB화 및 검색기능 제공

● 문서 출력의 효율적 관리얼마나 많은 사용자가 사용하느냐가 아니고 얼마나 많은 Page를 출력하느냐에 따라 시스템 구성을 요구함- Master Server(popServer)가 Slaver(popLincence)를 관리하는 클러스터링

기법을 통하여 추가 대용량 또는 방대한 자료의 동시 출력을 지원함- 초당 1page 출력시 1 Core Licence가 요구됨

● 다변화 시대 대응·예측형 미래지향적 전환에 있어 필수요소는 통계- 현장 맞춤형 ‘철강산업 정보인프라’를 위한 분야별 통계 활용·분석 중요성 인식 확대

- 지속적인 구조변화, 생산현황과 문제점 및 철강제품과 시장의 변화 등을 파악하기 위해서는기초통계가 필수적임

● 철강시장 환경의 변화뿐만 아니라 경제·사회·인구여건·과학기술개발의 영향 등으로 철강시장 통계에 대한 다양한 수요가 발생- 제품생산 효율성 및 관세, 보험 등 맞춤형 지원과 관련 구성원의 합리적인

의사결정 및 정책 개발의 토대로 관련 통계 작성과 활용 증가- 철강제품의 새로운 기회와 가치 창출을 위한 신규 통계의 발굴 및 수요 증가- 국제교역, 6차산업, ICT 융복합 등 국정과제와 신규 정책의 효과적·효율적 추진을 위한 관리 및 성과 발굴을 위한 통계의 뒷받침 필요

- 이런 통계수요에 적절한 대응과 활용도 제고를 위해서는 정확한 기초통계, 각 기관별로생산 중인 행정통계 등의 종합적 관리 및 통계 서비스 확대 필요

목표 고객

■ 수요자 맞춤형 의약품안전정보 DB 구축

● 의약품의 효능효과, 용법용량, 사용상주의사항 정보 관리를 위한데이터 구조 및 관리 방안 제시

* 사용상주의사항은 최소한 「의약품의 품목허가·신고·심사 규정」 제17조제2항, 「의약외품 품목허가·신고·심사 규정」 제14조제2항, 「한약(생약)제제 등의 품목허가·신고·심사 규정」 제17조제2항의각 호 별로 데이터를 관리

● 아래아한글, MS워드 등으로 관리되고 있는 효능효과, 용법용량, 사용상주의사항 정보 DB 구축

* (대상) 정상 품목, 취하일로부터 3년 이내 품목** ▴원본 파일의 번호 체계 유지 ▴글자 색, 밑줄 등은 삭제 ▴통일조

정 등의 본문 내용과 무관한 내용은 변경사항의 데이터를 활용하여 표시(별도 입력 불필요)

사 업 명 의약품안전정보 확대 구축

주관기관 식품의약품안전처

구분 현행(AS-IS) 개선(TO-BE)

데이터관리• 효능효과, 용법용량, 사용상주의사항을

아래아한글,MS워드등의파일로관리√ 3종의 파일 정보를 DB로 관리

민원신청• 효능효과, 용법용량, 사용상주의사항을

파일로첨부

√ 3종의 정보를 웹 기반의 편집기

를 사용하여 입력

대국민서비스·

공공데이터

제공

• 효능효과, 용법용량, 사용상주의사항을

파일(경로)로제공

√ 3종의 정보를 데이터로 제공

√ 다양한 포맷(pdf, xml, html)의

품목정보 제공

Page 39: 비정형빅데이타통합관리218.38.3.14/files/sdb_bigData_v1.0.pdf · 비정형빅데이터의특징및클라우드저장소 기업內중요지식정보저장 80% 20% 비정형

Q & A