발표용 표준템플릿 modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. spss...

44

Upload: others

Post on 26-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 2: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 3: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 4: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler는 데이터를 로딩, 변환, 정제, 모델링, 그래프, 결과의 출력까지 하나의 소프트웨어 내에서 가능하며, 이러한 모든 기능을

대화상자와 아이콘, 메뉴를 이용하여 완벽한 GUI를 구현한 소프트웨어입니다.

SPSS Modeler Plus Pack

I.

Visual한 작업방식을 통한 손쉬운 접근

다양한 모델 생성 가능

작업의 유연성을 보장하는 인터페이스

개방형 구조 (Open Architecture)

Page 5: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

SPSS Modeler Client

마이너 Client PC에 탑재

사용자의 마이닝 작업 수행을 위한 비주얼 프로그래밍과 GUI

환경 제공을 제공하는 Front End

SPSS Modeler Client

Windows 7/8/10

Data Access Pack

TCP/IP

마이너 Client PC

DW

OLAP

MartMining

Mart

MS NT/2000/2003 Server

HDD용량 72GB 이상

DW 서버

DBMS

ETL

Operating System

TCP/IP

SPSS Modeler Server

Solution Publisher

DBMS

Operating System

Data Access Pack

TCP/IP

권장사양

마이닝 서버

Solaris / AIX / HP-UX

Xeon 2.0 Ghz급 * 4개 이상

주메모리 8GB 이상

Client PC적정메모리 RAM 4GB이상

HDD용량 40GB 이상

SPSS Modeler Server

대량의 데이터를 처리할 수 있는 마이닝서버에 탑재 Client의 요구사항을 받아서 마이닝 작업을 수행하는

Multi-thread Backend Engine 데이터 전처리, 모델 평가에 있어 최상의 퍼포먼스 제공

마이닝서버

Mining

Temp Data

Page 6: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I. SPSS

SPSS Modeler은 대용량 데이터로부터 유용한 정보를 찾아내기 위한 CRISP-DM (Cross Industry Standard Process for Data Mining)

방법론의 Data Mining 전용 Tool입니다. CRISP-DM 방법론은 어떤 산업분야에서도 적용 될 수 있습니다.

Page 7: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

SPSS Modeler은 CRISP-DM (Cross Industry Standard Process for Data Mining) 방법론을 수행하기 위한 다양한 기능을

보유하고 있습니다.

Sources Node

• 데이터 연결 노드• 데이터베이스 연결 또는 가변형식, 고정형식 파일의 데

이터, SPSS Statistics, SAS 파일 등의 다양한 파일들을데이터로 읽음

Operations Node

• 데이터 변환 작업 노드• 샘플링, 레코드 또는 필드단위의 데이터 병합, 필터, 변

수파생, 모형평가를 위한 파티션 작업포함

Graphs Node

• 데이터 도식화 노드• 크게 데이터 탐색으로 이용되는 히스토그램, 2차원 및

3차원 도표와 ROI Chart 등과 같은 평가 도표로 이용

Modeling Node

• 데이터 모형화 노드• Decision Tree, Regression, Neural Network,

Clustering, Association 등 다양한 종류 이용가능

OutputNode

• 마이닝 결과 출력 노드• 최종 결과를 테이블, 외부파일로 출력하는 기능, 생성된

모델들 간의 예측력을 평가하는 기능 포함

ModelingNodes

Result Node

Source/Output

Nodes

Graph Nodes

Field Nodes

Record Nodes

SPSSModeler™

Page 8: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

SPSS Statistics 파일, 엑셀 파일, 가변 파일, 고정 파일, SAS 파일, Database 등 다양한 소스에 동시에 접근하여,

데이터 핸들링, 모델링, 전개 등을 할 수 있습니다.

다양한 소스 시스템을 한 작업 파일(스트림)에서 동시에 활용 가능하므로 데이터 유형을 통일 시키기 위한 변환 작업을

할 필요가 없기 때문에 업무의 효율을 향상 시킬 수 있습니다.

Database에서 직접 데이터 추출

Database로부터 데이터를 불러올 때, 테이블 단위로

전부 불러올지 또는 분석자가 직접 해당 Database의

SQL 질의를 작성하여 불러올지를 지정하는 옵션을 사

용할 수 있습니다.

다양한 소스 시스템에 동시 접근 및 Import

다양한 데이터 접근다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

Page 9: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

자체 함수 기능

SPSS Modeler에서는 자체 함수 기능을 이용하여 일반

함수, 연산자 함수, 변환 함수, 비교 함수, 논리 함수,

날짜 및 시간 함수, Null 값 선택 함수 등 문자형/숫자

형/날짜형 등 다양한 데이터 유형에 대해 편리하게 함

수를 작성할 수 있는 기능을 제공합니다.

편리한 데이터 핸들링 기능

다양한 데이터 접근다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

SQL이나 ETL을 사용하지 않아도 데이터 선택, 파생, 병합

등의 다양한 핸들링 기능을 제공합니다.

병합, 추가 등의 노드를 이용하여 여러 개의 데이터 파일에

서 하나의 데이터 파일로 통합 기능을 지원합니다.

다양하고 쉬운 레코드 처리 기능(선택, 통합, 표본추출, 병

합, 정렬 등) 및 필드 처리 기능(파생, 구간화 등) 을 지원합

니다.

Page 10: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

다양한 분석 알고리즘이터 접근다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

군집 분석 연관성 분석

기타 고급 통계 분석자동화 기법 Screening 기법

SPSS Modeler는 최신의 다양한 분석기법을 제공하고, 비즈니스 목적에 맞게 이를 적용하여 예측력이 높고

적합한 모델을 선택할 수 있습니다.

자동화 모형을 이용하게 되면, 다양한 분석 기법을 함께 고려하여 자동으로 탐색해 주므로 초보자 / 미경험

자들에게 매우 편리한 기능입니다.

스코어링 모델을 개발할 때에도 Supervised Learning의 통계 분석 기법(의사결정나무 분석 등)을 이용한 룰을

도출하는 등 다양한 모델을 고려해 볼 수 있습니다.

의사결정 나무 분석

Page 11: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

화려한 그래프 기능다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

SPSS Modeler의 그래프 기능을 이용하면 시각적으로 데이터의 특성을 파악할 수 있기 때문에 비전문가들도 그 결과가

나타내는 의미에 대한 해석이 매우 용이하므로 전반적인 데이터의 특성 및 분석 결과를 효율적으로 파악하고 공유할

수 있습니다.

현존하는 모든 Data Mining S/W 중 가장 수려한 Visual을 보여 줍니다.

현재 대다수의 S/W의 경우, 수행 후 해당 결과 그래프와 편집표를 보고서용으로 만들 때 MS-Office를 다시 사용합

니다. SPSS Modeler는 이런 2중 작업이 필요 없는 Visual 및 편리성을 제공합니다.

Page 12: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

특화된 추가 모듈다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

Text Analytics Social Network Analysis Entity Analytics

Text Analytics는 비정형의 텍스트를 분석하기 핵심개념/용어로 추출 및 추출된 개념/용어를 분석하기 쉬운 범주로 그룹핑 하고, Text 안에 포함한 의미를 수치화하여 마이닝 모델의 적중률 향상 가능을제공합니다.

Social Network Analysis는 네트워크 안의 개개인의 상호작용 패턴을 사용하여 유사한 개인들의 그룹을 식별함으로써

특성 파악 가능하고, 분석을 통해 식별된 그룹에 대한 지표와 네트워크 안의 개개인에 대한 지표를 제공합니다.

Entity Analytics는 레코드 내에 식별 문제를 해결하여 현재 데이터의 일관성을 향상시키는데 초점을 맞추는 분석

기법으로, 식별 해결은 고객 관계 관리, 사기 탐지, 자금세탁방지, 국내 및 국제 안보를 포함한 많은분야에서

사용되고 있습니다.

Page 13: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

I.

R을 이용한 확장 분석 기능다양한 데이터 접근

유연한 데이터 핸들링

다양한 모델링 분석기법

화려한 Visualization

추가 모듈

R을 이용한 확장기능

Open Source 인 R을 사용하여 데이터 핸들링, 모델링, 출력을 할 수 있는 인터페이스를 제공합니다.

R의 최신 분석 알고리즘 및 화려한 그래프, 자유로운 데이터 핸들링을 Modeler에서도 손쉽게 사용할 수 있으며, 이를 통해

상용프로그램의 한계를 뛰어 넘을 수 있습니다.

핸들링기능 Output 출력기능모형 생성기능

Page 14: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 15: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

마이닝은 한 번에 이루어 지지 않는다.

다변화 작업

개방형 구조

SQL Optimization &In-DB Modeling

Bulk Loading

Learning Cost 감소

다양한 경우의 Mining 작업에서 수행과 변경이 가능

모든 Graph와 Output에 Interactive 기능 제공

직관적인 프로세스 제공 ▶ 구성한 Stream 자체가 작업 History이며, Process / Output 탐색 시간 단축

Page 16: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

다양한 Sources의 접근, 모델링, 전개가 가능한 개방형 구조

다변화 작업

개방형 구조

SQL Optimization &In-DB Modeling

Bulk Loading

Learning Cost 감소

다양한 Source를 동시에 활용 가능

손쉬운 모델링 및 각종 기능 추가/변경

다른 제품의 Mining 기능 사용 (MS-SQL, Oracle, IBM DB2)

기존의 ODBC 외 SPSS Modeler에 최적화 된 SPSS Statistics OEM Wire Protocol 제공

SAS

Data Set

범용

DBMS

IN DATABASE

MININIG

SPSSStatistics 파일 외..

CEMI

PMML

SPSSModeler™Deployment

DB..

Deployment

WEB..

Page 17: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

성능이 뛰어난 DB의 자원을 최대한 이용하라.

개방형 구조

SQL Optimization &In-DB Modeling

Bulk Loading

Learning Cost 감소

다변화 작업

SQL Optimization은 DB의 성능을 이용한 전처리 및 모델링 Performance(속도) 향상시킴 In-data

base Modeling을 통해 DB내에서 모델링을 처리

SQLOptimization

In-database Modeling

Data

Page 18: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

대용량 데이터의 효과적인 출력 기능

개방형 구조

SQL Optimization &In-DB Modeling

Bulk Loading

Learning Cost 감소

다변화 작업

DB의 외부 로더 프로그램을 이용한 Data의 DB Export 기능

현존하는 모든 방법 중 가장 빠른 DB Export 방법임

특히 대용량 처리시 Sybase IQ와 같은 DB는 본 방법 외에 없음

Data

Page 19: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

Easy to use

개방형 구조

SQL Optimization &In-DB Modeling

Bulk Loading

Learning Cost 감소

다변화 작업

한글 버전을 지원합니다.

- SPSS Modeler는 영문 버전뿐 아니라 한글버전까지 완벽히 지원하여 전반적인 사용에 있어국내 사용

자들에게 편리함을 제공합니다.

조직/인원 변동 시 손쉬운 학습으로 프로그램 사용이지속됩니다.

- 기업의 경우 잦은 인사변동이 발생합니다. 그 때마다 기업 내에 담당자가 바뀌었을 경우 새로운 S/W를

배우는데 쉽지 않다면 활용하기 매우 어렵습니다. SPSS Modeler는 간단한 학습만으로 사용법을 익힐

수 있어 지속적인 사용이 가능합니다.

연구 및 개발이 매우 편해집니다.

- SPSS Modeler는 제품 뿐 아니라 관련 매뉴얼/도서 등도 완벽히 한글화 되어 연구 자료가풍부합니다.

Page 20: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

의사결정나무로 변수 선택 후 신경망 분석

1) 통계적인 검정(test)외에도 다양한 변수 선택 가능

2) 지도학습 중 의사결정나무, 회귀계열 분석 모두 간단하게 사용한 변 수만 추출 가능

+ 변수선택 자체 기능 비교

3) 변수 선택 후 2차 분석

요인분석과 군집분석 등의 연결

1) 변수가 많은 경우 변수 축소 후 군집분석을 수행하여, 효율적으로 각 종 데이터를 Segment

연관성 분석과 지도학습 기법의 연결

1) 1차적으로 연관성 분석을 수행하여, 특정 조건 또는 전혀 연관성이 없는 고객만을 선정

하여, 이들만 가지고 특정 목표에 대하여 지도학습 수행

Page 21: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

II.

오차 패턴 모델링

1) Hybrid 모델의 일종

2) 2개 이상의 서로 다른 모델 훈련시키고, 또한 레코드별로 더욱 잘 맞는 것이 어떤 모델

인지판별하는 모델을 별도로 만들어, 최적 모형 개발

최신의 알고리즘 추가

1) Binary classifier (다양한 이분형 분류 마이닝 모형을 자동으로 생성하고, 그 결과를

비교하여 주는 Node)

2) Numeric Predictor (binary classifier와 유사한 알고리즘이며, 연속형 숫자 범위의

결과값을 갖는 모델들을 추정하고 비교)

K평균 군집분석을 이용한 Target 변수별 근접도 계산

1) 목적변수 범주 별로 별도 군집 모델링을 통한 군집 거리 계산 후 이 를 비교하여

레코드별로 목표 변수의 범주 별 근접성을 판별하는 방 법 (이상치 파악 모형)

Page 22: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 23: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

금융기관 및 보험사에서 어떤 고객이 우량고객인지 불량고객인지 알고 선별해 내는 것은 모든 금융기관의 주된 관심사이며, 이를 예측하

고 선별하기 위해서는 스코어카드 모델링 기법이 필요합니다.

스코어카드 모델링이란 우량/불량으로 정의된 Target 변수와 이에 영향을 주는 독립변수(고객 특성)를 사용하여 어떤 특성을 가진 고객

이 우량이고 불량인지를 예측하는 모델링입니다.

SPSS Modeler Plus Pack

III.

1단계 : 변수 구관화

→ 분석에 사용할 변수를 범주형으로 구간화 하는 단계

2단계 : 유의성 분석

→ 타겟으로 선택한 변수에 대하여 분석에 이용할 변수가 어느정도의

유의성을 가지는지 분석하는 단계

3단계 : 일반화선형모형(GLM)분석

→ 타겟에 대하여 분석을 선택한 변수를 이용하여 일반화선형모형(GLM)

분석을 실행하는 단계

4단계 : 스코어카드생성

→ 3단계에서 산출된 일반화선형모형(GLM) 분석 결과를 바탕으로 신규

입력 데이터에 대하여 스코어를 산출하는 단계

Page 24: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler 의 그래프 노드에 데이터 특성을 표현하기 위한 다양한 데이터 시각화 기능을 추가할 수 있습니다.

그래프 기능 : Calendar Heatmap, Bivariate Density, Hexagonal Binning, Jittering, Tree Map.

SPSS Modeler Plus Pack

III.

1. Calendar Heatmap (채색달력)

→ 년도(year)별로 365일이 월(Month)과 주(Week)로 구분

전체적인 시계열의 흐름 외에 계절 효과와 요일 효과 확인

2. Bivariate Density

→ 산점도 : 밀도 등고선, 특이점 마킹, 이변량 히스토그램

3. Hexagonal Binning

→ 개체수 10,000 이상인 경우 hexagonal binning (육각형

격자 나누기) 로 표현

4. Jittering

→ 일정간격의 연속형 변수, 정수로 코딩된 범주형 변수 표현

5. Tree Map

→ 계층적으로 타일(Tile)을 배열하여 붙인 통계그림

Page 25: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

Random Trees(임의나무) node 추가

Statistical Utility는 SPSS Modeler에 부족한 통계분석 기능을 개발하여 추가한 모듈 입니다.

키 필드별로 순위를 매기는 기능, 필드를 케이스별로 항목을 나누는 기능 등 사용자들이 많이 사용하지만 현재 Modeler에 없는 모듈을

제공합니다.

기능 : Rank by Key, Field to Case 변환, 다빈도 항목 추출

SPSS Modeler Plus Pack

III.

1. Rank by Key

→ 키 필드인 기준 값을 비교하여 키 필드별로 1,2,3,.. 혹은

1,1,3,3,… 등 원하는 모형으로 데이터 순위를 출력한다

2. Field to Case

→ 사용자가 지정한 그룹과 필드 수에 따라 필드 데이터를

행 데이터로 변환한다.

3. 다빈도 항목 추출

→ 다빈도 항목 조합만 출력

Page 26: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler로 스트림 작성 후 모델링 결과를 다시 활용 해야 할 경우 ModelerPlus의 Model Extraction에서 제공하는 노드를 통해 활

용 할 수 있습니다. Model Extraction 노드는 C5.0과 GLM, CHAID, 선형회귀, Apriori 모델링에 대해 지원합니다. 이 노드를 사용하여 좀

더 폭 넓은 데이터 활용 과 확장 된 스트림을 작성 할 수 있습니다.

기능 : TreeModel to Text, GLM to Text, Regression to Text, Apriori to Text

SPSS Modeler Plus Pack

III.

TreeModel to Text

Page 27: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler에 한글 형태소를 추출하여 분석을 할 수 있는 노드를 추가 하였습니다.

출력 시 두 가지 형태로 출력이 되며 (Record by record, Record by value) 품사 선택이 가능합니다.

SPSS Modeler Plus Pack

III. TA Korean

2016년 1월부터 12월까지 경제 뉴스 제목을 정리한 title_economy.txt 불러오기

형태소 분석을 한 후 분석 할 수 있는 형태로 출력

단어가 업급 된 빈도를 기준으로 정렬

Page 28: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,
Page 29: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

Random Trees(임의나무) node 추가

임의 나무는 CART로 구성된 다항(multiple) 앙상블 모델이고, 각각의 나무는 부스 스트랩의 표본에서 생성되고 이는 원래의 데이터에서

복원 추출된 표본임

[임의나무 – 기본]작성옵션

• 작성할 모델 수: 노드를 만들 수 있는 최대 모델 수를 지정.

• 표본크기: 부트스트랩의 표본의 크기는 원래의 트레이닝 데이터와 표본의 크

기가 동일하며, 많은 데이터를 처리시 표본의 크기를 줄이는 것은 성능을 향

상시킴.

• 불균형한 데이터 처리: 정확도를 향상시킴

• 변수 선택에 가중된 표본추출 사용: 가중치를 변수에 적용하고 선택 프로세스

를 향상시키는 상자.

• 잎 노드의 최대수: 개별 트리에 허용되는 잎 노드의 최대 수를 지정하고 다음

분할에서 수가 초과하면 분할이 발생하기 전에 트리 성장이 중지됨

• 최대 트리 깊이: 루트 노드 아래에 잎 노드의 최대 수준 수(즉, 표본의 반복 수)

지정

• 최소 하위 노드 크기: 상위 노드를 분할 후 하위 노드에 포함해야 하는 최소

레코드 수 지정

Page 30: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

Random Trees(임의나무) node 추가

임의 나무는 CART로 구성된 다항(multiple) 앙상블 모델이고, 각각의 나무는 부스 스트랩의 표본에서 생성되고 이는 원래의 데이터에서

복원 추출된 표본임

[임의나무 – 비용]작성옵션

• 오분류 비용 사용: 오분류 비용사용은 특정 결과에 적용된 가중값임.

• 기본적인 오분류 비용의 값은 1.0으로 설정 되어 있으며, 전반적인 정확도 측

면에서는 높지 않을 수 있으나 비용이 적게 드는 오류를 위해서는 기본적인

성향을 지니고 있으므로 실질적인 측면에서는 성능은 좋음.

• 오류의 비용을 변경하고 하는 경우 예측 및 실제 값의 원하는 조합에 해당하

는 셀을 선택하고 셀의 기존 내용을 삭제한 후 셀의 원하는 비용을 입력. (EX)

A를 B로 오분류한 비용을 2.0으로 하고자 하는 경우 설정을 명시적으로 변경

하지 않으면 자동으로 1.0으로 인식됨)

• 사용 가능한 옵션

- 증가 없음: 잘못된 예측값에 대한 기본값은 1.0

- 선형: 연속된 잘못된 각 예측은 비용을 1증가 시킴

- 제곱: 연속된 잘못된 각 예측은 선형 값의 제곱

- 사용자정의 : 테이블의 값을 수동으로 편집하면 사용자 정의로 변경됨

Page 31: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

Random Trees(임의나무) node 추가

임의 나무는 CART로 구성된 다항(multiple) 앙상블 모델이고, 각각의 나무는 부스 스트랩의 표본에서 생성되고 이는 원래의 데이터에서

복원 추출된 표본임

[임의나무 – 고급]작성옵션

• 결측값의 최대 백분율: 입력에 허용되는 결측값의 최대 퍼센트를 지정. 퍼센

트가 이 수를 초과하면 모델 작성에서 입력이 제외됨

• 단일 범주 다수가 다음(%)을 초과하는 필드제외: 필드 내에서 단일 범주에 속

하는 레코드의 최대 퍼센트를 지정. 범주 값이 지정된 퍼센트 보다 높은 레코

드 퍼센트를 나타내면 전체 필드가 모델 작성에서 제외됨

• 최대 필드 범주 수: 필드 내에 포함되는 최대 범주 수를 지정. 범주 수가 이 수

를 초과하면 이 필드가 모델에서 제외됨.

• 최소 필드 변동: 연속형 필드의 변동계수가 여기에 지정한 값보다 작은 경우

이 필드가 모델 작성에서 제외됨

• 구간수: 연속형 변수에 사용할 동일한 빈도 구간 수를 지정. 사용 가능한 옵션

은 2,4,5,10,20,25,50,100 임.

Page 32: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]1.목표

목표, 분포 및 연결 함수를 통한 예측변수에 대한 관계 정의

• 사전 정의된 목표 사용

> 업스트림 유형 노드(또는 업스트림 소스 노드의 유형탭)에서 대상 설정된

목표 사용

• 사용자 정의 목표 사용

> 대상을 수동으로 지정

> 목표(G)에 종속변수 설정

Page 33: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]2. 선형 모델이 있는 목표 분포 및 관계(링크)

• 예측변수의 값이 주어지면 모델은 목표 값 분포가 지정된 형태를 따르고 목표값

이 지정된 연결 함수를 통해 해당 예측변수와 선형적으로 관련될 것으로 예상

• 여러 공통 모델에 대한 바로 가기가 제공되거나, 최종 목록에 없는 분포 및 연결

함수는 ‘사용자 정의’ 선택

① 선형 모형

> 정규분포를 항등 링크와 함께 지정

> 선형회귀 또는 ANOVA 모델을 사용하여 목표를 예측할 때 유용

② 감마 회귀분석

> 감마 분포를 로그 링크와 함께 지정

> 목표에 모든 양수값이 포함되고, 비대칭 될 때 사용

Page 34: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]2. 선형 모델이 있는 목표 분포 및 관계(링크)

③ 로그선형분석

> 포아송 분포를 로그 링크와 함께 지정

> 목표가 고정 기간 동안 발생 개수를 나타낼 때 사용

④ 음이항 회귀

> 음이항 분포를 로그 링크와 함께 지정

> 목표와 분모가 k 성공을 관측하는데 필요한 시행 수를 나타날 때 사용

⑤ Tweedie 회귀분석

> 항등, 로그, 또는 거듭제곱 연결함수를 사용하여 분포를 지정하고 0과 양의

실수 값의 혼합형인 모델링 반응에 사용

> 복합 포아송, 복합 감마, 포아송-감마 분포라고도

Page 35: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]2. 선형 모델이 있는 목표 분포 및 관계(링크)

⑥ 다항 로지스틱 회귀

> 다항 분포를 지정

> 목표가 다범주 반응일 때 사용

> 누적 로짓(순서 결과)나 일반화된 로짓 링크(다범주 명목 반응)를 사용

⑦ 이분형 로지스틱 회귀분석

> 이항 분포를 로짓 링크와 함께 지정

> 목표가 로지스틱 회귀분석 모델에 의해 예측된 이분형 반응일 때 사용

⑧ 이분형 프로빗

> 이항 분포를 프로빗 링크와 함께 지정

> 목표가 기본 정규 분포가 있는 이분형 반응일 때 사용

Page 36: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]2. 선형 모델이 있는 목표 분포 및 관계(링크)

⑨ 구간 중도 절단 요약

> 이항 분포를 로그-로그 링크와 함께 지정

> 몇몇 관측값에 종료 이벤트가 없을 때 생존 분석에서 유용

⑩ 사용자 정의

> 분포 및 연결함수의 고유 조합을 지정

⑪ 분포

> 자동, 이항분포, 감마분포, 역 가우스, 다항분포, 음이항분포, 정규분포,

포아송분포 ,Tweedie 선택가능

Page 37: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 필드 및 효과 설정]3. 효과 작성기

• 모델 효과

> 고정효과 요인은 일반적으로 관심 있는 데이터에 나타내는 필드로 볼 수 있고

스코어 링크에 사용할 수 있음

> 기본적으로 대화 상자에 지정되지 않은 사전 정의된 이력 역할이 있는 필드가

모델의 고정 효과 부분에 입력됨

> 범주형(플래그, 명목 및 순서)필드는 모델에서 요인으로 사용되며 연속형

필드는 공변량으로 사용됨

• 효과 입력

> 주 : 효과 목록 맨 아래에 주 효과로 나타남

> 이차원: 모든 가능한 쌍이 효과 목록 맨 아래에 이원 상호작용으로 나타남

> 삼차원: 모든 가능한 쌍이 효과 목록 맨 아래에 삼원 상호작용으로 나타남

Page 38: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 작성 옵션]1. 사후 수정 설정과 고정 효과 및 계수의 결정

• 신뢰수준 %

> 모델 계수의 구간 추정 값을 계산하는데 사용 됨

• 고정 효과 및 계수의 검정

> 수 추정값 공분산 행렬을 계산하는 방법으로 만일 모델을 가정을 위반할

염려가 있는 경우 강력한 추정을 선택

• 영향을 미치는 이상값 발견

> 다항분포를 제외한 모든분포에서 영향력있는 이상값을 식별하려면 옵션 선택

• 추세 분석 실행

> 산점도 도표에서 추세 분석을 수행 시 옵션을 선택

Page 39: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 작성 옵션]2. 매개 변수 추정 값

• 방법

> 사용할 최대우대 추정 방법을 선택

> Fisher, Newton-Raphson, 하이브리드 (최대 Fisher 반복 수 음수가 아닌

정수를 지정함/ 0의 값은 Newton-Raphon 방법을 지정함/ 0 보다 큰 값은

반복 수 n까지 Fisher 스코어링 알고리즘을 사용할 것을 지정하고 이후로는

Newton의 방법을 사용)

• 척도 모수 방법

> 최대우도 추정값, 고정값(사용할 값을 설정 가능) 편차, Pearson 카이제곱

• 음이향 방법

> 최대우도 방법, 고정값(사용할 값을 설정 가능)

Page 40: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

GLE node 추가

GLE 노드는 지정된 연결 함수를 통해 요인 및 공변량과 선형적으로 관련된 종속변수를 식별하며, 선형회귀, 이분형 데이터에 대한 로지스

틱 모델, 개수 데이터에 대한 선형로그 모델, 구간 중도 절단 생존 데이터에 대한 보완 로그-로그 (complementary log-log)모델 등 포함

[GLE 작성 옵션] 3. 모델 선택 또는 정규화 사용

• 모델 선택 및 정규화

> 모델 선택을 하거나 사용할 정규화(능형을 사용하는 경우)를 선택

• LASSO

> L1 정규화라고 하며 예측변수가 많은 경우 단계별 전진보다 빠름

> 모수를 축소하여 과적합을 방지하며, 일부 모수를 0으로 축소함

• Ridge

> L2 정규화라고 하며 모수를 축소해 과적합을 방지하며, 일부모수를 0으로

축소하지만 변수 선택은 불가능

• Elastic net

> L1+L2 정규화라고 하며 모수를 축소해 과적합을 방지하며, 일부 모수를

0으로 축소하여 변수를 선택함

• 단계별 전진

> 모델에서 아무런 효과 없이 시작해 단계 선택 기준에 따라 변수를 추가하거나

제거 할 수 없을 때까지 한번에 한 단계에서 효과를 추정하거나 제거함

Page 41: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

LSVM (Linear Support Vector Machine) node 추가

LSVM은 SVM과 비슷하지만 LSVM은 선형 분류함수를 얻은 후 선형으로 분리가능 한 모든 관측치들에 대하여 선형 초평면위에 margin을

최대화 하는 유일한 초평면을 찾음

[임의나무 필드 설정]

1. 작성옵션

• 모델 설정

> 절편(상수항)을 포함하게 되는 경우 솔루션의 전체 정확도가 상승.

단, 데이터가 원점을 지난다는 가정이 있다면 절편 제외가능

• 범주형 대상에 대한 정렬 순서

> 범주형 대상에 대한 순서를 지정(연속형 대상에서는 설정이 무시됨)

• 회귀분석(엡실론)

> 목표필드가 연속형인 경우 사용됨, 값이 늘어남에 따라 정확도가 떨어짐

• 결측값 레코드 제외

> 참으로 설정시 단일 값이 결측값인 경우 레코드가 제외됨

• 패널티 함수

> 패널티 함수가 설정된 경우 사용됨

Page 42: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

자동 분류자 기능

자동 분류자의 고급 기능으로 모델러의 17.1 version부터 임의나무와 LSVM이 새롭게 추가됨

Page 43: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,

SPSS Modeler Plus Pack

Ⅳ.

[새로운 기능 요약]

• Platform 유연성

> 향상된 디지털 experience – 커뮤니티 연결과 개선된 시험 experience

> Modeler의 Personal 과 Professional을 위한 MacOS 지원

> Windows 10 지원

• 변화된 소프트웨어들

> Z에 DB2를 위한 새로운 in-database 알고리즘 노드

> 기업 분석 – 사용 및 기업분석에 대한 변경 사항 개시

> 분석 서버: 추가파일 형식 및 보안 게이트웨이 지원

> 배치관리자에 대한 관리 Consoles의 합병

> C&DS License 변경

> ADM: 기타 개선

• Modeler 빅데이터 알고리즘

> 모든 AS-전용 알고리즘은 random trees를 포함하여 local

Modeler에서 17 FP 1 부터 사용가능

> Time series 알고리즘은 분석서버 또는 local Modeler에서

실행 및 분할 모델링을 지원

• 오픈소스의 강화와 확장

> Python과 Spark MLlib 알고리즘을 실행하는 노드 및

액세스를 만들 수 있음

> 확장 기능을 추가하는 쉬운 방법

Page 44: 발표용 표준템플릿 Modeler.pdf · 2018. 2. 23. · 발표용 표준템플릿. SPSS Modeler는데이터를로딩, 변환, 정제, 델링 , 그래프, 결과의출력까지하나의소프트웨어내에서가능하며,