introduction to weka

33
GII THIU PHN MM WEKA Giáo viên hướng dn thc hành: Nguyn Ngc Tho Nguyn Hi Minh Trường Đại hc Khoa hc Tnhiên Khoa Công nghThông tin 

Upload: flower-lantern

Post on 30-Oct-2015

355 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 1/33

GIỚI THIỆU PHẦN MỀM

WEKA

Giáo viên hướng dẫn thực hành: 

Nguyễn Ngọc Thảo 

Nguyễn Hải Minh 

Trường Đại học Khoa học Tự nhiên Khoa Công nghệ Thông tin 

Page 2: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 2/33

NỘI DUNG TRÌNH BÀY 

Giới thiệu phần mềm Weka 

Các chức năng của phần mềm 

Tìm hiểu ứng dụng Explorer  

2

Page 3: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 3/33

NỘI DUNG TRÌNH BÀY 

Giới thiệu phần mềm Weka 

Các chức năng của phần mềm 

Tìm hiểu ứng dụng Explorer  

3

Page 4: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 4/33

LỊCH SỬ PHÁT TRIỂN 

WEKA  –  Waikato Environment for 

Knowledge Analysis. 

Là phần  mềm khai thác dữ  liệu, 

thuộc dự án nghiên cứu của đại học 

Waikato, New Zealand.

Mục tiêu: xây dựng  một công cụ  hiện  đại  nhằm phát triển các kỹ 

thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong

thực tế.

4

Page 5: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 5/33

LỊCH SỬ PHÁT TRIỂN 

1993   –   Đại  học Waikato, New

Zealand, khởi  động  dự án, xây

dựng phiên bản đầu tiên của Weka. 

1997  –  Quyết  định xây dựng  lại 

Weka từ đầu bằng Java, có cài đặt 

các thuật toán mô hình hóa. 

2005   – Weka nhận  giải  thưởng SIGKDD Data Mining and

Knowledge Discovery Service Award.

Xếp hạng trên Sourceforge.net từ 25-06-2007: 241 (907,318 lượt).

5

Page 6: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 6/33

CÁU TRÚC PHẦN MỀM 

WEKA được xây dựng bằng ngôn ngữ Java, cấu trúc gồm hơn 600 

lớp, tổ chức thành 10 packages.

Các chức năng chính của phần mềm:

Khảo sát dữ liệu: tiền xử lí dữ liệu, phân lớp, gom nhóm dữ liệu, 

và khai thác luật kết hợp.

Thực  nghiệm mô hình: cung cấp  phương  tiện  để kiểm  chứng, 

đánh giá các mô hình học.

Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị khác nhau.

6

Page 7: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 7/33

TRANG CHỦ WEKA 

Trang chủ: http://www.cs.waikato.ac.nz/ml/weka/ 

7

Page 8: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 8/33

TRANG CHỦ WEKA 

Dự án máy học Weka  Phần mềm Weka 

Lịch sử phát triển  Phiên bản cài đặt 

Thành phần nhân sự 

Bài báo công bố 

Tài liệu tham khảo 

Hướng dẫn sử dụng 

Các tập dữ liệu 

8

Page 9: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 9/33

CÁC PHIÊN BẢN WEKA 

Snapshots là các bản vá lỗi  mới  nhất,  thường là được  cập  nhật 

hàng đêm.

Developer versions là các phiên bản  thử nghiệm, hỗ  trợ nhiều tính

năng mới nhưng còn chưa ổn định. 

Book versions là các phiên bản thể hiện những chức 

năng  được mô tả trong quyển sách Data Mining:

Practical Machine Learning Tools and Techniques

(2nd Edition) của Ian.H.Witten và Eibe Frank.

9

Page 10: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 10/33

NỘI DUNG TRÌNH BÀY 

Giới thiệu phần mềm Weka 

Các chức năng của phần mềm 

Hướng dẫn sử dụng ứng dụng Explorer  

10

Page 11: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 11/33

KHẢO SÁT DỮ LIỆU 

Explorer: là ứng  dụng con cho phép thực  nghiệm các nhiệm  vụ 

khai thác dữ liệu thường gặp như:

Tiền xử lý dữ liệu 

Khai thác luật kết hợp 

Phân lớp 

Gom nhóm

11

Page 12: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 12/33

KHẢO SÁT DỮ LIỆU 

12

Page 13: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 13/33

THỰC NGHIỆM MÔ HÌNH 

Experimenter: là ứng dụng con cung cấp môi trường thực nghiệm 

để kiểm chứng các mô hình học, so sánh với nhau để đánh giá.

13

Page 14: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 14/33

KẾT NỐI THÔNG TIN 

ArffViewer: là ứng dụng con trình bày nội dung tập dữ liệu có định 

dạng *.ARFF thành bảng dữ liệu.

SqlViewer: cho phép kết nối với cơ sở dữ liệu (MySQL, PostGre…)

và truy vấn để lấy thông tin.

14

Page 15: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 15/33

BIỂU DIỄN TRỰC QUAN 

Weka hỗ  trợ  người dùng biểu  diễn  trực quan dữ  liệu qua những 

dạng biểu đồ thông dụng: biểu đồ trục, cây, đồ thị, biểu đồ vùng….

15

Page 16: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 16/33

BIỂU DIỄN TRỰC QUAN 

16

Page 17: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 17/33

BIỂU DIỄN TRỰC QUAN 

17

Page 18: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 18/33

NỘI DUNG TRÌNH BÀY 

Giới thiệu phần mềm Weka 

Các chức năng của phần mềm 

Tìm hiểu ứng dụng Explorer  

18

Page 19: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 19/33

CÁC CHỨC NĂNG 

Tiền xử lýdữ liệu 

Khai thác

LKH

Phân lớp Gom

nhóm

Chọn lọcthuộc tính 

19

Page 20: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 20/33

TIỀN XỬ LÝ DỮ LIỆU 

Hiển thị thông tin về dữ liệu đang xét 

Tập dữ liệu: tên, số mẫu, số thuộc tính.

Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %...

Biểu đồ minh họa thông tin.Cung cấp các bộ lọc dữ liệu thông dụng, ví dụ: 

ReplaceMissingValues: thay thế giá trị thiếu.

Normalize: chuẩn hóa dữ liệu về đoạn [0, 1].

Discretize: rời rạc hóa dữ liệu.

20

Page 21: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 21/33

TIỀN XỬ LÝ DỮ LIỆU 

21

Page 22: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 22/33

KHAI THÁC LUẬT KẾT HỢP 

Cung cấp các thuật toán khai thác luật kết hợp 

 Apriori

PredictiveApriori: là cải tiến của thuật toán Apriori.

22

Page 23: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 23/33

KHAI THÁC LUẬT KẾT HỢP 

23

Page 24: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 24/33

PHÂN LỚP 

Cung cấp rất nhiều thuật toán phân lớp, được gom thành các nhóm

dựa trên cơ sở lý thuyết hoặc chức năng. 

Bayes: mạng Bayes, Naïve Bayes...

Hàm: SVM, các phương pháp hồi quy, hậu tuyến tính… 

Cây: ID3, C4.5 (J58)… 

Các phương pháp phân lớp dựa trên luật.

Bagging, AdaBoost… 

24

Page 25: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 25/33

PHÂN LỚP 

25

Page 26: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 26/33

GOM NHÓM

Cung cấp các thuật toán gom nhóm phổ biến, ví dụ: 

DBSCan

EM (Expectation Maximization).

K-Means

26

Page 27: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 27/33

GOM NHÓM

27

Page 28: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 28/33

CẤU TRÚC TẬP TIN ARFF 

 ARFF  là định dạng dữ  liệu chuyên biệt của Weka, tổ chức dữ  liệu 

theo cấu trúc được qui định trước.

Cấu trúc tập tin *.ARFF bao gồm các thành phần:

28

Header: chứa khai báo quan hệ, danh

sách các thuộc tính (tên, kiểu dữ liệu).

Data: gồm nhiều dòng, mỗi dòng thể hiện 

giá trị của các thuộc tính cho một mẫu.

HEADER

DATA

Page 29: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 29/33

CẤU TRÚC TẬP TIN ARFF 

29

% This is a relation about wather 

@relation weather 

@attribute outlook {sunny, overcast, rainy}@attribute temperature real

@attribute humidity real

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

@datasunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

Tên quan hệ 

1 mẫu 

Tên thuộc tính – kiểu DL 

Chú thích

Page 30: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 30/33

CẤU TRÚC TẬP TIN ARFF 

Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm 

numeric: là kiểu dữ liệu số, gồm real và integer 

nominal: là kiểu dữ liệu danh sách.

string: là kiểu dữ liệu dạng chuỗi 

date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)

30

Page 31: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 31/33

CẤU TRÚC TẬP TIN ARFF 

31

@relation nhanvien

@attribute hoten string

@attribute ngaysinh date "dd/MM/yy"@attribute gioitinh {nam, nu}

@attribute hesoluong real

@data

'Nguyen Van A', 10/12/1957, nam, 1.34'Tran Thi B', ?, nu, 1.5

Page 32: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 32/33

CẤU TRÚC TẬP TIN ARFF 

Dòng ghi chú được bắt đầu bằng dấu %.

Dữ liệu thiếu được biểu diễn bằng dấu ?.

Chuỗi nếu có khoảng trắng phải đặt trong dấu nháy đơn.

Các giá trị trong phần data phải tuyệt đối theo đúng thông tin đã khai

báo trong header.

32

Page 33: Introduction to Weka

7/16/2019 Introduction to Weka

http://slidepdf.com/reader/full/introduction-to-weka 33/33

CẢM ƠN CÁC BẠN ĐÃ THEO DÕI. 

33