dpulibdoc.dpu.ac.th/thesis/144757.pdf · web pages for web crawler in product search engine focused...

56
ขั ้นตอนและวิธีการสกัดข ้อมูลสินค้าบนเว็บเพจ สําหรับเว็บครอเลอร์ที่ใช้ในโปรแกรมค้นหาสินค้า An Algorithm of Product Information Extraction on Web Pages for Web Crawler in Product Search Engines กลยุทธ บพิตร สารนิพนธ์นี้เป็นส่วนหนึ่งของการศึกษาตาม หลักสูตรวิทยาศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมเว็บ คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยธุรกิจบัณฑิตย์ .. 2555 DPU

Upload: others

Post on 21-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

ขนตอนและวธการสกดขอมลสนคาบนเวบเพจ สาหรบเวบครอเลอรทใชในโปรแกรมคนหาสนคา

An Algorithm of Product Information Extraction on Web Pages for Web Crawler in Product Search Engines

กลยทธ บพตร

สารนพนธนเปนสวนหนงของการศกษาตาม หลกสตรวทยาศาสตรมหาบณฑต สาขาวชาวศวกรรมเวบ คณะเทคโนโลยสารสนเทศ มหาวทยาลยธรกจบณฑตย

พ.ศ. 2555

DPU

ขนตอนและวธการสกดขอมลสนคาบนเวบเพจ สาหรบเวบครอเลอรทใชในโปรแกรมคนหาสนคา

กลยทธ บพตร

สารนพนธนเปนสวนหนงของการศกษาตาม หลกสตรวทยาศาสตรมหาบณฑต สาขาวชาวศวกรรมเวบ คณะเทคโนโลยสารสนเทศ มหาวทยาลยธรกจบณฑตย

พ.ศ. 2555

DPU

An algorithm of product information extraction on web pages for web crawler in product search engines

Kollayuth Borpit

A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Science in Web Engineering

Faculty of Information Technology, Dhurakij Pundit University 2012

DPU

กตตกรรมประกาศ

ผจดทาสารนพนธขอกราบคารวะ และขอบชาพระคณครบาอาจารย คณะเทคโนโลยสารสนเทศ สาขาวศวกรรมเวบ มหาวทยาลยธรกจบณฑตยทกทานทไดเสยสละ เพอใหศษยทกคนมวชาความรตดตว และสามารถนาความรทไดมาใชในการปฏบตงานจรงในอนาคตได

สารนพนธฉบบน สาเรจลงไดดวยความอนเคราะหจาก ผศ.ดร.วรสทธ ชชยวฒนา ผจดทาสารนพนธใครขอกราบขอบพระคณททานอาจารยกรณาใหคาปรกษา ใหขอคดเหน และเสยสละเวลาใหกบผจ ดทาสารนพนธตลอดมา ตลอดจนชวยตรวจสอบตนฉบบและแกไขขอบกพรองของงานวจยเพอใหสารนพนธฉบบนเสรจสนลงไปไดดวยด ซงสงผลใหสารนพนธ ฉบนนดาเนนการไดอยางราบรน และมประสทธภาพ

ขอกราบขอบพระคณทานอกครงเพราะนอกจากการชวยเหลอดานการเรยนแลวทานยงใหการชวยเหลอเมอมปญหาในทกเรอง พรอมท งแนะแนวทางการดาเนนชวตดวยการใหคาปรกษาทดมาโดยตลอด

ขอกราบขอบพระคณ รศ.ดร.นชร เปรมชยสวสด, และ ดร.ธนภทร อนศาสนอมรกลทกรณารบเปนกรรมการสอบสารนพนธ และกรณาใหคาแนะนาทมคาอยางยง

สดทายน ผจดทาสารนพนธ ขอกราบขอบพระคณ คณพอ คณแม ทสงเสยเลาเรยน และขอบคณเพอนๆ ทกคนทเปนกาลงใจอนสาคญยงในการทาสารนพนธ ซงจะถกจารกไวในจตใจของผทาสารนพนธดวยความระลกถงตลอดไป

กลยทธ บพตร

DPU

สารบญ หนา

บทคดยอภาษาไทย…………………………………………………………………………... ฆ บทคดยอภาษาองกฤษ…..…………………………………………………………………… ง กตตกรรมประกาศ....……………………………………………………………………….... จ สารบญ…………………………………………………………............................................. ฉ สารบญตาราง………………………………………………………………………………... ซ สารบญภาพ………………………………………………………………………………….. ฌ บทท 1. บทนา…………………………………………………………………………….…. 1

1.1 ทมาและความสาคญของงาน…………………………………………………… 1 1.2 วตถประสงคของการศกษา………………………………………………….….. 2 1.3 ประโยชนและผลทคาดวาจะไดรบ……………………………………………... 2 1.4 ขอบเขตการศกษา/ขอตกลงเบองตนของการศกษา……………………………... 2 1.5 นยามศพท………………………………………………………………………. 3

2. วรรณกรรมและงานวจยทเกยวของ…………………………………………………. 4 2.1 แนวคดและทฤษฏทเกยวของ…………………………………………………… 4 2.2 งานวจยทเกยวของ……………………………………………………………… 11

3. วธการดาเนนการและเครองมอ……………………………………………………... 13 3.1 การศกษาคนควาขอมล………………………………………………………… 13 3.2 การออกแบบขนตอนและวธการสกดขอมลสนคา……………………………… 16 3.3 การกาหนดแบบแผนการวดประสทธผล………………………………………. 18 3.4 การวดประสทธผล……………………………………………………………… 23 3.5 เครองมอทใชในการวจย………………………………………………………... 29

4. ผลการศกษา………………………………………………………………………… 30 4.1 ผลการออกแบบขนตอนและวธการสกดขอมลสนคา…………………………... 30 4.2 ผลการประเมนผลขนตอนและวธการสกดขอมลสนคา………………………… 34

5. บทสรป อภปรายผล และขอเสนอแนะ……………………………………………... 35 5.1 สรปผลการวจย...........………………………………………………………….. 35

DPU

สารบญ (ตอ)

หนา 5.2 ปญหาทพบในงานวจย………………………………………………………….. 36 5.3 ขอเสนอแนะ……………………………………………………………….…… 37

บรรณานกรม………………………………………………………………………………… 38 ภาคผนวก

ภาคผนวก ก. ผลการประเมนขนตอนการสกดขอมลสนคา………………………. 43 ประวตผเขยน………………………………………………………………………………... 46

DPU

สารบญตาราง ตารางท หนา

2.1 หมวดหมการคนหาของเวบไซด Google.com………………………………….. 9 3.1 ผลการสารวจรปแบบเวบไซตในโปรแกรมคนหาสนคา จาก 100 ผลการ คนหา 21 3.2 คาคนหาทใชในการสมเลอกจากผลลพธการคนหาใน Google…………………. 22 3.3 ชนดและจานวนเวบไซตทใชในการทดลอง…………………............................. 22 3.4 ตวอยางตารางบนทกคาความถกตองจากยอารแอล http://www.f10shop.com/category.aspx?id=040&pi=0&p=1..............................

29

4.1 ตารางผลการประเมนขนตอนการสกดขอมลสนคา…………………………….. 34

DPU

สารบญภาพ

ภาพท หนา 2.1 แบบจาลองพนฐานของเวบครอเลอร……………………………………………... 6 2.2 กลไกการตรวจสอบยอารแอลกอนนาไปใสในยอารแอลคว……………………... 7 2.3 การทางานของ Shopbot (R.B. Doorenbos, O. Etzioni, and D.S.Weld)………….. 11 2.4 การทางานของ Shopbot ใน (Maria Fasli)………………………………………... 12 3.1 ผลการคนหาจาก Google Product Search………………………………………… 14 3.2 ตวอยางหนารวมสนคาจากเวบขายสนคา………………………………………… 15 3.3 ตวอยาง DOM Tree………………………………………………………………. 16 3.4 ตวอยางโหนดในภาษา HTML กบโหนดสนคา 1 โหนด 1 สนคา………………... 17 3.5 กระบวนการทางานของเวบครอเลอร…………………………………………….. 19 3.6 ตวอยางหนาเวบผลลพธการสกดขอมลสนค……………………………………... 20 3.7 ตวอยางผลลพธการสกด 1 สนคา จาก http://www.f10shop.com/category.aspx?id

=040&pi=0&p=1………………………………………………………………..

24 3.8 ตวอยางหนารวมสนคาทใชในการประเมน………………………………………. 25 3.9 ตวอยางผลลพธการสกด 1 สนคา………………………………………………… 26 3.10 ตวอยางสนคา 1 สนคาจากหนาเวบ……………………………………………... 26 3.11 หนาเวบเมอกดทปม “GO” จากภาพท 3.9………………………………………. 27 3.12 ตวอยางผลการคานวณจานวนความถกตองโดยมนษย แยกแตละรายละเอยด…... 28 4.1 โครงสราง DOM 1 โหนด 1 สนคา……………………………………………….. 30 4.2 กระบวนการสกดขอมลสนคา……………………………………………………. 33 5.1 ตวอยางโหนดในภาษา HTML กบโหนดสนคา 1 โหนดหลายสนคา…………….. 37

DPU

หวขอสารนพนธ ขนตอนและวธการสกดขอมลสนคาบนเวบเพจสาหรบเวบครอเลอรทใชในโปรแกรมคนหาสนคา

ชอผเขยน นายกลยทธ บพตร อาจารยทปรกษา ผศ.ดร.วรสทธ ชชยวฒนา สาขาวชา วศวกรรมเวบ ปการศกษา 2554

บทคดยอ

สารนพนธนไดนาเสนอขนตอนและวธการสกดขอมลสนคาสาหรบเวบคอรเลอรทใชในโปรแกรมคนหาสนคา โดยเนนการวเคราะหโครงสรางของเอกสาร และการวเคราะหคาสาคญ ขนตอนและวธการทเสนอ เรมตนจากการวเคราะหโครงสรางหนารวมของเวบขายสนคา จากนนทาการคนหาโหนดของสนคาโดยการวเคราะหรปและราคา และนาโหนดของสนคาทไดไปทาการสกดรายละเอยดของขอมลสนคา

สาหรบการประเมนประสทธผลของการทางานของขนตอนและวธการสกดขอมลสนคา ผลลพธทไดจากการทางานของขนตอนวธการสกดขอมลสนคาทเสนอ จะถกเปรยบเทยบกบผลลพธการสกดขอมลสนคาโดยมนษย ในการทดลองผวจยทาการสมเลอกยอารแอลจากชนดของเวบไซตพาณชยอเลกทรอนกส 3 ประเภทไดแก เวบรานคาออนไลน เวบไซตแคตตาลอกสนคาออนไลน และเวบตลาดกลางอเลกทรอนกส จานวนทงสน 60 ยอารแอล ผลการประเมนพบวาขนตอนและวธการสกดขอมลสนคาและวธการสกดขอมลสนคาทเสนอมความแมนยาในการสกดขอมลสนคารอยละ 88.4 สาหรบเวบรานคาออนไลนและเวบแคตตาลอกสนคาออนไลน ในขณะทมความแมนยาในการสกดขอมลสนคารอยละ 77.3 สาหรบเวบตลาดกลางอเลกทรอนกส

อยางไรกดขนตอนและวธการสกดขอมลสนคาทนาเสนอยงคงมปญหาในการทางานในบางสถานการณเนองจากวธการดงกลาวใหความสาคญกบการระบตาแหนงรปภาพสนคากอนสงผลทาใหวธการทเสนอไมสามารถทาการสกดขอมลสนคาทไมมรปภาพได นอกจากนนแลวการวเคราะหราคาผดพลาดกเปนอกสาเหตทสาคญทสงผลตอประสทธผลของการทางานของขนตอนและวธการสกดขอมลสนคาทนาเสนอ

DPU

Thematic Paper Title An algorithm of product information extraction on web pages for web crawler in product search engines

Author Mr. Kollayuth Borpit Thesis Advisor Asst. Prof. Dr.Worasit Choochaiwattana Department Web Engineering Academic Year 2011

ABSTRACT

This thematic aims at proposing an algorithm of product information extraction on web pages for web crawler in product search engine focused on web document structure analysis and keyword analysis. The proposed algorithm starts with analyzing web document structure. The algorithm, then, finds product information nodes by analyzing product image and price. Finally, the product information is extracted.

For evaluating the proposed algorithm, the results obtained from the proposed algorithm is compare with the results from manually extraction by human. In the experiment, URLs were randomly selected from three categories URLs list, which are E-Shop website, E-catalogue website, and E-Marketplace website. The total number of URLs is 60 URLs. The results showed that the proposed algorithm had an accuracy in extracting product information of 88.4% for E-shop website and E-catalogue website, while the proposed algorithm had an accuracy of 77.3% for E-Marketplace website.

The proposed algorithm, however, still had problems in some situations because the proposed algorithm focused on locating product images first. As a result, the proposed algorithm could not extract product information on web pages that did not have product images. In addition, the problem in finding product price information is another main cause that affect an effectiveness of the proposed algorithm.

DPU

บทท 1 บทนา

1.1 ทมาและความสาคญของงาน

เนองจากในปจจบนการซอขายสนคาผานระบบอนเทอรเนตในประเทศไทยนนมการขยายตวมากขน และพฤตกรรมการซอสนคาออนไลนกลายเปนสวนหนงในชวตประจาวนของคนรนใหม ในขณะเดยวกนมการเพมขนของเวบไซตในประเทศไทยโดยเฉพาะเวบพาณชยอเลกทรอนกส สงผลใหการคนหาสนคาทตรงกบความตองการนนกลายเปนภารกจหนงของผทสนใจซอสนคาออนไลน ในปจจบนผใชงานอนเทอรเนตในประเทศไทย มการใชโปรแกรมคนหาขอมล (search engine) เชน www.google.com สงถง 99.2% (ศนยวจยนวตกรรมอนเทอรเนตไทย, 2555) แตผลลพธการคนหาทได ยงคงไมตรงกบความตองการของผใชงานทตองการคนหาขอมลสนคา ดงนนทาใหผใชงานยงคงตองเขาไปดผลลพธการคนหา เพอพจารณาวาเนอหาในเวบไซตทเปนผลลพธนน ตรงตามความตองการของตนเองหรอไม เนองจากมหลายเวบไซตทนามาแสดงในผลลพธการคนหา เปนเวบทใหขอมลสนคา หรอเวบขาวเกยวกบสนคา หรอคาวจารณสนคา ไมใชเวบสาหรบขายสนคาโดยตรง สงผลใหผใชงานตองเสยเวลาในการคนหาเวบขายสนคา ดงนนจงมการพฒนาโปรแกรมคนหาสนคา (Product Search Engine) เพออานวยความสะดวกใหกบผใชงาน และทาใหไดผลลพธทตรงกบความตองการมากขน

อยางไรกด จากการศกษาเวบไซต priceza.com ซงเปนเวบไซตททางานใกลเคยงกบโปรแกรมคนหาสนคามากทสดทมอยในประเทศไทย พบวาใหผลการคนหาทไมตรงกบความตองการ เนองจากมการนาเอาขอมลสนคาจากรานคาทไมไดเปดดาเนนการบนอนเทอรเนตเขามารวมอยในผลลพธการคนหาดวย จากการทดลองใสคาคนหา “Apple iPhone 4S 64GB” ลงใน priceza.com พบวา ใหผลลพธเพยง 2 รายการ เมอเปรยบเทยบราคาสนคาจากในเวบพบวามาจากเวบขายสนคาเพยง 3 เวบไซตและ 1 รานคาเทานน ทาใหผลลพธการคนหาของเวบนไมครอบคลมเวบขายสนคาทมมากมายในประเทศไทย

ดงนนเพอทาใหโปรแกรมคนหาสนคามความครอบคลมของขอมลมากยงขน การเพมความสามารถใหกบเวบครอเลอรดวยการวเคราะหแยกสวนขอมลทจาเปนเชน ชอสนคา รปภาพ

DPU

2

ราคา และรายละเอยด เพอลดภาระในการทางานของสวนการจดทาดชนขอมล จะสงผลใหโปรแกรมคนหาสนคาทางานไดอยางรวดเรวและเปนอตโนมตมากขน

ดงนนงานวจยชนนจงเสนอขนตอนและวธการสกดขอมลสนคาสาหรบเวบครอเลอร เพอทาการเกบรวบรวมขอมลสนคา และนาไปใชในโปรแกรมคนหาสนคา

1.2 วตถประสงคของการศกษา

1.2.1 เพอออกแบบขนตอนและวธการสกดขอมลสนคาสาหรบเวบครอเลอร เพอวเคราะหแยกสวนขอมลทจาเปนเกยวกบสนคาเชน รปภาพ ราคา รายละเอยดยอ และยอารแอลสนคา สาหรบเวบขายสนคาในประเทศไทย

1.2.2 เพอวดประสทธผลของขนตอนและวธการสกดขอมลสนคา ตามทไดออกแบบในงานวจยน

1.3 ประโยชนและผลทคาดวาจะไดรบ

1.3.1 เพอเปนแนวทางในการสกดขอมลสนคาใหกบเวบครอเลอรสาหรบโปรแกรมคนหาสนคา

1.3.2 เพอเปนแนวทางในการสกดขอมลสาหรบโปรแกรมรปแบบอนๆ

1.4 ขอบเขตการศกษา/ขอตกลงเบองตนของการศกษา 1.4.1 หนาเวบขายสนคาทนามาทาการทดลองนน คอหนารวมสนคาทภายในหนงหนาเวบม

สนคามากกวา 1 สนคาและแตละสนคามรปภาพแสดงเพยงหนงรป และรปภาพสนคาตองมขนาดกวางและยาวกวา 50 พกเซล

1.4.2 สนคาแตละสนคาแยกกนอยภายใน DOM ของภาษา HTML 1.4.3 ใชสกดขอมลโดยมนษยเปนเกณฑในการวดประสทธผลของวธการ 1.4.4 เวบขายสนคาทใชในการวจยเปนเวบในรปแบบของ เวบรานคาออนไลน (E-Shop Web

Site) และเวบตลาดกลางอเลกทรอนกส (E-Marketplace) 1.4.5 งานวจยนคานงถงประสทธผลของขอมลสนคาทไดทาการสกดออกมา โดยไมนาปจจยท

เกยวของกบการวดประสทธภาพ เชน ความเรวของการสกดขอมล มาพจารณา

DPU

3

1.5 นยามศพท ในสารนพนธฉบบนไดนยามศพททใชในการวจยไว ดงน เวบครอเลอร (WEB CRAWLER) มชอเรยกหลายชอเชน Robot Spider เวบครอเลอร

คอ โปรแกรมหนงในโปรแกรมคนหาทมหนาทในการไปเกบขอมลจากยอารแอลตางๆ ซงมวตถประสงคเพอเกบรวบรวมขอมลเพมหรออพเดทขอมลทมอยแลวในโปรแกรมคนหา สาหรบโปรแกรมคนหาสนคา เวบครอเลอรมหนาทไปเกบขอมลสนคาจากเวบขายสนคา

DPU

บทท 2 วรรณกรรมและงานวจยทเกยวของ

2.1 แนวคดและทฤษฏทเกยวของ

2.1.1 โปรแกรมคนหา (search engine) เนอหาในหวขอนอางองจาก (อรวรรณ บงพรรตน, 2549, กนยายน) หลกการของโปรแกรมคนหา เรมจากเวบครอเลอรรวบรวมเวบเพจจากอนเตอรเนตมา

ทาดชนใหอยในรปแบบทงายตอการสบคนขอมล เมอผใชทาการบอกสงทตองการกบโปรแกรมคนหา โปรแกรมจะสบคนและแนะนาแหลงขอมลทคาดวาตรงกบความตองการมากทสดใหแกผใช

2.1.1.1 สวนประกอบของโปรแกรมคนหา 1) เวบครอเลอร (Web crawler) คอ โปรแกรมไปเกบรวบรวมขอมลเวบเพจ

ตามลาดบควทไดมการจดไว ลงในฐานขอมลขนาดใหญ ซงจะกลาวถงรายละเอยดในหวขอ 2.1.2 2) สวนดชน (Indexer) คอ โปรแกรมททาหนาทสรางดชนจากเอกสาร HTML ท

อยในฐานขอมล ท Web crawler รวบรวมมา การทาดชนมวตถประสงค 3 ขอในการคนคนสารสนเทศคอ - ทาใหการหาทอยของเอกสารตามหวเรองไดโดยงายและรวดเรว - นยามสาขาของหวเรองและความสมพนธของเอกสารอนหนงกบอกอนหนง - ทานายความเกยวของของเอกสารทกาหนดเขากบความตองการของขาวสารทระบ

3) หนาเวบคนหา (Searcher) คอ โปรแกรมทรบคาคนหาของผใชงานซงเปนสงทผใชตองการ เขาสระบบ จากนนกจะทาการเปรยบเทยบคาคนหากบดชนทไดสรางไว และสงเปนผลลพธการคนหากลบไป

2.1.1.2 ชนดของโปรแกรมคนหา 1) Crawler Based Search Engines

Crawler Based Search Engines คอ โปรแกรมคนหาบนอนเตอรเนตแบบอาศยการบนทกขอมล และจดเกบขอมลเปนหลก ซงเปนโปรแกรมคนหาทไดรบความนยมสงสดเนองจากใหผลการคนหาแมนยาทสด และการประมวลผลการคนหาสามารถทาไดอยางรวดเรว จงทาใหมบทบาทในการคนหาขอมลมากทสดในปจจบน

DPU

5

Crawler Based Search Engines มองคประกอบหลก 2 สวน สวนแรกคอ ฐานขอมล โดยสวนใหญแลว Crawler Based Search Engine เหลานจะมฐานขอมลเปนของตวเองทมระบบการประมวลผล และการจดอนดบทเฉพาะเปนเอกลกษณของตนเองอยางมาก และสวนทสองคอ ซอฟตแวร คอ เครองมอหลกสาคญทสดอกสวนหนงของโปรแกรมคนหาประเภทนคอ เวบครอเอลร หรอทเรยกวา Spider หรอ Search Engine Robots ซงสามารถแบงชนดของเวบครอเอลรไดเปน 2 ชนดคอ

(1) Horizontal crawler หรอ Breadth-first search ซงทางานดวยการเกบรวบรวมขอมลหนาเวบทงหมด โดยไมกาหนดหวเรองทตองการเกบ

(2) Vertical crawler หรอ focus crawler หรอ topical crawler มการทางานดวยการเกบรวบรวมขอมลเฉพาะทตรงประเดนกบหวขอทไดกาหนดไวกอนแลวเทานน

Crawler Based Search Engine ไดแก Google , Yahoo, MSN, Live, Search เปนตน 2) Web Directory หรอ Blog Directory

Web Directory หรอ Blog Directory คอ สารบญเวบไซตทสามารถคนหาขาวสารขอมลดวยหมวดหมขาวสารขอมลทเกยวของกน ในปรมาณมากๆ คลายกบสมดหนาเหลอง ซงจะมการสราง ดรรชน มการระบหมวดหม อยางชดเจนซงจะชวยใหการคนหาขอมลตางๆ ตามหมวดหมนนๆ ไดรบการเปรยบเทยบอางองเพอหาขอเทจจรงไดในขณะทเราคนหาขอมล เพราะวาจะมเวบไซต หรอ Blog จานวนมากทมเนอหาลกษณะเดยวกนในหมวดหมเดยวกน ใหเลอกหาขอมลไดอยางตรงประเดนทสดตวอยางโปรแกรมคนหาชนดนไดแก

(1) ODP หรอ Dmoz คอ Web Directory ทใหญทสดในโลก Search Engine หลายแหงกใชขอมลจากทแหงนเกอบทงสน เชน Google, AOL, Yahoo, Netscape และอนๆ อกมากมาย ODP มการบนทกขอมลประมาณ 80 ภาษาทวโลกรวมถงภาษาไทย (URL : http://www.dmoz.org )

(2) สารบญเวบไทย SANOOK.com คอ Web Directory ทมชอเสยงอกเชนกนและเปนทรจกมากทสดในเมองไทย (URL: http://webindex.sanook.com )

3) Meta Search Engine Meta Search Engine คอโปรแกรมคนหาทใชหลกการในการคนหาโดยอาศย Meta Tag

ในภาษา HTML ซงมการประกาศชดคาสงตางๆ เปนรปแบบของ Tex Editor ดวยภาษา HTMLเชน ชอผพฒนา คาคนหา เจาของเวบ หรอ บลอกคาอธบายเวบหรอบลอกอยางยอ

DPU

6

ผลการคนหาของ Meta Search Engine น มกไมแมนยาเนองจากบางครงผใหบรการหรอผออกแบบเวบสามารถใสอะไรเขาไปไดมากมาย เพอใหเกดการคนหาและพบเวบหรอบลอกของตนเอง

2.1.2 ความรเบองตนเกยวกบเวบครอเลอร เนอหาในหวขอนอางองจาก (นรนดร องควฒนวทย, 2546: 3-5) เวบครอเลอรเปนโปรแกรมทพฒนาขนเพอใชประโยชนในการรวบรวมเวบเพจจาก

อนเทอรเนต กลมวจยหลากหลายกลมตางพยายามออกแบบและสรางเวบครอเลอรใหสามารถทางานไดอยางมประสทธภาพสงสดอยางไรกตามการออกแบบและลกษณะการทางานยงคงยดอยบนพนฐานเดยวกน และปรบปรงเปลยนแปลงมาจากแบบจาลองพนฐานแบบเดยวกน

2.1.2.1 แบบจาลองพนฐานของเวบครอเลอร

ภาพท 2.1 แบบจาลองพนฐานของเวบครอเลอร

ทมา: นรนดร องควฒนวทย (2546: 3)

เวบครอเลอรเปนโปรแกรมทสามารถรวบรวมเวบเพจไดโดยอตโนมต โดยเรมเกบเวบเพจจากยอารแอลเรมตน จากนนยอารแอลใหมทอยในเวบเพจนนจะถกแยกออกมาและนาไปตรวจสอบวากอนหนานไดเกบเวบเพจจากยอารแอลนมากอนหรอไม หากตรวจสอบพบวาเคยเกบมากอนจะไมเกบซ าซอนอก แตหากพบวาไมเคยเกบมากอนเวบครอเลอรจะตองเกบเวบเพจจากยอารแอลนน ขนตอนเหลานจะถกทางานวนรอบเสมอจนกวาจะถงจดสนสดการทางานซงม 2 กรณคอ เกบเวบเพจไดครบตามจานวนทกาหนด หรอไมพบยอารแอลทสามารถเกบตอไปได

DPU

7

แบบจาลองพนฐานของเวบครอเลอรประกอบดวย 3 สวนหลก ไดแก ยอารแอลคว (URL queue) ตวดาวนโหลด (Downloader) และตวพารสเซอรยอารแอล (URL Parser) ดงภาพท 1 โดยแตละสวนประกอบจะมลกษณะดงน

1) ยอารแอลคว ทาหนาทเกบยอารแอลทเวบครอเลอรพบในเวบเพจ แตยงไมไดไปเกบรวบรวมมา มลกษณะเปนยอารแอลควแบบเขากอนออกกอน ยอารแอลควนจะมกลไกในการตรวจสอบวา ยอารแอลทเขามาเปนยอารแอลทเวบครอเลอรเคยเกบมากอนหรอไม หากเคยเกบมาแลวยอารแอลนนจะไมถกนามาใสในยอารแอลคว ทงนเพอปองกนความซ าซอนในการรวบรวมเวบเพจ โดยกลไกของยอารแอลควนแสดงดงภาพท 2.2

ภาพท 2.2 กลไกการตรวจสอบยอารแอลกอนนาไปใสในยอารแอลคว

ทมา: นรนดร องควฒนวทย (2546: 4)

2) ตวดาวนโหลด ทาหนาทเกบเวบเพจจากอนเทอรเนต โดยตวดาวนโหลดจะดงยอารแอลออกจากยอารแอลคว

3) ตวพารสเซอรยอารแอล ทาหนาทแยกสวนของยอารแอลทพบในเวบเพจออกมา โดยยอารแอลทปรากฏในเวบเพจจะถกกากบดวยแทกของภาษาเอชทเอมแอล (HTML) ตวพารสเซอรยอารแอลจะอานเวบเพจและแยกสวนของยอารแอลทอยภายในแทก <a href=URL >ออกมาเพอนาไปใสในยอารแอลควตอไป

DPU

8

2.1.2.2 การหายอารแอลเรมตน เทคนคทใชในการหายอารแอลเรมตนม 3 วธ 1) ผใชกาหนดเอง (User Defined) วธนมกพบในเวบครอเลอรทถกสรางขนเปน

ระบบใหญ โดยกาหนดใหผใชใสยอารแอลเรมตนดวยตนเอง การใหผใชสามารถกาหนดยอารแอลเรมตนเองไดเปนสงทด เนองจากผใชอาจมความเชยวชาญในหวเรองนนอยกอนแลว เวบ ครอเลอรจงอาจไดยอารแอลเรมตนทดทสด อยางไรกตามหากผใชคนหนงไมเชยวชาญในหวเรอง ทาใหการกาหนดยอารแอลเรมตนเองโดยผใชมขอดอยมากกวาขอด

2) การใชเสรจเอนจน (Search Engine) วธนเปนการหายอารแอลเรมตนแบบอตโนมตโดยการนาคาสาคญของหวเรองทกาหนดใหไปสบคนกบเสรจเอนจน จากนนนาผลลพธจากการสบคนมาเปนยอารแอลเรมตน โดยวธ นไมตองใชผ เ ชยวชาญเขาไปเกยวของกบกระบวนการเกบรวบรวมเวบเพจ อยางไรกตามประสทธภาพของเสรจเอนจนตองมผลกระทบตอยอารแอลเรมตนอยางหลกเลยงไมได หากผลลพธจากการสบคนผดพลาด ยอารแอลเรมตนเหลานนอาจนาเวบครอเลอรไปในเสนทางทไมดกเปนได

3) ไดเรกทอร ทสรางโดยมนษยผเชยวชาญ (Expert human-edited Directory) ซงไดเรกทอร คอกลมของเวบเพจทถกจดหมวดหมตามหวเรองทกาหนด ภายในหวเรองหนงจะประกอบไปดวยเวบเพจทกลาวถงเรองนน วธนเปนการใชเวบเพจทถกจดหมวดหมแลว นามาเปนยอารแอลเรมตนใหแกเวบครอเลอร ไดเรกทอรสามารถสรางได 2 แบบคอ ใชระบบอตโนมต และใชมนษยผเชยวชาญ แนนอนวาไดเรกทอรทสรางโดยระบบอตโนมตมกมความถกตองนอยกวาไดเรกทอรทสรางดวยผเชยวชาญ ดงนนการหายอารแอลเรมตนจากไดเรกทอรแบบสรางเองโดยมนษยยอมไดยอารแอลเรมตนทมความเกยวของกบหวเรองอยางแนนอน ตวอยางไดเรกทอร ไดแก DMOZ ในประเทศไทยไดแก Truehits Directory, Sanook Directory, Narak Directory เปนตน

2.1.3 โปรแกรมคนหาสนคา (Product Search Engine) โปรแกรมคนหาสนคา คอ โปรแกรมคนหาชนดหนงทมความจาเพาะเจาะจงไปทขอมล

สนคาเทานน ซงแตกตางจากโปรแกรมคนหาธรรมดาทเกบขอมลทกรปแบบจากทกเวบไซต และการแสดงผลกไมไดแสดงแคเพยงชอเวบกบยอารแอลเทานน แตมการแสดงรปภาพสนคา ยอาร- แอลสนคา ราคาสนคา และรายละเอยดโดยยอของสนคา ตวอยางโปรแกรมคนหาสนคาไดแก Google shopping, Bing shopping, Yahoo shopping และเวบในประเทศไทยทมรปแบบใกลเคยงกบโปรแกรมคนหาสนคามากทสดไดแก Priceza.com

2.1.4 เวบไซต Google.com เวบไซต Google (www.Google.com) เปนเวบไซตทใหบรการในการคนหาขอมลบน

อนเตอรเนต โดยคนหาขอมลจากขอความหรอตวอกษรทพมพเขาไป แลวทาการคนหาขอมล

DPU

9

รปภาพ หรอเวบเพจทเกยวของนามาแสดงผล เวบไซต Google ไดรบความนยมอยางมากในกลมผใชงานอนเทอรเนตทตองการคนหาขอมล เวบไซต Google แบงหมวดหมของการคนหาออกเปน 4 หมวดหมดวยกนดงตารางท 2.1

ตารางท 2.1 หมวดหมการคนหาของเวบไซด Google.com

เวบ (Web) เปนการคนหาขอมลในรปแบบของเวบไซตตางๆ ทวโลก โดยการแสดงผล จะแสดงเวบไซตทมคาทเปน Keyword อยภายเวบไซตนน

รปภาพ (Images) เปนการคนหารปภาพจากการแปลคา Keyword

กลมขาว (News) เปนการคนหาขอมลทเปนเนอหาทอยในขาวซงมการระบชอผเขยนขาว หวขอขาว วนทและเวลาทโพสตขาว

สารบบเวบ (Web Directory)

Google มการจดประเภทของเวบไซตออกเปนหมวดหมซงเราสามารถคนหาเวบในเรองทตองการตามหมวดหมทมอยแลวไดเลย

2.1.5 เวบไซต Priceza.com

คอ เวบไซดทใหบรการคนหาขอมลราคาสนคา ทเกบรวบรวมขอมลจากรานคา ทงจากรานคาทมหนารานจรง (รานแบบออฟไลน) เชน Central, Power buy, Index living mall, Home pro, Big c, Jay mart, It city, World camera เปนตนและรานคาออนไลนหรอเวบพาณชยอเลกทรอนกสรายใหญ เชน tarad.com, shoppingpping.com, shopping.co.th, shopat7.com, trendyday.com เปนตน(Priceza.com, 2551)

2.1.6 รปแบบของเวบขายสนคา E-Commerce ภาวธ พงษวทยภาน (2551) รปแบบของการทาเวบไซต E-Commerce มหลายประเภท

ตามรปแบบการทางานของเวบไซตดงน 2.1.6.1 การประกาศซอ-ขาย (E-Classified) เปนรปแบบเวบไซต E-Commerce ทเปดโอกาสใหผทสนใจประกาศความตองการ

ซอ-ขาย สนคาของตนไดภายในเวบไซต โดยเวบไซตจะทาหนาทเสมอนกระดานขาวและตวกลางในการแสดงขอมลสนคาตางๆ และหากมคนสนใจสนคาทประกาศไว กสามารถตดตอตรงไปยงผ ประกาศไดทนทจากขอมลทประกาศอยภายในเวบไซต โดยสวนใหญจะมการแบงหมวดหมของประ เภทสนคา เอ าไว เพ อ ให ง า ย ตอการ เขา ไป เ ลอก ซอ -ขาย สนคา ใน เวบไซต เ ชน http://www.thaisecondhand.com/ การซอขายรปแบบน ผขายไมจาเปนตองมเวบไซตของตวเอง แต

DPU

10

ทาไดโดยอาศยพนทของเวบทเปดโอกาสใหประกาศขายของ กสามารถเรมตนการคาขายไดแลว ขอด คอ เรมตนไดงายทนท และฟร ขอเสย คอ ไมเหมาะกบผทมสนคาเปนจานวนมากๆ

2.1.6.2 เวบไซตแคตตาลอคสนคาออนไลน (Online Catalog Web Site) เปนรปแบบจดทาเวบไซต E-Commerce ในรปแบบแคตตาลอคออนไลน ทมรปภาพ

และรายละเอยดสนคาพรอมทอยเบอรโทรตดตอ ไมมระบบการชาระเงนผานทางเวบไซต หรอ ตะกราสนคาออนไลน ถาลกคาสนใจสามารถโทรสอบถามและสงซอสนคาได ซงเปนการใชเวบไซต เหมอนเปนโบรชวรหรอแคตตาลอคออนไลน เพอใหลกคาสามารถเขามาเลอกดรายละเอยดสนคาและราคาได จากทวประเทศหรอทวโลกผานทางเวบไซต ขอดของเวบแบบนคอ สรางไดงายเหมาะกบการคาในพนทหรอประเทศเดยวกน ขอเสยคอ ไมสามารถขายและรบเงนไดทนทจากลกคาทตองการชาระเงนผานเวบไซต

2.1.6.3 รานคาออนไลน (E-Shop Web Site) เปนรปแบบเวบไซต E-Commerce สมบรณแบบ ทมทงระบบการจดการสนคา ระบบ

ตะกราสนคา (Shopping Cart) ระบบการชาระเงน รวมถงการขนสงสนคาครบสมบรณแบบ ทาใหผ ซอสามารถสงซอสนคาและทาการชาระเงนผานเวบไซตไดทนท โดยการชาระเงนสวนใหญเปนการชาระผานบตรเครดต

ในการจดทาเวบไซตลกษณะน จาเปนตองมระบบหลายๆ อยางประกอบอยภายใน ซงมความซบซอนและมรายละเอยดในการจดทาคอนขางมาก อยางไรกตาม ในขณะนมเวบไซต E-Commerce สาเรจรป ทพรอมใหบรการและมการทางานทสมบรณ ทาใหสามารถเรมตนทาเวบลกษณะนไดอยางรวดเรว หากทานสนใจ รานคาออนไลน สามารถสมครใชบรการฟร

2.1.6.4 การประมลสนคา (Auction) เปนเวบไซต E-Commerce ทมรปแบบของการนาสนคามาประมลขาย โดยการแขงขน

เสนอราคาสนคา หากผใดเสนอราคาสนคาไดสงสดในชวงเวลาทกาหนด กจะชนะการประมลและสามารถซอสนคาชนนนไปได ดวยราคาทไดกาหนดไว โดยสวนใหญสนคาทนามาประมล หากเปนสนคาใหม ซงหลงการประมลสนคาจะมราคาทไมสงกวาราคาทองตลาด ยกเวนสนคาเกาบางประเภท หากยงเกามากยงมราคาสง เชน ของเกา ของสะสม เปนตน เชน http://auction.tarad.com/ และ http://www.ebay.com/

2.1.6.5 ตลาดกลางอเลกทรอนกส (E-Marketplace) เปนเวบไซต E-Commerce ทมรปแบบเปนตลาดนดขนาดใหญ โดยภายในเวบไซตจะม

การรวบรวมเวบไซตของรานคาและบรษทตางๆ มากมาย โดยมการแบงหมวดหมของสนคาเอาไว เพอใหผใชสามารถเขาไปดสนคาภายในรานคาตางๆ ภายในตลาดไดงายและสะดวก โดยรปแบบ

DPU

11

ของตลาดกลางอเลกทรอนกส บางแหงมการแบงออกเปนหลายรปแบบ ตามลกษณะของสนคาทมอยภายในตลาดแหงนน เชน ตลาดสนคาทวไป http://www.tarad.com/ เวบไซตตลาดกลางอเลกทรอนกสเกยวกบอาหาร http://www.foodmarketexchange.com/ เวบไซตตลาดกลางอเลกทรอนกสของสนคา OTOP อยาง http://www.thaitambon.com/ เปนตน

2.2 งานวจยทเกยวของ

งานวจยในดานนปรากฏใหเหนในกลางป 1990 และนกวเคราะหเทคโนโลยในขณะนนไดมการทานายวา จะมผลกระทบอยางมากตอผขายและวธการดาเนนธรกจในอนาคต ตวอยางเวบ ครอเลอรสาหรบโปรแกรมคนหาสนคาในยคแรกเรยกวา Shopbot ซงใชสาหรบการเปรยบเทยบราคาคอ BargainFinder พฒนาโดย (B.T. Krulwich, 1996: 258-263) ซงอนญาตใหผใชสามารถเปรยบเทยบราคาของซดเพลงจากรานคาปลกออนไลน แตรานคาปลกจานวนมากเรมบลอกการเขาถงของเวบครอเลอรจาก BargainFinder เพราะเวบครอเลอรจาก bargainfinder นนมการประเมนผขายจากราคาจากราคาเทานนและละเวนคณสมบตอนๆ ทงหมดทรานคาปลกเพลงออนไลนไดสรางไวในเวบไซตของตน ในทสด BargainFinder ตองหยดปฏบตการ

ภาพท 2.3 การทางานของ Shopbot (R.B. Doorenbos, O. Etzioni, and D.S.Weld)

ทมา: R.B. Doorenbos, O. Etzioni, and D.S.Weld.(1997: 43)

DPU

12

จากปญหาท BargainFinder พบทาใหมการพฒนา (R.B. Doorenbos, O. Etzioni, and D.S.Weld., 1997:39-48) ซงมการทางานดงภาพท 2.3 โดยเวบครอเลอรทตองทางานผานตวกลางทเรยกวา wrapper ซงมหนาทในการสกดขอมล ราคา รายละเอยดสนคา หรอขอมลทมกใชในการตดสนใจซอสนคา ออกมาจากเวบไซดแตละเวบดวยวธ “screen-scraping” คอเขาไปอานขอมลจากหนาเวบไซตทตองการแลวสกดเอาขอมลและแทกภาษา HTML ทไมตองการทงไป ใหเหลอเฉพาะขอมลทตองการวธนคอนขางยงยาก ถาเวบไซตตนทางมการเปลยนโครงสรางกจะตองแกไขโปรแกรมตาม และนอกจากน wrapper แตละตวทางานไดกบเวบเพยง 1 เวบ Shopbot นถกเปลยนชอในเวลาตอมาเปน jango และถกซอและจดทะเบยนธรกจโดย excite ในป 1997

ภาพท 2.4 การทางานของ Shopbot ใน (Maria Fasli)

ทมา: Maria Fasli.(2006: 72) ตอมาไดมการพฒนาเวบครอเลอรทไปตดตอกบสวนจดการขอมลของเวบขายสนคา

โดยตรงคอ (Maria Fasli, 2006:69-75) มการทางานดงรปภาพท 2.4 โดยมการนาเทคโนโลยใหมๆเขามาชวยไดแก เวบเซอรวส (web service) และใชทฤษฎในดานออนโทโลยในการจดแบงหมวดหมสนคา เวบครอเลอรจะทางานโดยการรองขอขอมลไปทเวบเซอรวสของเวบขายสนคาโดยตรงทาใหไดขอมลทถกตองแมนยาและประหยดเวลา แตเนองจากงานวจยชนนทาขนเพอโปรแกรมคนหาสนคาในประเทศไทยซงมเพยงไมกเวบเทานนทใชเทคโนโลยเวบเซอรวส วธนจงไมเหมาะทจะนามาใชงาน

ดงนนงานวจยนจงออกแบบและพฒนาเวบครอเลอรใหมความสามารถในการคดแยกขอมลสนคาบางอยางเชน ราคา รปภาพ ชอสนคา ลงคสนคา และรายละเอยดโดยไมผานตวกลางหรอ wrapper (R.B. Doorenbos, O. Etzioni, and D.S.Weld., 1997: 39-48) และเกบขอมลจากเวบขายสนคาในประเทศไทยใหไดอยางมประสทธภาพ

DPU

บทท 3 วธการดาเนนการและเครองมอ

การวจยนเปนการวจยเพอหาขนตอนและวธการสกดขอมลสนคาบนเวบเพจสาหรบเวบครอเลอร เพอนาไปใชในโปรแกรมคนหาสนคา 3.1 การศกษาคนควาขอมล 3.2 การออกแบบขนตอนและวธการสกดขอมลสนคา 3.3 การกาหนดแบบแผนการวดประสทธผล 3.4 การวดประสทธผล 3.5 เครองมอทใชในการวจย 3.1 การศกษาคนควาขอมล ผวจยไดศกษาและคนควาขอมลจากแหลงตางๆ ในหวขอตอไปน

3.1.1 ศกษาเกยวกบโปรแกรมคนหาสนคา งานวจยนไดทาการศกษาโปรแกรมคนหาทมอยในปจจบนและกาลงเปนทนยม ทงใน

ตางประเทศเชน Google Product Search, Shopping.com, Price Grabber และ Shopzilla และของไทยเชน priceza.com ซงพบวา ขอมลทสาคญและจาเปนทสดสาหรบโปรแกรมคนหาสนคาไดแก ชอสนคา รปภาพสนคา ราคาสนคา ยอารแอลสนคา และรายละเอยดยอของสนคาดงภาพท 3.1

จากการศกษาการใชงานโปรแกรมคนหาสนคา พบวาขอมลขางตนนสงผลถงความสะดวกสบายและใชงานงายของผใช เชน การจดเรยงลาดบตามราคาสนคา การคนหาตามชอสนคา หรอรายละเอยดสนคา เปนตน ดงนนการสกดขอมลขางตนใหออกมาอยางถกตองจงมสวนสาคญอยางยงตอโปรแกรมคนหาสนคา

DPU

14

ภาพท 3.1 ผลการคนหาจาก Google Product Search ทมา: www.google.com/shopping, 2554, ธนวาคม 20.

3.1.2 ศกษาเกยวกบเวบขายสนคา จากการศกษาเวบขายสนคาในประเทศไทย สวนใหญจะมหนารวมสนคาทมการรวม

สนคาหลายๆอยางทมในเวบไวในหนาเดยว ดงภาพท 3.2 โดยจะแสดงขอมลแตละสนคาเชน ราคาสนคา รปสนคา รายละเอยดยอ และยอารแอลสนคา ซงจะเหนวาเปนขอมลทครบถวนและจาเปนสาหรบโปรแกรมคนหาสนคาดงทกลาวในหวขอ 3.1.1 และทาใหเวบครอเลอรทใชงานในโปรแกรมคนหาสนคาไมจาเปนตองเขาไปเกบทกๆ ยอารแอลในเวบขายสนคานนๆ ดวย ดงนนจากประโยชนของหนารวมสนคาทาใหเราหาทางสรางขนตอนวธการสกดขอมลสนคาจากหนารวมเหลาน

DPU

15

ภาพท 3.2 ตวอยางหนารวมสนคาจากเวบขายสนคา ทมา: จาก http://www.computer4u.com, 2554, ธนวาคม 25.

3.1.3 ศกษาเกยวเวบครอเลอรทใชในการสกดขอมลสนคา จากงานวจยทกลาวถงในหวขอท 2.2 จะพบวา วธการสกดขอมลสนคานนทาไดหลาย

อยางต งแตอดตจนถงปจจบน จนพบวาทางเปนไปไดทจะทาการสกดขอมลสนคาจากเวบในประเทศไทยนน ไมสามารถใชเทคโนโลยเวบเซอรวสได ดงนนจงตองใชการสกดขอมลจากโครงสรางภาษา HTML ทเรยกวา DOM แทน ซงคอ การสรางโหนดในของ HTML Tag ขนมา โดยมโครงสรางลกษณะตนไม หรอ DOM Tree ดงภาพท 3.3 ซงมลาดบชนของโหนดลดหลนลงไป โดยโหนดทอยเหนอกวาเรยกวา โหนดแม โหนดทอยต ากวาเรยกวา โหนดลก และโหนดขางเคยงคอ โหนดพนอง ซงโหนดแมจะมโหนดลกไดหลายโหนด แตโหนดลกสามารถมโหนดแมไดเพยงโหนดเดยว ตวอยางเชน โหนด TEXT ทลาดบลางสด (ในกรอบเสนปะ) มโหนดแม คอ P ซงจะเหนวาโหนด TEXT ทง 2 อนจะมโหนดแมไดเพยงโหนดเดยว แตโหนด P สามารถมโหนดลกเทาไหรกได

DPU

16

ภาพท 3.3 ตวอยาง DOM Tree

3.2 การออกแบบขนตอนและวธการสกดขอมลสนคา การออกแบบขนตอนและวธการสกดขอมลสนคา จะใชการวเคราะห DOM Tree เพอหาโหนดและขอมลสนคาซงแบงเปนขนตอน ดงตอไปน

3.2.1 วเคราะห DOM ในหนารวมสนคาของเวบขายสนคา จากการศกษา DOM ในหนารวมสนคาพบวา แตละสนคาจะอยแยกกนดงภาพท 3.4 ดงนน ตองหาวธการแยกโหนดแตละอนออกจากกน โดยเรยกโหนดแตละอนวา โหนดสนคา และสงทเหนไดชดเจนทสดคอ รปภาพของสนคา (IMG) ซงจะม 1 โหนด ตอ 1 รปสนคาเทานน เพราะราคาสนคาในแตละโหนดบางครงอาจจะมหลายราคาเชน ราคาปกต ราคาลด ราคาขาย เปนตน จงทาใหเรามงความสนใจไปทรปภาพสนคาวาควรจะใชเปนตวแยกโหนดสนคาออกจากกน แตในหนาเวบนนประกอบไปดวยรปภาพตางๆ ทงรปทไมใชรปสนคา เชน ไอคอนและแบนเนอร ดงนนเราจงตองกาจดรปทไมจาเปนเหลานออกไป จากการศกษางานวจย (Worasit Choochaiwattana, Winyu Niranatlamphong, and Michael B.Spring., 2007) ซงนาเสนอวธการแยกรปภาพสาคญในหนาเวบ โดยการตดรปไอคอน และแบนเนอรออกไป ดวยวธการใชขนาดของรปภาพไดแก ความกวาง ความยาว และอตราสวน

BODY HEAD

HTML

TABLE

TR

TD TD

SPAN P IMG TEXT

TR

TD TD

IMG TEXT DIV TEXT

IMG Tag เนอหาขอมล TEXT TEXT

DPU

17

ภาพ ซงพบวาเปนวธทงายและมประสทธภาพ เราจงนามาประยกตใชในงานวจยนโดยมการปรบเปลยนเกณฑการกาจดรป ดงน 1. ความกวางตองไมนอยกวา 50 พกเซล 2. ความยาวตองไมนอยกวา 50 พกเซล 3. อตราสวนกวางตอยาว ระหวาง 0.5 ถง 2 เกณฑตางๆ ไดจาการสารวจหนารวมสนคาจากเวบขายสนคา 20 เวบและใชขนาดทตาทสดทพบ

ภาพท 3.4 ตวอยางโหนดในภาษา HTML กบโหนดสนคา 1 โหนด 1 สนคา

และเมอไดรปภาพทผานเกณฑขางตน ตอไปกจะทาการตรวจสอบวาโหนดทคาดวาจะเปนโหนดสนคาคอโหนดใด จากการสารวจขางตน พบวา แตละโหนดสนคาจะมรปภาพเพยง 1 รปดงนน จงทาการเลอนลาดบชนของ DOM Tree จนกระทงพบรปภาพทผานเกณฑมากกวา 1 รป จงระบไดวาโหนดลาดบลางกอนหนาทจะเลอนขนมาครงลาสดอาจจะเปนโหนดสนคา ทใชคาวา อาจจะเปนโหนดสนคาเนองมาจากตองผานขนตอนการวเคราะหหาราคาตอไปเพอใหแนใจวาเปนโหนดสนคาจรงๆ

BODY HEAD

HTML

TABLE

TR

TD TD

IMG TEXT IMG TEXT

TR

TD TD

IMG TEXT IMG TEXT

รปสนคา ขอมลสนคา

โหนดสนคา

DPU

18

3.2.2 การวเคราะหหาราคาสนคา โดยใชการวเคราะหทางภาษาเชน หนวยของเงน เงนบาท (ไทย: บาท; ตวละตน: Baht;

สญลกษณ: ฿; รหสสากลตาม ISO 4217: THB) (encyclopedia.) โดยพจารณาไดวา ตวแรกทอยกอนหนาหนวยเหลาน คอ ราคาสนคา หรอจากคาเรมตนเชน ราคา price กจะพบวาตวเลขทอยหลงจากคาเหลานคอ ราคาสนคา

ขอมลทใชในการวเคราะหคอ โหนดทอาจจะเปนโหนดสนคาทไดจากการวเคราะหในหวขอ 3.2.1 โดยกาจด HTML Tag ออกไป ใหเหลอเพยงขอมลทเปน TEXT เทานน เมอตรวจพบราคาแลว จงมนใจไดวานคอ โหนดสนคา จากนนจงหาวธสกดขอมลทตองการทเหลอตอไป

สาหรบกรณทพบราคามากกวา 1 ราคาเชน ราคาปกต กบ ราคาขาย ระบบจะสกดราคาทตากวาออกมา

3.2.3 การวเคราะหหายอารแอลสนคา จากการสารวจหนาเวบขายสนคาพบวา ยอารแอลสนคาจะครอบรปของสนคาอยดงน

<a href=”ยอารแอลสนคา” >รปสนคา</a>ดงนนเราจงทาการสกดยอารแอลสนคาซงอยภายใน A Tag และอยใน Attribute href ออกมา

3.2.4 การวเคราะหหารายละเอยดยอของสนคา รายละเอยดยอของสนคาเราจะใชขอมลทเปน TEXT ทงหมดหลงจากกาจด HTML Tag

ออกไปเปนรายละเอยดยอของสนคา

3.3 การกาหนดแบบแผนการวดประสทธผล การกาหนดแผนการวดประสทธผลแบงเปนขนตอนได ดงตอไปน

3.3.1 การสรางเวบครอเลอรเพอวดประสทธผล เวบครอเลอรโดยรวมมกระบวนการดงภาพท 3.5 ซงสามารถอธบายไดดงน 1. ยอารแอลเรมตน คอ ยอารแอลแรกทตองการใหเวบครอเลอรเขาไปดาเนนการดาวนโหลดขอมล 2. ยอารแอลคว คอ ลาดบของยอารแอลทตองการใหเวบครอเลอรเขาไปดาวนโหลดขอมล 3. ฐานขอมล คอ ทเกบรวบรวมขอมลทงหมดทเวบครอเลอรดาวนโหลดหรอสกดออกมาได 4. สวนภายในกรอบเสนประคอสวนของงานวจยน

DPU

19

ภาพท 3.5 กระบวนการทางานของเวบครอเลอร

ดงนนงานวจยนไมไดสรางเวบครอเลอรแบบสมบรณแตจะสรางเฉพาะกระบวนการในกรอบเสนประเพอใชในการประเมนประสทธผลของขนตอนวธสกดขอมลสนคาเทานน ซงเวบ ครอเลอรนจะมหนาทดงน 1. ดาวนโหลดหนารวมเวบขายสนคา ซงยอารแอลทไดนนมาจากการคดเลอกโดยมนษย 2. สกดขอมลสนคาซงจะดาเนนตามขนตอนทไดจากการวเคราะหในหวขอ 3.2

3.3.2 การสรางหนาเวบแสดงผลทไดจากการสกดขอมลสนคาของเวบครอเลอร เนองจากขนตอนและวธการทเราไดพฒนานนสามารถแยกขอมลสนคาได 4 อยางดวยกน คอ รปสนคา ราคาสนคา รายละเอยดยอสนคา และยอารแอลสนคา และใชการสกดขอมลจากมนษยเปนเกณฑในการวดประสทธผล ดงนนจงตองออกแบบหนาแสดงผลใหงายตอการตรวจสอบความถกตองของขอมลทไดสกดมา โดยสรางหนาเวบแสดงผลดงภาพท 3.6

ดาวนโหลดหนาเวบ

สกดขอมลสนคา

ยอารแอลเรมตน ยอารแอล

ขอมลหนาเวบ

นายอารแอลทไมใชสนคามาใสในยอารแอลคว

ยอารแอลคว

นาขอมล รปภาพ ราคา รายละเอยดยอย และยอ า ร แอล สนคา ไป เกบลง ในฐานขอมลเพอรอดาเนนการทาดชน

ฐานขอมล

ยอารแอลทไมใชสนคา

กระบวนการทางานในงานวจยน DPU

20

ภาพท 3.6 ตวอยางหนาเวบผลลพธการสกดขอมลสนคา

จากภาพท 3.6 สามารถอธบายสวนตางๆ ของหนาเวบ ตามตวเลขสแดงทปรากฏ ไดดงตอไปน 1. ชองสาหรบกรอกยอารแอลของหนารวมสนคาทไดจากการคดเลอกของมนษย 2. แสดงจานวนผลลพธทไดทงหมด

DPU

21

3. คอลมนสาหรบเชคความถกตอง ชองนเปนชองสาหรบเชคขอมลความถกตองโดยใชมนษยเปนผตรวจสอบวาขอมลในแถวนน มรายละเอยดใดถกตองบาง ถาถกตองกจะทาการเชคทชองหนาขอมลแตละอน เชน image คอ รปภาพถกตอง detail คอ รายละเอยดยอถกตอง link คอ ยอารแอลสนคาถกตอง และ price คอ ราคาสนคาถกตอง 4. คอลมนรปภาพสนคา ชองนจะแสดงรปภาพสนคาทไดสกดออกมา 5. คอลมนรายละเอยดยอกบยอารแอลสนคา 6. คอลมนปมสาหรบกดเพอเชควายอารแอลทไดนนตรงกบยอารแอลในหนาเวบจรงหรอไม 7. คอลมนราคาสนคา 8. ชองสาหรบกรอกจานวนสนคาจากหนาเวบจรง ทไดจากการตรวจสอบโดยมนษย 9. ปมสาหรบกดเพอแสดงผลการประเมน

3.3.3 การคดเลอกยอารแอลทใชในการทดลอง เวบไซตขายสนคาทมอยในประเทศไทยนนมอยดวยกน 5 รปแบบ (ภาวธ พงษวทยภาน, 2551) คอ เวบประมลสนคา (E-Auction) เวบแคตตาลอคออนไลน (Online Catalog Web Site) เวบประกาศซอ-ขาย (E-Classified) เวบรานคาออนไลน (E-Shop Web Site) และเวบตลาดกลางอเลกทรอนกส (E-Marketplace) ทกลาวรายละเอยดในหวขอ 2.1.6

ตารางท 3.1 ผลการสารวจรปแบบเวบไซตในโปรแกรมคนหาสนคา จาก 100 ผลการคนหา

เวบไซต E- Auction E- Catalog E-Shop E- Marketplace E- Classified Google.com/Product 0 3 92 5 0 Pricegrabber.com 3 3 89 5 0

จากการศกษาโปรแกรมคนหาสนคาระดบโลกพบวาใหผลดงตารางท 3.1 พบวา เวบทเหมาะสมกบโปรแกรมคนหาสนคามเพยง 3 รปแบบคอ เวบรานคาออนไลน (E-Shop Web Site) เวบแคตตาลอคออนไลน (Online Catalog Web Site)และเวบตลาดกลางอเลกทรอนกส (E-Marketplace) แมวาในประเทศไทยจะมสารบญเวบทแยกหมวดหมของเวบไซตในประเทศไทย แตยงคงไมมเวบไซดใดทแยกหมวดหมออกมาไดอยากละเอยดถงรปแบบเวบ E-Commerce ดงนนการเลอกยอารแอลจงทาการเลอกจากโปรแกรมคนหา Google โดยใสคาคนหาเปนรปแบบเวบ

DPU

22

E-Commerce ดงตารางท 3.1โดยเลอกผลลพธในหนาแรกจานวน 3 เวบตอคาคนสาหรบเวบรานคาออนไลน และ 10 เวบตอคาคนสาหรบเวบตลาดกลางอเลกทรอนกส โดยเกณฑการเลอกนนจะสมเลอกจากผลการคนหา

ตารางท 3.2 คาคนหาทใชในการสมเลอกจากผลลพธการคนหาใน Google

ชนดเวบไซต E-Commerce

คาคนหา

จานวนเวบททาการสมจากผลลพธการคนหาตอ

คาคน เวบรานคาออนไลน “ขายหนง” “ขายเสอผา” “ขายเครองสาอาง” “ขายจ

พเอส” “ขายรองเทา” “ขายแบตเตอรร” “ขายเครองประดบ” “ขายนาหอม” “ขายคอม” “ขายเกม”

3

เวบตลาดกลางอเลกทรอนกส

“รานคาออนไลน” 10

คาคนในตารางท 3.2 นนไดจากการทดลองหาคาคนทใหผลลพธเปนเวบในรปแบบทตองการ พบวา เวบรานคาออนไลนใชคาคนเปน “ขาย” กบชนดสนคาจะใหผลลพธเปนเวบรานคาออนไลน แตทแยกเปนหลายชนดเพอความหลากหลายของขอมลทใชในการประเมนผล สาหรบเวบชนดตลาดกลางอเลกทรอนกสน นใชคาคนเพยงคาเดยววา “รานคาออนไลน” กเพยงพอเนองจากเวบชนดตลาดกลางอเลกทรอนกสนน เปนเสมอนตลาดทมสนคาหลากหลายอยแลว จากนนเมอไดเวบขายสนคาทเลอกมาแลวจะทาการเลอกหนาเวบภายในเวบไซตทเกบหนารวมสนคา เชน หนาแรก หรอหนาแยกหมวดหมสนคา เปนตน โดย 1 เวบจะเลอกมา 3 ยอารแอลดงตารางท 3.3

ตารางท 3.3 ชนดและจานวนเวบไซตทใชในการทดลอง

ชนดเวบไซต E-Commerce ในไทย จานวนหนาเวบ เวบรานคาออนไลน 30 เวบตลาดกลางอเลกทรอนกส 30

3.3.4 ขอมลผประเมน

นกศกษาในระดบปรญญาโทของมหาวทยาลยธรกจบณฑตย

DPU

23

3.4 การวดประสทธผล จากทกลาวไวในสวนของขอบเขตการวจยวา ใชการสกดขอมลโดยมนษยเปนเกณฑใน

การวดประสทธผล ดงนนขนตอนการวดประสทธผล จงมขนตอนใหผประเมนปฏบตดงน 3.4.1 กรอกยอารแอลในชองหมายเลข 1 ดงภาพท 3.7

ซงจะขอยกตวอยางเปนยอารแอลตอไปน http://www.f10shop.com/category.aspx?id=040&pi=0&p=1 โดยการนา ยอ า รแอล

ดงกลาวไปกรอกในชองหมายเลข 1 จากนนกดปม “GO” ระบบจะทาการสงยอารแอลไปยง เวบครอเลอรเพอทาการดาวนโหลด และสกดขอมล เมอเวบครอเลอรทาการสกดขอมลเสรจเ ร ย บ ร อ ย จ ะ ส ง ก า ร แสด งผลหน า เ ว บ ด ง ภ าพ ท 3 . 7 ซ ง ผ ลก า รสกด ขอ ม ล จ า ก http://www.f10shop.com/category.aspx?id =040&pi=0&p=1 ทมหนาเวบดงภาพท 3.8

DPU

24

ภาพท 3.7 ตวอยางผลลพธการสกด 1 สนคา ทมา: http://www.f10shop.com/category.aspx?id =040&pi=0&p=1

DPU

25

ภาพท 3.8 ตวอยางหนารวมสนคาทใชในการประเมน

ทมา : http://www.f10shop.com/category.aspx?id=040&pi=0&p=1, 2555, กมภาพนธ 26.

DPU

26

3.4.2 ทาการเปดหนาเวบดวยยอารแอลเดยวกบขอท 3.3.1 ดวยเวบเบราเซอรดงภาพท 3.8 เมอเปดหนาเวบเสรจแลวตอไป ผประเมนจะทาการตรวจสอบ ในหนาเวบนน วามสนคาทงหมดกสนคาและนาไปกรอกใสชองท 8

3.4.3 ทาการตรวจสอบผลลพธทไดจากขนตอนท 3.3.1 วธการตรวจสอบทาไดโดยการตรวจเชค วามรายละเอยดใดถกตองบาง ถาถกตองกจะทาการเชคทชองหนาขอมลแตละอน เชน image คอ รปภาพถกตอง detail คอ รายละเอยดยอถกตอง link คอ ยอารแอลสนคาถกตอง และ price คอ ราคาสนคาถกตอง การตรวจเชคนนจะใชตวอยางในภาพท 3.9 และ ภาพท 3.10 ในการอธบาย

ภาพท 3.9 ตวอยางผลลพธการสกด 1 สนคา

ภาพท 3.10 ตวอยางสนคา 1 สนคาจากหนาเวบ

จากภาพท 3.9 และ 3.10 เปนสนคาชนเดยวกน ซงภาพท 3.9 เปนภาพทไดจากผลการสกดขอมลสนคา และภาพท 3.10 เปนภาพจรงจากหนาเวบและสามารถตรวจสอบไดดงน 1. รปภาพเปนรปเดยวกนถอวาการสกดรปออกมาไดอยางถกตอง ผประเมนจะทาการเชคในชองหนา image

DPU

27

2. ดรายละเอยดยอ คอ เนอหาทงหมดในโหนดสนคาซงกคอเนอหาทงหมดในภาพท 3.10 ซงสกดออกมาไดถกตอง ผประเมนจะทาการเชคในชองหนา detail 3. ผประเมนทาการกดทปม “GO” จะแสดงหนาเวบออกมาดงภาพท 3.11 พบวาเปนหนาเวบเดยวกนกบเมอผประเมนกดทยอารแอลบนรปภาพสนคาในภาพท 3.10 ถอวาการสกด ยอารแอลสนคาออกมาไดอยางถกตอง ผประเมนจะทาการเชคในชองหนา link

ภาพท 3.11 หนาเวบเมอกดทปม “GO” จากภาพท 3.9

ทมา: http://www.f10shop.com/products.aspx?0124, 2555, กมภาพนธ 26.

DPU

28

4. ราคาทแยกออกมาไดจากทงภาพท 3.9 คอ 90 บาทซงขนตอนสกดราคาไดทาการวเคราะหเลอกราคาทตาทสนคาในหนาขายสนคานนออกมา ซงเมอเทยบกบภาพท 3.10 พบเปนราคาทตาทสดคอ 90 บาท ถอวาการราคาออกมาไดอยางถกตอง ผประเมนจะทาการเชคในชองหนา price จากนนจะดาเนนการตรวจสอบจนครบทกสนคาทแสดงในหนาผลลพธการสกดขอมล

3.4.4 การคานวณผลการประเมน เมอผประเมนไดทาการดาเนนการตรวจสอบจนครบทกสนคาในหนาผลลพธการสกดขอมลแลว ผประเมนจะทาการกดปม “Check Score” ดงภาพท 3.7 หมายเลข 9 จะแสดงหนาตางดงภาพท 3.12 เพอนาผลทไดไปบนทกขอมลและทาการคานวณคาความถกตอง โดยการคานวณจะใชสตรการคานวณความถกตองดงสมการท 1

ภาพท 3.12 ตวอยางผลการคานวณจานวนความถกตองโดยมนษย แยกแตละรายละเอยด

Accuracy = TP + TN / (TP + TN + FP + FN)(encyclopedia,2007) (1) TP (True Positive) คอจานวนขอมลสนคาทงหมดทสกดออกมาไดอยางถกตอง TN (True Negative) คอจานวนขอมลทไมใชสนคาและไมไดทาการสกดออกมา FP (False Positive) คอจานวนขอมลทไมใชขอมลสนคาแตถกสกดออกมา FN (False Negative) คอจานวนขอมลสนคาทไมไดถกสกดออกมา จากขอมลในภาพท 3.12 สามารถคานวณคาความถกตองได ดงตารางท 3.4

DPU

29

ตารางท 3.4 ตวอยางตารางบนทกคาความถกตองจากยอารแอล http://www.f10shop.com/category.aspx?id=040&pi=0&p=1

ยอารแอลทตรวจสอบ การสกดดวย ผประเมน

การสกดดวยวธในงานวจย Accuracy TP TN FP FN

http://www.f10shop.com/category.aspx?id=040&pi=0&p=1

11 11 0 0 0 1

3.5 เครองมอทใชในการวจย

3.5.1 ฮารดแวร PC Computer Processor : Intel® Core™ i5-2400 CPU @ 3.10 GHz 3.30 GHz Ram : 4.00 GB System : Windows 7 Ultimate 32 bit

3.5.2 ซอฟตแวร Firefox และ Netbean 7.0

DPU

บทท4 ผลการศกษา

4.1 ผลการออกแบบขนตอนและวธการสกดขอมลสนคา จากการออกแบบขนตอนและวธการสกดขอมลสนคา ทาใหไดผลออกมาเปนขนตอนดงตอไปน

4.1.1 ดาวนโหลดหนาเวบ เวบครอเลอรทาการเกบขอมลหนาเวบในภาษา HTML

4.1.2 การสกดโหนดสนคา แบงออกเปนกระบวนการยอยไดดงรปท 3.3. และมรายละเอยดดงน

4.1.2.1 ทาการสรางโหนด DOM element ดวย Htmlparser ไลบราร ทาการสรางออฟเจคในภาษาจาวาทเปน โหนดของภาษา HTML ใน DOM Structure

โดยมไลบรารสาเรจรปในการสราง จากนนจะสามารถใช method ในการจดการเกยวกบ element ใน DOM Structure ตวอยางเชน getParent(), getChildren() เปนตน รวมถงการคดกรองชนดของ HTML Tag เชน TagNameFilter หรอ AttributeFilter เปนตน โดยเราจะใช DOM ทไดจาก IMG Tag ทงหมดในหนาเวบนนๆ มาดาเนนการ

ภาพท 4.1 โครงสราง DOM 1 โหนด 1 สนคา

TABLE

TR

TD TD

IMG TEXT IMG TEXT

TR

TD TD

IMG TEXT IMG TEXT

รปสนคา ขอมลสนคา

โหนดสนคา

DPU

31

4.1.2.2 การตรวจสอบรปภาพสนคา จากโครงสรางเวบขายสนคาดงรปท 3.1 แสดงใหเหนวาแตละสนคาจะมสวนประกอบทเหมอนกน และทเดนชดทสดคอรปภาพซงไดมาจากขนตอนในหวขอ 3.2.3.1 จาก IMG tag ในภาษา HTML ดงนนงานวจยนจงใชรปภาพเปนปจจยแยกในการสกดขอมลสนคาโดยใชเกณฑทไดจากหวขอ 3.2.1 ดงน 1. ความกวางตองไมนอยกวา 50 พกเซล 2. ความยาวตองไมนอยกวา 50 พกเซล 3. อตราสวนระหวาง 0.5 ถง 2

4.2.3.3 การเลอกโหนดหรอ Element ทใชในการสกดขอมลสนคา จากตวอยางโครงสราง DOM ในรปท 4.1 จะเหนวาในแตละโหนดสนคาหนงโหนด จะมรปสนคาเพยงรปเดยวดงโครงสรางในรปท 3.4 ดงนนการเลอกโหนดจงจะเลอกเฉพาะโหนดทมรปสนคาเพยงรปเดยว จากรปท 3.2 จะเหนวาจะใชการคดกรองเรมตนจาก IMG Tag ดงนนจดเรมในแตละ Loop จะเขาไปทรปภาพสนคาโดยตรง แตจะใชการตรวจสอบโดยการเลอนออกมาทโหนดแมดวย getParent() เรอยๆ จนพบ รปสนคา 2 รปเรากจะทาการเลอกโหนดกอนหนาคอ โหนดลาสดทยงมรปสนคารปเดยวอย

4.1.2.4 การสกดราคาสนคา โดยการวเคราะหทางภาษาเชน หนวยของเงน เงนบาท (ไทย: บาท; ตวละตน: Baht;

สญลกษณ: ฿; รหสสากลตาม ISO 4217: THB) โดยพจารณาไดวา ตวแรกทอยกอนหนาหนวยเหลาน คอ ราคาสนคา หรอจากคาเรมตนเชน ราคา price กจะพบวา ตวเลขทอยหลงจากคาเหลานคอ ราคาสนคา

และจากผลการสกดราคาสนคาถาโหนดใดไมสามารถสกดราคาสนคาออกมาไดกจะไมถอวาเปนโหนดสนคา และจะไปดาเนนการรบรปภาพใหมต งแตขนตอนท 4.2.2.2 อกครงจนกระทงไมมรปภาพเหลอในหนาเวบนน

4.1.3 การสกดขอมลสนคา หลงจากทไดราคามาแลวทาใหเรามนใจไดวาโหนดนนเปนโหนดของสนคา กจะมา

ดาเนนการสกดขอมลสนคาตอไป 4.1.3.1 สกดยอารแอลของสนคา โดยทาการเกบยอารแอลทครอบอยกบรปภาพสนคาดงรปแบบภาษา HTML ดงน

<a href=”ยอารแอลของสนคา” ><imgsrc=”รปภาพสนคา” ></a>

DPU

32

4.1.3.2 สกดรายละเอยดยอยของสนคา โดยทาการเกบขอมลจากโหนดของสนคาทไดผานการตด HTMLTag ออกไปหมดแลว

ถงแมวาในสวนนจะไมใชชอสนคาโดยตรง แตจะทาใหสวนของการทาดชนประหยดเวลาไปอยางมากในการหาชอของสนคา เพราะเนอหาทไดมเพยงไมมกตวอกษรเทานน ตางกบการทาดชนปกต ทตองอาศยการวเคราะหจากหนาเวบขายสนคาทงหนากคอหนาเวบทเกบไดจากยอารแอลในขอ 4.1.3.1 จากขนตอนขางตนแสดงไดดง Flow Chart ดงภาพท 4.2 DPU

33

ภาพท 4.2 กระบวนการสกดขอมลสนคา

**ตรวจสอบวาผานเกณฑรปภาพสนคาหรอไม

ดาวนโหลดขอมลหนาเวบ

ทาการสรางโหนด DOM

มโหนดชนดimg ?

กวาง >= 50px ยาว >= 50px สดสวน <= 2

วดขนาดรปภาพ

โหนดแมม รปภาพสนคา

> 2รป?

เลอนไปทโหนดแม

เลอนไปทโหนดลกกอนหนา

ม ราคา ?

สกดขอมลสนคา

END

ใช

ไม

ไม

ใช

ใช

ไม

ใช

ไม DPU

34

4.2 ผลการประเมนผลขนตอนและวธการสกดขอมลสนคา ตารางท 3.1 ตารางผลการประเมนขนตอนการสกดขอมลสนคา

ชนดเวบไซต E-Commerce Accuracy

เวบรานคาออนไลนและ เวบไซตแคตตาลอกสนคาออนไลน

88.4%

เวบตลาดกลางอเลกทรอนกส 77.3%

จากตารางท 4.1 เปนผลการประเมนขนตอนและวธการสกดขอมลสนคาบนเวบเพจสาหรบเวบครอเลอรทใชในโปรแกรมคนหาสนคา ซงขอมลการประเมนแบงไดเปน 2 ชดการทดลองคอแถวแรกของหมวดหมเวบรานคาออนไลนและ เวบไซตแคตตาลอกสนคาออนไลน แถวทสองของหมวดหมเวบตลาดกลางอเลกทรอนกส จากตารางจะเหนวาคาความถกตองของเวบตลาดกลางอเลกทรอนกส มคาทต าเนองจากเวบรปแบบนมความซบซอนของโครงสรางหนาเวบทยงยากมากกวารปแบบแรก

DPU

บทท5 บทสรป อภปรายผล และขอเสนอแนะ

5.1 สรปผลการวจย

งานวจยชนนไดนาเสนอขนตอนและวธการสกดขอมลสนคาสาหรบเวบครอเลอรทใชในโปรแกรมคนหาสนคา โดยการเขยนโปรแกรมยอยตามขนตอนวธทไดนาเสนอ เพอทาการตรวจสอบความถกตอง โดยใชมนษยเปนผตรวจสอบ

จากวตถประสงคของงานวจยจงขอสรปเปนหวขอยอยดงน 5.1.1 การนาเสนอแนวทางการเลอกหนาสนคา 5.1.2 การออกแบบขนตอนและวธการสกดขอมลสนคา 5.1.3 การศกษาประสทธภาพของขนตอนและวธการสกดขอมลสนคา

5.1.1 การออกแบบขนตอนและวธการสกดขอมลสนคา จากขนตอนและวธการสกดขอมลสนคาทไดนาเสนอไปนนไดใชเกณฑวดเปนขนาด

ของรปภาพเปนปจจยแรก ดงนนถาเกณฑทกาหนดผดพลาดกทาใหไมสามารถหาโหนดสนคาเจอได แตจากการวจยแสดงใหเหนแลววาเกณฑทกาหนดนนเปนทนาพอใจ

ดงนนถาตองการเพมประสทธภาพใหกบขนตอนทไดนาเสนอนน สามารถจดการกบเกณฑตางๆ ทกาหนดทง ขนาดรปภาพ อตราสวนภาพ หรอเกณฑการวเคราะหราคาใหเหมาะสมยงขน

5.1.2 การศกษาประสทธภาพของขนตอนและวธการสกดขอมลสนคา ประสทธภาพของงานวจยนจะคานงถงความถกตองของขอมลสนคาทไดสกดออกมาโดยใชมนษยเปนเกณฑ และไมคานงถงความผดพลาดทเกดขนโดยมนษย ดงนนตวมนษยเองอาจมความผดพลาด (Human Error) บางและสงผลตอผลการวจยบางสวน แตเปนการยอมรบไดเพราะในขณะนยงไมมขนตอนและวธการสกดขอมลสนคาทนาเชอถอในภาษาไทย จงทาใหการใชมนษยเปนเกณฑ เปนสงทเหมาะสมทสด

DPU

36

5.2 ปญหาทพบในงานวจย ดวยสมมตฐานทวาสนคาแตละสนคาอยแยกกนในโหนดของภาษา HTML โดยเรม

ดาเนนการวเคราะหจากรปภาพวาเปนรปภาพสนคาหรอไม ถาใชจงทาการหาโหนดสนคา จากนนวเคราะหตอวามราคาหรอไม ถามราคาจงถอวาเปนโหนดสนคา และยงมเงอนไขเพมเตมอกคอใน 1 โหนดสนคาตองมรปสนคาเพยงรปเดยว ดงนนจงสามารถแบงความผดพลาดของระบบมาวเคราะหไดเปน 3 สวนคอ

5.2.1 สวนการสกดหาโหนดสนคาผดพลาด เนองจากบางเวบไซตภายในโหนดเดยวมสนคามากกวา 1 สนคาหรอรปสนคามากกวา 1 รปดงรปท 5.1 ระบบจะไมสามารถแยกขอมลออกมาได

5.2.2 สวนการวเคราะหรปภาพสนคาผดพลาด เนองจากการตงเกณฑ ขนาดท 50 พกเซล และอตราสวนกวางยาวไมเกน 2 เทา สงผลใหขาดความยดหยนในการแสดงผล เนองจากบางรปภาพมขนาดเลกกวา 50 พกเซล หรอบางสนคาทตองมรปภาพแนวยาวเชน สรอยคอหรอชดกระโปรง สงผลใหมอตราสวนมากกวา 2 เทา

5.2.3 สวนการวเคราะหราคาผดพลาด เนองจากบางเวบไซตไมมคาในการชวยวเคราะหหาราคาเชน ราคา บาท หรอ ฿ แตมเพยงชอสนคาและตวเลขราคา จงสงผลใหแมวาเวบครอเลอรจะหาโหนดสนคาเจอแตไมพบราคาสนคา และบางครงสวนในการวเคราะหราคากยงมประสทธภาพไมเพยงพอเนองจากภายในโหนดสนคา บางครงมราคามากกวา 1 ตาแหนงเชน ราคาเตม ราคาจรง ราคาลด หรอแมกระทงตวเลขอนๆ ทใกลเคยงกบคาชวยวเคราะหหาราคา เพราะบางครงหนวยของราคาสามารถวางไดสองตาแหนงคอทงหนาและหลงหนวยเชน 500 ฿ หรอ ฿ 500 เปนตน

DPU

37

ภาพท 5.1 ตวอยางโหนดในภาษา HTML กบโหนดสนคา 1 โหนดหลายสนคา 5.3 ขอเสนอแนะ

แบงตามปญหาทพบไดดงน 5.3.1 สวนการสกดหาโหนดสนคาผดพลาด ในการสกดหาโหนดสนคาควรหาวธทเหมาะสม

กบเวบดงรปแบบใน รปท 5.1 5.3.2 สวนวเคราะหรปภาพสนคาผดพลาด ควรมการวจยเพอหาเกณฑในการแยกรปภาพสนคา

ทมประสทธภาพมากยงขน โดยอาจเพมปจจยอนๆ เชน เทคโนโลยการประมวลผลภาพ (Image processing) เขามารวมดวย เชนการตรวจสอบรปภาพ วาเปนสนคาชนดใด เปนตน

5.3.3 สวนวเคราะหราคาผดพลาด การสรางเกณฑวเคราะหราคาควรม เกณฑการวเคราะหทนอกเหนอจาก หนวยสนคา

หรอ คากาหนดราคา เพราะบางเวบไซดไมมทงสองอยาง แตมราคาสนคาอย จงสงผลใหไมสามารถแยกขอมลสนคาในเวบไซตนนออกมาได

ในอนาคตถาตองการนาวธการนไปใชงานจรงในเวบครอเลอร สงทตองคานงถงนอกจากเกณฑตางๆ ทกลาวถงขางตนแลว การพฒนาโปรแกรมหรอรายละเอยดการเขยนโปรแกรมในแตละขนตอนยงตองคานงถงเวลาในการประมวลผลและเกบรวบรวมขอมลของเวบครอเลอรเปนสาคญ เพราะเนองจากงานวจยนไมไดเนนไปทโปรแกรม แตเนนนาเสนอวธการสกดขอมลสนคาเทานน

BODY HEAD

HTML

TABLE

TD

IMG TEXT IMG TEXT

TR

TD

IMG TEXT IMG TEXT

รปสนคา ขอมลสนคา

โหนดสนคา

รปสนคา

DPU

บรรณานกรม

DPU

39

บรรณานกรม ภาษาไทย

หนงสอ

ศภชย ตงวงศศานต. (2543). ระบบจดเกบและการสบคนสารสนเทศดวยคอมพวเตอร (พมพครงท

2).กรงเทพฯ: จฬาลงกรณมหาวทยาลย.

สารนพนธ นรนดร องควฒนวทย. (2546). การเกบเวบเพจแบบเฉพาะเจาะจงหวเรองดวยเวบคราวเลอรแบบ

เรยนรได. สารนพนธปรญญามหาบณฑตสาขาวชาวศวกรรมคอมพวเตอร. กรงเทพฯ: มหาวทยาลยเกษตรศาสตร วรยะแกวมรนทร. (2551). ระบบคนหาบรการของเวบเซอรวสแบบสอความหมายโดยใชตวคนหา

บนเวบ. การศกษาอสระปรญญาวทยาศาสตมหาบณฑต สาขาวชาเทคโนโลยสารสนเทศ คณะวทยาศาสตร มหาวทยาลยขอนแกน.

สารสนเทศจากสออเลกทรอนกส

อรวรรณ บงพรรตน. (2549). Search Engine คออะไร. สบคนเมอ 12 กนยายน 2554,

จาก http://pirun.ku.ac.th/~g5166319/page/Search%20Engine ภาวธ พงษวทยภาน. (2551). 5 รปแบบประเภทของเวบไซต E-Commerce. สบคนเมอ 20 ธนวาคม

2554, จาก http://www.pawoot.com/node/327 ศนยวจยนวตกรรมอนเทอรเนตไทย. (2555). สถตการใชงานเครองมอคนหาเวบไซต. สบคนเมอ

10 มกราคม 2555, จาก http://truehits.net/ encyclopedia. บาท (สกลเงน). สบคนเมอ 20 พฤศจกายน 2554, from

http://th.wikipedia.org/wiki/บาท_(สกลเงน)

DPU

40

ภาษาตางประเทศ

BOOKS B.T. Krulwich, (1996). The BargainFinder agent: Comparing price shopping on the

Internet.In J. Williams, editor, Bots and other Internet beasties, pp. 258—263. SAMS.NET, Macmillan, 1996.

Roger S. Pressman, David Lowe, (2009). Web Engineering: A Practioner's Approach 1ED. McGraw-Hill International Edition, 1996

Roger S. Pressman, David Lowe, (2009). Web Engineering: A Practioner's Approach 1ED. McGraw-Hill International Edition, 1996

Doug Cutting, (2005). Lucene In Action. Manning Publication Co., 2005

ARTICLES R.B. Doorenbos, O. Etzioni, and D.S.Weld. (1997). "A scalable comparison-shopping agent for

the World-Wide Web ". In Proceedings of the First International Conference on Autonomous Agents (Agents-97), pp.39—48, 1997.

Maria Fasli. (2006). "ShopBots: A syntactic present, a semantic futu". Internet Computing, IEEE, 2006, Vol. 10, Nov-Dec 2006. pp 69-75.Apapanik and Mstefanos. (2007).

Worasit Choochaiwattana, Winyu Niranatlamphong, and Michael B.Spring. (2007). " Web image classification algorithm: a heuristic rule-based approach s".In Proceedings of the Second International Conference on Internet Technologies and Application (ITA-07),UK, September 2007

Yu Chun-Yan, Ma Jun, Zhao Yu-Yan “Online Price Extraction and Decision Support for Agricultural Products,”, Information Management, Innovation Management and Industrial Engineering, 2009 International Conference, pp 337-340, December 2009

Robert Baumgartner, Georg Gottlob, Marcus Herzog “Scalable web data extraction for online market intelligence,”, Proceedings of the VLDB Endowment,Vol 2 Issue 2, August 2009

DPU

41

ELECTRONIC SOURCES

Encyclopedia. Accuracy and precision. Retrieved January 25, 2012, from http://en.wikipedia.org/wiki/Accuracy_and_precision

DPU

ภาคผนวก

DPU

43

ภาคผนวก ก ผลการประเมนขนตอนการสกดขอมลสนคา

DPU

44

TP TN FP Fn

http://www.music‐blvd.com/store/ 45 45 0 0 0 1

http://www.music‐blvd.com/store/product/Electric_Bass‐215493‐ 42 42 0 0 0 1

http://www.music‐blvd.com/store/product/Acoustic_Electric_Guitars‐

213732‐th.html26 26 0 0 0 1

http://www.nbfashion.net/index.php?category=17 16 16 0 0 0 1

http://www.nbfashion.net/index.php?category=15 2 2 0 0 0 1

http://www.nbfashion.net/index.php?modules=nbcute 16 12 0 0 4 0.75

http://www.ready4girl.com/ 122 122 0 0 0 1

www.ready4girl.com/เสอผาแฟชนเกาหล/กระโปรง‐skirt 8 8 0 0 0 1

www.ready4girl.com/เครองประดบ/กระเปาแฟชน 10 10 0 0 0 1

http://www.f10shop.com/category.aspx?id=004&pi=0&p=1 30 28 0 0 0 1

http://www.f10shop.com/category.aspx?id=010&pi=0&p=1 30 20 0 0 0 1

http://www.f10shop.com/category.aspx?id=040&pi=0&p=1 10 6 0 0 0 1

http://www.indigoshirt.com/หมอหอม‐บรษ 4 4 0 0 0 1

http://www.indigoshirt.com/index.php?lay=show&ac=cat_showcat&l

=1&cid=5541310 10 0 0 0 1

http://www.indigoshirt.com/index.php?lay=show&ac=cat_showcat&l

=1&cid=558451 1 0 0 0 1

www.plabin.com 32 29 0 1 2 0.90625

http://www.plabin.com/product_324962_th 3 3 0 0 0 1

http://www.plabin.com/product_398333_th 5 3 0 7 2 0.25

http://www.missblendy.com/ 24 24 0 0 0 1

www.missblendy.com/รองเทาแฟชนทกแบบ/รองเทาบทเกาหล 15 15 0 0 0 1

www.missblendy.com/รองเทาแฟชนทกแบบ/รองเทาแตะแฟชน 3 3 0 0 0 1

http://www.batt2home.com/ 15 15 0 0 0 1

http://www.batt2home.com/index.php?lay=show&ac=cat_showcat&l

=1&cid=4447110 10 0 0 0 1

http://www.batt2home.com/index.php?lay=show&ac=cat_showcat&l

=1&cid=4915310 10 0 0 0 1

http://www.trade‐jewelry.com/store/ 24 18 0 0 4 0.818182

www.trade‐jewelry.com/store/product/แหวน_หลดจานา‐ 37 36 0 1 0 0.972973

www.trade‐jewelry.com/store/product/สนคาแนะนา_มาใหม‐1383788‐th.html

25 25 0 3 0 0.892857

http://www.orderbyyou.com/s0126/index.php?pgid=cat:24 14 13 0 0 1 0.928571

http://www.orderbyyou.com/s0110/index.php?pgid= 6 0 0 0 6 0

http://www.orderbyyou.com/s0125/index.php?pgid= 20 0 0 0 20 0

ยอารแอลททดสอบการสกดดวยวธในงานวจย

Accuracyการสกด

ดวยผประเมน

เฉลยความถกตองในหมวดหมเวบรานคาออนไลนและ เวบไซตแคตตาลอกสนคาออนไลน

0.883961

DPU

45

TP TN FP Fn

http://www.bangkoksync.com/ 25 0 0 0 25 0

www.bangkoksync.com/คอมพวเตอร/สวนประกอบคอมพวเตอร/ 1 0 0 0 1 0

www.bangkoksync.com/นาฬกา‐แวนตา/นาฬกาขอมอ/ 5 4 0 0 1 0.8

www.tarad.com/ 8 8 0 2 0 0.8

Www.tarad.com/category/5994/เครองเลนเกมส และเกมส/Microsoft 

Xbox 36034 33 0 0 1 0.970588

http://www.tarad.com/event/topshop?l‐id=topshop_060112 35 32 0 0 3 0.914286

http://www.market2u.com/ 21 18 0 2 3 0.782609

http://www.market2u.com/mproduct.php?cat=4_1 7 2 0 2 5 0.222222

http://www.market2u.com/mproduct.php?cat=4_7 1 0 0 0 1 0

http://www.weloveshopping.com/portal/plaza/product.php?catid=5, 42 38 0 0 4 0.904762

http://www.weloveshopping.com/portal/plaza/product.php?catid=11 70 70 0 0 0 1

http://www.weloveshopping.com/portal/plaza/product.php?catid=11 17 16 0 0 1 0.941176

http://www.fashionmall.in.th/ 38 38 0 0 0 1

http://www.fashionmall.in.th/index.php?app=search&cate_id=274 13 13 0 0 0 1

http://www.fashionmall.in.th/index.php?app=search&cate_id=274&b

rand=HERMES7 7 0 0 0 1

http://www.shop2thai.com/plaza.php?cat_id=31 23 21 0 0 2 0.913043

http://www.shop2thai.com/plaza.php?cat_id=62 2 2 0 0 0 1

http://www.shop2thai.com/plaza.php?cat_id=23 4 4 0 0 0 1

http://www.yeepou.com/category/%E0%B8%A3%E0%B8%96%E0%B8

%A2%E0%B8%99%E0%B8%95%E0%B9%8C‐223 20 0 0 3 0.869565

http://www.yeepou.com/category/%E0%B9%80%E0%B8%84%E0%B8%

A3%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%87%E0%B8%94%E0

%B8%99%E0%B8%95%E0%B8%A3%E0%B8%B5‐11

19 15 0 0 4 0.789474

http://www.yeepou.com/category/%E0%B8%99%E0%B8%B2%E0%B8

%AC%E0%B8%81%E0%B8%B2%E0%B8%88%E0%B8%B4%E0%B8%A7%E

0%B9%80%E0%B8%A7%E0%B8%A5%E0%B8%A3%E0%B8%B5%E0%B9%

44 44 0 0 0 1

http://www.oneclickmarket.com/previewgoos.php?cat_id=117 29 29 0 0 0 1

http://www.oneclickmarket.com/previewgoos.php?cat_id=151 27 27 0 0 0 1

http://www.oneclickmarket.com/plaza.php?cat_id=183 29 29 0 0 0 1

http://www.thaionlinemarket.com/subgroup.asp?gid=9&rid=143 4 4 0 0 0 1

http://www.thaionlinemarket.com/ 30 3 0 0 27 0.1

http://www.thaionlinemarket.com/subgroup.asp?gid=2&rid=35 5 5 0 0 0 1

http://1000raan.com/index.php?app=search&cate_id=287&page=2 9 9 0 0 0 1

http://1000raan.com/index.php?app=search&cate_id=3 3 3 0 0 0 1

http://1000raan.com/index.php?app=search&cate_id=20 5 2 0 6 3 0.181818

เฉลยความถกตองในหมวดเวบตลาดกลางอเลกทรอนกส 0.772985

ยอารแอลททดสอบ การสกดดวยผประเมน

การสกดดวยวธในงานวจยAccuracyDPU

46

ประวตผเขยน ชอ-นามสกล นายกลยทธ บพตร ประวตการศกษา สาเรจการศกษาระดบปรญญาตร

สาขาวชาว ศวกรรมการ บนและอวกาศยาน มหาวทยาลยเกษตรศาสตร ปการศกษา 2551

ตาแหนงและสถานททางานปจจบน นกศกษาทนผชวยสอนสาขาวชาวศวกรรมเวบ

DPU