กรณีศึกษาการสกัดข้อมูลงานวิจัยบนเว็บเพจด้วยเว็บครอว์เลอร์

สุทิน อุทธบูรณ์

กรณีศึกษาการสกัดข้อมูลงานวิจัยบนเว็บเพจด้วยเว็บครอว์เลอร์

สุทิน อุทธบูรณ์

URI: https://buuir.buu.ac.th/xmlui/handle/1234567890/7814

Date: 2560

Abstract:

งานนิพนธ์นี้ นำเสนอผลการศึกษาและประยุกต์ใช้วิธีการสกัดข้อมูลบนเว็บเพจด้วยเว็บครอเลอร์จากเว็บไซต์ที่รวบรวมงานวิจัยต่าง ๆ มาแสดงไว้บนเว็บไซด์เดียวกัน เพื่อให้สามารถค้นหาได้สะดวกและรวดเร็วขึ้น โดยใช้ภาษาและเครื่องมือที่ปรากฏอยู่ในปัจจุบัน ได้แก่ Nodejs และ Cheerio ซึ่งเป็นเครื่องมือที่สามารถดึงข้อมูลจากเว็บไซต์ด้วยวิธีการเข้าถึงโครงสร้าง HTML ของเว็บไซต์นั้น ๆ เพื่อสกัดข้อมูลที่ต้องการ และจัดเก็บข้อมูลที่ได้ลงในฐานข้อมูลสำหรับนำไปสร้างส่วนแสดงผลลัพธ์ต่อไป โดยได้ทดลองสกัดข้อมูลงานวิจัยจากเว็บไซต์งานวิจัยมหาวิทยาลัยบูรพา เว็บไซต์โครงการเครือข่ายห้องสมุดในประเทศไทย และเว็บไซต์คลังข้อมูลงานวิจัยไทย ผลการทดลองสกัดข้อมูลงานวิจัยทั้ง 3 เว็บไซต์ที่มีจำนวนงานวิจัยรวมทั้งหมด 543,695 รายการนั้นใช้เวลาในการครอว์ทั้งสิ้น 1,434 นาที เมื่อนำข้อมูลทั้งหมดมาหาค่า Precision, Recall และ F-Measure เพื่อหาประสิทธิภาพของการสกัดข้อมูล พบว่า ค่า Precision เท่ากับร้อยละ 99 ของสัดส่วนของจำนวนข้อมูล (Records) ที่สกัดได้ตรงตามความต้องการต่อจำนวนข้อมูลงานวิจัยทั้งหมด ค่า Recall เท่ากับ ร้อยละ 99 ของสัดส่วนของจำนวนข้อมูล (Records) ที่สืบค้นได้ตรงตามความต้องการต่อจำนวนข้อมูลที่ตรงตามความต้องการและเมื่อวัดค่า F-measure เพื่อหาประสิทธิภาพของการนำเครื่องมือดังกล่าวมาใช้ในการครอว์และสืบค้น พบว่า มีค่าความถูกต้องร้อยละ 99 จึงแสดงให้เห็นว่า การประยุกต์ใช้วิธีการสกัดข้อมูลบนเว็บเพจด้วยเว็บครอเลอร์นี้มีประสิทธิภาพ ผลของการศึกษาสามารถนำมาใช้เป็นส่วนหนึ่งของระบบบริหารจัดการประวัติการทำงานของบุคลากรต่อไปได้