กรณีศึกษาการสกัดข้อมูลงานวิจัยบนเว็บเพจด้วยเว็บครอว์เลอร์

สุทิน อุทธบูรณ์

dc.contributor.advisor	ทัศนีย์ เจริญพร
dc.contributor.author	สุทิน อุทธบูรณ์
dc.contributor.other	มหาวิทยาลัยบูรพา. คณะวิทยาการสารสนเทศ
dc.date.accessioned	2023-05-12T06:08:00Z
dc.date.available	2023-05-12T06:08:00Z
dc.date.issued	2560
dc.identifier.uri	https://buuir.buu.ac.th/xmlui/handle/1234567890/7814
dc.description	งานนิพนธ์ (วท.ม.)--มหาวิทยาลัยบูรพา, 2561
dc.description.abstract	งานนิพนธ์นี้ นำเสนอผลการศึกษาและประยุกต์ใช้วิธีการสกัดข้อมูลบนเว็บเพจด้วยเว็บครอเลอร์จากเว็บไซต์ที่รวบรวมงานวิจัยต่าง ๆ มาแสดงไว้บนเว็บไซด์เดียวกัน เพื่อให้สามารถค้นหาได้สะดวกและรวดเร็วขึ้น โดยใช้ภาษาและเครื่องมือที่ปรากฏอยู่ในปัจจุบัน ได้แก่ Nodejs และ Cheerio ซึ่งเป็นเครื่องมือที่สามารถดึงข้อมูลจากเว็บไซต์ด้วยวิธีการเข้าถึงโครงสร้าง HTML ของเว็บไซต์นั้น ๆ เพื่อสกัดข้อมูลที่ต้องการ และจัดเก็บข้อมูลที่ได้ลงในฐานข้อมูลสำหรับนำไปสร้างส่วนแสดงผลลัพธ์ต่อไป โดยได้ทดลองสกัดข้อมูลงานวิจัยจากเว็บไซต์งานวิจัยมหาวิทยาลัยบูรพา เว็บไซต์โครงการเครือข่ายห้องสมุดในประเทศไทย และเว็บไซต์คลังข้อมูลงานวิจัยไทย ผลการทดลองสกัดข้อมูลงานวิจัยทั้ง 3 เว็บไซต์ที่มีจำนวนงานวิจัยรวมทั้งหมด 543,695 รายการนั้นใช้เวลาในการครอว์ทั้งสิ้น 1,434 นาที เมื่อนำข้อมูลทั้งหมดมาหาค่า Precision, Recall และ F-Measure เพื่อหาประสิทธิภาพของการสกัดข้อมูล พบว่า ค่า Precision เท่ากับร้อยละ 99 ของสัดส่วนของจำนวนข้อมูล (Records) ที่สกัดได้ตรงตามความต้องการต่อจำนวนข้อมูลงานวิจัยทั้งหมด ค่า Recall เท่ากับ ร้อยละ 99 ของสัดส่วนของจำนวนข้อมูล (Records) ที่สืบค้นได้ตรงตามความต้องการต่อจำนวนข้อมูลที่ตรงตามความต้องการและเมื่อวัดค่า F-measure เพื่อหาประสิทธิภาพของการนำเครื่องมือดังกล่าวมาใช้ในการครอว์และสืบค้น พบว่า มีค่าความถูกต้องร้อยละ 99 จึงแสดงให้เห็นว่า การประยุกต์ใช้วิธีการสกัดข้อมูลบนเว็บเพจด้วยเว็บครอเลอร์นี้มีประสิทธิภาพ ผลของการศึกษาสามารถนำมาใช้เป็นส่วนหนึ่งของระบบบริหารจัดการประวัติการทำงานของบุคลากรต่อไปได้
dc.language.iso	th
dc.publisher	คณะวิทยาการสารสนเทศ มหาวิทยาลัยบูรพา
dc.rights	มหาวิทยาลัยบูรพา
dc.subject	เว็ปไซต์ -- การออกแบบ
dc.subject	เว็ปเซิฟเวอร์ -- โปรแกรมคอมพิวเตอร์
dc.subject	เว็ปไซต์
dc.subject	มหาวิทยาลัยบูรพา -- สาขาวิชาเทคโนโลยีสารสนเทศ
dc.title	กรณีศึกษาการสกัดข้อมูลงานวิจัยบนเว็บเพจด้วยเว็บครอว์เลอร์
dc.title.alternative	A cse study of web reserch dt scrping by web crwlers
dc.type	วิทยานิพนธ์/ Thesis
dc.description.abstractalternative	This thesis presents the study and application of data extraction method on Web page by WebCrawler in order to facilitate the data searching. The application has been conducted by applying the current existing programming language and tool including Nodejs and Cheerio. They are able to extract the required information from the websites by accessing the HTML structure and store it in the local database for further searching and retrieving. The experiment has been done on the 543,695 research information records from 3 main research Websites of Thailand including Burapha University's research Website, Thailand Library Network Project Website, and Thai National Research Repository Website. The result presents that all research information records can be extracted within 1,434 minutes. Precision-Recall and F-measure are employed to evaluate the accuracy of extracting and search result. The result value of 0.99 can be illustrated the high accuracy of applying the proposed method. The consequence of the application can be used as part of the approaching personnel management system development.
dc.degree.level	ปริญญาโท
dc.degree.discipline	เทคโนโลยีสารสนเทศ
dc.degree.name	วิทยาศาสตรมหาบัณฑิต
dc.degree.grantor	มหาวิทยาลัยบูรพา