วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง

เบญจภรณ์ จันทรกองกุล; สุวรรณา รัศมีขวัญ; สุนิสา ริมเจริญ; ภูสิต กุลเกษม; กฤษณะ ชินสาร; อัณณ์นุพันธ์ รอดทุกข์; ปิยนุช วรบุตร; จรรยา อ้นปันส์

กรุณาใช้ตัวระบุนี้เพื่ออ้างอิงหรือเชื่อมต่อรายการนี้: https://buuir.buu.ac.th/xmlui/handle/1234567890/1409

ระเบียนเมทาดาทาแบบเต็ม

ฟิลด์ DC	ค่า	ภาษา
dc.contributor.author	เบญจภรณ์ จันทรกองกุล	th
dc.contributor.author	สุวรรณา รัศมีขวัญ	th
dc.contributor.author	สุนิสา ริมเจริญ	th
dc.contributor.author	ภูสิต กุลเกษม	th
dc.contributor.author	กฤษณะ ชินสาร	th
dc.contributor.author	อัณณ์นุพันธ์ รอดทุกข์	th
dc.contributor.author	ปิยนุช วรบุตร	th
dc.contributor.author	จรรยา อ้นปันส์	th
dc.contributor.other	มหาวิทยาลัยบูรพา. คณะวิทยาการสารสนเทศ
dc.date.accessioned	2019-03-25T09:04:33Z
dc.date.available	2019-03-25T09:04:33Z
dc.date.issued	2557
dc.identifier.uri	http://dspace.lib.buu.ac.th/xmlui/handle/1234567890/1409
dc.description.abstract	วัตถุประสงค์ของขั้นตอนวิธีในการเรียนรู้คือ เพื่อให้เกิดอัตราความผิดพลาดในการเรียนรู้ข้อมูลน้อยที่สุด โดยในงานวิจัยนี้ได้ทำการปรับปรุงฟังก์ชั่นความผิดพลาดที่ใช้วัดอัตราความผิดพลาดสำหรับชุดข้อมูลที่ไม่สมดุลได้อย่างเหมาะสม ซึ่งฟังก์ชันความผิดพลาดส่วนใหญ่จะใช้ค่าน้ำหนักที่เท่ากันทุกคลาส จากที่ทราบกันโดยทั่วไป ข้อมูลที่ไม่สมดุล หมายถึง ชุดข้อมูลที่มีจำนวนสมาชิกของคลาสส่วนมากและคลาสส่วนน้อยจำนวนไม่เท่ากัน ดังนั้นหากใช้ค่าน้ำหนักเท่ากันทุกคลาสจะทำให้การจัดกลุ่มไม่เหมาะสม และปัญหาของการเรียนรู้รูปแบบข้อมูลของชุดข้อมูลไม่สมดุลส่วนใหญ่ พบว่าข้อมูลในคลาสส่วนน้อยถูกครอบงำด้วยข้อมูลของคลาสส่วนมาก จึงเป็นผลให้เกิดความเอนเอียงในการจำแนกข้อมูลทำให้ข้อมูลในคลาสส่วนน้อยเกิดความผิดพลาดในการจำแนกกลุ่มมากกว่าคลาสส่วนมาก จากที่กล่าวมางานวิจัยนี้จึงได้ทำการหาพารามิเตอร์ที่เหมาะสมสำหรับปรับปรุงฟังก์ชั่นความผิดพลาดเฉลี่ยกำลังสอง โดบวิธีการที่นำเสนอได้นำอัตราการซ้อนทับกันของข้อมูลและอัตราความไม่สมดุลของข้อมูลมาใช้ร่วมในการปรับปรุงด้วย สำหรับขั้นตอนวิธีในการเรียนรู้ข้อมูลได้ใช้โครงข่ายประสาทเทียมแบบแพร่ย้อนกลับและฟังก์ชั่นความผิดพลาดที่ทำการปรับปรุง ขอบเขตของชุดข้อมูลที่ใช้ในงานวิจัยนี้เป็นปัญหาการจำแนกชุดข้อมูลที่มี 2 คลาส จาก UCI ผลการทดลองแสดงให้เห็นว่าฟังก์ชันความผิดพลาดที่ทำการปรับปรุงให้ประสิทธิภาพในการจำแนกข้อมูลดีกว่าฟังก์ชั่นความผิดพลาดเฉลี่ยกำลังสองแบบมาตรฐาน เมื่อเปรียบเทียบกับค่า TPR ค่า G-Mean และ F-measurement	th_TH
dc.description.sponsorship	โครงการนี้ได้รับการสนับสนุนทุนวิจัย จาก สำนักงานคณะกรรมการวิจัยแห่งชาติ ปีงบประมาณ พ.ศ. 2556	en
dc.language.iso	th	th_TH
dc.publisher	คณะวิทยาการสารสนเทศ มหาวิทยาลัยบูรพา	th_TH
dc.subject	ข้อมูล	th_TH
dc.subject	สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์	th_TH
dc.title	วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง	th_TH
dc.title.alternative	Optimal methods for classification of highly imbalanced datasets	th_TH
dc.type	Research	th_TH
dc.year	2557
dc.description.abstractalternative	The objective of learning is to achieve the least error rate. In this research we proposed a modified cost function as a means to properly measure error rate for imbalanced dataset. Most cost functions apply the same weights to all classes. However, it has been known that for imbalanced problem, the number of ins tances in the majority class is larger than the minority class. Therefore, the application of equal weight to all classes will significantly lead to improper classification boundary. That is, for most learning model, the minority class would be dominated by majority class which then causes a misclassification on the minority class. The objective of the research is to find the appropriate parameters to improve MSE cost function based on overlap ratio and class distribution ratio. Backpropagation algorithm with the proposed modified cost function is used to solve two-class classification problem. UCI datasets are used for the experimentation. The results show that the modified MSE cost function provides a better result than the standard one, based on True-positive rate. G-Mean, and F-measurement.	en
ปรากฏในกลุ่มข้อมูล:	รายงานการวิจัย (Research Reports)

แฟ้มในรายการข้อมูลนี้:

แฟ้ม	ขนาด	รูปแบบ
2559_047.pdf	21.29 MB	Adobe PDF	ดู/เปิด

แสดงระเบียนรายการแบบย่อ

รายการทั้งหมดในระบบคิดีได้รับการคุ้มครองลิขสิทธิ์ มีการสงวนสิทธิ์เว้นแต่ที่ระบุไว้เป็นอื่น