dc.contributor.author |
เบญจภรณ์ จันทรกองกุล |
th |
dc.contributor.author |
สุวรรณา รัศมีขวัญ |
th |
dc.contributor.author |
สุนิสา ริมเจริญ |
th |
dc.contributor.author |
ภูสิต กุลเกษม |
th |
dc.contributor.author |
กฤษณะ ชินสาร |
th |
dc.contributor.author |
อัณณ์นุพันธ์ รอดทุกข์ |
th |
dc.contributor.author |
ปิยนุช วรบุตร |
th |
dc.contributor.author |
จรรยา อ้นปันส์ |
th |
dc.contributor.other |
มหาวิทยาลัยบูรพา. คณะวิทยาการสารสนเทศ |
|
dc.date.accessioned |
2019-03-25T09:04:33Z |
|
dc.date.available |
2019-03-25T09:04:33Z |
|
dc.date.issued |
2557 |
|
dc.identifier.uri |
http://dspace.lib.buu.ac.th/xmlui/handle/1234567890/1409 |
|
dc.description.abstract |
วัตถุประสงค์ของขั้นตอนวิธีในการเรียนรู้คือ เพื่อให้เกิดอัตราความผิดพลาดในการเรียนรู้ข้อมูลน้อยที่สุด โดยในงานวิจัยนี้ได้ทำการปรับปรุงฟังก์ชั่นความผิดพลาดที่ใช้วัดอัตราความผิดพลาดสำหรับชุดข้อมูลที่ไม่สมดุลได้อย่างเหมาะสม ซึ่งฟังก์ชันความผิดพลาดส่วนใหญ่จะใช้ค่าน้ำหนักที่เท่ากันทุกคลาส จากที่ทราบกันโดยทั่วไป ข้อมูลที่ไม่สมดุล หมายถึง ชุดข้อมูลที่มีจำนวนสมาชิกของคลาสส่วนมากและคลาสส่วนน้อยจำนวนไม่เท่ากัน ดังนั้นหากใช้ค่าน้ำหนักเท่ากันทุกคลาสจะทำให้การจัดกลุ่มไม่เหมาะสม และปัญหาของการเรียนรู้รูปแบบข้อมูลของชุดข้อมูลไม่สมดุลส่วนใหญ่ พบว่าข้อมูลในคลาสส่วนน้อยถูกครอบงำด้วยข้อมูลของคลาสส่วนมาก จึงเป็นผลให้เกิดความเอนเอียงในการจำแนกข้อมูลทำให้ข้อมูลในคลาสส่วนน้อยเกิดความผิดพลาดในการจำแนกกลุ่มมากกว่าคลาสส่วนมาก จากที่กล่าวมางานวิจัยนี้จึงได้ทำการหาพารามิเตอร์ที่เหมาะสมสำหรับปรับปรุงฟังก์ชั่นความผิดพลาดเฉลี่ยกำลังสอง โดบวิธีการที่นำเสนอได้นำอัตราการซ้อนทับกันของข้อมูลและอัตราความไม่สมดุลของข้อมูลมาใช้ร่วมในการปรับปรุงด้วย สำหรับขั้นตอนวิธีในการเรียนรู้ข้อมูลได้ใช้โครงข่ายประสาทเทียมแบบแพร่ย้อนกลับและฟังก์ชั่นความผิดพลาดที่ทำการปรับปรุง ขอบเขตของชุดข้อมูลที่ใช้ในงานวิจัยนี้เป็นปัญหาการจำแนกชุดข้อมูลที่มี 2 คลาส จาก UCI ผลการทดลองแสดงให้เห็นว่าฟังก์ชันความผิดพลาดที่ทำการปรับปรุงให้ประสิทธิภาพในการจำแนกข้อมูลดีกว่าฟังก์ชั่นความผิดพลาดเฉลี่ยกำลังสองแบบมาตรฐาน เมื่อเปรียบเทียบกับค่า TPR ค่า G-Mean และ F-measurement |
th_TH |
dc.description.sponsorship |
โครงการนี้ได้รับการสนับสนุนทุนวิจัย จาก สำนักงานคณะกรรมการวิจัยแห่งชาติ ปีงบประมาณ พ.ศ. 2556 |
en |
dc.language.iso |
th |
th_TH |
dc.publisher |
คณะวิทยาการสารสนเทศ มหาวิทยาลัยบูรพา |
th_TH |
dc.subject |
ข้อมูล |
th_TH |
dc.subject |
สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ |
th_TH |
dc.title |
วิธีการที่เหมาะสมสำหรับการแบ่งกลุ่มข้อมูลที่ไม่สมดุลสูง |
th_TH |
dc.title.alternative |
Optimal methods for classification of highly imbalanced datasets |
th_TH |
dc.type |
Research |
th_TH |
dc.year |
2557 |
|
dc.description.abstractalternative |
The objective of learning is to achieve the least error rate. In this research we proposed a modified cost function as a means to properly measure error rate for imbalanced dataset. Most cost functions apply the same weights to all classes. However, it has been known that for imbalanced problem, the number of ins tances in the majority class is larger than the minority class. Therefore, the application of equal weight to all classes will significantly lead to improper classification boundary. That is, for most learning model, the minority class would be dominated by majority class which then causes a misclassification on the minority class. The objective of the research is to find the appropriate parameters to improve MSE cost function based on overlap ratio and class distribution ratio. Backpropagation algorithm with the proposed modified cost function is used to solve two-class classification problem. UCI datasets are used for the experimentation. The results show that the modified MSE cost function provides a better result than the standard one, based on True-positive rate. G-Mean, and F-measurement. |
en |