Perlombongan Data Prestasi Pelajar Siswazah
Menggunakan Kaedah Aruhan Berasaskan Atribut
SITI ROHAIDAH AHMAD & AZURALIZA ABU BAKAR
ABSTRAK
Kertas kerja ini membincangkan dengan terperinci kaedah aruhan berasaskan atribut yang merupakan satu kaedah perlombongan data. Pelbagai jenis pengetahuan boleh diperoleh melalui kaedah ini antaranya petua pengelasan, petua ciri, petua pengelasan kuantitatif, petua ciri kuantitatif dan sebagainya. Konsep pengitlakan dan ringkasan merupakan perkara asas dalam melaksanakan kaedah ini. Pengitlakan data dilaksanakan ke atas satu set data yang relevan dengan cara penghapusan atribut, pohon konsep menaik, mengawal proses pengitlakan dengan menetapkan nilai ambang bagi atribut, pembilang perambatan dan nilai fungsi jumlah yang lain. Dua algoritma telah dibina iaitu algoritma kaedah aruhan berasaskan atribut dan algoritma arahan bahasa pertanyaan piawai. Algoritma arahan bahasa pertanyaan piawai bertindak sebagai perantaraan dengan pangkalan data dalam
melaksanakan segala arahan bahasa pertanyaan piawai dengan pangkalan data hubungan. Kedua-dua algoritma ini saling berkaitan dalam melaksanakan kaedah aruhan berasaskan atribut yang berorientasikan bahasa pertanyaan piawai. Satu pangkalan data hubungan telah direka bentuk dan dibangunkan untuk menyimpan data pelajar siswazah Fakulti Teknologi dan Sains Maklumat, UKM. Data ini digunakan dalam menguji kedua-dua algoritma tersebut. Satu set petua pengelasan dihasilkan yang mengandungi pengetahuan berkenaan pencapaian pelajar siswazah. Petua-petua ini diuji menggunakan
set data uji untuk menentukan ketepatan pengelasannya. Hasil uji kaji menunjukkan set petua yang dihasilkan boleh digunakan untuk mengelaskan pencapaian pelajar siswazah pada masa akan datang.
ABSTRACT
This paper discusses in detail an attribute-oriented induction technique which is one of the data mining techniques. Many types of knowledge can be discovered through this concept such as classification rule, characteristic rule, quantitative classification rule and quantitative characteristic rule. In the implementation, generalization and summarization are the two fundamentals of concepts involved. Data generalization is executed into a set of relevant data by using elimination attribute procedure, concept-tree climbing, controlling generalization process by determining the threshold value for the attribute, propagation of counts, and other amount of value functions. Two algorithms are developed, which are attribute-oriented induction and standard query language instruction. The standard query language instruction algorithm acts as a medium for the database to execute standard query language instruction to the database link. Both are related to each other in the execution of attribute-oriented induction which is based on standard query language. A database link design is developed to store all data of the
postgraduate students of the Faculty of Information Science and Technology, UKM, which was tested using both algorithms. A set of classification rules containing knowledge on the performance of the postgraduate students is obtained. These rules are then tested with new data of those students in order to determine the accuracy of the classification rule. The experimental results show that the rules obtained can be used in the future to determine the performance of postgraduate students.