JITM

Pengekstrakan dan Perwakilan Semantik Dokumen Web Berorientasikan Domain Ontologi

ARIFAH CHE ALHADI, LAILATUL QADRI BINTI ZAKARIA, SHAHRUL AZMAN MOHD NOAH, TENGKU MOHD TENGKU SEMBOK

ABSTRAK

Internet menjadi pilihan sebagai prasarana asas bagi mendapatkan maklumat digital pelbagai topik dari seluruh dunia. Namun demikian kebanyakan dokumen web dalam internet ini adalah tidak berstruktur dan tidak mempunyai maklumat semantik dokumen. Sistem pengekstrakan maklumat yang ada lebih memfokuskan kepada pengekstrakan konsep penting dalam mewakili kandungan dokumen tanpa mengambil kira aspek semantik. Perwakilan kandungan maklumat dalam bentuk kaya semantik merupakan salah satu visi web semantik. Kertas kerja ini membincangkan pengaplikasian pendekatan ontologi dan pemprosesan bahasa tabii dalam menyokong pengekstrakan dan perwakilan maklumat semantik dokumen web. Memandangkan penganotasian maklumat semantik secara manual daripada dokumen web adalah tidak praktikal dan pembangunan sistem automatik sepenuhnya masih terlalu awal untuk diimplementasikan, maka pendekatan separa-automatik telah diusulkan. Dalam hal ini, sistem berfungsi untuk memandu pengguna dalam pemodelan semantik dokumen web yang seterusnya menghasilkan kandungan dokumen web atau set dokumen web yang lebih kaya semantik. Model semantik yang dijana diwakilkan dalam format XML.

Katakunci: Perwakilan semantik dokumen, pengekstrakan maklumat semantik, ontologi, analisis bahasa tabii.

ABSTRACT

Internet has been chosen as a basic infrastructure to gain various topics of digital information from all over the world. However, most of the web documents are unstructured and lack of semantics. Existing information extraction system mainly concerns with extracting important keywords or key phrases that represent the content of the documents without considering the semantic aspects. The semantic representation of documents currently forms the vision of semantic web. In this paper, we discuss an approach meant to assist in extracting and modeling the semantic information content of web documents using natural language analysis technique and a domain specific ontology. As the manual semantic annotation of web documents is impractical and unscalable; and fully automated tools are still at the very early stage to be implemented, we proposed a semi-automatic approach. In this situation, the system will guide the user in semantic document modeling which results in the generation of semantic-rich web document content represented as XML.

Keywords: Semantic document representation, semantic information extraction, ontology, natural language analysis.

References