Keywords: Sequential pattern,Document Clustering,Bag of Concepts,Wordnet,Bag of Word
Teknik pengelompokan dokumen (document clustering) standar umumnya menggunakan representasi bag of words, sedangkan teknik representasi bag of concepts belum banyak digunakan. Ekstraksi dan seleksi fitur merupakan tahap penting untuk merepresentasikan dokumen kedalam suatu bentuk data yang dapat mewakili informasi data teks. Fitur penting dan relevan yang ditemukan diharapkan dapat meningkatkan kualitas hasil pengelompokkan. Representasi teks dalam bentuk bag of concepts dapat diidentifikasi menggunakan wordnet. Pada penelitian ini dipilih representasi bag of concepts menggunakan wordnet yang secara konsep memiliki kemampuan dalam menjaga makna semantik dokumen. Tujuan dari penelitian ini adalah melakukan analisis terhadap representasi teks untuk meningkatkan akurasi pengelompokan dokumen dalam bentuk bag of concepts yang dihasilkan dari ekstraksi dan seleksi fitur menggunakan wordnet. Dokumen teks merupakan data yang tidak terstruktur, untuk itu diperlukan proses-proses pendukung meliputi preprocessing hingga diperoleh data yang dapat diolah dengan algoritma clustering K-Means untuk menghasilkan clusters.