Feature-Based Clustering Untuk Pengelompokan Dokumen Dengan Representasi Teks Terstruktur

ABSTRAK

Tugas Akhir ini menerapkan metode Feature-based Clustering (FBC) untuk pengelompokan dokumen dengan bentuk representasi teks terstruktur berbasis Sequential Patterns (SP) yaitu representasi Himpunan Frequent Word Sequences (HFWS) dan Frequent Word Itemsets (FWI). FBC merupakan metode clustering yang bekerja dengan memanfaatkan relasi sekuensial dari data yang diolahnya. Selain melakukan penerapan, Tugas Akhir ini juga menganalisis ketiga representasi teks untuk mengetahui representasi teks yang menjaga makna semantik dengan baik.

Analisis dilakukan dengan mengevaluasi struktur dari tiap bentuk representasi dalam kaitannya dengan penjagaan makna semantik. Dari hasil analisis, diketahui bahwa bentuk representasi teks HFWS dan FWI membutuhkan adanya proses tambahan pada tahap feature generation dalam FBC. Hasil analisis diimplementasikan ke sebuah perangkat lunak bernama FeastClub yang dikembangkan di atas platform Windows XP dengan kakas pembangunan Netbeans 5.5 dan pengelola basis data hsqldb 1.8.0.

Dengan menggunakan dataset yang dibentuk dari file e-mail informal Twenty Newsgroup Text Data, direkayasa kasus uji berdasarkan parameter pengelompokan yang terlibat yaitu threshold panjang, frekuensi dan gap, metode feature selection serta bentuk representasi teks. Hasil pengujian akurasi clusters menunjukkan bahwa nilai rata-rata akurasi clusters keseluruhan adalah 0,63. Hasil pengelompokan dengan bentuk representasi teks HFWS mencapai nilai akurasi maksimal sebesar 0,9759 serta memberikan nilai rata-rata akurasi hasil paling tinggi yaitu 0,724 dari skala 1.

Dari Tugas Akhir ini, dapat disimpulkan bahwa FBC untuk document clustering dengan bentuk representasi teks HFWS dan FWI dapat secara sempurna diterapkan dengan nilai rata-rata akurasi clusters yang diberikan cukup baik untuk suatu system pengelompokan,  yaitu 0,63. Dari aspek makna semantik, dapat disimpulkan bahwadari ketiga representasi teks, makna semantik dokumen dapat dijaga dengan baik oleh representasi teks HFWS.

Kata kunci: document clustering, sequential patterns, Feature-based Clustering, representasi teks terstruktur, makna semantik.

About berbagiskripsi

Bank Skripsi menyediakan referensi jurnal, skripsi, dan tesis indonesia terlengkap yang bisa anda download secara gratis. Jurnal, skripsi, dan tesis yang ada terdiri dari berbagai disiplin ilmu pengetahuan.
This entry was posted in Teknik Informatika. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s