Tugas IR
(Text Processing dan Term Weighting)
Dosen Pembimbing : Ratri Enggar Pawening, S.Kom
Oleh:
Nur Hidayah 10011758
Sebelum kita melakukan Text
Processing dan Term Weighting kita harus terlebih dahulu membuat
Dokumen,di sini saya membuat 4 Dokumen di mana setiap Dokumennya terdiri
dari 4 Kalimat
D1 | Sepatu itu milik dia |
Dia membeli barang di toko | |
Sepatu itu harganya 80.000 | |
Baju itu terjual seharga 50.000 | |
D2 | Dia mahir komputer |
di kampus terdapat 5 ruang komputer | |
Dia memakai sepatu itu di kelas | |
dengan adanya komputer kita mudah membuat program | |
D3 | kesalahan pemasukan data sangat dapat di kurangi |
Sepatu dia ketinggalan di kampus | |
Dia pergi ke kampus dengan motor | |
tidak ada yang pergi ke kampus | |
D4 | perlatan yang di perlukan untuk memperbaiki sepeda |
Kita sudah mematuhi peraturan kampus | |
permintaan penawaran harga oleh konsumen semakin meningkat | |
dia menangis karena cowoknya meninggal |
A. Text Processing
Tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap
kata yang menyusunnya.
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf
‘a’ sampai dengan ‘z’ yang diterima.
Filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist
(menyimpan kata penting).
Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat
dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”,
“di”, “dari” dan seterusnya.
stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada
tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu
representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa
inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini
dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen
D1 | Tokenisasi | Case Folding | Filtering | Stepword Removal | Stemming |
Sepatu | sepatu | sepatu | sepatu | sepatu | |
itu | itu | itu | |||
milik | milik | milik | milik | milik | |
dia | dia | dia | |||
membeli | membeli | membeli | membeli | beli | |
barang | barang | barang | barang | barang | |
di | di | di | |||
toko | toko | toko | toko | toko | |
harganya | harganya | harganya | harganya | harga | |
80.000 | 80.000 | ||||
Baju | baju | baju | baju | baju | |
terjual | terjual | terjual | terjual | jual | |
seharga | seharga | seharga | seharga | harga | |
50.000 | 50.000 |
D2 | Tokenisasi | Case Folding | Filtering | Stepword Removal | Stemming |
Dia | dia | dia | |||
mahir | mahir | mahir | mahir | mahir | |
komputer | komputer | komputer | komputer | komputer | |
di | di | di | |||
kampus | kampus | kampus | kampus | kampus | |
terdapat | terdapat | terdapat | terdapat | dapat | |
5 | 5 | ||||
ruang | ruang | ruang | ruang | ruang | |
memakai | memakai | memakai | memakai | pakai | |
sepatu | sepatu | sepatu | sepatu | sepatu | |
itu | itu | itu | |||
kelas | kelas | kelas | kelas | kelas | |
dengan | dengan | dengan | |||
adanya | adanya | adanya | adanya | ada | |
kita | kita | kita | |||
mudah | mudah | mudah | mudah | mudah | |
membuat | membuat | membuat | membuat | buat | |
program | program | program | program | program |
D3 | Tokenisasi | Case Folding | Filtering | Stepword Removal | Stemming |
kesalahan | kesalahan | kesalahan | kesalahan | salah | |
pemasukan | pemasukan | pemasukan | pemasukan | masuk | |
data | data | data | data | data | |
sangat | sangat | sangat | |||
dapat | dapat | dapat | dapat | dapat | |
di | di | di | |||
kurangi | kurangi | kurangi | kurangi | kurang | |
Sepatu | sepatu | sepatu | sepatu | sepatu | |
dia | dia | dia | |||
ketinggalan | ketinggalan | ketinggalan | ketinggalan | tinggal | |
kampus | kampus | kampus | kampus | kampus | |
pergi | pergi | pergi | pergi | pergi | |
ke | ke | ke | |||
dengan | dengan | dengan | |||
motor | motor | motor | motor | motor | |
tidak | tidak | tidak | |||
ada | ada | ada | ada | ada | |
yang | yang | yang | |||
pergi | pergi | pergi | pergi | pergi |
D4 | Tokenisasi | Case Folding | Filtering | Stepword Removal | Stemming |
peralatan | peralatan | peralatan | peralatan | alat | |
yang | yang | yang | |||
di | di | di | |||
perlukan | perlukan | perlukan | perlukan | perlu | |
untuk | untuk | untuk | |||
memperbaiki | memperbaiki | memperbaiki | memperbaiki | baik | |
sepeda | sepeda | sepeda | sepeda | sepeda | |
Kita | kita | kita | |||
sudah | sudah | sudah | sudah | sudah | |
mematuhi | mematuhi | mematuhi | mematuhi | patuh | |
peraturan | peraturan | peraturan | peraturan | atur | |
kampus | kampus | kampus | kampus | kampus | |
permintaan | permintaan | permintaan | permintaan | minta | |
penawaran | penawaran | penawaran | penawaran | tawar | |
harga | harga | harga | harga | harga | |
oleh | oleh | oleh | |||
konsumen | konsumen | konsumen | konsumen | konsumen | |
semakin | semakin | semakin | semakin | makin | |
meningkat | meningkat | meningkat | meningkat | tingkat | |
dia | dia | dia | |||
menangis | menangis | menangis | menangis | tangis | |
karena | karena | karena | |||
cowoknya | cowoknya | cowoknya | cowoknya | cowok | |
meninggal | meninggal | meninggal | meninggal | tinggal |
B. Term Weighting
Term Weighting merupakan proses pembobotan term yang ada di dokumen (Seberapa sering kemunculan term pada dokumen)
N = 4 Query = Komputer Kampus
Documents | D1 | D2 | D3 | D4 | Tfn (D1) | Tfn (D2) | Tfn (D3) | Tfn (D4) | dft | Idft |
sepatu | 2 | 1 | 1 | 0 | 1 | 0,33333 | 0,333333 | 0 | 3 | 0,124939 |
milik | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
beli | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
barang | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
toko | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
harga | 2 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 2 | 0,30103 |
baju | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
jual | 1 | 0 | 0 | 0 | 0,5 | 0 | 0 | 0 | 1 | 0,60206 |
mahir | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
komputer | 0 | 3 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0,60206 |
kampus | 0 | 1 | 3 | 1 | 0 | 0,33333 | 1 | 1 | 3 | 0,124939 |
dapat | 0 | 1 | 1 | 0 | 0 | 0,33333 | 0,333333 | 0 | 2 | 0,30103 |
ruang | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
pakai | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
kelas | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
ada | 0 | 1 | 1 | 0 | 0 | 0,33333 | 0,333333 | 0 | 2 | 0,30103 |
mudah | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
buat | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
program | 0 | 1 | 0 | 0 | 0 | 0,33333 | 0 | 0 | 1 | 0,60206 |
salah | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
masuk | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
data | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
kurang | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
tinggal | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
pergi | 0 | 0 | 2 | 0 | 0 | 0 | 0,666667 | 0 | 1 | 0,60206 |
motor | 0 | 0 | 1 | 0 | 0 | 0 | 0,333333 | 0 | 1 | 0,60206 |
alat | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
perlu | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
baik | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
sepeda | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
sudah | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
patuh | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
atur | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
minta | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
tawar | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
konsumen | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
makin | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
tingkat | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
tangis | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
cowok | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
tinggal | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0,60206 |
Documents | Score D1 | Score D2 | Score D3 | Score D4 |
sepatu | 0,12494 | 0,04165 | 0,041646246 | 0 |
milik | 0,30103 | 0 | 0 | 0 |
beli | 0,30103 | 0 | 0 | 0 |
barang | 0,30103 | 0 | 0 | 0 |
toko | 0,30103 | 0 | 0 | 0 |
harga | 0,30103 | 0 | 0 | 0,30103 |
baju | 0,30103 | 0 | 0 | 0 |
jual | 0,30103 | 0 | 0 | 0 |
mahir | 0 | 0,20069 | 0 | 0 |
komputer | 0 | 0,60206 | 0 | 0 |
kampus | 0 | 0,04165 | 0,12494 | 0,12494 |
dapat | 0 | 0,10034 | 0,10034 | 0 |
ruang | 0 | 0,20067 | 0 | 0 |
pakai | 0 | 0,20067 | 0 | 0 |
kelas | 0 | 0,20067 | 0 | 0 |
ada | 0 | 0,10034 | 0,10034 | 0 |
mudah | 0 | 0,20067 | 0 | 0 |
buat | 0 | 0,20067 | 0 | 0 |
program | 0 | 0,20067 | 0 | 0 |
salah | 0 | 0 | 0,20067 | 0 |
masuk | 0 | 0 | 0,20067 | 0 |
data | 0 | 0 | 0,20067 | 0 |
kurang | 0 | 0 | 0,20067 | 0 |
tinggal | 0 | 0 | 0,20067 | 0 |
pergi | 0 | 0 | 0,40137 | 0 |
motor | 0 | 0 | 0,20067 | 0 |
alat | 0 | 0 | 0 | 0,60206 |
perlu | 0 | 0 | 0 | 0,60206 |
baik | 0 | 0 | 0 | 0,60206 |
sepeda | 0 | 0 | 0 | 0,60206 |
sudah | 0 | 0 | 0 | 0,60206 |
patuh | 0 | 0 | 0 | 0,60206 |
atur | 0 | 0 | 0 | 0,60206 |
minta | 0 | 0 | 0 | 0,60206 |
tawar | 0 | 0 | 0 | 0,60206 |
konsumen | 0 | 0 | 0 | 0,60206 |
makin | 0 | 0 | 0 | 0,60206 |
tingkat | 0 | 0 | 0 | 0,60206 |
tangis | 0 | 0 | 0 | 0,60206 |
cowok | 0 | 0 | 0 | 0,60206 |
tinggal | 0 | 0 | 0 | 0,60206 |
Penjelasan Rumus
dft = D1+D2+D3+D4 ( Setiap angka bernilai 1,sedangkan angka 0 tidak bernilai )
Score D1 = Tfn (D1) * Idft
Score D2 = Tfn (D2) * Idft
Score D3 = Tfn (D3) * Idft
Score D4 = Tfn (D4) * Idft
Idft = Log N/dft
Setelah di lihat dari D1 - D4 dokumen yang paling relevan adalah D2 dan jika kita melakukan pencarian di Google urutannya adalah D2, D3, D4, D1
0,643706 | 0,124939 | 0,124939 | 0 |
D2 | D3 | D4 | D1 |
KESIMPULAN
Setelah di lihat dari D1 - D4 dokumen yang paling relevan adalah D2 dan jika kita melakukan pencarian di Google urutannya adalah D2, D3, D4, D1
By : diapraztika.blogspot.com