RSS

iday_758

Tugas IR

(Text Processing dan Term Weighting)

Dosen Pembimbing : Ratri Enggar Pawening, S.Kom
Oleh:
Nur Hidayah      10011758 



Sebelum kita melakukan Text Processing dan Term Weighting kita harus terlebih dahulu membuat Dokumen,di sini saya membuat 4 Dokumen di mana setiap Dokumennya terdiri dari 4 Kalimat

D1 Sepatu itu milik dia
Dia membeli barang di toko
Sepatu itu harganya 80.000
Baju itu terjual seharga 50.000


D2 Dia mahir komputer
di kampus terdapat 5 ruang komputer
Dia memakai sepatu itu di kelas
dengan adanya komputer kita mudah membuat program


D3 kesalahan pemasukan data sangat dapat di kurangi
Sepatu dia ketinggalan di kampus
Dia pergi ke kampus dengan motor
tidak ada yang pergi ke kampus


D4 perlatan yang di perlukan untuk memperbaiki sepeda
Kita sudah mematuhi peraturan kampus
permintaan penawaran harga oleh konsumen semakin meningkat
dia menangis karena cowoknya meninggal


A. Text Processing

 
Tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya.
Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima.
Filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting).
Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.
stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen

D1 Tokenisasi Case Folding Filtering Stepword Removal Stemming
Sepatu sepatu sepatu sepatu sepatu
itu itu itu
milik milik milik milik milik
dia dia dia
membeli membeli membeli membeli beli
barang  barang  barang  barang  barang 
di  di  di 
toko toko toko toko toko
harganya harganya harganya harganya harga
80.000 80.000
Baju baju baju baju baju
terjual terjual terjual terjual jual
seharga seharga seharga seharga harga
50.000 50.000



D2 Tokenisasi Case Folding Filtering Stepword Removal Stemming
Dia dia dia    
mahir mahir mahir mahir mahir
komputer komputer komputer komputer komputer
di di di    
kampus kampus kampus kampus kampus
terdapat terdapat terdapat terdapat dapat
5 5      
ruang ruang ruang ruang ruang
memakai memakai memakai memakai pakai
sepatu sepatu sepatu sepatu sepatu
itu itu itu    
kelas kelas kelas kelas kelas
dengan dengan dengan    
adanya adanya adanya adanya ada
kita kita kita    
mudah mudah mudah mudah mudah
membuat membuat membuat membuat buat
program program program program program



D3 Tokenisasi Case Folding Filtering Stepword Removal Stemming
kesalahan kesalahan kesalahan kesalahan salah
pemasukan pemasukan pemasukan pemasukan masuk
data data data data data
sangat sangat sangat    
dapat dapat dapat dapat dapat
di  di  di     
kurangi kurangi kurangi kurangi kurang
Sepatu sepatu sepatu sepatu sepatu
dia dia dia    
ketinggalan ketinggalan ketinggalan ketinggalan tinggal
kampus kampus kampus kampus kampus
pergi pergi pergi pergi pergi
ke ke ke    
dengan dengan dengan    
motor motor motor motor motor
tidak tidak tidak    
ada ada ada ada ada
yang yang yang    
pergi pergi pergi pergi pergi



D4 Tokenisasi Case Folding Filtering Stepword Removal Stemming
peralatan peralatan peralatan peralatan alat
yang yang yang    
di di di    
perlukan perlukan perlukan perlukan perlu
untuk untuk untuk    
memperbaiki memperbaiki memperbaiki memperbaiki baik
sepeda sepeda sepeda sepeda sepeda
Kita kita kita    
sudah sudah sudah sudah sudah
mematuhi mematuhi mematuhi mematuhi patuh
peraturan peraturan peraturan peraturan atur
kampus kampus kampus kampus kampus
permintaan  permintaan  permintaan  permintaan  minta
penawaran penawaran penawaran penawaran tawar
harga harga harga harga harga
oleh oleh oleh    
konsumen konsumen konsumen konsumen konsumen
semakin semakin semakin semakin makin
meningkat meningkat meningkat meningkat tingkat
dia  dia  dia     
menangis menangis menangis menangis tangis
karena karena karena    
cowoknya cowoknya cowoknya cowoknya cowok
meninggal meninggal meninggal meninggal tinggal

B. Term Weighting
 Term Weighting merupakan proses pembobotan term yang ada di dokumen (Seberapa sering kemunculan    term pada dokumen)
 N = 4              Query  = Komputer Kampus
Documents D1 D2 D3 D4 Tfn (D1) Tfn (D2) Tfn (D3) Tfn (D4) dft Idft
sepatu 2 1 1 0 1 0,33333 0,333333 0 3 0,124939
milik 1 0 0 0 0,5 0 0 0 1 0,60206
beli 1 0 0 0 0,5 0 0 0 1 0,60206
barang 1 0 0 0 0,5 0 0 0 1 0,60206
toko 1 0 0 0 0,5 0 0 0 1 0,60206
harga 2 0 0 1 1 0 0 1 2 0,30103
baju 1 0 0 0 0,5 0 0 0 1 0,60206
jual 1 0 0 0 0,5 0 0 0 1 0,60206
mahir 0 1 0 0 0 0,33333 0 0 1 0,60206
komputer 0 3 0 0 0 1 0 0 1 0,60206
kampus 0 1 3 1 0 0,33333 1 1 3 0,124939
dapat 0 1 1 0 0 0,33333 0,333333 0 2 0,30103
ruang 0 1 0 0 0 0,33333 0 0 1 0,60206
pakai 0 1 0 0 0 0,33333 0 0 1 0,60206
kelas 0 1 0 0 0 0,33333 0 0 1 0,60206
ada 0 1 1 0 0 0,33333 0,333333 0 2 0,30103
mudah 0 1 0 0 0 0,33333 0 0 1 0,60206
buat 0 1 0 0 0 0,33333 0 0 1 0,60206
program 0 1 0 0 0 0,33333 0 0 1 0,60206
salah 0 0 1 0 0 0 0,333333 0 1 0,60206
masuk 0 0 1 0 0 0 0,333333 0 1 0,60206
data 0 0 1 0 0 0 0,333333 0 1 0,60206
kurang 0 0 1 0 0 0 0,333333 0 1 0,60206
tinggal 0 0 1 0 0 0 0,333333 0 1 0,60206
pergi 0 0 2 0 0 0 0,666667 0 1 0,60206
motor 0 0 1 0 0 0 0,333333 0 1 0,60206
alat 0 0 0 1 0 0 0 1 1 0,60206
perlu 0 0 0 1 0 0 0 1 1 0,60206
baik 0 0 0 1 0 0 0 1 1 0,60206
sepeda 0 0 0 1 0 0 0 1 1 0,60206
sudah 0 0 0 1 0 0 0 1 1 0,60206
patuh 0 0 0 1 0 0 0 1 1 0,60206
atur 0 0 0 1 0 0 0 1 1 0,60206
minta 0 0 0 1 0 0 0 1 1 0,60206
tawar 0 0 0 1 0 0 0 1 1 0,60206
konsumen 0 0 0 1 0 0 0 1 1 0,60206
makin 0 0 0 1 0 0 0 1 1 0,60206
tingkat 0 0 0 1 0 0 0 1 1 0,60206
tangis 0 0 0 1 0 0 0 1 1 0,60206
cowok 0 0 0 1 0 0 0 1 1 0,60206
tinggal 0 0 0 1 0 0 0 1 1 0,60206
 

Documents Score D1 Score D2 Score D3 Score D4
sepatu 0,12494 0,04165 0,041646246 0
milik 0,30103 0 0 0
beli 0,30103 0 0 0
barang 0,30103 0 0 0
toko 0,30103 0 0 0
harga 0,30103 0 0 0,30103
baju 0,30103 0 0 0
jual 0,30103 0 0 0
mahir 0 0,20069 0 0
komputer 0 0,60206 0 0
kampus 0 0,04165 0,12494 0,12494
dapat 0 0,10034 0,10034 0
ruang 0 0,20067 0 0
pakai 0 0,20067 0 0
kelas 0 0,20067 0 0
ada 0 0,10034 0,10034 0
mudah 0 0,20067 0 0
buat 0 0,20067 0 0
program 0 0,20067 0 0
salah 0 0 0,20067 0
masuk 0 0 0,20067 0
data 0 0 0,20067 0
kurang 0 0 0,20067 0
tinggal 0 0 0,20067 0
pergi 0 0 0,40137 0
motor 0 0 0,20067 0
alat 0 0 0 0,60206
perlu 0 0 0 0,60206
baik 0 0 0 0,60206
sepeda 0 0 0 0,60206
sudah 0 0 0 0,60206
patuh 0 0 0 0,60206
atur 0 0 0 0,60206
minta 0 0 0 0,60206
tawar 0 0 0 0,60206
konsumen 0 0 0 0,60206
makin 0 0 0 0,60206
tingkat 0 0 0 0,60206
tangis 0 0 0 0,60206
cowok 0 0 0 0,60206
tinggal 0 0 0 0,60206

Penjelasan Rumus
dft           = D1+D2+D3+D4     ( Setiap angka bernilai 1,sedangkan angka 0 tidak bernilai )
Score D1 =  Tfn (D1)   * Idft
Score D2 =  Tfn (D2)   * Idft
Score D3 =  Tfn (D3)   * Idft
Score D4 =  Tfn (D4)   * Idft
Idft          = Log N/dft


0,643706 0,124939 0,124939 0
D2 D3 D4 D1

KESIMPULAN

Setelah di lihat dari D1 - D4 dokumen yang paling relevan adalah D2 dan jika kita melakukan pencarian di Google urutannya adalah D2, D3, D4, D1


By : diapraztika.blogspot.com

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS