Reinforcement learning adalah sebuah model pembelajaran terhadap apa yang dilakukan, dan sebagai umpan balik bagaimana memetakan perubahan situasi lingkungan terhadap aksi yang dilakukan untuk memaksimalkan keuntungan. Model proses pembelajar ini tidak harus mendikte aksi yang mana yang harus dilakukan dulu seperti umumnya pada model mesin learning. Tetapi sistem harus menjelajahi dulu seluruh aksi yang mana yang menghasilkan reward terbesar dengan cara mencobanya dan mengerjakannya, Humphrys (1997).
Prinsip yang digunakan dalam metode ini didasarkan pada teori reinforcement yang pada intinya adalah ‘konsekuensi mempengaruhi tindakan’. Ada 3 prinsip dasar pada teorireinforcement yakni (Tadepalli et al, 1998; ).
- Konsekuensi yang berakibat baik mendorong terjadinya tindakan.
- Konsekuensi yang berakibat buruk mendorong berkurangnya tindakan.
- Konsekuensi yang tidak ada dampaknya tidak memperngaruhi tindakan.
Dengan kata lain, setiap tindakan mengarah pada konsekuensi baik, buruk, atau tidak ada konsekuensi sama sekali. Dan konsekuensi tersebut akan menjadi penyebab terjadi atau tidaknya sebuah tindakan atau kondisi. Tindakan dan konsekuensi yang diterapkan berbeda-beda dan harus disesuaikan dengan kasus yang bersangkutan agar dapat berfungsi secara efektif. Metode reinforcement learning dapat dijabarkan dalam bentuk persamaan berikut (Kaelbling et al, 1996):
π =arg max {r(s,a) + γV(s,a)}, untuk setiap a
Berdasarkan pada persamaan (1), Tran dan Cohen (2002) membangun sebuah algoritma perhitungan untuk reputasi pemasok pada proses pembelian dan penjualan dalam platformElectronic Marketplaces. Secara matematis perhitungan dapat dijabarkan lebih lanjut seperti berikut. Misalkan manajer pembelian (buyer) b mengumumkan keinginannya akan barang tertentu g. Anggap G adalah himpunan barang-barang, P adalah himpunan harga-harga, dan Sadalah himpunan semua pemasok yang ada di pasar. G, P, dan S adalah himpunan terbatas (finite). Anggap Sb adalah himpunan pemasok yang memiliki reputasi bagus bagi buyer b, yang artinya Sb berisi pemasok yang telah melayani b dengan baik di masa lalu sehingga dipercaya oleh b. Oleh sebab itu, Sb υ S dan awalnya Sb merupakan himpunan kosong.
No comments:
Post a Comment