Q-öğrenme, belirli bir durumdaki bir eylemin değerini öğrenmeye yönelik, modelsiz bir takviyeli öğrenme algoritmasıdır. Bir ortam modeli gerektirmez ve stokastik geçişler ve ödüllerle ilgili sorunları uyarlama gerektirmeden çözebilir.[1]

Herhangi bir sonlu Markov karar süreci için Q-öğrenme, mevcut durumdan başlayarak birbirini takip eden tüm adımlar üzerinden toplam ödülün beklenen değerini maksimuma çıkarma anlamında en uygun politikayı bulur.[2] Q-öğrenme, sonsuz araştırma süresi ve kısmen rastgele bir politika göz önüne alındığında, herhangi bir sonlu Markov karar süreci için en uygun eylem seçim politikasını belirleyebilir. "Q", algoritmanın hesapladığı işlevi, yani belirli bir durumda gerçekleştirilen bir eylem için beklenen ödülleri ifade eder.[2]

Pekiştirmeli Öğrenme

edit

Reinforcement learning, bir ajanı(öğrenen varlık), bir dizi durumu S ve her durum için bir dizi A eylemi içerir. Bir eylem a∈A gerçekleştirilerek, ajan durumdan duruma geçiş yapar. Belirli bir durumda bir eylemi gerçekleştirmek, ajanı bir ödülle (sayısal bir puan) ödüllendirir.[1]

Ajanın amacı toplam ödülünü maksimize etmektir. Bunun için ajan, mevcut durumunu başarılı bir şekilde elde etmenin ödülüne gelecek durumlardan elde edilebilecek maksimum ödülü ekleyerek toplam ödülünü artırmaya çalışır. Bu potansiyel ödül, mevcut durumdan başlayarak tüm gelecekteki adımların ödüllerinin beklenen değerlerinin ağırlıklı toplamıdır.[2]

Bir örnekle açıklamak gerekirse, bir treni binme sürecini düşünelim; burada ödül, toplam binme süresinin negatif olarak ölçüldüğü bir durumu ele alalım (alternatif olarak, treni binmenin maliyeti binme süresine eşittir). Bir strateji, tren kapıları açıldığında hemen içeri girmek olabilir, bu durumda kendiniz için ilk bekleme süresini en aza indirirsiniz. Ancak tren kalabalıksa, ardından insanlar sizi treni terk etmeye çalışırken içeri girmeye çalıştığınız için ilk eylem olan kapıdan içeri girişiniz yavaş olacaktır. Toplam binme süresi veya maliyeti şöyle olacaktır:

  • 0 saniye bekleme süresi + 15 saniye kavga süresi

Bir sonraki gün, rastgele bir şans (keşif) ile başkalarının önce çıkmasını beklemeye ve sonra içeri girmeye karar verirsiniz. Bu başlangıçta daha uzun bir bekleme süresine neden olur. Ancak, treni terk eden yolcularla kavga etme süresi daha kısa olacaktır. Genel olarak, bu yol, bir önceki güne göre daha yüksek bir ödül içerir, çünkü toplam binme süresi şimdi şöyle olacaktır:

  • 5 saniye bekleme süresi + 0 saniye kavga süresi

Keşif sayesinde, başlangıçta (sabırlı) eylemin daha büyük bir maliyetle (veya negatif ödülle) sonuçlanmasına rağmen, genel maliyet daha düşüktür, böylece daha ödüllendirici bir strateji ortaya çıkar.

Değişkenlerin etkisi

edit

Öğrenme oranı

edit

Öğrenme hızı veya adım büyüklüğü, yeni edinilen bilgilerin eski bilgileri ne ölçüde geçersiz kılacağını belirler. Faktör 0 yapılırsa, ajan hiçbir şey öğrenmez (yalnızca önceki bilgileri kullanır), 1 yapılırsa, ajan yalnızca en son bilgiyi dikkate alır (olasılıkları keşfetmek için önceki bilgileri yok sayar). Tamamen belirli ortamlarda, αt​=1, ajan için optimaldir. Problemin stokastik olduğu durumlarda, algoritma öğrenme hızı üzerine bazı teknik koşullar altında sıfıra düşmesini gerektiren koşullar altında yaklaşır. Pratikte genellikle sabit bir öğrenme hızı kullanılır, örneğin αt​=0.1 gibi, tüm t için.[3]

İndirim faktörü

edit

İndirim faktörü γ, gelecekteki ödüllerin önemini belirler. Faktör 0, ajanı sadece mevcut ödülleri olan "miyop" (veya kısa görüşlü) yapar, yani rt​ (yukarıdaki güncelleme kuralında), 1'e yaklaşan bir faktör ise uzun vadeli yüksek bir ödül için çaba gösterir. İndirim faktörü 1'i karşıladığında veya aştığında, eylem değerleri sapabilir. γ=1 için, bir terminal durum olmadığında veya ajan hiçbir zaman bir terminal duruma ulaşmazsa, tüm çevre geçmişleri sonsuz uzunluktadır ve eklenmemiş, indirgenmemiş ödüllerle hizmet programları genellikle sonsuz olur.[4] Bir yapay sinir ağıyla değer fonksiyonu yaklaşıklandığında, γ sadece biraz daha düşükse, Q-fonksiyon öğrenmesi hataların yayılmasına ve kararlılıkların bozulmasına yol açar. Bu durumda, γ değerini daha düşük bir değerle başlatmak ve zamanla artırmak öğrenmeyi hızlandırır.[5]

Başlangıç ​​koşulları (Q0)

edit

Q-learning, yinelemeli bir algoritma olduğundan, ilk güncelleme gerçekleşmeden önce varsayılan bir başlangıç durumunu içsel olarak kabul eder. Yüksek başlangıç değerleri, aynı zamanda "iyimser başlangıç koşulları" olarak bilinir,[6] keşfi teşvik edebilir: seçilen eylem ne olursa olsun, güncelleme kuralı onun diğer alternatiflerden daha düşük değerlere sahip olmasına neden olacak, bu da onların seçim olasılığını artıracaktır.[7] İlk ödül r başlangıç koşullarını sıfırlamak için kullanılabilir. Bu fikre göre, bir eylem alındığında ilk kez, ödül Q değerini ayarlamak için kullanılır. Bu, sabit belirlenmiş ödüller durumunda hemen öğrenmeyi sağlar.[7] Başlangıç koşullarının sıfırlanmasını içeren bir model (RIC), herhangi bir keyfi başlangıç koşulu kabul eden bir modele göre katılımcı davranışını daha iyi tahmin etmesi beklenir. RIC, tekrarlanan ikili seçim deneylerinde insan davranışı ile tutarlı görünmektedir.[7]

Kaynakça

edit
  1. ^ a b Li, Shengbo Eben (2023). "Reinforcement Learning for Sequential Decision and Optimal Control". SpringerLink. doi:10.1007/978-981-19-7784-8.
  2. ^ a b c Watkins, Christopher J. C. H.; Dayan, Peter (1992-05-01). "Q-learning". Machine Learning. 8 (3): 279–292. doi:10.1007/BF00992698. ISSN 1573-0565.
  3. ^ "Book". incompleteideas.net. Retrieved 2024-01-26.
  4. ^ "Prentice Hall", Wikipedia, 2023-12-11, retrieved 2024-01-26
  5. ^ "arXiv", Wikipedia, 2024-01-16, retrieved 2024-01-26
  6. ^ "2.7 Optimistic Initial Values". web.archive.org. 2013-09-08. Retrieved 2024-01-26.
  7. ^ a b c Shteingart, Hanan; Neiman, Tal; Loewenstein, Yonatan (2013). "The role of first impression in operant learning". Journal of Experimental Psychology: General. 142 (2): 476–488. doi:10.1037/a0029550. ISSN 1939-2222.