Chào các bạn! Truyen4U chính thức đã quay trở lại rồi đây!^^. Mong các bạn tiếp tục ủng hộ truy cập tên miền Truyen4U.Com này nhé! Mãi yêu... ♥

20. Thuật toán học Q

a. Hàm Q:  Giá trị của Q là giá trị thưởng nhận được tức thời ikhi thực hiện tác động a từ trạng thái s, cộng với giá trị (chiết khấu với hệ số gama) thu được theo chính sách tối ưu về sau:

Q(s, a) = r(s,a) + gamaV*(xichma(s,a))

b. Thuật toán học Q:

với hệ số chiết khấu gama và giả thiết giá trị thưởng đơn định:

khởi tạo Q(s,a) = 0 cho mọi cặp s, a.

Quan sát trạng thái hiện thời s,

Thực hiện lặp vô hạn:

- chọn tác động a và thực hiện nó

- nhận giá trị thưởng tương ứng r

- quan sát trạng thái mới s'

- cập nhật Q(s,a) = r + gama* max Q(s',a')

- s = s' 

Bạn đang đọc truyện trên: Truyen4U.Com

Tags: