2019年10月18日金曜日

Off-policy learning คืออะไร ทำไมต้อง off-policy

Off-policy learning คืออะไร ทำไมต้อง off-policy

ถ้าเราเดินตาม(เลือกaction)ตามpolicyหนึ่งๆ แล้วเอา experience ที่ได้มา improve policy นั้นๆ
และหลังจากนั้นเราก็เดินตามไอpolicy ที่ improved แล้วของเรา
พอวนอย่างนี้ไปเรื่อยๆ เราก็จะเดินตามแต่ policy ที่มันดีขึ้นเรื่อยๆ ทำให้เราไม่ได้ explore เลย

ปัญหาคือ เราอยาก explore บ้าง เผื่อมันมีทางอื่นที่ดีกว่า
เราจะแก้ปัญหานี้ยังไง

คำตอบนึงคือ

ทำไมเราต้องเดินตาม policy pi1(พายหนึ่ง) เพื่อ improve pi1 หล่ะ
เราก็เดินตาม policy อื่น(ที่exploreเยอะๆ) แล้วเอา experience นั้นมา improve pi1 (เขาเรียก target policy หมายถึง policy ที่เราอยาก improve) อย่างนี้สิ

ตรงสีน้ำเงิน นี่แหละ เขาเรียก on-policy
ตรงสีแดง เรียก off-policy

พูดอีกแบบ
on-policy เนี่ย เราเดินบน policy ที่เราอยาก improve
เราเดิน"บน"ไง เราเดิน"on" target policy
มันก็เลยเรียกว่า on-policy

ส่วน off-policy เนี่ย ทำนองเดียวกัน
เราไม่ได้เดินบน(เราเดิน off) target policy เราเดินบน policy อื่นแล้วเอา...(น่าจะรู้แล้วนะ จะพูดอะไรต่อ)(เฉลย แล้วเอา experience นั้นไป improve target policy)

เพราะงั้นคราวหลังไปอ่านเจอ ก็ต้องรู้แล้วนะ
ว่า on-policy กับ off-policy นี่คืออะไร!!!!

เพราะงั้น!!!
เวลาเจอ on-policy ให้คิดในหัวว่า
「on-policy คือ เราเดิน on target policy
off-policy คือ เราไม่ได้เดิน on  เราเดิน off  target policy (แล้วเอาexperienceที่ได้นั้นไป improve target policy)」

Off-policy learning คืออะไร ทำไมต้อง off-policy

Off-policy learning คืออะไร ทำไมต้อง off-policy ถ้าเราเดินตาม(เลือกaction)ตามpolicyหนึ่งๆ แล้วเอา experience ที่ได้มา improve policy นั้นๆ...