ActorCritic1 반응형 [강화학습 논문 리뷰] Self-Imitation Learning 이번에 포스팅 할 논문은 Self-Imitation Learning이라는 논문으로, ICML 2018에 나온 논문입니다. 이 논문의 컨셉은 agent의 과거 경험중에 좋은 decision을 내린 경험을 학습시키자 라는 것이고, 이는 간접적으로 deep exploration으로 이끌 수 있다라고 주장하고 있습니다. Introduction exploration과 exploitation의 trade off는 강화학습의 주 challenges 중 하나입니다. Exploit은 reward를 maximize하기 위해 필요하고 explore는 더 좋은 policy를 찾기 위해 필요합니다. 본 논문에서는 agent의 과거 경험을 활용하여 RL의 성능을 높일수 있을지에 대해 다룹니다. 이 논문의 main contribu.. 2022. 12. 10. 이전 1 다음