RND1 반응형 [강화학습 논문 리뷰] Exploration by Random Network Distillation 이번에 포스팅 할 논문은 Exploration by Random Network Distillation이라는 논문입니다. OpenAI에서 2018년 10월에 발표한 논문이고 제목에서 알수 있듯이 exploration에 관한 논문입니다. 매우 간단한 아이디어에서 시작된 논문이지만 (사실 처음에 직관적으로 잘 이해가 되지 않았습니다), 성능은 매우 띄어 납니다. (연구실 프로젝트에도 적용해보았는데, 효과가 꽤 좋습니다) Reward가 sparse한 환경으로 많이 실험하는 Atari-Montezuma에서 SOTA를 기록했고 최초로 인간성능을 뛰어 넘었습니다. 여태까지 매우 많은 강화학습 알고리즘이 나왔지만 이 Montezuma에서는 인간의 성능을 뛰어 넘지 못했었죠. 그런데 드디어 최초로 인간성능을 뛰어넘는 알.. 2022. 12. 10. 이전 1 다음