본문 바로가기

강화학습12

반응형
[강화학습 논문 리뷰] Exploration by Random Network Distillation 이번에 포스팅 할 논문은 Exploration by Random Network Distillation이라는 논문입니다. OpenAI에서 2018년 10월에 발표한 논문이고 제목에서 알수 있듯이 exploration에 관한 논문입니다. 매우 간단한 아이디어에서 시작된 논문이지만 (사실 처음에 직관적으로 잘 이해가 되지 않았습니다), 성능은 매우 띄어 납니다. (연구실 프로젝트에도 적용해보았는데, 효과가 꽤 좋습니다) Reward가 sparse한 환경으로 많이 실험하는 Atari-Montezuma에서 SOTA를 기록했고 최초로 인간성능을 뛰어 넘었습니다. 여태까지 매우 많은 강화학습 알고리즘이 나왔지만 이 Montezuma에서는 인간의 성능을 뛰어 넘지 못했었죠. 그런데 드디어 최초로 인간성능을 뛰어넘는 알.. 2022. 12. 10.
[강화학습 논문 리뷰] Self-Imitation Learning 이번에 포스팅 할 논문은 Self-Imitation Learning이라는 논문으로, ICML 2018에 나온 논문입니다. 이 논문의 컨셉은 agent의 과거 경험중에 좋은 decision을 내린 경험을 학습시키자 라는 것이고, 이는 간접적으로 deep exploration으로 이끌 수 있다라고 주장하고 있습니다. Introduction exploration과 exploitation의 trade off는 강화학습의 주 challenges 중 하나입니다. Exploit은 reward를 maximize하기 위해 필요하고 explore는 더 좋은 policy를 찾기 위해 필요합니다. 본 논문에서는 agent의 과거 경험을 활용하여 RL의 성능을 높일수 있을지에 대해 다룹니다. 이 논문의 main contribu.. 2022. 12. 10.
[강화학습 논문 리뷰] Curiosity-driven Exploration by Self-supervised Prediction 이번에 포스팅할 논문은 "Curiosity-driven Exploration by Self-supervised Prediction" 으로 2017년 5월에 arxiv에 올라온 논문 입니다. 제목에서 알 수 있듯이, 강화학습의 exploration에 관한 내용입니다. 게임과 같은 환경이 아니라 실제환경 같은 경우에는 reward가 매우 sparse합니다. 이는 이전에서 포스팅한 HDQN에서도 언급한 내용입니다. 본 논문에서는 curiosity(호기심)이 agent가 explore하는데 도움을 주며 future scenario에서 skill을 습득하는데 도움을 준다고 언급하고 있습니다. (curiosity라는 개념은 e-greedy와 같은 일종의 exploration하기 위한 알고리즘이라고 보시면 될 것 같.. 2022. 12. 10.
[강화학습 논문 리뷰] Surprise Minimizing Reinforcement Learning(SMiRL) 이번에 포스팅할 논문은 Surprise Minimizing Reinforcement Learning(SMiRL)로서 2021년 International Conference on Learning Representations(ICLR)에 구두 발표(Oral)로 Accept된 논문을 통해 제안되었습니다. 인공지능 최고의 Conference에서 Oral 발표로 논문이라는 것은 그만큼 논문의 학술적인 가치가 매우 높다라는 뜻입니다. 이전에 포스팅에서 일반적으로 강화학습의 Exploration을 위한 장치로서 Curiosity를 이용하고 그중 RND가 Baseline으로서 많이 사용된다고 서술하였습니다. 본 논문의 저자들은 Curiosity와 같은 Exploration Method를 Novelty-Seeking M.. 2021. 3. 12.
[강화학습 논문 리뷰] NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES 이번에 소개해드릴 논문은 NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES 이라는 논문으로 2020 ICLR 에 accept된 논문입니다. https://arxiv.org/pdf/2002.06038.pdf 메인 아이디어는 Exploration 과 Exploitation을 같은 네트워크에서 배우게 하는 것이며 이를 위해 Universal Value Function Approximators (UVFA) 를 사용합니다. 논문의 저자들은 다음 두가지 Intrinsic reward 를 제안 합니다. Per-episode novelty (Episodic Novelty) : Agent가 여러 에피소드에 걸쳐서 친숙한(familiar) state를 지속적으로 재방문 하.. 2020. 10. 29.
[강화학습 논문 리뷰] BEBOLD: EXPLORATION BEYOND THE BOUNDARY OF EXPLORED REGIONS 이전 포스팅에서 RND다음으로 exploration bonus하는 논문인 RIDE에 대해서 소개하였습니다. bluediary8.tistory.com/115?category=640398 Rewarding impact-driven exploration for procedurally-generated environments. 이번에 소개 할 논문은 Rewarding impact-driven exploration for procedurally-generated environments이라는 논문입니다. 2020 ICLR에 accept된 논문 입니다. (openreview.net/forum?id=rkg-TJBFPB) RIDE: Rewar.. bluediary8.tistory.com 이번에는 올해 나온 explora.. 2020. 10. 29.
[강화학습 논문 리뷰] Rewarding impact-driven exploration for procedurally-generated environments. 이번에 소개 할 논문은 Rewarding impact-driven exploration for procedurally-generated environments이라는 논문입니다. 2020 ICLR에 accept된 논문 입니다. (openreview.net/forum?id=rkg-TJBFPB) RIDE: Rewarding Impact-Driven Exploration for... Reward agents for taking actions that lead to changes in the environment state. openreview.net 강화학습에서 주요 문제중 하나는 reward가 부족한 sparse reward problem이고, 이를 해결하기 위한 가장 방법중 하나는 intrinsic rewa.. 2020. 10. 29.
R로하는 강화학습 (DQN) (Keras) library(keras) #####DQN Modelmodel % layer_dense(units = 256, activation = 'relu', input_shape = c(100)) %>% layer_dropout(rate = 0.4) %>% layer_dense(units = 128, activation = 'relu') %>% layer_dropout(rate = 0.3) %>% layer_dense(units = 4, activation = 'linear') summary(model) model %>% compile( loss = 'mean_squared_error', optimizer = optimizer_rmsprop()) ####### Target Network Modeltarget_qn.. 2018. 4. 27.