본문 바로가기

강화학습11

반응형
[강화학습 논문 리뷰] Exploration by Random Network Distillation 이번에 포스팅 할 논문은 Exploration by Random Network Distillation이라는 논문입니다. OpenAI에서 2018년 10월에 발표한 논문이고 제목에서 알수 있듯이 exploration에 관한 논문입니다. 매우 간단한 아이디어에서 시작된 논문이지만 (사실 처음에 직관적으로 잘 이해가 되지 않았습니다), 성능은 매우 띄어 납니다. (연구실 프로젝트에도 적용해보았는데, 효과가 꽤 좋습니다) Reward가 sparse한 환경으로 많이 실험하는 Atari-Montezuma에서 SOTA를 기록했고 최초로 인간성능을 뛰어 넘었습니다. 여태까지 매우 많은 강화학습 알고리즘이 나왔지만 이 Montezuma에서는 인간의 성능을 뛰어 넘지 못했었죠. 그런데 드디어 최초로 인간성능을 뛰어넘는 알.. 2022. 12. 10.
[강화학습 논문 리뷰] Self-Imitation Learning 이번에 포스팅 할 논문은 Self-Imitation Learning이라는 논문으로, ICML 2018에 나온 논문입니다. 이 논문의 컨셉은 agent의 과거 경험중에 좋은 decision을 내린 경험을 학습시키자 라는 것이고, 이는 간접적으로 deep exploration으로 이끌 수 있다라고 주장하고 있습니다. Introduction exploration과 exploitation의 trade off는 강화학습의 주 challenges 중 하나입니다. Exploit은 reward를 maximize하기 위해 필요하고 explore는 더 좋은 policy를 찾기 위해 필요합니다. 본 논문에서는 agent의 과거 경험을 활용하여 RL의 성능을 높일수 있을지에 대해 다룹니다. 이 논문의 main contribu.. 2022. 12. 10.
[강화학습 논문 리뷰] Curiosity-driven Exploration by Self-supervised Prediction 이번에 포스팅할 논문은 "Curiosity-driven Exploration by Self-supervised Prediction" 으로 2017년 5월에 arxiv에 올라온 논문 입니다. 제목에서 알 수 있듯이, 강화학습의 exploration에 관한 내용입니다. 게임과 같은 환경이 아니라 실제환경 같은 경우에는 reward가 매우 sparse합니다. 이는 이전에서 포스팅한 HDQN에서도 언급한 내용입니다. 본 논문에서는 curiosity(호기심)이 agent가 explore하는데 도움을 주며 future scenario에서 skill을 습득하는데 도움을 준다고 언급하고 있습니다. (curiosity라는 개념은 e-greedy와 같은 일종의 exploration하기 위한 알고리즘이라고 보시면 될 것 같.. 2022. 12. 10.
[강화학습 논문 리뷰] Surprise Minimizing Reinforcement Learning(SMiRL) 이번에 포스팅할 논문은 Surprise Minimizing Reinforcement Learning(SMiRL)로서 2021년 International Conference on Learning Representations(ICLR)에 구두 발표(Oral)로 Accept된 논문을 통해 제안되었습니다. 인공지능 최고의 Conference에서 Oral 발표로 논문이라는 것은 그만큼 논문의 학술적인 가치가 매우 높다라는 뜻입니다. 이전에 포스팅에서 일반적으로 강화학습의 Exploration을 위한 장치로서 Curiosity를 이용하고 그중 RND가 Baseline으로서 많이 사용된다고 서술하였습니다. 본 논문의 저자들은 Curiosity와 같은 Exploration Method를 Novelty-Seeking M.. 2021. 3. 12.
머신러닝의 정의와 구분 (지도학습, 비지도 학습, 강화학습) 머신러닝의 정의와 그리고 머신러닝의 분류로 볼수 있는 지도학습, 비지도 학습, 강화학습의 개념과 차이점에 대해서 알아보도록 하겠습니다. 머신 러닝의 정의 머신 러닝의 정의 머신 러닝의 정의 : 4-5년 전만해도 머신 러닝 (Machine Learning)을 인공지능과 비슷한 개념으로서 많이 사용해 왔습니다. 인공지능이라고 해 봤자, 무언가 분류하거나 예측하는 것 이상 할 수 가 없었기 때문이죠. 하지만, 4-5년전부터 딥러닝 (특히, GAN과 강화학습)이 발전하면서 머신 러닝과 인공지능을 분류해서 부르기 시작하였습니다. 머신 러닝의 '정의'에 대해서 이야기 할 때에는 인공지능의 정의와 같다라고 보시면 될 것 같습니다. 다만, 사용하는 분야가 조금 다르다라고 보시면 될 것 같습니다. 최근에 부르는 머신 러.. 2020. 6. 26.
최근 인공지능 (딥러닝) 적용 사례 (분야) 딥러닝이 부흥하기 시작하면서 다양한 분야에 다양한 형태로 발전이 되어오고 있습니다. 이번 포스팅에서는 딥러닝이 쓰이는 분야에 대해 간단히 소개 해 보도록 하겠습니다. 이 외에도 다양한 분야가 있으니, 참고 하시길 바랍니다. 컴퓨터 비젼 (Computer Vision) 이미지 분류 (Image classification) 이미지 분류 : 인간이 이미지를 분류하는 성능은 약 95%정도 입니다. 인공지능 모델을 구축해서 이미지를 분류하는 대회가 2010년부터 열려왔습니다. 2010년에 우승했던 모델의 분류 성능은 약 72%입니다. 어떻게 하면 인간처럼 또는 그 이상 이미지 분류의 성능을 낼 수 있을까 많은 연구자들이 고민을 해왔습니다. 2015년 ResNet이라는 모델이 약96%의 성능을 기록하면서 나오면서 .. 2020. 6. 24.
R로하는 강화학습 (DQN) (Keras) library(keras) #####DQN Modelmodel % layer_dense(units = 256, activation = 'relu', input_shape = c(100)) %>% layer_dropout(rate = 0.4) %>% layer_dense(units = 128, activation = 'relu') %>% layer_dropout(rate = 0.3) %>% layer_dense(units = 4, activation = 'linear') summary(model) model %>% compile( loss = 'mean_squared_error', optimizer = optimizer_rmsprop()) ####### Target Network Modeltarget_qn.. 2018. 4. 27.
R로 하는 강화학습 (DQN) (Base R Code) #############함수 정의 ## relu함수relu0,x,0)} ## Neural Network FeedForwardnn.ff2 2018. 4. 23.