본문 바로가기

전체 글150

반응형
Dueling Network Architectures for Deep Reinforcement Learning 이번에 포스팅 할 논문은 "Dueling Network Architectures for Deep Reinforcement Learning" 이며 Google DeepMind 팀에서 낸 논문입니다. 2016년 4월에 나온논문으로 비교적 오래된(?) 논문입니다. Abstract 강화학습이 발전하면서 대부분 기존의 NN의 구조를 변형해가는 형태로만 발전해오고 있는데 (CNN LSTM, AE 등), 이 논문에서는 새로운 NN의 구조를 제시하면서 model - free 한 강화학습 구조를 제안합니다. Dueling Network는 아래그림(밑에 그림)처럼 두개의 분리된 Stream을 가집니다. 아래 그림의 위그림은 일반적인 Network구조이고 두번째 그림이 Dueling Network 구조 입니다. 두개의 st.. 2018. 2. 24.
[딥러닝 논문 리뷰] Distilling a Neural Network Into a Soft Decision Tree 이번에 포스팅할 논문은 "Distilling a Neural Network Into a Soft Decision Tree" 로, Nicholas Frosst와 Geoffrey Hinton교수가 쓴 논문입니다. 논문 제목에서 유추할수 있듯이 Neural Network를 Decision Tree와 접목시킨 내용의 논문입니다. 이 모형의 성능 자체는 매우 좋은 것은 아닙니다만, 아이디어가 독특해서 포스팅하게 되었습니다. Motivation/Introduction 논문에서는 다음과 같이 쓰여져 있는데, 결국에 하고자 하는 이야기는 Neural Net이 좋긴 한데 classification decision 에 대해서는 조금 설명하기 어려운 부분이 있으니 Neural Net을 통해 지식을 취하고 계층적 의사결정을 .. 2018. 2. 4.
Hierarchical Deep Reinforcement Learning (HDQN) 본 포스팅은 기본적은 강화학습인 Q-learning과 DQN(Deep Q-network)에 대해 알고 있으셔야 읽기 수월합니다. Q-learning과 DQN에 대한 내용은 김성교수님의 모두를 위한 RL 강의를 참고하시기 바랍니다.(https://www.youtube.com/playlist?list=PLlMkM4tgfjnKsCWav-Z2F-MMFRx-2gMGG) Hierarchical Deep Reinforcement Learning (HDQN)은 한국말로 번역하면 계층적 강화학습으로 여러 목표를 정해 그 목표를 차근차근 해결해나가겠다는 컨셉입니다. 굳이 여러 목표를 통해 강화학습을 진행하는 이유는, sparse reward (delayed reward) 문제 때문입니다. 일반적으로 강화학습으로 푸는 문제.. 2017. 11. 21.
알고리즘의 발전 - Drop-out Drop-out 또한 신경망의 고질적인 문제인 over-fitting문제를 완화시킬 수 있는 테크닉(알고리즘이라고 말하기는 애매한듯.)인데, 매우 심플하면서 효율적인 테크닉으로 학습과정에서 layer의 node을 random하게 drop함으로써, regularization효과를 가지게 한다. Drop-out의 개념은 아래 그림을 보면 좀 더 직관적으로 이해가 된다. input -> hidden, hidden -> hidden 으로 weight를 전파할 때에 random 하게 node를 꺼버리는 것으로서, 실제로 구현 할때에는 drop-out 확률을 지정해 그 확률 만큼 random하게 노드를 선택해 그 노드들은 0을 곱해주는 식으로 연산이 진행된다. Drop-out이 나오게 된 motivation이 매우.. 2017. 4. 3.
알고리즘의 발전 - ReLU 기존의 인공 신경망의 단점으로 지적되는 특성이 여러가지가 있다. 크게 over fitting문제와 gradient vanishing problem가 있다. over fitting의 경우에는 학습데이터에 너무 맞춰서 학습이 되다보니 실제데이터(test data)에는 잘 안맞는 현상을 이야기 한다. gradient vanishing(exploding) problem은 neural network의 weight가 계속 전파 되면서 초기의 weight를 잊어버리거나(기울기가 0에 수렴하는 현상 /vanishing) 무한히 커지는 현상(exploding)을 이야기한다. gradient vanishing(exploding) problem은 activation function과 관련이 있는데, 기존의 신경망에서 가장 .. 2017. 3. 25.
딥러닝이란 딥러닝은 1차적인 의미로는 인공신경망의 진화된 형태로 hidden layer가 2개 이상인 MLP를 의미한다. 하지만, 요즈음 딥러닝은 다양한 형태로 변형된 신경망을 (AE, DAE, SDA, CNN, RNN)등을 통틀어서 지칭한다 이러한 의미에서 딥러닝은 Representation Learning이라는 정의를 가지는데, 데이터의 복잡한 구조를 multiple level로 모델링을 하는 것이다. 쉽게 말해 다양한 층(layer)을 쌓아 각 층마다 데이터의 패턴을 학습시켜 각 층마다 학습시킨 패턴을 종합하는 과정으로 이해 할 수 있다. 딥러닝이 수년전부터 대두되는 이유는 크게 3가지의 이유가 있는데 첫번째로 기존의 인공신경망의 단점을 보완할 수 있는 알고리즘의 발전을 얘기 할 수 있고 두번째로는 학습시킬수.. 2017. 3. 21.