[Paper Review] Decision Transformer: Reinforcement Learning via Sequence Modeling

Paper Review
작성자
Hyeongwon Kang
작성일
2021-08-10 04:08
조회
4069
1. Topic

강화 학습에 Transformer를 접목시킨 Decision Transformer 모델을 소개합니다.

Decision Transformer 논문은 버클리대, Facebook AI Research, Google Brain에서 공동연구하여 2021년 6월에 arxiv에 올라온 논문입니다.

세미나는 두 번으로 나뉘어, 강화학습에 대한 소개와 기초에 대한 설명을 진행하고, Decision Transformer 를 설명하겠습니다.

2. Overview

1주차 - Introduction of Reinforcement Learning
  • 강화학습은 시행착오를 통해 학습하여 일련의 결정을 내리는 기계 학습 알고리즘입니다.
  • Expected Return을 Maximize하는 optimal policy를 찾고자 합니다.
2주차 - Decision Transformer: Reinforcement Learning via Sequence Modeling
  • 강화 학습을 Transformer를 이용하여 sequence modeling 문제로 추상화하는 프레임워크를 제안합니다.
  • GPT-2 Architecture를 사용하여 TD Learning과 같은 기존의 RL Algorithms을 통해 policy를 학습하는 대신에 state, action, reward의 sequence에 대한 Auto-regressive model을 학습합니다.
  • 단순하지만 기존의 Model-free Offline RL Baseline(CQL, BEAR) 성능 능가하였습니다.
  • 강화 학습에도 Transformer 계열의 모델을 접목시켜 연구를 진행할 수 있다는 방향성을 제시합니다.
3. 발표자료 및 발표영상

[1] 발표자료 : 하단첨부

[2] 발표영상 :

(1) Introduction of Reinforcement Learning " target="_blank" rel="noopener">Link

(2) Decision Transformer " target="_blank" rel="noopener">Link

4. 참고 문헌

[1] Decision Transformer: Reinforcement Learning via Sequence Modeling Link

[2] Batch reinforcement learning Link

[3] Conservative Q-Learning for Offline Reinforcement Learning Link

[4] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction Link
전체 14

  • 2021-08-12 16:03

    이번 세미나는 강화학습을 주제로 총 2번에 나뉘어 진행이 되었으며 강화학습에 대한 소개와 기초에 대한 설명과 최근 논문에 대해 소개해 주셨습니다. 첫번째 세미나에서는 강화학습에 전반적인 개요 뿐만아니라 다양한 사례를 함께 공유해 주셔서 개념을 학습하는데 많은 도움이 되었습니다. 두번째 세미나에서는 "Decision Transformer: Reinforcement Learning via Sequence Modeling"를 공유해 주셨는데, 이전까지 설명한 강화학습과는 다른 아키텍처와 강화학습 방향을 제시한 논문입니다. 해당 논문에서는 강화학습을 Transformer 아키텍처에서 활용하기 위하여 강화학습 과정에서 발생하는 State, reward, action을 Sequence형태의 입력으로 변환하여 사용합니다. 그리고 과거 입력을 기반으로 Transformer가 다음 Action을 예측하게 함으로써 학습을 합니다. 기존 방법론들이 Reward를 최대화 할 수 있는 방향으로 action을 선택할 수 있도록 학습한다면, 해당 방법론에서는 과거 경험을 기반으로 action의 분포를 학습하는 형태입니다. 따라서 해당 action이 Reward를 최대화 할 수 있는 보장이 없음에도 해당 논문에서는 다양한 평가지표에서 좋은 성과를 보였다는 것이 의문이 들었습니다. 오히려 reward를 예측하게 함으로써, inference시에는 action에 따라 reward를 최대로 만들 수 있는 action을 선택하게 했으면 더 좋지 않았을까 하는 생각을 해 봅니다. 좋은 자료와 발표를 제공해주셔서 감사합니다.


  • 2021-08-15 17:02

    금일 세미나는 "Decision Transformer: Reinforcement Learning via Sequence Modeling"라는 주제로 진행되었습니다. 본 발표에서는 강화 학습에 Transformer를 접목시킨 Decision Transformer 모델이 소개되었습니다. 먼저 본격적으로 논문 리뷰를 시작하기 전에 오랜만에 접하는 강화학습에 대해 전반적인 설명을 해주신 점이 좋았고, 특히 여러 기본 개념들을 서로 비교하여 설명해주신 점이 인상적이었습니다. 금일 소개된 Decision Transformer의 경우 강화 학습에 Transformer를 적용하기 위해 강화학습을 sequence modeling 문제로 추상화하였고, GPT-2 Architecture를 사용하여 기존의 policy 학습 대신 state, action, reward의 sequence에 대한 Auto-regressive model을 학습하였습니다. 금일 발표에서는 transformer를 사용하기 위해 강화학습의 문제 형태를 변형한 점이 인상적이었는데, 해당 부분을 청취하며 데이터의 형태로 인해 transformer의 적용이 어려운 time series anomaly detection에서도 문제 변형을 통해 transformer를 사용할 수 있지 않을까하는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2021-08-15 19:53

    강화학습에 대한 전반적인 내용, 기본적인 내용을 우선적으로 리마인드 할 수 있게 준비해준 발표자 분께 감사드리며, 최근 트랜스포머의 다양한 분야로의 활용이 많이 보이는데, 이 중 강화학습에 적용된 사례를 볼 수 있었습니다. 강화학습에서 사용되는 state reward action 에대한 정보를 인풋으로 사용합니다. 디코더에서 return, state 를 통해 action 을 예측하는 auto regressive 모델을 제안합니다. 명확하게 transformer 를 왜 이용했을까 하는 생각을 우선 했는데, 강화학습 자체가 off-policy 상황이라면, inductive bias 가 적은 상황이라 생각 할 수 있을 것 같습니다. 실제로 off-policy 상황에서는 데이터 sample을 더 많이 효율적으로 사용할 수 있는데, 더 많은 데이터를 사용함으로써 최적의 상황을 만들어 내는거 같습니다. 그래서 transformer 를 사용하는 이유는 auto-regressive 라는 정보를 inductive bias 로 활용한 것이 아닌가 생각합니다. 정확한 강화학습의 이론을 잘 모르기 때문에 개인적인 생각이지만, 각각의 방법론에 대해 근본적인 이유를 좀 더 알게된다면, 좋은 조합의 연구가 될 것 같습니다.


  • 2021-08-16 16:38

    금일 세미나는 “Decision Transformer: Reinforcement Learning via Sequence Modeling”에 대한 리뷰로 진행되었습니다. 강화학습에서 transformer를 접목시키는 방법을 소개한 논문으로서 sequence modeling을 활용합니다. 2번에 걸쳐서 진행되었는데, 생소한 강화학습 내용에 대해 먼저 overview를 진행한 후에 논문을 리뷰해주셔서 개념을 정리하는데 도움이 됐습니다. 논문리뷰를 통해서는 강화학습의 과정을 sequence로 정의할 수 있음을 알 수 있었고, state, action, reward를 sequence modeling을 통해 추상화할 수 있다는 새로운 시각에 대해 배울 수 있었습니다. 실험을 통해서 decision transformer가 SOTA모델에 준하는 성능을 보였다는 점에서 흥미로웠습니다. Transformer가 텍스트, 이미지, multivariate 데이터를 넘어서 강화학습 분야에서도 좋은 성능을 낸다는 것을 알 수 있었던 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2021-08-16 19:40

    이번 세미나는 강화학습에 대한 구체적인 개념 설명과, 최근 연구인 Decision Transformer: Reinforcement Learning via Sequence Modeling에 대한 세미나입니다. 우선 강화학습에 대한 구체적인 개념설명을 통해 강화학습의 기저가 되는 개념들을 알 수 있었고, 두번째 세미나에서 주장하는 방법론에 대해 더 쉽게 이해할 수 있었습니다. 해당 방법론은 강화학습에 transformer를 적용한 모델로서, transformer의input으로 들어가기 위해 return, state, action을 positional encoding을 하는 과정도 포함되어있습니다. Return, state, action이 하나의 time-step의 단위가 되어, transformer 에 사용될 수 있다는 것이 매우 흥미로웠고, 생소한 강화학습이라는 주제를 잘 아는 transformer로 단순하게 해결하는 것이 매우 흥미로웠습니다. 강화학습 분야를 기초부터 최근 연구까지 자세하게 설명해주셔서 감사합니다.


  • 2021-08-18 01:47

    이번 발표는 최근 arXiv에 올라온 “Decision Transformer: Reinforcement Learning via Sequence Modeling” 이라는 논문에 대해 소개해 주셨습니다. 세미나는 총 2회로 진행이 되었는데, 첫 번째는 강화학습에 대한 전반적인 기초 내용에 대해서 다루어 주셨습니다. 강화학습은 익히 들어 간단한 개념만 알고 있었는데 전반적으로 강화학습 기초에 해당하는 개념과 수식을 함께 카테고리별로 정리해주셔서 이후 기초를 공부하기위해 참고하기 좋은 자료가 될 수 있을거라 생각되었습니다. 두 번째는 계속해서 회자되고 새로운 연구가 거듭해서 나오는 transformer를 강화학습에 활용한 연구에 대한 발표였습니다. 기존 Temporal Difference Learning을 Transformer 로 학습하여 SOTA에 준하는 성능을 내었습니다. 강화학습에 익숙하지 않아 모든 내용이 올바르게 이해할 수는 없었지만 강화학습에도 최근 모델을 적용하여 기존 학습 방식을 개선하는 연구가 이루어지고 있음을 알게되었습니다. 개인적으로 기존 강화학습의 학습 과정이 오래걸리는데 여기에 transformer와 같은 큰 모델이 적용되면 성능은 보장되지만 그만큼 학습에 더 많은 resource가 부여될 수 있겠다 라는 생각이 들었습니다. 강화학습에 대한 열정과 관심을 가지고 좋은 발표 자료를 만들어 주셔서 좋았고 앞으로도 좋은 발표 기대하겠습니다.


  • 2021-08-22 23:48

    이번 세미나는 기초적인 강화학습에 대한 내용과 decision transformer에 대한 내용으로 두번에 걸쳐 진행되었습니다. 강화학습은 agent가 행위에 대한 보상을 받음으로써 최종적인 기대 보상을 최대화하는 방향으로 행동을 업데이트하는 학습 방식을 말합니다. policy를 udpate하기 위해서 현재 policy를 evaluation하고, 이를 improvement하는 과정을 반복하는데, 이 때 MDP 정보를 가지고 있는지 여부에 따라 model-free, model-based 방법으로 구분할 수 있습니다. model-based의 경우에는 action에 대해 어떤 reward를 받을 수 있는지를 계산하여 update하고, model-free는 경험을 통해 policy를 update하는데, model-free가 확정적인 정보가 더 없기 때문에 오히려 update하는 방식이 model-based보다 수월하여 더 좋은 성능을 보이는 경우도 있습니다. 두번째 시간에 소개해주신 decision transformer는 transformer를 통해 return, state, action을 하나의 sequence로 취급하여 auto-regressive하게 학습합니다. 강화학습 task의 input, output을 transformer의 형식에 맞게 변형하여 transformer의 장점을 취하려고 했다는 점에서 인상 깊었습니다. 강화학습 개념을 한번에 파악할 수 있어 많은 도움이 되었습니다. 좋은 발표 감사합니다.


  • 2021-08-23 21:50

    이번 세미나에서는 강화학습에 대한 전반적인 내용을 먼저 짚어주시고, 본격적으로 decision transformer에 대한 소개를 진행해 주셨습니다. Decision Transformer의 경우 트랜스포머의 디코더 구조만 이용한 GPT-2 모델의 구조를 기반으로 하여 강화학습에 필요한 reward, state, action을 이용한 학습을 수행하게 됩니다. 강화학습이 기본적으로 reward와 state를 인풋으로 하여 학습하는 agency가 action을 수행하는 구조라고 알고 있는데, auto-regressive한 특성을 적극 이용하여 이후 행동을 예측한다는 점이 흥미로웠습니다. 강화학습에 필요한 일련의 sequence를 모델링하는 과정이 트랜스포머 구조에 맞겠다는 생각과 더불어 어느 분야에서나 transformer가 좋은 성능을 낸다는 점을 통해 하나의 패러다임이 맞구나 싶었습니다. 강화학습은 옛날에 책 한번 사놓고 제대로 못봤었는데, 이번 세미나를 통해서 어떤 식으로 이루어지는지 자세히 설명해주셔서 너무 좋았습니다. 앞으로도 관련 분야에 대한 흥미로운 세미나 기대하겠습니다.


  • 2021-09-09 13:42

    금일 세미나는 Decision Transformer 연구에 대해 진행되었습니다. 강화학습에 transformer 구조를 도입한 연구였습니다. 개인적으로 관심을 갖고 있는 토픽인 강화학습과 transformer가 함께 결합된 연구라 흥미를 갖고 볼 수 있었습니다. 관심은 갖고 있지만, 강화학습에 대한 구체적인 공부를 한 적이 없어 기본 개념에 대한 사전 지식이 부족한 상태였습니다. 하지만, 발표자분께서 2주 간의 세미나 구성으로 첫 발표를 통해 기본적인 개념을 상세히 설명해주셨습니다. 이는 decision transformer 이해에 매우 큰 도움이 되었습니다. 발표자분께 감사를 드립니다. Transformer를 접목한 연구 답게, sequential modeling task에 집중합니다. 본 연구는 trajectory representation 학습을 위해 sequential 한 패턴을 transformer 구조를 활용합니다. 구체적으로는 GPT-2 구조를 통해 sequential 한 결과물을 얻고자 합니다. 연구에서 인상적이었던 점은 많은 실험과 discussion을 반복하며 본 방법론의 타당성과 효과를 잘 실증했다는 점입니다. 기존의 강화학습 연구들이 많은 가정과 사전 제한사항들이 많았던 것으로 알고 있는 데, 본 연구를 통해 그렇지 않고도 강화학습 모델을 학습 시킬 수 있다는 점이 흥미로웠습니다. 관련 연구들을 지속적으로 살펴보면 좋은 인사이트를 얻을 수 있지 않을 까 생각했습니다. 정성스럽고 좋은 발표 정말 잘 들었습니다. 감사합니다.


  • 2021-08-09 21:03

    이번 세미나에서는 "Decision Transformer : Reinforcement Learning via Sequence Modeling"이라는 논문에 대해 다루어 주셨습니다. 본 논문은 강화 학습을 Sequence Modeling문제로 추상화하는 프레임워크 제안하며, 이를 위해 Transformer Architecture를 이용합니다. Temporal Difference Learning(TD Learning)은 Episode가 끝나기 전에 업데이트하는 방법입니다. 해당 논문은 TD Learning과 같은 기존의 강화학습 알고리즘을 통해 policy를 학습하는 대신에, 1step인 Return-to-go(R), State(S), Action(A)의 Trajectory 데이터를 input으로 받아, {R, S}를 통해 A를 예측하는 Auto-regressive model(GPT-2)을 학습합니다.

    Masked Self Attention에서 발표자 분께서 "State로 부터 다음 action을 예측하는 것이기 때문에 같은 step의 action도 masking 해야하지 않을까?"라는 질문을 던지셨는데 Attention을 학습하기 위해서 다음과 같이 저자들이 하지 않았나라는 생각이 들면서도 이렇게 Q,K,V를 구해버리고 난 뒤에 masking을 하면 일종의 cheating이 아닐까라는 의문점이 저 또한 들었습니다. 많은 그림 자료들을 이용하여 차근차근 잘 설명해주셔서 이해가 잘 되었고, 중간중간 인사이트 그리고 Idea를 제공해주셔서 어떻게 저런 Idea를 생각하게 되었나 역으로 유추해 볼 수 있는 흥미로운 세미나였습니다. 좋은 발표 감사합니다.


  • 2021-08-09 21:11

    지난 5일과 9일 두 번에 걸쳐 강화학습을 주제로 한 세미나가 있었습니다. 첫 번째 세미나는 강화학습 기초에 대한 설명이 있었고 두 번째 세미나에서는 Decision Transformer에 대한 발표가 있었습니다. 이 모델은 강화학습을 sequence 모델링 문제로 해결하고자 하였고, state, action, reward에 대한 auto regressive 모델을 제안하였습니다. 특히 transformer의 decoder만을 사용한 GPT 기반 모델을 구상하였으며 trajectory data를 통해 다음 action을 예측하고자 하였습니다. 이 데이터 구성에서 reward 대신에 return to go를 쓰는데, 이는 현 시점으로부터 목표하는 점수까지 획득해야할 남은 점수로 이해할 수 있으며, 미래의 기대되는 return에 따른 action을 생성하는 데에 도움을 줍니다. 그리고 state로는 현 시점과 이전 3개의 시점에 해당하는 것이 함께 사용됩니다. 학습 과정으로는 decoder를 통해 출력된 state output 만을 가지고 action embedding을 통해 다음 action을 예측하여 실제 action과의 차이를 loss로 계산에 이용합니다. 이 과정을 매 time step의 trajectory data의 return, state에 대해 action을 autoregressive하게 inference할 수 있도록 학습합니다. 강화학습을 transformer에 처음으로 적용한 논문인데, 수많은 실험과 discussion을 통해 다각도로 제안 방법론의 타당성을 입증하고자 하는 노력이 보였습니다. 그리고 이번 세미나를 통해서 강화학습 기초부터 모델까지 한번에 개념 및 응용을 배워볼 수 있어서 매우 유익했습니다. 또 많은 transformer 변형 모델들을 봐왔지만, 새로운 task를 적용한 transformer 모델이라 더욱 신선했고 흥미롭게 발표를 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2021-08-10 13:04

    이번 세미나는 Decision Transformer: Reinforcement Learning via Sequence Modeling에 대해서 발표해주셨습니다. 그리고 이전 세미나에서는 강화학습에 대한 전반적인 내용을 이해할 수 있었습니다. Decision Transformer는 model-free, offline, off-policy를 고려한 transformer입니다. 1) Model-Free는 환경이 없어도(다이나믹 프로그래밍과 반대 됨), 환경과의 상호작용으로 policy에 대한 가치를 학습하는 것을 말하며 딥러닝방법론으로 이를 학습합니다. 2) Offline: 단순한 Behavior clone 방식은 더 좋아질 수 있는 Behavior의 개선을 하지 못하는 문제가 발생되며, Optimal policy가 한번도 보지 못하더라도 q-value 높은 방향으로 학습된다는 문제점(boostrapping error)이 발생하는데 이를 transformer로 극복하는것 같습니다. 3) Off-policy: 현재 행동하는 정책과는 독립적으로 학습, 행동정책과 학습정책을 구분 (다음시점에 대한 정보를 target으로 설정). CQL(conservative Q-learning)는 policy value의 하한을 offline으로 학습하는 방법, BEAR(boostrapping error accumulation reduction)은 학습된 policy가 행동정책 분포안에 있도록 고려하는 방법에 비해, decision transformer는 (Return, state, action)을 순차적으로 배열된 구조를 transformer을 행동 결정 시점 a_t의 mse를 산출해 (regression) evaluation step의 return(reward의 총합)이 최대화되도록 학습이 되는것 같습니다. 소수의 behavior clone보다 성능이 뛰어나다는면에서 주목받을 만한 것 같습니다. 좋은 발표감사합니다.


  • 2021-08-11 16:35

    오랜만에 듣는 강화학습에 관련된 세미나였습니다. 두 차례에 거쳐 세미나가 진행되었는데, 첫 번째 세미나에서 강화학습의 기본 내용을 리마인드 하는 시간을 가져 좋았습니다. 두 번째 세미나에서 소개해준 Decision Transformer는 Transformer의 decoder 구조만 사용하여 주어진 (return, state)를 통해 action을 예측합니다. 사실 매우 단순한 접근으로도 기존의 방법 보다 좋은 성능을 내는 것이 놀라웠으며, 개인적으로는 Qbert에 대한 성능이 매우 좋지 않은 이유가 궁금했습니다. 해당 부분에 대해 온전히 이해할 수 있다면 Decision Transformer를 개선시킬 방향을 잡을 수 있지 않을까 싶습니다. 또한 강화 학습 분야에서 Trasformer를 사용한 최초의 연구라고 말씀해 주셨는데, 저자들도 본인들이 Transformer를 사용한 이유와 얻을 수 있는 강점들을 최대한 납득시키려고 노력한 부분들이 있어서 받아들이는 입장에서 편했습니다.


  • 2021-08-11 22:26

    이번 세미나는 강화 학습에 관하여 진행되었습니다. 개인적으로는 입학 초기에 잠깐 강화 습을 접한 뒤에 오랜 시간동안 강화 습에 대해 다시 살펴볼 기회가 없었는데, 전반적인 강화 학습에 대해 알 수 있어 좋았습니다. 소개해 주신 Decision Transformer는 Architecture-Level에서는 GPT와 동일하지만, 학습에 필요한 Input들을 받아 목적에 맞도록 변형된 Self-Attention을 수행하는 방식으로 Action을 예측합니다. 강화 학습이 Sequential Input/Output을 처리한다는 생각을 해 본 적이 없었는데, Sequence Modeling을 통해 강화 학습을 수행할 수 있다는 점이 매우 신선하게 느껴졌습니다. 향후에 어떤 연구들이 소개될 지 지켜보고 싶습니다.


전체 505
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10520
관리자 2020.03.12 0 10520
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9129
관리자 2020.03.12 0 9129
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10236
관리자 2020.03.12 0 10236
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (1)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 22
Jinwoo Park 2025.05.16 0 22
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (1)
Hun Im | 2025.05.15 | 추천 0 | 조회 32
Hun Im 2025.05.15 0 32
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (10)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 128
Junyeong Son 2025.05.08 0 128
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (14)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 151
Doyoon Kim 2025.05.01 0 151
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 281
Sunghun Lim 2025.04.24 0 281
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 199
Suyeon Shin 2025.04.21 0 199
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 214
Woongchan Nam 2025.04.16 0 214
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 424
Kiyoon Jeong 2025.04.16 0 424
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 439
Hyeongwon Kang 2025.04.09 0 439
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 430
Jaehyuk Heo 2025.04.02 0 430

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호