Seminar

BOARD

[Paper Review] A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers

Paper Review

작성자

Heejeong Choi

작성일

2023-04-08 07:05

조회

6904

[ 발표 요약 ]

1. Topic

A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers

2. Overview

이번 세미나 시간에는 ICLR 2023에 accept 된 long-term time series forecasting(LTSF) 방법론 PatchTST를 공유하고자 한다. 최근 “Are Transformers Effective for Time Series Forecasting?” 논문에서 매우 간단한 linear 모델이 다양한 Transformer 기반 LTSF 모델들의 성능을 능가하면서 LTSF에서 Transformer의 효과에 대한 의문이 제기되었다. 본 논문에서는 channel-independence patch time series Transformer (Patch TST)를 제안하여 기존 연구 결과와 다르게 Transformer가 LTSF에 효과적이라는 것을 증명하였다. 세부적으로 PatchTST는 sub-series level patch를 사용하여 Trasformer에 locality를 반영하고 메모리 사용량을 줄였으며, 각 변수를 독립적으로 학습하는 channel-independence 세팅을 사용하여 Transformer의 연산량을 줄였다.

3. 발표자료 및 발표영상

[1] 발표자료 (첨부파일 참조)

[2] 발표영상

4. 참고문헌

[1] A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers (ICLR 2023)

[2] Are Transformers Effective for Time Series Forecasting (AAAI 2023)

전체 21

SeungHun Han

2023-04-09 16:44

이번 세미나는 ‘A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers’에 대해 소개해주셨습니다. 본 논문은 Transformer 기반의 TS forecasitng 모델 구조를 제안합니다. TS forecasting 도메인에서 기존 transformer의 비효율성을 지적한 N-Linear에 대응하여, 본 연구는 Vanilla Transformer Encoder backbone을 활용하여 SOTA 성능을 달성하였습니다. PatchTST는 변수간의 상관관계를 고려하지 않고 channel-independent 방식을 도입합니다. 따라서, 다변량 데이터 셋은 단변량의 데이터로 분할되어 Transformer backbone에 입력이 됩니다. 또한, sliding window에서 patching을 도입하여 local semantic information을 더욱 많이 반영하는 장점을 취합니다. PatchTST는 patching 방식을 활용하여 더욱 적은 연산량으로 효율적인 학습을 수행할 수 있습니다. 본 모델이 Self-supervised에 사용되었을때도 기존 SOTA 모델보다 우수한 성능을 달성하였습니다. 또한 실험을 통해 channel-independence가 기존 LSTF 모델 성능을 향상시킬 수 있음을 보였습니다. 변수 간의 상관관계를 전혀 고려하지 않아도 LSTF에 대해 좋은 성능을 보일 수 있다는 다소 놀라운 결과를 보였지만, 과연 변수간의 상관관계가 높은 데이터 셋에 대해서도 높은 성능을 보일지 의문으로 남는 것 같습니다. TS forecasting에 대한 전반적인 흐름과 최신 연구 동향에 대해 자세히 설명해주셔서 너무 유익했습니다. 좋은 발표 감사합니다.
SangMin Lee

2023-04-09 19:07

해당 세미나는 최희정 발표자님께서 "A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers"이라는 논문을 바탕으로 진행되었습니다. 본 논문은 Time Series Forecasting task에서 사용되는 Transformer 기반 model들의 효과에 대해, Patching과 Channel-independence라는 두 가지 기법을 기반으로 검증하여 개선하였습니다. 특히 기존 Dlinear paper에서 MLP를 2개만 쌓아, transformer가 Long-Term forecasting이 적절하지 않다고 주장했었던 점을 다시 뒤집은 점에서 큰 기여점이 있다고 생각하였습니다. 또한 channel-indepence 효과를 가지기 위해 다변량 데이터를 M개의 단변량 데이터로 분할하고, Patching이라는 point-wise time series를 sub-series level patch로 통합하여 locality를 반영하는 점이 색다른 접근이라고 생각했습니다. 이를 통해 여러 시점의 연속적인 masking이 필요하다는 점과, linear head overfitting을 방지했습니다. 추가적으로 성능적인 면과 기존 문제점들을 해결한 점이 큰 장점이라고 생각한 반면, 변수 간 상관관계가 높은 데이터셋에서도 channel-independence가 효과를 볼지에 대해서도 깊게 생각해볼 수 있었습니다. 마지막으로 time series forecasting에서 transformer가 어떻게 쓰이는지 감이 안 잡혔는데, 중요하게 다뤄지는 핵심과 지금까지 흐름을 집어주셔서 갈피를 잡을 수 있었습니다. 좋은 발표 준비해주셔서 감사합니다.
Hyungseok Kim

2023-04-10 13:24

해당 세미나 시간에는 기존 long-term time series forecasting을 위한 transformer 기반의 방법론에 대한 효과에 대해 화두를 던진 "Are Transformers Effective for TSF?” 논문을 소개로 현시점 까지의 transformer 기반의 LTSF 연구를 주제로 다루어 보았습니다. 세미나 서두에 연구의 흐름을 따라갈 수 있도록 연구배경들을 다루어 간만에 참여하는 세미나임에도 불구하고 이해하는 데 무리가 없었습니다. “Are Transformers Effective for TSF?” 논문에서는 LTSF방법론에서는 transformer에서의 temporal relation추출 효과에 대한 의문을 제기하며, 간단한 one-layer의 linear 모델 (DLinear & NLinear) 들과 기존 transformer기반의 방법론들의 성능을 비교해보았습니다. 실제로 해당 모델은 변수들 간의 상관관계를 크게 반영하지 않았음에도 불구하고 기존 transformer기반의 방법론보다 향상된 성능을 도출하였으며, ablation Study를 통해 transformer 기반의 방법론들의 temporal embedding이 시간순서를 잘 보존하지 못한다는 것을 주장하였습니다. 본 세미나의 주 논문인 “A Time Series Is Worth 64 Words”에서는 point-wise time series를 활용한 sub-series level의 patching과 변수들 간의 상관관계를 고려하지 않은 univariate 학습 모델을 구성한 channel-independence를 통해서 효율적인 transformer 모델을 제안하였습니다. 다변량의 LTSF task를 동일한 univariate shared transformer model을 통해서 예측을 진행했음에도 불구하고, 다변량 transformer baseline들 보다도 좋은 예측 성능을 보여준다는 점에서 흥미로웠습니다. 또한, 변수 간의 상관관계를 전혀 고려하지 않는 학습 방법임에도 불구하고, 학습결과 변수별로 다채로운 attention map을 통해 예측이 진행되는 것을 통해 각 변수에 대한 adaptability를 확인할 수 있었습니다. 발표자가 마지막으로 정리한 것처럼 해당논문과 같은 접근으로 time-series representation을 잘 학습할 수 있다면, 더 나아가 self-supervised learning과 transfer learning으로의 확장가능성도 생각해 볼 수 있었습니다.
Jaehee Kim

2023-04-17 23:02

이번 세미나는 "A Time Series is Worth 64 Words : Long-Term Forecasting With Transformers"라는 논문으로, 시계열 도메인에서 예측 태스크 시 이미지 도메인과 유사하게 Patch 단위로 수행하면 된다는 주장을 담고 있는 논문을 주제로 이루어졌습니다. 최근 시계열 분야에서 트랜스포머 모델을 이용하여 다양한 연구가 진행되고 있지만, 실제로 Self Attention을 비롯한 트랜스포머의 구조가 필요한지에 대해 아직 갑론을박이 진행중입니다. 실제로 LTSF에서는 단순한 Feed Forward 네트워크를 적절히 사용할 경우 단순한 모델 구조로도 더 좋은 성능을 발휘할 수 있다는 주장이 이어지고 있습니다. 이에 대해 해당 논문에서는 sliding window를 기반으로 patch를 생성하고, 이러한 patch를 instance norm과 활용할 경우 distribution shift 등에도 대응할 수 있는 우수한 성능이 가능하다고 주장하고 있습니다. 실제로, Transformer Encoder 구조를 변경하지 않고, 입력에 대해 시계열 데이터 특성을 반영한 이러한 구조가 우수한 성능을 보임으로서 저자들의 주장을 뒷받침하고 있습니다. 이와 더불어 시계열 데이터에 대해 당연하게도 변수 간 공변량 등도 반영해야 한다는 생각에서 벗어나 다변량 시계열 데이터에 대해서도 단변량으로 모델링하는 것이 더 우수한 성능을 보일 수 있음을 입증하고 있습니다. 논문이 매우 단순한 개념을 이용한 모델을 제안하지만, 그 기저에 시계열 데이터에 대한 깊은 이해와 고려를 바탕으로 하고 있다는 점이 매우 인상적인 논문이었습니다. 하지만, 실제로 단변량으로 처리하는 것이 더 좋은 성능을 발휘하는지에 대해서는 제한된 데이터 크기와 데이터셋 특징으로 인해 의문이 남습니다. 향후 시계열 Representation Learning 연구 및 범용적 모델 구조 연구를 위해 더 크고 다양한 도메인을 다루는 데이터셋 연구가 필요할 것으로 보입니다. 정말 좋은 발표 감사드립니다.
Jungho Lee

2023-04-18 15:13

이번 세미나에서는 "A Time Series is Worth 64 Words : Long-Term Forecasting With Transformers" 라는 논문으로 진행되었습니다. 해당 내용에서 가장 흥미로웠던 점은 channel 에대한 부분입니다. 이를 모두 같은 input 으로 여겨 문제를 해결하고자 했는데, 이는 channel-independence 한 방식이며, 이렇게 진행되는 것은 세미나에서도 질문 했듯이, 데이터의 input 이 충분한 시계열에 대한 정보가 있어야한다고 생각합니다. 각 채널이 같은 특징은 아니더라도, 시계열적인 주기성, 트렌드가 있고 그 주기성 트렌드를 큰 관점에서는 모델링이 가능한 수준의 정보를 내포하고 있어야 한다고 생각합니다. 해당 방법론이 궁극적으로 시계열 데이터가 가야하는 방법론이라고 했는데, 좀 더 고도화된 방식으로 각 채널에대한 정보를 다룰 수 있다면 또다른 연구주제가 될 수 있다고 생각합니다.
Woojun_Lee

2023-04-21 09:21

이번 세미나는 "A Time Series is Worth 64 Words: Long-Term Forecasting With Transformers"라는 논문을 소개해주셨습니다. 해당 논문에서는 최근 ICLR 2023에 accept된 long-term time series forecasting(LTSF) 방법론인 PatchTST를 다루고 있습니다. 이 방법론은 channel-independence patch time series Transformer (Patch TST)를 제안하여 기존 연구 결과와 달리 Transformer가 LTSF에 효과적이라는 것을 보여줍니다. 이 논문에서 특히 흥미로운 점은 channel-independence에 대한 접근 방식이었습니다. 이러한 접근 방식을 통해 다변량 시계열 데이터를 단변량으로 처리하여 높은 예측 성능을 보였습니다. 그러나 이러한 성능 향상에도 불구하고, 각 변수 간의 상관관계를 더욱 효과적으로 반영할 수 있는 방법을 탐구하는 것이 미래의 연구 주제로 제기되었습니다. 또한, 발표자분께서 마지막에 Timeseries Forecasting 분야에서의 흐름과 동향에대해서 다시한 번 짚어주셔서 해당분야를 공부하는데 매우 큰 도움이 되었습니다. 좋은 발표 감사합니다.
JoongHoon Kim

2023-04-21 15:13

이번 세미나에서는 A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 라는 논문을 다루었습니다. long-term time series forecasting(LTSF) 분야에서 간단한 linear 모델이 기존에 사용되던 transformer 기반 방법론들의 성능을 능가하면서 transformer 구조가 LTSF에 정말 효과적인지에 대한 의문이 제기되었습니다. 본 논문에서는 PatchTST라는 방법론을 제안하였고 LTSF 분야에서 transformer의 효과성을 다시 한번 입증했습니다. PatchTST의 특징은 Patching과 Channel-independence 입니다. Patching은 기존 모델들과는 다르게 point-wise time series를 sub-series level patch로 통합하고 이를 input으로 사용함으로써 데이터의 locality를 반영할 수 있게 하고 메모리 사용량을 줄이는 것을 의미합니다. Channel-independence는 변수간 correlation을 반영하지 않는다는 것을 의미합니다. PatchTST는 다변량 데이터의 look-back window를 단변량 데이터로 분할하고, 단변량 과거 데이터를 transformer backbone에 input으로 사용하여 patching 및 transformer encoder를 통해 단변향 미래 데이터를 예측한 후, shared transformer backbone 기반으로 모든 변수에 대해 도출한 단변량 미래 데이터를 통합하여 최종적으로 다변량 미래 데이터를 도출하는 방식으로 학습됩니다. 실험에서는 LTSF에서의 성능이 향상되었고 연산량 및 메모리 사용량이 감소된 것을 보였습니다. 발표자 분께서 대립되는 주장을 하고 있는 두 논문에 대해 일목요연하게 정리해주셔서 발표의 흐름을 잘 따라갈 수 있었고, 실험 부분에서의 해석을 굉장히 자세하게 해주셔서 큰 도움이 되었습니다. 좋은 발표 감사합니다.
Kyoungchan Park

2023-04-21 15:38

이번 세미나에서는 Transformer 기반 모델이 timeseries forecasting task에 대해 효과적이지 않다는 기존의 연구 결과를 반박하는 논문인 "A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers"라는 논문을 소개해주셨습니다. 해당 논문에서는 PatchTST라는 방법론을 제안하였는데, patch 구조와 channel-independence 기법을 적용하여 transformer 구조 기반에서도 높은 성능을 달성하였습니다. 변수간의 상관 관계가 고려되지 않는 channel-independence를 적용했을 때 오히려 성능이 향상되었는데 이는 기존 통념과 대비되는 것이라 매우 흥미로웠습니다. 강형원 박사과정의 말대로 anomaly detection을 위한 reconstruction task에서는 변수간의 상관 관계가 고려되는 것이 적절할 수 있지만 예측의 경우에는 결국 해당 변수의 과거 시점 정보가 더욱 중요하고 다른 변수의 과거 시점은 해당 변수의 미래 시점과는 독립적이기 때문에 그런 결과가 나오게 되었다고 생각했습니다. 즉 동일한 시점에서는 분명한 상관 관계가 존재하지만 과거 시점과 미래 시점을 두고 보았을 때는 그런 상관 관계가 매우 약해져 오히려 학습을 방해하는 요소가 된 것이 아닐까 생각하였습니다. 하지만 이는 general한 결과라기 보다는 사용하는 data에 따라 그 결과가 달라질 것이라고 생각되어 좀 더 많은 dataset에서 성능을 검증할 필요성이 있다고 생각했습니다. 좋은 발표 감사합니다.
Saeran Park

2023-04-21 17:41

이번 세미나는 ‘A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers’를 다루었습니다. 시계열 데이터에 트랜스포머를 적용하는 것이 과연 효과적인가에 대해 다루고 있는 논문(Are Transformers Effective for Time Series Forecasting?)에 반하는 연구로 트랜스포머가 long-term forecasting에 효과적임을 증명하고 있습니다. 이번 세미나에서 인상적인 부분이 많았습니다. 우선 시계열에서 Linear vs Transformer의 연구 트렌드와 데이터셋마다 특징이 너무 달라 pretrain이 어렵다는 점을 극복하기 위해 발표자 분의 생각을 들을 수 있어서 정말 좋았습니다. 시계열 분야에서 Large-scale dataset구축이 어려운 이유는 변수 데이터셋 간의 변수 차이가 굉장히 큰데, 이 부분을 해결하기 위해서 univariate로 접근하고 그러기 위해서는 channel-independence 구조에 대해 납득이 가는 방법론이었습니다. 따라서 해당 연구가 앞으로 large-scale 데이터셋 구축과 함께 나아가는 방향일 수 있다는 발표자의 관점 또한 인상깊었습니다. 저는 nlp에서도 representation learning에 관심이 있어 시계열 representation learning에서의 문제점과 제안 방식에 집중하여 들었습니다. 연속적인 여러 시점을 masking할 필요가 있고 linear head의 overfitting의 문제점이 있습니다. PatchTST는 patch를 사용하기 때문에 연속적인 masking과 동일한 효과를 보이고 channel-independence특징까지 추가되어 기존의 linear head보다 훨씬 적은 weight의 linear head를 사용하기 때문에 overfitting의 문제점을 덜 수 있습니다. 최희정 박사과정의 오랫동안 쌓아온 지식과 경험이 돋보이는 발표였습니다. 좋은 세미나를 구성해주셔서 감사합니다.
Jinwoo Park

2023-04-21 19:01

이번 세미나는 “A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers” 논문을 바탕으로 진행되었습니다. 해당 논문에서는 이전 “Are Transformers Effective for Time-series Forecasting?” 논문에서 말했던 Transformer 기반 Forecasting 모델들의 문제점을 해결하고자 Patching과 Channel-independence 방법을 도입하고 있습니다. 자연어 데이터에서는 단어의 순서가 변경되더라도 어느 정도 Semantic 정보가 잘 보존되고 있지만 Time-series data는 point마다 Scalar 값을 가지기 때문에, 데이터 자체적으로 가지는 Semantic한 정보가 부족하여 순차적인 데이터가 가지는 temporal change을 잘 모델링 하는 것이 매우 중요합니다. 이때 위의 논문에서는 Transformer에서 사용하는 Positional encoding이 순차적인 데이터가 가지는 temporal change을 완전하게 Cover하지 못한다는 문제점을 제시하고 있었습니다. 이번 세미나의 논문에서 제시하는 PatchTST 모델은 Multivariate data의 Look-back window를 Univariate로 분할한 후, Patching을 진행하여 이러한 문제점을 해소하고자 하고 있습니다. Patching은 구성된 Window에 임의의 길이를 가지는 Sub-series patch를 구성하는 방법인데, 이를 통하여 Point-wise가 아닌 Local semantic information을 반영하며 연산량 역시 크게 줄일 수 있게 되었습니다. 모델에서는 최종적으로 이렇게 전처리한 데이터들을 기본적인 Transformer의 Encoder를 활용하여 TSF를 수행하고 있습니다. 또한, 해당 모델에서는 Representation Learning 방법까지 제시하고 있는데, 이는 BERT에서 Token을 Masking하는 것처럼 Patch를 Masking하여 Self-supervised learning을 진행하는 방식으로 수행되고 있었습니다. 해당 논문에서 가장 놀라웠던 부분은 서로 다른 데이터로 모델을 Pre-training 및 Fine-tuning을 진행하는 부분 이였습니다. 시계열 데이터는 각 데이터마다 가지는 분포나 통계적인 특성이 다르기에 NLP 분야처럼 대규모의 데이터를 통하여 Pre-training을 하는 것이 의미가 없을 것이라고 생각하였지만, Representation을 잘 학습한다면 어느 정도는 가능하다라는 것을 알 수 있었습니다. 어려운 내용이었지만 상세하게 설명해주셔서 쉽게 이해할 수 있었습니다. 좋은 발표 정말 감사드립니다.
Doyoon Kim

2023-04-21 19:12

이번 세미나에서는 Long-term Time Series Forecasting(LTSF) 과업 수행의 transformer 효과가 주제로 다루어졌습니다. 소개해주신 논문은 궁극적으로는 transformer가 LTSF에 효과적임을 실험을 통해 보여주고 있고 특별히 Patching을 이용한 방법론인 PatchTST를 제안하였습니다. ‘Are Transformers Effective for TSF?’ 이라는 제목의 논문에서는 transformer가 시간 순서를 보존하지 못함으로써 temporal relation을 잘 반영하지 못하는 점을 지적했습니다. 이에 PatchTST에서는 주어진 단변량 시계열 입력변수에 대해서 sliding 윈도우를 적용하여 서로 다른 patch를 구하고 각 patch를 하나의 토큰으로 간주합니다. 그후로 Instance Norm, Linear Projection with position embedding, Transformer Encoder 그리고 flatten layer 등을 거쳐서 입력값과 동일한 형태의 출력값을 얻게 됩니다. 추가적으로 SSL(Self-supervised Learning)을 적용해, 엄밀히는 masking 된 token을 예측하는 pre-text task에 대한 효과도 함께 검증하였습니다. 시계열 데이터를 다룸에 있어 여러가지 ~former의 이름으로 transformer 기반의 방법론들이 계속해서 발전되어 오고 있습니다. 여전히 transformer의 힘을 발휘할 수 있는 공간이 아직 남아 있는 점이 신기하면서도 기대가 됩니다. 유익한 내용 준비해주셔서 감사합니다.
Hyeongwon Kang

2023-04-21 19:18

이번 세미나는 Time seires forecasting에 ViT에서 영감 받아 patch 단위의 attention을 수행하는 PathTST를 주제로 진행되었습니다. 시계열 데이터는 semantic 정보가 부족한 수치형 데이터이기 때문에 temporal change를 모델링하는 것이 매우 중요합니다. 하지만 Transformer는 long sequence에서 self-attention은 구조상 permutation-invariant 특성을 가지기 때문에 temporal information loss가 발생하는 문제점이 있습니다. 본 논문에서는 이 문제를 해결하기 위해서 각 time point가 개별로 attention을 구한 것과는 달리 ViT에서 사용하는 patch를 time series에 적용하여 주변 시점에 대한 정보를 포함하도록 일정 구간을 patch로 하여 attention을 수행하는 방법을 택하였습니다. temporal information을 포함하면서 연산에서도 효율적인 방법이기에 굉장히 인상 깊었습니다. 다만 본 논문에서는 channel independence로 하는 것이 그렇지 않은 것보다 성능면에서 더 좋음을 결과에서 입증하였지만 변수 간 상관관계가 존재하고 서로 영향을 주고 받는 시계열 데이터에 대해서 변수를 고려하지 않는다는 점은 의구심이 들었습니다. 변수를 고려하는 patch 방법을 생각해보고 비교해보면 좋을 것 같습니다. 좋은 발표 감사합니다.
Hun Im

2023-04-21 21:54

이번 세미나에서는 트랜스포머 기반의 Long term Time Series Forecasting 모델에 대해 소개 해주셨습니다. 논문의 제목은 "A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers" 으로 해당 논문에서는 Patch와 channel independence 방법을 사용하는 Patch TST를 제안하고 있습니다. PatchTST는 다변량 데이터의 look-back window를 단변량 데이터로 분할합니다. 그 후 단변량 과거 데이터를 input으로 사용하여 patching 그리고 transformer encoder를 통해 단변량 미래 데이터를 예측합니다. 다변량 시계열 예측에서 다변량 데이터를 한번에 input으로 사용하는 것 과는 달리 해당 방법론에서는 단변량 데이터로 분할 한 다음 사용한다는 것이 특징이며, 인상깊었습니다. 본 방법론에서는 이 뿐만 아니라 patch를 활용하여 local semantic information을 반영하고자 했으며, self-supervised setting에서는 masking imputation 방식을 통해 학습을 하기도 했습니다. 이러한 것들은 Vision 혹은 NLP에서 많이 쓰이는 방법들로, 다른 도메인에서 활발히 사용 되는 것들을 Time Series에 적절히 응용 한 점이 인상깊었습니다. 좋은 발표 감사합니다.1
Sunwoo Kim

2023-04-22 14:22

이번 세미나에서는 A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 논문을 소개해 주셨습니다. 본 논문에서 소개하고 있는 PatchTST는 단변량 데이터로 분할한 다변량 데이터를 이용하여 transformer를 통해 patching을 하고 transformer encoder를 통해 단변량 미래 데이터를 예측하게 됩니다. 다음으로 shared transformer backbone을 이용하여 최종적으로 다변량 미래 데이터를 구해주는 방식을 이용하고 있습니다. patching은 단변량 데이터에 sliding window 방식을 적용하여 sub-series level patch를 통합하여 사용하는 방식이며 해당 방식을 이용하게 되면 LTSF의 성능 향상과 연산량 및 메모리 사용량 측면에서 효과가 있음을 확인할 수 있었습니다. 기존 방법론들의 경우 point-wise time series를 주로 이용하였지만 본 방법론에서는 patching을 도입했다는 점이 흥미로웠습니다. 다음으로 Transformer Encoder 구조에서 단계적으로 어떻게 전반적인 구조가 이루어지는지 상세히 설명해주셔서 이해에 많은 도움이 되었습니다. 또한 self-supervised Patch TST에서는 masking imputation을 pretext task로 이용하여 representation learning에 적용한 결과 기존 방법론 대비 높은 성능을 보이고 있음을 확인할 수 있었습니다. 실험 부분에서 일반적인 실험 장표뿐만 아니라 많은 정성 평가 결과 및 시각화 부분까지 다양하게 제공하고 있는 점이 흥미로웠습니다. 본 발표에 앞서 introduction 파트에서 다루어주신 자연어와 시계열 데이터의 차이점, 기존 transformer 기반 LSTF 방법론들의 summary 부분의 정리력이 인상깊었습니다. 좋은 발표 감사합니다!
SeongHee Hong

2023-04-22 15:10

이번 세미나에서는 “A Time Series is Worth 64 Words: Long-Term Forecasting With Transformers”라는 연구에 대해 소개해주셨습니다. 해당 논문에서는 PatchTST라는 모델을 제안하며 Transformer 기반 모델이 Time-series Forecasting Task에 여전히 유효함을 실험적으로 보였습니다. PatchTST는 다변량 시계열 데이터의 Look-back Window를 단변량 데이터로 분할 후, Patching 및 Transformer Encoder를 통해 단변량 시계열 데이터에 대한 Forecasting을 수행합니다. 이후, 모든 변수에 대해 도출된 예측 데이터를 통합하여 최종 다변량 예측 데이터를 도출하는 과정을 수행합니다. 이전에 박진우 석박 통합 과정이 세미나에서 소개해주셨던 방법론에서는 시계열 데이터에는 Transformer 구조를 사용할 경우, Self-Attention의 특성상 Permutation-Invariant 특성을 가지기에 시계열 데이터에 적용할 경우 Temporal Information Loss가 발생해 적절하지 않음을 지적하며 MLP 구조의 매우 단순한 구조를 제안해서 기억에 남았었습니다. 그런데, 이후 다시 이번 세미나를 통해 다변량 데이터에 있는 변수들 간의 상관관계를 고려하지 않고 변수 하나씩 독립적으로 Transformer Encoder를 이용해 예측을 수행해 최종 예측 결과를 도출해 Transformer 기반 TSF Model이 DLinear 보다 높은 성능을 보일 수 있음을 주장했습니다. 제 주된 관심 연구 분야인 NLP에서는 사실상 Transformer, BERT, GPT의 등장 이후로 모든 Task에서 Transformer 기반 방법론들이 가장 높은 성능을 보이고 있습니다. 점차 모델의 크기를 키우거나 Technical한 부분을 수정해 모델의 성능을 조금씩 높여오긴 했으나, 프롬프트, 어댑터 등 Parameter Efficient 관련 방법론들이 나오며 언어 모델 자체에 대한 변형 뿐만 아니라 이미 나와있는 Transformer 기반 모델들을 효율적으로 활용하는 방법론들에 대한 연구가 다수 진행되어 왔습니다. 시계열 분야에서는 DLinear와 NLinear라는 방법론이 등장하여 새로운 연구의 기폭제가 될 수 있지 않을까라는 생각이 들었는데, 과연 NLP에서도 Transformer 이후 새로운 Game Changer가 될 방법론이 어떤 것이 될지 생각해볼 수 있었던 세미나였습니다. 유익한 발표 정말 감사드립니다.
Yookyung Kho

2023-04-22 22:47

이번 세미나는 발표자분의 연구실에서의 마지막 세미나로, A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 논문을 주제로 진행되었습니다. 본 논문은 Transformer 기반 모델에 비해 linear 기반 모델들이 long-term time series forecasting(LTSF)에 강하다고 주장한 기존 연구의 주장을 뒤집으며 Transformer 기반의 구조로 높은 LTSF 성능을 달성하였습니다. 제안 방법론 PatchTST는 크게 patching과 channel independence 두가지 특징을 가집니다. 기존 모델과 다르게 point-wise 시계열을 하위 레벨 패치로 통합하고 이를 개별적인 input으로 두어 locality를 반영하면서도 메모리 사용량을 줄이고자 하였습니다. 또한, 이전 연구 결과를 바탕으로 channel independence를 활용한 변수간 상관관계 모델링을 수행하지 않도록 Transformer 구조를 설계하여 연산량을 줄였습니다. 시계열 예측 task에 한해서는 representation learning 시 변수간 상관관계를 모델링하지 않는 방향이 효과적일 것이라는 개인적 견해도 덧붙여주셨습니다. 명확하고 간결한 설명이 특히나 돋보였던 발표였습니다. 자그마치 5년이 넘는 시간 동안 세미나 진행하시느라 정말 고생 많으셨습니다! 항상 유익한 인사이트 전해주셔서 감사드립니다:)
Seonggye Lee

2023-04-23 00:18

본 세미나에서는 Are Transformers Effective for Time Series Forecasting, A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers라는 주제의 논문에 대한 리뷰를 진행하였습니다. 첫번째 논문인 Are Transformers Effective for Time Series Forecasting에서는 Long-term Time Series Forecasting (LTSF)에서 간단한 linear 모델이 Transformer 구조의 모델보다 높은 성능을 기록하는 것을 실험적으로 증명하고, 이를 통해 Transformer 구조의 효과에 대한 의문을 제기하였습니다. 또한 두번째 논문인 A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers에서는 PatchTST라는 구조를 제안하였습니다. PatchTST는 다변량 데이터를 다수의 단변량 데이터로 나누어 각 단변량 데이터를 예측하는 구조인 channel-independence setting을 활용한 구조였습니다. 사실 세미나를 들을때 이렇게 학습을 하는 방식이 정말 성능이 높을까? 라는 의문을 가졌었는데, 높은 성능이 나온 것이 매우 신기했습니다. 변수 간의 상관관계를 고려하는 것이 중요하지만, LTSF 에서는 변수 간의 상관관계보다 각각의 변수에 더 집중하는 것이 효과적임을 증명한 방법론이라고 생각합니다. 다만, anomaly detection과 같은 과업에서는 강형원 석박통합과정의 의견처럼 적용하기가 힘든 아이디어라고 생각됩니다. 간단한 아이디어로 좋은 성능을 낸 재밌는 연구였습니다. 좋은 발표 감사합니다!
Jaehyuk Heo

2023-04-23 20:41

이번 세미나는 "A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers" 논문에 대하여 소개해주셨습니다. 해당 논문에서 인상깊었던 점은 지금까지 time-series에서 변수 간 관계를 고려하는 방식으로 대부분 수행이 되었지만 변수 간 고려하지 않는 방법으로도 충분히 좋은 성능을 낼 수 있다는 점이었습니다. 해당 논문에서 제안하는 방법은 Vision Transformer와 유사하게 time sequence를 patch 단위로 나누어 transformer를 통해 학습하는 PatchTST라는 구조를 제안하였습니다. 해당 방법을 통해 channel-independence를 적용하여 다변량 데이터를 한번에 처리하는 것이 아닌 단변량 단위로 모델을 학습하는 구조를 가집니다. 모델의 학습 구조도 지금까지와 다른 접근이어서 인상깊었습니다. 어떻게 보면 image에서도 channel간 관계를 고려하는 것이 아닌 channel independent 하게 depth-wise convolution이 최근 대부분의 convolution에서 사용하는게 비슷한 맥락이지 않을까라는 생각도 들었습니다. 좋은 발표 감사합니다.
Jiyoon_Lee

2023-04-23 23:42

이번 세미나에서는 "A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers" 논문에 대해 소개해주셨습니다. 해당 논문은 Long term Time series forecasting에서 Transformer의 적용이 실제로 성능 향상의 효과가 있는가에 대해 확인해보고자 하는 논문이었습니다. Patch TST 모델이 제안되었으며, Patching을 통해 마지막 데이터를 복제하여 sliding window 방식을 통해 생성한 patch sequence를 input으로 사용하는 모델이었습니다. 시계열 데이터의 특성상, 가장 최근의 데이터를 반영하는 것이 예측 성능에 더 긍정적인 영향을 줄 수 잇으므로 패딩을 진행할 때 마지막 데이터를 활용하게 됩니다. 이러한 Patching을 통해 Patch TST 모델의 LTSF에서의 성능 향상이 있음과 연상량 및 메모리 사용량이 감소됨을 확인할 수 있었습니다. 전반적인 발표에서 각각의 실험, 모델, 장표 등의 개괄적인 해석을 우선적으로 언급해주셔서 이후 각 슬라이드의 내용을 이해하는 것에 굉장히 많은 도움이 되었던 것 같습니다. 무엇보다, 지금까지 들었던 세미나 중에서 가장 질의응답 다운 질의응답 시간이었던 것 같습니다. 모든 구성원들이 발표 내용에만 국한된 것이 아니라, 다른 지식과 연관한 질문들을 하였고, 그에 쉬우면서 발표자분의 생각을 적절히 담은 응답을 해주셨습니다. 본 발표를 통해 스스로 확실한 지식을 가지고 있을 때의 발표 전달의 우수함을 청자로써 직접 경험할 수 있었습니다. 좋은 발표 준비해주셔서 정말 감사드립니다.
Yonggi Jeong

2023-04-25 12:36

이번 세미나에선 A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 라는 연구가 소개되었습니다. 소개해주신 이전 연구에선 linear 모델이 transformer 대비 LTSF task에서 더 높은 성능을 달성할 수 있음을 보였었는데, 본 논문에선 다시 transformer가 효과적임을 보이며 channel-independence patch time series Transformer 구조를 제안합니다. PatchTST 구조는 sub-series level patch 단위의 입력을 사용하여 locality를 반영함과 동시에 메모리 사용량을 줄일 수 있음을 보입니다. 가장 특징적인 부분은 channel-independence 로 학습하는 구조라는 점인데, 다변량 시계열 데이터는 데이터에 따라 변수 구성이 다르기에 self-supervised learning 이후 다른 데이터로의 transfer learning에 제약이 있었는데 channel-independence 구조를 사용하면 이를 완화할 수 있기에 의미가 있는 것 같습니다. 좋은 세미나 발표 감사합니다.
Gunho No

2023-04-25 23:11

이번 세미나에서는 time series forecasting 분야에서 transformer의 효과에 대한 상반되는 두 주장을 함께 소개해 주셨습니다. 우선 TS 분야에서 매우 주목을 받고 있는 논문 Are Transformers Effective for Time Series Forecasting? (AAAI2023)에서는 자연어의 경우 input의 순서가 바뀌어도 의미가 보존이 되는 Permutation-invariant 특성을 가지고 있기 때문에 transformer가 유의미하나, 시계열 데이터의 경우에는 순서가 변경되면 의미가 파괴된다는 것을 이유로 transformer가 무의미할 수 있다고 지적합니다. 추가로 실험을 통해 매우 간단한 선형 모델만으로 기존의 transformer 모델들 보다 높은 forecasting 성능을 보였기 때문에 최근에는 transformer의 효과에 대한 의심이 널리 퍼졌었습니다. 그러나 오늘의 주제 논문인 A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers에서는 이러한 주장을 다시 뒤집습니다. 본 논문에서는 channel-independence patch time series Transformer(Patch TST)를 제안하였으며, LTSF에 대한 Transformer의 효과를 확인하였습니다. 본 논문의 핵심은 Channel-independence, 즉, 예측시에 변수 간의 상관관계를 무시한다는 의미로 모든 변수 각각을 단변량으로 가정하고 예측을 수행합니다. 이는 기존의 연구들과 상충하는 결론이나 한 변수에 대해서 여러 시점이 입력으로 사용되는 것으로 데이터를 더 잘게 분해한 후에 예측을 수행하고 그를 결합한다는 의미로는 받아들여지는 것 같습니다. 이번 세미나에서 시계열 연구의 흐름을 들으며, 정론은 뒤집힐 수가 있다는 것을 느꼈습니다. 또, 각 변수를 독립적으로 예측하고 결합한 것을 보고 추가로 각 변수를 decomposition하여 더 작게 분해하고 예측을 수행하여 결합한다면, 또 더 나은 결과를 얻을 수 있지 않을까 생각하게 되었습니다. 좋은 발표 감사합니다.

« [Paper Review] PEER: A Collaborative Language Model

[Paper Review] Masked Image Modeling »

목록보기

전체 515

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11394	관리자	2020.03.12	0	11394
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10033	관리자	2020.03.12	0	10033
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11106	관리자	2020.03.12	0	11106
512	[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (2) Sieon Park \| 2025.07.14 \| 추천 0 \| 조회 43	Sieon Park	2025.07.14	0	43
511	[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (2) Subeen Cha \| 2025.07.10 \| 추천 0 \| 조회 71	Subeen Cha	2025.07.10	0	71
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 242	Jaewon Cheon	2025.06.27	0	242
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 346	Minjeong Ma	2025.06.07	0	346
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 38	Minjeong Ma	2025.06.02	0	38
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 35	Kiyoon Jeong	2025.06.02	0	35
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 35	SangMin Lee	2025.06.02	0	35
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 439	Siyul Sung	2025.05.31	0	439
503	[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16) Woojun Lee \| 2025.05.20 \| 추천 0 \| 조회 375	Woojun Lee	2025.05.20	0	375

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호