[Paper Review] Unified Training of Universal Time Series Forecasting Transformers

Paper Review
작성자
Hyeongwon Kang
작성일
2024-03-26 20:00
조회
1861
  1. 논문 제목:
    Unified Training of Universal Time Series Forecasting Transformers
    (Woo, Gerald, et al, arXiv preprint 2024)
  2. 논문 Overview
    Universal forecasting을 위한 새로운 transformer architecture(MOIRAI) 제안
    Large Time Model의 사전 학습을 강화하기 위한 새로운 대규모 개방형 시계열 데이터 셋 컬렉션인 LOTSA를 공개
    Full-shot model과 비교했을 때 zero-shot forecaster로서 경쟁력이 있거나 우수한 성능을 달성
  3. 발표자료 및 발표영상
    발표자료 : 하단 첨부
    발표영상 : 추후 업로드 예정
  4. 참고 문헌
    Garza, Azul, and Max Mergenthaler-Canseco. "TimeGPT-1." arXiv preprint arXiv:2310.03589 (2023).
    Dooley, Samuel, et al. "Forecastpfn: Synthetically-trained zero-shot forecasting." Advances in Neural Information Processing Systems 36 (2024).
    Müller, Samuel, et al. "Transformers can do bayesian inference." arXiv preprint arXiv:2112.10510 (2021).
    Rasul, Kashif, et al. "Lag-llama: Towards foundation models for time series forecasting." arXiv preprint arXiv:2310.08278 (2023).
    Das, Abhimanyu, et al. "A decoder-only foundation model for time-series forecasting." arXiv preprint arXiv:2310.10688 (2023).
    Ekambaram, Vijay, et al. "TTMs: Fast Multi-level Tiny Time Mixers for Improved Zero-shot and Few-shot Forecasting of Multivariate Time Series." arXiv preprint arXiv:2401.03955 (2024).
    Gruver, Nate, et al. "Large language models are zero-shot time series forecasters." Advances in Neural Information Processing Systems 36 (2024).
    Su, Jianlin, et al. "Roformer: Enhanced transformer with rotary position embedding." Neurocomputing 568 (2024): 127063.
전체 19

  • 2024-04-04 14:37

    금일 세미나는 사전학습된 Transformer 구조의 모델을 이용하여 다양한 Time Series Forecasting 태스크를 수행하는 "Unified Training of Universal Time Series Forecasting Transformers"을 중심으로 진행되었습니다. 이전의 사전학습 연구들의 경우 1) 사전학습 데이터의 부족 2) 범용적 Time Series 학습을 위한 모델 구조 측면에서 제약이 존재하였습니다. 해당 논문은 기존의 대규모 공개 시계열 데이터를 취합하고 추가적으로 데이터를 수집하여 공개 시계열 데이터 아카이브를 구축하였습니다. 해당 데이터는 변수의 수, 데이터 특성의 측면에서 매우 다양한 분포를 띄고 있습니다. 또한, 다양한 변수의 수에 대응하는 단일 모델 구조를 위해 모든 변수를 Flatten하고 각 변수의 미래 시점을 예측하는 방법론을 적용하여 사전학습을 진행하였습니다. 학습 관점에서는 실제 데이터 포인트를 예측하기 보다는 Confidence를 산출할 수 있고 다양한 분포에 대응할 수 있도록 4가지 분포의 파라미터를 예측하는 작업을 수행하였습니다. 실제로 이렇게 학습된 모델을 통해 zero-shot 성능을 평가한 결과를 보면, 기존의 Finetune 방법론 대비해서 높은 성능을 도달하고 있는 것을 볼 수 있으며, 기존 논문들과 달리 context length가 길어질수록 오히려 성능이 개선되는 모습을 보이고 있습니다. 시계열 도메인에서 그동안 사전학습 연구가 활발히 진행되지 못하던 원인이 궁금하였는데, 하나씩 설명해주셔서 쉽게 이해할 수 있었던 것 같습니다. 좋은 발표 감사드립니다.


  • 2024-04-04 23:32

    본 세미나는 "Unified Training of Universal Time Series Forecasting Transformers"라는 time series forecasting task에서 universal한 model을 위한 새로운 transformer 학습 구조인 MOIRAI를 중심으로 진행되었습니다. 해당 학습 구조는 4가지 주요 특징을 반영하도록 설계되었습니다. 첫 번째, 시계열 데이터는 변수의 수가 상이하기에 다양한 변수 수를 갖는 시계열을 모두 처리할 수 있어야 하며, 두 번째는 각기 다른 frequency를 갖는 시계열 데이터에서 학습을 위한 패턴을 찾아낼 수 있어야 한다는 것입니다. 세 번째는 time series task에서 중요하게 고려되는 것으로 변수의 입력 순서와 상관 없이, 각 변수를 명확히 구분하여 변수 간 관계를 파악할 수 있어야 하며, 마지막으로 데이터셋마다 각기 다른 분포의 특성을 이요알 수 있어야 한다는 것입니다. 여기서 한 가지 흥미로웠던 점은 relative position embeding 방법인 RoPE(Rotary position embedding)을 사용해서, binary attention bias component를 통해 변수 간 구분이 가능하며 임의의 변수 수로 확장할 수 있다는 개념이었습니다. 또한 시계열 데이터의 4가지 특징을 반영한, 분포의 혼합 분포(mixture distribution)을 이용한다는 점이었습니다. 이전 세미나를 들으면서 느꼈던 점은 time-series는 data와 task마다 매우 다른 특성을 갖고 있다는 점이었는데, 해당 논문에서 말하고 있는 universal을 고려한다는 점이 좀 더 industrial한 상황을 고려하면서 동시에 학계에 큰 기여를 할 수 있는 유용한 연구라고 생각하였습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-04-07 15:46

    본 세미나는 "Unified Training of Universal Time Series Forecasting Transformers" 논문을 중심으로 진행되었습니다. 해당 논문은 시계열 Forecasting을 위한 foundation model 구축 관련 방법론과 데이터 셋을 제안합니다. 구체적으론, 기존 시계열 모델이 prediction length와 변수의 개수가 다른 경우 동일한 모델로 inference가 불가능하다는 점을 특히 지적합니다. 변수 개수에 의한 호환성 문제를 제거하기 위해 시계열을 flatten하는데, 변수의 입력 순서에 따라 성능 변화가 발생하면 안되기 때문에 Rotary Position Embedding을 활용합니다. 또한, Prediction이 probabilistic 하게 이루어지는데, 단일 분포만을 활용하면 실제 noisy한 데이터에 강건할 수 없기 때문에 여러 분포를 mix하여 최종 prediction을 수행합니다. 더불어, 본 연구는 다양한 domain에서 파생된 데이터 셋으로 구성된 LOTSA을 활용하여 masked token prediction을 통해 사전 학습을 수행합니다. 시계열 Forecasting 연구를 수행함에 있어 실제로 당도하게 되는 여러 실용적인 문제를 논리적으로 잘 풀어낸 것 같습니다. Representation Learning 관련 연구가 LLM4TS 방면으로 치중되는 상황에서 기본에 충실한 연구에 대해 알 수 있어 좋았습니다. 좋은 발표 감사합니다.


  • 2024-04-08 14:32

    이번 세미나에서는 Unified Training of Universal Time Series Forecasting Transformers라는 연구에 대해 소개해 주셨습니다. 해당 연구에서는 논문 제목에서도 확인할 수 있듯이, Time-series forecasting 분야에서의 Foundation model에 관한 방법론을 제안하고 있습니다. 범용적인 Time-series foundation 모델을 만들기 위해서는 Time-series data의 특성상 발생하는 다양한 문제점들을 cover할 수 있어야 하는데, 가장 먼저 각 시계열 데이터는 서로 다른 변수를 가지며, 수집 주기도 다르다는 점입니다. 또한, 각 데이터의 분포가 상이하기에 이에 대해서도 고려를 할 수 있어야 합니다. 해당 문제를 해결하기 위하여 방법론에서는 하나의 데이터에서 변수를 Flatten하여 Input으로 사용하고 있으며, 이때 변수의 입력 순서와 상관없이 변수 간 관계를 파악할 수 있도록 Relative position embedding 방법인 Rotary position Embedding을 이용하고 있습니다. 마지막으로 데이터들 마다의 분포를 고려하고자 4가지 분포의 혼합 분포를 사용하여 Output의 분포를 예측하는 방법으로 모델을 구성하였습니다. 직관적으로 힘들다고 생각했던 Time-series 분야에서의 Universal한 모델을 만들고자 고려한 다양한 점들이 인상깊었으며, 발표자분이 상세하게 설명해주셨기에 이해가 수월했습니다. 좋은 발표 감사드립니다.


  • 2024-04-08 14:32

    금일 세미나는 Unified Training of Universal Time Series Forecasting Transformers 논문을 바탕으로 진행되었습니다. 해당 논문에서는 다용도로 사용할 수 있는 Universal forecasting transformer architecture인 MOIRAI를 제안하고 있습니다. Time-series data는 데이터의 특성상 Universal foundation model을 만들기 위해서는 다양한 점들을 고려해야 합니다. 먼저 서로 다른 변수들을 가지는 시계열 데이터를 처리해야 한다는 것입니다. 이러한 부분을 고려하고자 해당 방법론에서는 모든 변수를 단일 시퀀스로 간주하여 다변량 시계열 데이터를 Flatten해주어서 사용하고 있으며, 모든 데이터가 동일한 Frequency, 즉 수집 주기를 가지지 않기에 Multi-Patching modeling을 통하여 겹치지 않는 Patch들을 생성하게 됩니다. 이때 변수를 Flatten하여 Input으로 사용하기 때문에, 변수의 입력 순서와 상관없이 각 변수를 명확히 구분하여 변수 간 관계를 파악할 수 있도록 Relative position embedding 방법인 RoPE(Rotary position Embedding)을 이용해주고 있습니다. 마지막으로, 데이터 셋마다 각기 다른 분포의 특성을 이용할 수 있어야 하기에 4가지 분포의 혼합 분포를 이용함으로써, Output point를 예측하는 것이 아닌 Output의 분포를 예측하는 방식으로 Forecasting을 진행하고 있었습니다. 전반적으로 Universal한 Model을 만들고자 고민한 흔적이 많이 보였고, 그에 따른 설계도 충분히 의미 있어 보였습니다. 그러나 분포를 예측하는 것이기에 이에 따른 불확실성 역시 생각해봐야할 것 같다는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.


  • 2024-04-08 15:12

    오늘 세미나는 Time-series의 LLM, 즉 Large Time Model을 구축하기 위한 방법론과, 특히 이를 학습시키기 위해 필요한 데이터셋을 소개하는 논문, "Unified Training of Universal Time Series Forecasting Transformer"를 중심으로 이루어졌습니다. 아무래도 언어의 경우, 같은 언어에 속한다는 가정 하에, 각 샘플들이 공유하는 특징들이 그렇지 않은 특징들보다 많기 때문에 언어 자체의 Global한 특징을 사전학습하기 쉽다는 장점이 있지만, Time-series 데이터의 경우, '시계열'이기 때문에 공유하는 Global한 특징이라고 할만한 것을 찾아내는 것 자체가 힘들고, 그렇기 때문에 언어처럼 미리 대규모 데이터로 Representation을 학습해두는 것이 상당히 어렵습니다. 이러한 제약 조건에도 불구하고, Time-series를 위한 Representation 사전 학습을 하기 위한 여러가지 방법론을 제안합니다. 하지만 개인적으로, 결국 이를 위해 최대한 다양한 분포(Domain)으로부터 시계열 데이터를 확보하여 Global한 특징을 잡는 모델로 학습하는 것이 가능하도록 하고자 했으며, 최대한 Rich한 Representation을 얻기 위해 각 변량들을 독립적으로 사용할 수 있게 Flatten하는 방법을 도입하는데, 이 정도로 충분한가에 대해서는 여전히 의문 사항으로 남아있습니다. 어쨌든, 모델 관점에서 봤을 때, Given 현재까지의 정보를 바탕으로 미래에 대한 무언가를 예측하는 것은 동일하나, 현재 시점의 하나의 토큰을 생성하는 LLM과 달리, 기존 Forecasting 문제에 많이 사용하는 Multi-horizon 세팅으로 다음 시점의 시계열 값을 출력하게끔 훈련이 되며, 특히 미래의 각 시점들의 값을 직접 예측하는 것이 아닌, Multi-horizon window 자체를 어떤 확률분포로 부터 샘플링된 결과로 해석하여, 그 분포를 예측하도록 학습이 진행됩니다. 하지만, 내부적으로 봤을 때 기존 LLM 연구에서 나왔던, 특히 Positional Embedding에서 자주 쓰이는 Trick들을 많이 도입하는 것을 확인할 수 있었습니다. 예컨대, Attention 연산 과정에서 Q와 K의 내적값에 해당 Q와 K가 각각 같은 변량에서 나왔을 때와, 그렇지 않은 때에 대해 각각 다른 bias를 더해주는 것은, Alibi에서의 Positional embedding strategy와 비슷하게 느껴졌으며, RoPE로 Position을 embedding해주는 것 자체도 결국 최신 LLM의 recipe를 차용을 한 것으로 보입니다. 다만 조금 아쉬운 부분은, 결국 Time-series적인 domain inductive bias를 사용하여 LLM과 다른 무언가가 조금 더 들어갔으면 좋겠다고 생각을 했는데, 각 변량을 independent하게 처리하는 부분 외에는 그런 부분이 보이지 않아서 앞으로 연구에서 이런 것들이 좀 더 활발하게 연구가 되었으면 좋겠다고 생각했습니다. 허나 zero-shot이 조금씩 가능해지기도 하고, context가 길어질수록 성능이 올라가는 등 LLM의 초기 연구들과 비슷한 양상을 보여줬다는 점 자체가 점차 언어처럼 급성장 할 수도 있겠다는 희망을 보여주는 것 같기도 합니다. 재미있는 논문으로 세미나 진행해주셔서 감사합니다.


  • 2024-04-08 15:23

    금일 세미나는 Transformer 구조 기반 Universal forecasting을 위한 Architecture인 MOIRAI와 Large Time Model의 사전 학습을 강화하기 위해 LOTSA라는 Dataset을 제안하였던 'Unified Training of Universal Time Series Forecasting Transformers'라는 논문을 소개해 주셨습니다. 해당 논문에서는 Foundation Model이 가져야하는 특성으로 4가지를 정의하며 각 요구 사항에 맞는 Architecture를 제시하고 있습니다. 먼저, 다양한 변수를 갖는 시계열 데이터를 처리할 수 있도록 다변량 시계열을 flatten하는 방법을 제시하고 있으며 또한 pattern을 찾아내기 위해 Frequency에 대응하는 patch size를 미리 정의하여 Multi patch size projection layer 방법으로 pattern을 포착하는 방법을 제안하고 있습니다. 이후 모델이 Sequence의 여러 변수를 구분할 수 있도록 Relative position embedding 방법인 RoPE (Rotary position Embedding)을 활용하고 있으며, 마지막으로 각기 다른 데이터셋의 분포에 대응하고자 4가지 분포를 혼합하여 이용하고 있습니다. 이를 시계열 데이터 소스를 모아 다양한 분야와 형식을 갖는 데이터셋인 LOTSA Dataset까지 추가로 제안하며 해당 데이터셋으로 MOIRAI의 우수성을 입증하고 있습니다. 해당 방법론을 보면서 고정된 Patch size가 아닌 사전에 Frequency에 대응되는 patch size를 정의하여 이를 활용하는 multi patch size 방식이 ablation study에서 해당 요소의 우수성을 보여준 것을 통해 복잡한 시계열 데이터에서 가장 현실적으로 Unified Foundation Model에 적합한 요소이지 않았나 개인적으로 생각이 들었습니다. 끝으로, 시계열 데이터의 Foundation Model과 관련한 문제점들이나 이에 대한 발표자분의 견해를 들을 수 있어 유익하고 항상 감사했던 것 같습니다. 좋은 발표 정말 감사드립니다!


  • 2024-04-08 22:36

    이번 세미나에서는 Unified Training of Universal Time Series Forecasting Transformers 라는 논문을 다루었습니다. 기존 시계열 예측 모델은 하나의 데이터셋에 대해 학습시키는 것이 일반적이지만 해당 논문에서는 대규모 사전 학습 모델의 중요성을 강조하며 다양한 시계열 데이터셋에 대해 학습된 Large Time Series Model을 제안하고 universal forecasting 개념을 도입합니다. 해당 논문에서는 MOIRAI라고 불리는 새로운 transformer forecasting 모델을 제안하며 다음과 같은 특징을 갖습니다. 해당 모델은 다양한 변수의 시계열을 모두 처리할 수 있고 각기 다른 frequency를 갖는 시계열 데이터에서 패턴을 찾습니다. 또한 변수의 입력 순서와 무관하게 각 변수를 명확히 구분하여 변수관계를 파악하고 데이터셋마다 각기 다른 분포의 특성을 활용합니다. 또한 모델 학습을 위한 대규모 시계열 데이터셋인 LOTSA를 공개했습니다. 시계열 사전 학습 모델과 개념에 대해 알 수 있던 유익한 시간이었습니다. 좋은 발표 감사합니다.


  • 2024-04-09 00:37

    이번 세미나는 'Unified Training of Universal Time Series Forecasting Transformers'라는 논문을 소개해주셨습니다. 이 논문은 MOIRAI라는 Transformer 기반 아키텍처와 LOTSA라는 대규모 시간 모델을 사전 학습하는 데 사용되는 데이터셋을 중심으로 구성되어 있습니다. 해당 아키텍처는 다변량 시계열 데이터를 처리하기 위해 평탄화하는 방식과 빈도에 따라 최적화된 패치 크기를 사용하는 Multi patch size projection layer 방식을 제안합니다. 또한, Rotary position Embedding(RoPE) 방식을 통해 시퀀스의 상대적 위치를 모델링하며, 서로 다른 데이터셋의 분포를 효과적으로 다루기 위해 네 가지 분포를 혼합해 사용하고 있습니다. 이러한 방법들은 LOTSA 데이터셋을 통해 MOIRAI 모델의 효율성을 증명하며, 특히 동적 패치 크기가 시계열 데이터를 효과적으로 처리할 수 있는 핵심 요소라 할 수 있습니다. 매번 새로운 타임시리즈 관련 모델링 방법과 인사이트를 배울수 있어 매우 좋았습니다. 좋은 발표 감사합니다.


  • 2024-04-09 13:11

    이번 세미나에서는 "Unified Training of Universal Time Series Forecasting Transformers"라는 논문에 대한 소개를 중심으로 진행되었습니다. MOIRAI라 표현하는 새로운 트랜스포머 아키텍처는 넓은 범위의 범용 시계열 예측을 위해 제안되었으며, 대규모 개방형 시계열 데이터셋 컬렉션인 LOTSA의 공개와 함께, 시계열 예측 분야의 zero-shot 을 구현하였습니다. MOIRAI는 복잡한 시계열 데이터의 다양한 특성과 분포를 모델링하기 위해 설계되었고, 특히 Mixture distribution을 통해 모델은 시계열 데이터의 다변량성, 다주파수성, 및 다분포성을 효과적으로 처리할 수 있습니다. 이러한 접근 방식이 시계열 데이터의 복잡한 패턴과 유동성을 더 잘 이해하고 예측할 수 있다고 생각합니다. 가장 흥미로웠던 점은 범용 시계열 데이터인 LOTSA 데이터셋을 공개했다는 것입니다. 이 데이터셋을 사용하여 MOIRAI 모델을 사전 학습함으로써, 모델은 다양한 도메인의 데이터에 대해 zero-shot 예측을 수행할 수 있는 능력을 향상시켰습니다. 흥미로운 주제에 대해 발표자 분께서 이해하기 쉽도록 설명해주셔서 더욱 세미나에 집중하며 내용을 습득할 수 있었습니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2024-04-09 16:36

    이번 세미나에서는 시계열 예측 분야에서 새로운 구조와 데이터 셋을 소개한 "Unified Training of Universal Time Series Forecasting Transformers" 논문에 대해서 발표해 주셨습니다. 해당 논문은 MOIRAI라는 새로운 트랜스포머 아키텍처의 제안과 함께, 대규모 개방형 시계열 데이터셋 컬렉션인 LOTSA를 공개함으로써, 범용적인 시계열 예측을 위한 강력한 기반을 마련했습니다. 본 논문에서 제시하는 주요 성과 중 하나는 zero-shot 예측에서 전통적인 full-shot 모델과 비교해 경쟁력 있는 성능을 보여준다는 점입니다. 이는 사전 학습된 모델이 다양한 시계열 예측 작업에 즉시 적용될 수 있다는 가능성을 보여줍니다. 또한 주목할 만한 부분은 MOIRAI 아키텍처가 다변량 시계열 데이터를 효율적으로 처리할 수 있는 능력과, 다양한 데이터셋의 분포 특성을 이용할 수 있도록 설계되었다는 점입니다. 특히, 다양한 변수 수와 주파수를 갖는 시계열 데이터에서 패턴을 찾아내고, 변수 간의 관계를 명확히 구분할 수 있는 기능이 매우 인상깊었습니다. 또한, LOTSA 데이터셋의 공개는 연구자들이 모델을 실험하고 평가할 수 있는 폭넓은 자원을 제공함으로써, 범용 시계열 예측 모델의 개발을 촉진할 것으로 기대됩니다. 다만, 해당 아키텍처와 데이터셋의 실제 효용성과 범용성은 아직 다양한 산업 분야와 실제 응용 프로그램에서의 추가 검증이 필요할 것으로 생각됩니다. MOIRAI가 제공하는 zero-shot 예측 성능이 실제 비즈니스 문제 해결에 충분한지, 그리고 이 모델이 시계열 데이터의 복잡성과 다양성을 얼마나 잘 처리할 수 있는지에 대한 질문은 여전히 남아 있을 것으로 보입니다. 이번 발표를 통해 시계열 예측 분야에서 새로운 MOIRAI 아키텍처와 LOTSA 데이터셋에 대해서 잘 알 수 있게 되었습니다. 좋은 발표 해주셔서 감사합니다.


  • 2024-04-09 18:33

    본 세미나에서는 Universal Forecasting을 위한 새로운 Transformer Architecture인 MOIRAI와, Large Time Model의 사전 학습을 강화하기 위한 새로운 대규모 시계열 데이터셋인 LOTSA를 제안한 "Unified Training of Universal Time Series Forecasting Trasnformers"라는 논문에 대한 발표로 구성되었습니다. 먼저, Universal Forecasting을 위한 새로운 Framework을 구성하는 것은 시계열 데이터만이 가지는 다양한 특성들(Frequency, 변수의 개수, 분포의 특성, 영역 등)로 인해 매우 어려운 연구 방향이라는 생각이 들었습니다. 이를 위해 해당 논문에서는 모든 변수를 단일 시퀀스로 간주하여 해당 변수를 Flatten하는 방식으로 Input을 구성하고, 데이터셋마다의 Frequency를 고려해 겹치는 Patch가 없게끔 Multi-Patch Modeling을 수행하며, 변수 간의 관계를 파악하기 위해 RoPE를 이용하며, 마지막으로 Output Point가 아닌 Output Distribution을 예측하는 방식으로 시계열이 가지는 특성들을 잘 반영하는 Universal Forecasting을 위한 새로운 Framework을 구성했습니다. 개인적으로 해당 분야가 고려해야할 부분이 많은 만큼 앞서 언급한 방식들이 Representation을 생성해내는 과정에서 매우 효과적인 방법이라고 생각하는 데에는 아직 부족한 점이 있다고 생각하지만 시도 자체만으로도 충분한 의의를 가지는 연구라고 생각합니다. 또한 지금까지의 Zero-Shot Forecasting을 위한 Pre-Training에서는 학습하는 Data Size가 매우 작고, 단변량 데이터에 대해서만 예측이 가능하다는 문제점을 극복하고, 보편적인 예측이 가능한 사전 학습된 대규모 모델을 구축하기 위해 다양한 영역의 대규모 데이터셋을 구성한 LOTSA를 제안했다는 점에서도 큰 의의가 있는 연구라고 생각합니다. 앞으로도 어떤 방식으로 시계열 데이터에 대한 Universal Forecasting을 위한 어떤 Framework이 제안될지, 그리고 본 논문에서 구축한 LOTSA 데이터셋은 어떻게 학습에 사용될지 기대감을 가질 수 있는 유익한 시간이었습니다. 좋은 논문 소개해주셔서 감사합니다.


  • 2024-04-09 23:49

    이번 세미나의 주제는 시계열 예측(time series forecasting)이었습니다. 특별히 zero/few shot 상황에서도 어떠한 task도 수행할 수 있도록 foundation model 처럼 사전학습 시키는 방법에 대해 소개되었습니다. 시계열 데이터는 다른 유형의 데이터와 다르게 수집 주기, 입력변수의 개수, 시계열 적 특성(추세성, 계절성 등) 등이 모두 다르기 때문에 소위 까다로운 유형이라고 볼 수 있습니다. 이에 소개해주신 연구에서는 다음의 네 가지 사항이 모두 융합된 학습 방법을 제안하였습니다: 다양한 수의 변수를 처리할 수 있음, frequency가 다름에도 패턴을 잘 찾아야 함, 변수간의 관계를 파악할 수 있어야 함, 데이터셋 마다 다른 분포의 특성을 잘 파악해야 함. 먼저 변수의 수에 구애받지 않도록 해당 데이터셋의 각 변수별 sequence를 하나로 연결합니다. 그리고 각 변수 별 sequence에서 patch(또는 윈도우)를 생성한 후 linear layer에 입력하여 patch embedding을 구합니다. 이 후 변수 인코딩 및 각 변수 내 position embedding도 함께 입력하게 됩니다. 이때 일반적인 absolute position embedding이 아닌 relative position embedding 중 rotary position embedding을 이용합니다. 마지막으로 대표적인 확률 분포 네 가지를 혼합한 형태의 분포를 이용해 probabilistic forecasting을 진행합니다. 아마 만능 비법소스 같은 모델을 구축함으로써 사용자들로 하여금 더욱 효율성을 높일 수 있도록 한 점이 큰 의의인것 같습니다. 시계열 데이터를 다룸에 있어서 pre-trained 와 같은 단어가 어울릴지 몰랐는데 흥미로운 연구인 듯합니다. 재미있는 내용 준비해주셔서 감사합니다.


  • 2024-04-08 08:10

    이번 세미나에서는 일종의 TIme series pretrained model 이라 볼 수 있는 Unified Training of Universal Time Series Forecasting Transformers에 대해 다뤄주셨습니다. 기존의 time-series는 데이터들이 갖는 특성 때문에 여러 데이터셋들을 이용한 큰 backbone 모델을 만들기 어려웠습니다. TIme series pretrained 모델을 만들기 위해서는 다양한 변수 수를 갖는 시계열을 모두 처리할 수 있어야 하며 각기 다른 frequency를 갖는 시계열 데이터에서 패턴을 찾아낼 수 있어야 합니다. 따라서 본 논문에서는 이를 위해 모든 변수를 단일 시퀀스로 간주하여 다양한 시계열을 flatten하는 방식을 제안하고 있습니다. 더불어 다양한 frequency 대응하기 위해 frequency 대 patch size mapping을 통해 다소 휴리스틱하지만 각 frequency에 맞는 patch를 만드는 방법을 제안하고 있습니다. 거기에 더불어 본 논문에서는 사전 학습을 위한 데이터셋 또한 제안하고 있습니다. 실험 결과 다양한 데이터셋을 통틀어 단일 모델로서 우수한 성능을 보여주고 있으며 abalation에서는 patch의 형태가 상당한 기여를 하고 있는 것을 확인할 수 있었습니다. 최근 TIme-series를 LLM과 함께 사용하고자 하는 논문이 많은데 그러한 연구와 이와 같은 시계열 데이터를 사전학습에 적용하고자 하는 연구들이 합쳐지면 더 강력한 시계열 모델이 나올 수 있지 않을까 하는 생각을 했습니다. 좋은 발표 감사합니다!


  • 2024-04-10 21:40

    이번 세미나에서는 "Unified Training of Universal Time Series Forecasting Transformers" 논문을 중심으로 다양한 관점에서 발표되었습니다. 논문에서는 다변량 시계열 데이터의 복잡성을 고려하여 범용적인 모델인 MOIRAI를 제안하고 있습니다. 발표 내용을 종합해보면, MOIRAI는 변수의 다양성을 처리하기 위해 시계열 데이터를 Flatten하고, Rotary Position Embedding을 통해 변수 간 관계를 파악합니다. 또한, 다양한 데이터 분포를 고려하기 위해 혼합 분포를 사용하여 불확실성을 예측합니다. 이러한 설계는 다양한 시계열 데이터에서 범용적으로 활용할 수 있는 모델을 제시하고 있으며, 특히 실제 데이터에서 발생할 수 있는 다양한 문제를 고려하여 설계되었다는 점이 흥미로웠습니다. 발표자의 설명도 명확하고 자세하여 이해하기 쉬웠으며, Universal Time Series Forecasting 모델에 대한 중요성과 가능성을 제시해 준 좋은 발표였습니다. 감사합니다!


  • 2024-04-10 23:16

    이번 세미나는 "Unified Training of Universal Time Series Forecasting Transformers" 논문을 소개해주셨습니다. 다양한 시계열 데이터의 변수와 수집 주기의 차이를 효율적으로 처리하기 위한 모델 설계와 Rotary Position Embedding의 활용, 그리고 probabilistic forecasting을 위한 분포의 혼합 사용으로 구성된 방법론이었습니다. 또한 LOTSA 데이터셋을 활용한 masked token prediction으로 사전 학습을 진행하는 방식은 Time-series forecasting 분야에서 representation learning을 실현하는 새로운 경로를 제시해 주는 것 같습니다. 이러한 접근 방식은 기존 모델과는 차별화되며, 향후 다양한 시계열 데이터와 상황에 적용될 수 있는 범용성을 갖춘 모델의 개발로 이어질 수 있을 것으로 기대됩니다. 좋은 발표 감사합니다.


  • 2024-04-11 14:49

    이번 세미나에서는 “Unified Training of Universal Time Series Forecasting Transformers”에 대해 소개해주셨습니다. 해당 논문은 시계열 연구 분야에 foundation model을 처음으로 시도했다는 contribution을 갖습니다. 방법론인 MOIRAI는 미래의 확률 분포를 가장 잘 예측할 수 있는 모델 파라미터를 찾는 것을 목표로 합니다. 우선 여러 개의 변수를 갖는 시계열을 효과적으로 처리하기 위해 단일 sequence로 간주하여 flatten을 수행하고, 각각의 주기를 가진 데이터 속에서 패턴을 파악하기 위해 각기 다른 크기의 patch size를 갖는 겹치지 않는 patch를 생성합니다. 이후 변수 간 관계를 확실히 파악하기 위해 별도의 변수 인코딩으로 Relative position embedding 방법인 RoPE(Rotary Position Embedding)를 사용하고 Binary attention bias component로 변수 간 구분을 하여 최종 attention을 계산합니다. 마지막으로 데이터 마다 갖고 있는 분포의 특성을 반영하기 위하여 4가지 다른 분포를 활용하며 이들의 혼합으로 최종적인 예측을 수행하게 됩니다. 시계열 데이터에 대한 새로운 연구를 접해볼 수 있던 좋은 시간이었습니다. 유익한 발표 감사드립니다.


  • 2024-04-12 11:04

    이번 논문은 univeral forecasting을 위한 새로운 트랜스포머 아키텍쳐 (MOIRAI) 제안하였습니다. LLM을 모티브한 LTM(Large Time Model)에 도전한 사례로 LTM 학습을 강화하기 위해 대규모 개방형 시계열 데이터셋인 LOTSA도 공개하였습니다. 이전 딥러닝을 활용한 시계열 예측 연구들에서는 학습한 변수수와 다르면 input값으로 넣을 수가 없었으며, 변수를 넣는 순서도 중요했습니다. 이러한 변수사이즈, 순서가 다르게 input이 들어가면 학습한 모델에서는 인지하지 못하고 이전 학습된 변수사이즈, 순서만 기억하고 있어서 학습이 되지 않거나 잘못된 값을 예측할 수 있는 문제가 있습니다. 또한 보통 시계열 데이터 셋은 다양한 영역의 대규모 데이터셋이 없었기 때문에 Large model 에서 사용하기 어려운 면이 있습니다. MORAI에서는 변수관련 문제를 해결하기 위해 Any-variateattention을 도입하였습니다. 위치에 대한 relative를 정립하기 위해 LLM에서도 사용하고 있는 RoPE를 사용하였습니다. Query와 Key vector 사이에 Rotary matrix를 넣어 Query와 Key를 같은 각도로 회전시키면서도 각도는 유지하여 상대 거리는 보존합니다. 이러한 부분을 통해 변수들의 상대적 위치를 알아서 찾아가게 만들었습니다. 그리고 Binary attention bias component를 통해 변수 간 구분이 가능하게 되어 임의의 변수 수로 확장이 가능한 이점이 있습니다. 물론 앞서 다변량 시계열을 Flatten 처리가 선행됨에 따라 갖는 이점이기도 합니다. 시계열 변수간의 특성들을 잘 캐치해야 하는것이 무엇보다 중요한 측면이기도 하나 변수 제약에 따른 문제를 해결하려는 시도가 있었다는 부분에 대해 배워갈 수 있어서 좋았습니다. 수고하셨습니다.


  • 2024-04-25 14:03

    이번 세미나는 "Unified Training of Universal Time Series Forecasting Transformers" 논문에 대하여 소개해주셨습니다. 최근부터 시계열 분야에서 foundation 모델에 대한 관심과 연구가 점차 진행되고 있는 것 같습니다. 해당 논문 또한 시계열 foundation 모델을 제안한 연구이고 모델 학습을 위해 대규모 데이터셋인 LOTSA를 공개하였습니다. 세미나 시간 동안 시계열 foundation 모델을 구성하기 어려운 이유와 이를 해결하기 위해 제안된 방법론을 순차적으로 설명해주셔서 이해하기 좋았습니다. 이번 시간에 설명을 들으며 시계열 foundation 모델을 구성하기 어려운 이유 중 하나로 다른 이미지와 텍스트와 달리 시계열의 경우 데이터마다의 변수 수가 서로 다르다는 점이 있는데 PatchTST가 제안된 이후로 변수 간 상관관계를 고려하기보다는 변수를 flatten 하여 학습하는 MOIRAI나 channel independent로 학습 하는 방식이 늘어나고 있는 것 같습니다. 좋은 발표 감사합니다.


전체 503
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10502
관리자 2020.03.12 0 10502
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9105
관리자 2020.03.12 0 9105
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10222
관리자 2020.03.12 0 10222
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (6)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 89
Junyeong Son 2025.05.08 0 89
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (11)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 131
Doyoon Kim 2025.05.01 0 131
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 241
Sunghun Lim 2025.04.24 0 241
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 185
Suyeon Shin 2025.04.21 0 185
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 206
Woongchan Nam 2025.04.16 0 206
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 400
Kiyoon Jeong 2025.04.16 0 400
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 412
Hyeongwon Kang 2025.04.09 0 412
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 409
Jaehyuk Heo 2025.04.02 0 409
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 406
Jaehee Kim 2025.04.02 0 406
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 324
Jungho Lee 2025.04.02 0 324

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호