1. Topic
이 논문은 올해 발표된 논문으로, AAAI 학회에서 Outstanding paper award를 수상한 논문입니다.
이 논문에서는 Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 모델을 제안하는데,
특히 긴 길이의 시계열 데이터에 대하여 연산 complexity를 낮추면서도 효과적이고 빠르게 예측을 수행할 수 있도록 하는 새로운 방법론을 제안하였습니다.
2. Overview
1) Long sequence time-series forecasting (LSTF) 은 output과 input의 정확한 long-range dependency를 효율적으로 포착할 수 있는
높은 예측 capacity를 가진 모델 요구
2) 딥러닝 분야에서 강한 파워를 보여주고 있는 Transformer는 여러 최신 연구에서 prediction capacity에 대한 잠재성을 보여주고 있지만,
LSTF task와 관련하여 Transformer 모델은 다음과 같은 한계점들이 존재
- 한계점 1. Quadratic time complexity (Quadratic한 연산 복잡도)
- 한계점 2. High memory usage (높은 메모리 사용량)
- 한계점 3. Inherent limitation of the encoder-decoder architecture (인코더-디코더 모델의 step-by-step inference 속도 문제)
3) Informer는 LSTF의 관점에서 transformer의 모든 한계점을 개선할 수 있는 효율적이고 효과적인 방법론을 제안
- 솔루션 1. ProbSparse self-attention mechanism으로 연산/메모리 효율 향상
- 솔루션 2. Self-attention distilling 기법으로 중요한 feature representation 생성 및 stacking layer로 인한 memory bottleneck 해소
- 솔루션 3. Generative style decoder를 통해 하나의 forward step만으로 long time-series sequence 예측 가능
3. 발표자료 및 발표영상
[1] 발표자료 : 하단첨부
[2] 발표영상 :
">link
4. 참고 문헌
[1] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
link
[2] Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting
link
금일 세미나에서는 Transformer를 기반의 장기 시계열 예측을 위한 모델인 Informer가 소개되었습니다. 시계열 예측에 활용되는 딥러닝 모델은 크게 RNN, CNN 그리고 Attention 기반 모델 등이 있습니다. 특히 Attention 기반 모델은 Transformer의 등장 이후로 월등한 성능을 보이고 있으며 특히 다른 딥러닝 모델 종류보다 장기의존성에서 높은 성능을 나타내고 있습니다. 그러나 그만큼 연산량 및 메모리 사용량이 많다는 단점이 존재합니다. 더욱이 Decoder 부분에서 Auto regressive한 과정으로 인해 inference 속도가 느린 점도 개선이 필요한 부분일 것입니다. 이를 해소하기 위해서 Sparse Transformer, Reformer, Linformer 등의 다양한 방법들이 제안되고 있으나 앞선 Transformer의 단점들 중 일부만 개선하는 효과를 나타내고 있습니다. 이와 비교하여 Informer는 Transformer의 여러 한계점을 동시에 해결함을 보여주었습니다. 그 중 개선 효과의 근간이 되는 Prob Sparse Self-Attention의 설명이 가장 흥미로웠습니다. 기본적으로 Attention Matrix는 Sparse한 모습을 띠고 있어 유의미한 query와 key의 조합을 살펴보기 위한 기준을 마려하는 것이 관건일 것입니다. 이에 KL Divergence를 통해 query에 대한 sparsity를 정량적으로 측정하게 되는데 본 논문에서 여러 정리와 이론과 함께 Empirical Approximation 방법을 제안하였습니다. 결과적으로 유의미하다고 판단되는 u개의 query들(Top-u)만을 사용하게 됨으로써 복잡도가 logL/L 배 만큼 감소하게 되었습니다. 한편 Decoding 과정에서는 Auto-regressive 한 방법이 아닌 일회적 전진방법으로 inference 수행의 시간을 줄일 수 있게 되었습니다. 본 발표를 통해 Transformer의 장단점과 이에 대한 개선 방안, 그리고 Informer 모델 구조의 특징을 명확히 알 수 있었습니다. 무엇보다 논문 내용과 함께 발표자님의 견해도 확인할 수 있었던 점이 좋았습니다. 이상적인 논문 리뷰의 모습을 보여주고 계신 것 같아 배울 점이 많았던 세미나였습니다. 감사합니다.
금일 다룬 논문은 "Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting"이라는 논문으로, Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 모델을 제안합니다. 해당 방법론은 긴 길이의 시계열 데이터에 대하여 연산 complexity를 낮추면서도 효과적이고 빠르게 예측이 가능하도록 합니다.
Long sequence time-series forecasting (LSTF)란, 이름에서 알 수 있듯이 긴 시퀀스의 시계열을 예측하는 task를 의미하며 LSTF의 성능을 향상하기 위해서는 "long range alignment ability(a)"와 "input/output의 efficient operations(b)"가 중요하게 됩니다. Transformer는 전자 (a)에 대해서는 타 네트워크에 비해 우수한 성능을 보이나, self attention은 연산 복잡도, 높은 메모리 사용, 속도의 문제로 (b)에 대한 조건은 만족하지 못합니다. 이에 본 논문(Informer)에서는 LSTF의 관점에서 transformer의 모든 한계점을 개선할 수 있는 효율적이고 효과적인 방법론을 아래와 같이 제안합니다.
[1] ProbSparse self-attention : 모든 쿼리-키의 내적의 비효율성을 지적하며 일부 pair를 확률분포를 바탕으로 선정해줌으로써 연산/메모리 효율 향상하였습니다.
[2] Self-attention distilling : 전체 Self-attention을 사용하지 않고 1D conv와 Max pooling을 이용하여 feature representation 생성 및 stacking layer를 사용하여 memory bottleneck을 해소합니다.
[3] Generative style decoder : 하나의 forward step만으로 long time-series sequence가 예측 가능하도록 하여 inference 속도가 빨라졌습니다.
수식이 많고 내용이 많아 어려운 논문이었을 텐데 너무 잘 정리해주셔서 듣는 데 어려움이 없었습니다. 좋은 발표 감사합니다. 최근 시계열 Anomaly Detection에 대해 공부하고 있는데 많은 도움이 됬습니다!
Transformer(TF) 모델이 long sequence를 잘 예측할 수 있도록 고안 informer에 대해서 발표해주셨습니다. CNN, RNN보다 TF가 긴 sequence를 포착할 수 있는 것은 맞지만 효율적인 학습방법이라고 할수 없습니다. 이 문제를 해결하기 위해, 입력 임베딩, [raw 시계열 값 + position embedding + global time-stamp(week, holiday, month)]으로 구성이 되어 있었고, contribution으로 (1) attention mechnism에 sparisty를 충족시키기 위해서 휴리스틱한 방법으로 풀어내었습니다. (2)Self-attention distilling은 Conv-Pool을 사용하여 sequence의 길이를 1/2로 줄여 연산효율을 좋게 하였습니다. (3) Generative style decoder에서는 time 정보와 시계열값을 하나의 입력 vector로 사용하여 one-shot으로 시퀀스 예측으로 수행이 되었습니다. Transformer의 다른 구조와 효율성을 확인할 수 있는 좋은 발표였습니다. 감사합니다.
금일 세미나는 “Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting”에 대한 리뷰로 진행되었습니다. 본 논문에서는 transformer를 시계열 예측에 적용하면서도 길이가 긴 데이터에서의 연산 복잡도를 낮추기 위한 아이디어를 추가하였습니다. Long sequence를 transformer로 예측하는 모델들은 quadratic한 연산 복잡도와 높은 메모리 등 cost가 높다는 한계점을 갖고 있었습니다. Informer는 self-attention 연산을 효율적으로 수행하기 위해 ProbSparse self-attention을 제안하는데, 이는 유의미한 dot-product pair를 구분해내기 위해서 query와 key 분포 간 유사도를 그 지표로서 활용하고, key sampling과 max operator를 적용합니다. 또한 generation style decoder로 1개 forward step으로 long time sequence를 예측할 수 있도록 Informer의 decoder를 구성하였습니다. LSTF task의 연산량을 줄이기 위해 근본적으로 유의미한 query-key pair를 찾기 위해 self-attention을 수정한 것이 매우 인상적이었습니다. 좋은 발표 감사합니다.
금일 논문은 2021 AAAI 에서 발표된 Informer 입니다. 해당 논문은 시계열 데이터에서 transformer 를 활용한 방법론으로 기존 transformer 구조와 몇가지 차이점이 존재하며, 그 차이는 시계열 데이터에 적합한 방법론의 접근이였다고 생각합니다. 우선 probsparse self-attention 부분에서는 기존 무거운 transformer 모델의 attention 연산을 줄여줄수 있는 방법론이며, 이러한 연구는 휴리스틱한 방법으로 연구가 진행되어왔습니다. informer 눈문에서는 attention 값이 유의미할 때는 uniform 하지않는 특징을 가질 것이라는 가설 증명과 함께 attention 연산을 줄이는 방법론을 제안하였습니다. 실시간으로 anomaly detection 을 수행해야하는 time series anomaly detection 에서 위와같은 방식은 매우 중요한 접근이기 때문에, 저자들이 해당 논문을 시작할 때 의도를 파악 할 수 있었습니다. 그리고 encoder 에서 여러 다른 window 에 대한 time 정보를 인코더에 함께 사용하는 것을 볼 수 있었고, 시계열의 주기성에 대한 여러가지 특징이 실제로 time window 에 따라 다르게 인코딩 되는 특징이 있기 때문일 것으로 생각합니다.
마지막으로 디코더 부분이 매우 흥미로웠는데, next time 하나만을 생성하지않고 sequence 를 생성해내면서 연산의 효율성을 보여주었는데, 이는 transformer 디코더의 강력한 attention 의 효과라고 생각합니다. 또한, 디코더에서 인코더의 앞부분을 input 으로 사용하면서 나머지 부분을 마스킹 처리하여 예측하게하는 방식이 매우 신선했습니다.
어려운 발표내용이였는데, 알기쉽게 정리하였습니다. 감사합니다.
이번 세미나에서는 Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 새로운 모델인 Informer 에 대해 발표해주셨습니다.
이 논문에서는 시계열 예측에서 LSTF (Long Sequence time-series forecasting) 관점에서 Transformer가 가지는 아래 세가지 한계점을 극복하기 위한 방안을 논하고 있습니다.
1. The quadratic computation of self-attention (시간 복잡도와 메모리 사용량이 L Quadtratic 함)
2. The memory bottleneck in stacking layers for long inputs (총 메모리 사용량이 𝑂 (𝐽 · 𝐿2) 을 따르며 Long sequence input에 따른 모델의 scalability의 한계점으로 작용됨)
3. The speed plunge in predicting long outputs (Dynamic decoding 방식이 step by step 으로 수행되므로 RNN 기반 모델만큼 느린 속도를 보임)
선행 연구 대부분은 첫번째 한계점인 Self-attention희 효율성을 개선하고자 하였으나, 현실적인 LSTF 문제의 관점에서 한계점 2,3번에 대한 해결책을 제시하고 있지 않습니다.
따라서 해당 논문에서 Informer는 LSTF의 관점에서 transformer의 모든 한계점을 개선할 수 있는 효율적이고 효과적인 방법론을 제안합니다.
1. ProbSparse self-attention mechanism으로 연산/메모리 효율 향상
2. Self-attention distilling 기법으로 중요한 feature representation 생성 및 stacking layer로 인한 memory bottleneck 해소
3. Generative style decoder를 통해 하나의 forward step만으로 long time-series sequence 예측 가능
복잡한 수식들을 쉽게 잘 풀어서 설명해주시고 논문에서 쉽게 넘어갈 수 있는 배경적인 부분도 하나씩 잘 정리해서 보여주셔서 많은 도움이 되었던 것 같습니다.
나중에 논문 리뷰 하게될 때 참고하여 세세한 부분 하나하나 잘 짚고 넘어갈 수 있도록 하겠습니다. 감사합니다.
이번 세미나에서는 Long Sequence Time-Series Forecasting(LSTF)라는 task에 맞게 transformer를 효율적으로 개선한 Informer에 대해 다뤄졌습니다. LSTF task를 다룰 때 transformer를 활용하면 cnn, rnn 대비 long-range alignment ability 측면에서 강점을 가질 수 있습니다. local한 영역에서 동일한 filter를 반복 사용하는 cnn, rnn 방식과 달리 transformer는 self-attention을 통해 global한 feature를 잘 학습할 수 있기 때문인데요, 이러한 self-attention 구조 때문에 발생하는 연산 복잡도의 문제를 논문에선 지적하고 있습니다.
self-attention 구조를 사용하며 발생하는 efficiency 문제는 transformer를 사용하면서 제거했던 inductive bias를 어느 정도 다시 추가하는 것으로 여러 연구들에서 해결해오고 있다고 생각합니다. 이렇게 다시 데이터에 맞는 inductive bias를 활용하는 것은 다른 도메인의 데이터, 다른 task에 대해선 활용도가 떨어지는 단점이 있을 것 같습니다. 하지만, 발표자께서도 잘 정리해주신 informer에서 제시한 솔루션은 LSTF 에 맞게 고안된 방법이지만 다른 task에도 적용될 수 있는 형태이기에 의미가 있지 않나 생각합니다.
개인적으론 쉽지 않은 논문이었는데 세미나 발표와 overview를 통해 기존 연구의 한계와 논문에서 제시한 솔루션에 대해 잘 정리해주셔서 이해하는데 많은 도움이 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 Transformer 기반의 Long sequence의 시계열을 예측하는 방법으로, 연산 Complexity를 낮추고 빠르게 예측할 수 있는 Informer 방법론에 대하여 설명해주셨습니다. 시계열의 대표적인 문제인 Long sequence time seires forescasting에 대하여 transformer 가 해결하지 못한 연산과 메모리사용을 최소화하여 효과적으로 예측하는 방법을 제시합니다. Sparse Attention을 통하여 시간복잡도 메모리 사용량을 줄이고, Self-attention distilling operation을 통하여 공간 복잡도의 감소효과 그리고 generative style decoder를 제안함으로써 cumulative error를 방지하는 방법론에 대하여 소개해주셨습니다. 특별히 유의미한 query 만으로 attention을 계산하는 ProbSparse self-attention방법이 인상적이었고 발표자가 궁금했던 부분에 대한 생각과 해석을 추가하여 각 Methodology를 이해하는데 많은 도움이 되었던 발표였습니다. 항상 좋은 발표해주셔서 감사합니다.
금일 세미나는 시계열 예측에 활용된 Transformer인 "Beyond Efficient Transformer for Long Sequence Time-Series Forecasting" 논문을 소개해 주셨습니다. 해당 논문은 시계열 예측 시 긴 길이에 대해 연산 complexity가 기하급수 적으로 증가하는 것을 고려하여 솔루션 3가지를 제시하고 연산속도를 향상시켰습니다. 본 논문에서 제시한 첫번째 솔루션은 ProbSparse self-attention mechani 입니다. 이는 Quadratic한 연산에 대해 복잡도가 증가하는 것을 방지하기 위해 제시한 방법으로 연산 및 메모리 효율 향상에 큰 기여를 합니다. 두번째는 높은 메모리 사용량을 줄이기 위하여 stacking layer를 적용하였습니다. 마지막 방법은 인코더-디코더 형태의 구조때문에 발생하는 속도 문제를 Generative style decoder로 변경하여 해결하였습니다. Transformer는 이미지, 시계열, 음성 등 다양한 곳에서 좋은 성능을 보이는 아키텍처이지만 길이에 따른 메모리 증가와 속도 하락이 해당 아키텍처를 실제 서비스로 변환하는데 큰 장애물입니다. 본 논문은 그런 문제들을 인식하고 해결할 수 있는 방법을 제시했다는 점에서 활용성이 높다고 생각합니다. 좋은 발표 감사합니다.
본 세미나는 긴 Sequence에 대한 Time-Series 예측을 목표로 하고 있으며, 이를 위해 RNN / CNN 대신 Transformer를 활용합니다. 하지만 Transformer는 기본적으로 Long-range Dependency가 RNN 대비 포착을 잘 할 수 있지만, 긴 길이에 대한 효율적인 연산이 어렵습니다. 장점은 취하며 단점을 극복하기 위하여 기존에도 Reformer, Linformer, Spares Transformer와 같은 모델들이 존재했지만 연산의 효율성에 대해서만 해결책을 제시하였고, LSTF 문제의 관점에서 긴 입력 값 길이에 대한 메모리 Bottleneck, Step-by-Step 디코딩 방식의 느린 Inference 속도를 해결하지 못했습니다. 이에 Informer는 단순히 인접, 또는 Random으로 일부의 입력 값에만 Attention을 적용하는 Sparse Attention 대신, 확률 분포에 입각한 Prob Sparse Self-attention, Convolution과 Max Pooling을 통한 Self-attention distilling operation을 사용해 해당 문제들을 해소합니다. 실험 결과, Informer는 Transformer 모델 중 가장 좋은 훈련 효율과 Test시 빠른 디코딩을 달성할 수 있습니다. 자신의 프로젝트에 도움이 될 논문을 잘 찾은 것 같아 좋은 것 같습니다. 훌륭한 발표 수고 많으셨습니다.
이번 세미나는 Transformer 기반의 Timeseires Forecasting 모델인 Informer를 주제로 진행되었습니다. 시계열 예측 모델에서 최근 long-range dependency를 잘 포착하기 위해 transformer 모델들이 사용되고 있는 것 같습니다. 하지만 본 논문에서는 연산, 메모리, 속도 측면에서 효율성을 개선하고자 하였습니다. 이를 해결하기 위해 ProbSparse self-attention, Self-attention distilling operation, generative style decoder를 제안하였습니다. ProbSparase self-attention은 서로 의미가 부족한 query-key pairs의 분포는 uniform할 것이고 유의미한 분포는 uniform하지 않을 것이라는 가정을 따릅니다. 관측된 attention 분포와 uniform 분포의 KL divergence를 계산하여 유의미한 query를 찾고 top-u개만 선택하여 attention을 계산하는 방법입니다. 하지만 모든 분포를 하나씩 계산해보는 것은 비효율적으로 근사 방법을 사용하였습니다. Self-attention distilling은 Attention output으로 부터 중요한 정보만을 추출하여 다음 layer로 전달하기 위해 convolution과 max-pooling을 통해 distilling을 수행하는 것입니다. transformer가 자연어는 물론 이미지, 시계열, 그래프 등 이제는 거의 모든 분야에서 좋은 성능을 내는 것 같습니다. 거기서 단지 성능만을 목표로 하는 것이 아니라 효율성을 언급하며 해결할 수 있는 방안을 제시했다는 점에서 contribution을 갖는 것 같습니다. 저 또한 강화학습, 시계열 이상치 탐지에 transfomer를 적용하는 연구에 대해 관심을 갖고 있는데 연구에 많은 도움이 될 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Transformer 구조를 시계열 예측에 이용하는 Informer라는 구조에 대하여 설명해 주셨습니다. 역시나 transformer는 다 적용되는구나 싶은 시간이었습니다. Transformer의 특성 자체가 attention 기반으로 입력되는 계열 간의 관계를 가장 잘 볼 수 있다는 강점을 가지지만, 반대로 그러한 관계를 알기 위해 필요한 연산량이 어마어마하다는 한계점 또한 갖습니다. Informer는 이를 해결하기 위해 probsparse self attention, self attention distilling operation 등을 제안하였습니다. Probsparse self attention의 메인 아이디어는 모든 key-query pair가 중요하지는 않다는 점입니다. 이를 개선하기 위해 확률적인 분포, 즉 연산하였을 때 uniform 분포와의 차이를 KD 기반으로 계산한 뒤 유의미한 pair를 샘플링하여 attention하는 방법을 사용합니다. Self attention distilling은 convolution-pooling 기반으로 연산의 효율성을 달성하는 방법론입니다. Transformer가 시계열 도메인에도 충분히 좋은 성과를 내는 것으로 아는데, 본 논문과 같이 연산 효율면에서의 문제점을 해결하려는 연구들이 더욱 활발히 진행된다면, 앞으로도 실무적인 측면에서의 많은 적용이 있을 것 같습니다. 좋은 발표 감사합니다.
시계열 데이터를 다루기 위해 해결해야 할 필수적인 문제인 long sequence time-series forecasting (LSTF)에 대해 소개해주셨습니다. 먼 미래의 데이터를 예측하기 위해서는 alignment ability를 확보해야 하는 동시에 메모리 측면에서의 비용도 반드시 고려해야 합니다. 본 논문은 이 문제를 해결할 수 있는 informer 모델을 제안합니다. 개인적으로 흥미로웠던 부분은 Query와 key의 관계에서 유의미한 dot-product pair는 uniform 분포에서 멀어진다는 가설이었습니다. 그 밖에 self-attention distilling을 비롯하여 추론 속도를 빠르게 하기 위해 설계한 기법도 인상깊게 보았습니다. 자연어와 비슷하지만 시계열 데이터가 패턴에 더 민감하게 반응할 것 같은데 본 논문에서 깊은 고민을 하고 있다는 것이 느껴졌고, 현실에서 사용하기 위해 필요한 경량화 및 추론속도 향상 기법을 많이 제안했다는 점에서 의의가 있는 것 같습니다. 감사합니다.
Transformer는 현재 도메인을 넘나들며 매우 우수한 성능을 보이고 있습니다. 하지만 Long-Term Dependency를 완화하여 Transformer의 높은 성능의 기반이 되는 Self-Attention의 경우 Input Sequence Length에 대해 Quadratic Computational Complexity를 갖기에 연산적인 문제가 존재합니다. 아주 간단한 예시로 Input의 길이가 2배 증가할 경우, Transformer Block 1개에 대한 연산은 4배로 증가하게 됩니다. 따라서 시계열 데이터와 같이 긴 길이의 Input Sequence를 다루는 도메인의 경우에는 연산 시간의 문제가 크게 발생할 수 있습니다.
이번 세미나에서 리뷰해 주신 Informer는 Self-Attention의 Quadratic Complexity와 Memory 효율성, Decoding 방식을 개선하여 긴 길이의 Time-Series Data를 처리할 수 있도록 Transformer를 개선하는 것을 목적으로 합니다. 우선적으로 Sparce Attention을 도입하여 Computational Complexity의 부담을 줄이고, Encoder Block 내에서 Max Pooling을 이용하여 Hidden Size를 점진적으로 줄이는 방식으로 메모리 사용량의 부담을 감소시킵니다. 마지막으로 Output을 Span으로 예측하는 방식을 통해 Decoding 과정에서의 연산량을 감소시킵니다.
전반적으로 Input Data의 특성을 잘 이해하고 있으며, Transformer 구조 역시 효율적으로 수정하였다고 생각합니다. 좋은 발표 감사합니다.
금일 세미나는 “Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting (2021 AAAI)” 논문에 대해 소개해주셨습니다. 본 논문은 제목에서 알 수 있듯이 Long sequence time-series forecasting (LSTF) 문제를 효율적으로 풀기위해 기존 transformer가 가진 한계점을 개선한 방법을 제안합니다. LSTF 문제를 풀기위한 한계점으로는 다음과 같이 크게 세 가지가 있습니다. 첫 번째로는 Sequence가 길어질 수록 연산량이 quadratic 하게 늘어난 다는점. 두 번째로 첫 번째에 이어 연산량이 커지면 메모리 사용량 또한 늘어난 다는 점. 마지막으로는 인코더-디코더 구조의 step-by-step 추론으로 인한 추론 속도의 문제가 있습니다. 이러한 방법을 개선하기 위해 ProbSpase Self-attention 방법을 제안하여 모든 sequence에 대한 attention 을 계산하는 것이 아닌 확률적으로 threshold를 통해 일부 attention 만 계산하여 연산량을 줄이고 self-attention distilling 방법으로 연산 메모리 또한 줄였습니다. 이어서 one forward 과정을 통해 한번의 연산으로 이후 sequence를 모두 예측하는 방법을 제안하였습니다. 오늘도 좋은 발표 감사합니다.
발표가 너무 좋아서 편하게 이해할 수 있었습니다. Self-attention block은 딥러닝을 사용하는 거의 모든 도메인에서 사용되고 또 좋은 성능을 보이고 있습니다. 하지만 이러한 구조는 태생적으로 O(n2) 을 가지기 때문에 인풋이 긴 경우에는 사용이 부담스러운 문제가 있습니다. 오늘 세미나에서 소개해준 Informer에서는 이러한 문제를 해소하고 있습니다. 문제를 해결하는 방식은 매우 직관적이었으며 직관을 받쳐주는 증명까지 이루어져 흠 잡을 곳 없다는 생각을 하였습니다. 다만, 왜 저자들이 트랜스포머의 구조를 개선하는 아이디어를 NLP task가 아니라 time-series data에 적용했는지 개인적으로 궁금해서 좀 찾아봤습니다. 주저자는 Informer 외에도 2021년에 transformer를 개선하는 아이디어로 논문을 냈으며 기존에는 time-series 문제를 다룬적이 없음을 확인하였습니다. 이에 제안하는 아이디어가 아마 task specific 하게 적용이 되지 않나 라는 생각이 들었고 이러한 아이디어를 NLP task에 적용할 수 있다면 또 의미있는 연구가 될 것이라 생각하였습니다.
이번 세미나는 Long sequence 시계열 예측(LSTF) 분야의 Informer 모델을 주제로 진행되었습니다. Informer는 이름에서 유추할 수 있듯이 Transformer를 기반으로 한 모델입니다. 기존 LSTF 분야에서 transformer 모델들은 quadratic한 연산 복잡도, 높은 메모리 사용량, 그리고 인코더-디코더 구조의 step-by-step inference 속도 문제를 내포하고 있었습니다. Informer는 이와 같은 한계점을 개선할 수 있도록 제안된 효율적 방법론입니다. 구체적으로 ProbSparse self-attention mechanism으로 연산과 메모리 효율을 향상시키고, Self-attention distilling 기법으로 중요한 feature representation을 생성하며 stacking layer로 인한 memory bottleneck을 해소합니다. 또한, Generative style decoder를 통해 하나의 forward step만으로 long time-series sequence 예측을 가능케합니다.
발표자 분께서 시계열 분야의 연구 흐름부터 차근차근 설명해주셔서 생소한 분야임에도 초반에는 큰 무리 없이 들을 수 있었습니다. 본 논문은 수식이 많고 이해하기 까다로움에도 불구하고, 발표자분께서 이해하신 부분까지 최선을 다해 설명해주신 점에 큰 감명을 받았습니다. 또한, 깔끔한 구성과 논리정연한 발표력까지, 스킬 측면에서도 많이 배울 수 있었습니다. Transformer는 이제 nlp뿐만 아니라 컴퓨터비전, 시계열예측, 강화학습 등 분야를 막론하고 등장하는 기본템으로서의 역할을 수행하게 된 것 같습니다. 하나의 모델 구조가 이렇게 다양하게 응용될 수 있다는 점에서 Transformer의 막강한 영향력에 다시금 놀랐던 시간이었습니다. 유익한 발표 진행해주셔서 감사합니다.
금일 세미나는 "Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting"이라는 주제로 진행되었습니다. 본 발표에서는 Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 Informer가 소개되었습니다. 본 논문에서는 해결하고자 하는 long sequence time forecasting에서 Transformer가 가지는 한계점을 명확하게 제시하고, 이를 해결하기 위한 장치들을 Transformer에 적용하여 long sequence time forecasting에 적합한 Transformer 모델인 Informer를 제안하였습니다. 특히 다양한 장치 중 연산량을 줄이기 위해 적용한 ProbSparse self-attention mechanism이 제일 인상적이었습니다. 금일 발표를 들으며 다시 한 번 정확한 문제 및 한계점 파악이 연구에서 매우 중요하다는 사실을 깨달을 수 있었고, 구조적인 문제 뿐만 아니라 수학적인 방법도 적용하여 한계점을 극복한 것 또한 매우 중요한 방법이라고 생각했습니다. 개인적으로 매우 관심있는 분야라서 재미있게 발표를 들었고, 최근 time series anomaly detection에서도 Transformer를 도입하고 있는데 금일 들은 방법들도 이 분야에 적용할 수 있을지 생각해보는 시간도 가질 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 Informer에 관한 세미나로, Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 모델을 다룬 세미나였습니다. 해당 모델은 기존의 transformer의 한계점을 해결하는데, 우선 self-attention 측면에서 연산량과 긴 sequence에 대한 stacking layer구조에서 메모리 bottleneck이 발생한다는 문제점이 있었습니다. 이 문제점은 ProbSparse self-attention mechanism과 self-attention distilling operation을 제안하여 해결하였습니다. 또, 기존 transformer의 decoder에서 step-by-step decoding 방식의 느린 inference 속도가 단점이었는데 이는 generative style decoder를 통해 하나의 forward step만 긴 sequence output을 얻을 수 있도록 하였습니다. 요즘 시계열 데이터를 다루는 것에 있어서 transformer을 많이 사용하는데, 이에 우려되는 문제점들과 그 해결책을 제시해주는 논문으로서 유익한 논문인 것 같습니다. 감사합니다.
오늘 세미나는 transformer를 이용한 time series forecasting 방법론인 informer에 대한 내용으로 진행되었습니다. 논문에서는 장기 시계열 예측(LSTF)에서 prediction capacity 향상을 위해 필요한 것이 long-range alignment ability와 긴 sequence의 input, output에 대한 연산 효율성이라고 주장하며 이 두 요소를 개선하기 위해 여러 방법을 제안하였습니다. 특히 연산 효율성을 위해서는 probsparse self-attention mechanism을 도입하였는데 이는 attention 연산을 줄이기 위해 일부 token 간 attention만을 계산하는 big bird 등의 모델에서 사용한 방법과 비슷한 방법입니다. 다만, informer에서는 단순히 구조적인 정보만을 반영하여 attention을 계산하는 영역을 정하는 것에서 더 나아가 확률을 기반으로 thresholding을 통해 attention을 계산할 영역을 정의하여 수학적 근거에 기반하여 연산 효율성을 높였습니다. forecasting을 위해 제안된 모델이지만 이를 활용하여 anomaly detection에도 활용할 수 있을 것 같습니다. 좋은 발표 잘 들었습니다.
금일 세미나는 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 연구에 대해 진행되었습니다. 본 연구는 두말하면 입이 아프게 많이 활용되고 있는 트랜스포머를 중심으로 진행되었습니다. 트랜스포머는 불 연속적인 순서를 갖는 데이터를 받아, 다시 그와 같은 아웃풋을 배출하는 모델입니다. 어텐션을 활용해 인코더와 디코더 구조로 이뤄져있습니다. 사실 트랜스포머를 보면서 아무래도 순서를 갖는 데이터를 대상으로 하고, 디코더를 활용하기 떄문에 자연스럽게 시계열 예측이 가능하지 않을까 막연하게 생각을 했었습니다. 하지만, 발표자께서 소개해주신 것과 같이 연산 복잡도, 메모리 문제 그리고 인코더와 디코더 간 추론 단계에서의 속도 문제 등이 존재해 말 그대로 “잠재성”을 갖는 모델로 고려될 수 있을 것 같습니다. 본 연구는 이런 문제를 해결하고자, 몇 가지 방법들을 도입한 모델을 제안합니다. Informer라는 이름으로, 긴 타임스텝을 갖는 시계열 데이터에 대한 예측 문제를 수행해냅니다. Attention에 기반한 시계열 모델은 기존 방법론들 대비 long-range time dependency를 갖는 데이터를 학습하는 데 보다 유리하다는 장점을 갖습니다. 다만, 문제는 역시나 연산과 메모리의 효율성일 것 입니다.
기존의 longformer, reformer, linformer등 방법론들이 해결하지 못하는 점들을 지적하고, 이를 attention과 디코더의 디자인으로 해결해가는 과정이 매우 논리적이고, 납득가능하다는 생각을 했습니다. 특히나 sparse attention과정에서 기존의 heuristic한 접근이 아닌 랜덤성을 기반으로 접근하는 부분이 흥미로웠습니다. 전체적으로 소화하기에 다소 어려운 논문이라고 생각이 되는 데, 하나하나 잘 소화해 이해하기 쉽게 설명해주셔서 큰 도움이 되었습니다. 개인적으로 긴 시퀀스의 시계열 예측에도 관심을 갖고 있는 데, 흥미롭게 들을 수 있었습니다. 잘 설명해주신 발표자님께 다시 한 번 감사드립니다.