Seminar

BOARD

[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis

작성자

Hyeongwon Kang

작성일

2026-02-10 22:51

조회

1034

Topic

Vision-based and Multimodal Approaches for Time Series Analysis

Overview

시계열 데이터를 이미지로 변환하여 대규모 Vision 모델 및 멀티모달 모델의 사전학습 지식을 활용하는 연구들에 대한 소개

발표자료 및 발표영상

발표자료: 첨부 파일
발표영상: 추후 첨부

참고문헌

Zhang, Chuxu, et al. "A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data." Proceedings of the AAAI conference on artificial intelligence. Vol. 33. No. 01. 2019.
Wu, Haixu, et al. "Timesnet: Temporal 2d-variation modeling for general time series analysis." arXiv preprint arXiv:2210.02186 (2022).
Zhou, Feiyan, and Duanshu Fang. "Multimodal ECG heartbeat classification method based on a convolutional neural network embedded with FCA." Scientific reports 14.1 (2024): 8804.
Wang, Mengjiao, et al. "A new fault diagnosis of rolling bearing based on Markov transition field and CNN." Entropy 24.6 (2022): 751.
Li, Xixi, Yanfei Kang, and Feng Li. "Forecasting with time series imaging." Expert Systems with Applications 160 (2020): 113680.
Ni, Jingchao, et al. "Harnessing vision models for time series analysis: A survey." arXiv preprint arXiv:2502.08869 (2025).
Chen, Mouxiang, et al. "Visionts: Visual masked autoencoders are free-lunch zero-shot time series forecasters." arXiv preprint arXiv:2408.17253 (2024).
Zhong, Siru, et al. "Time-vlm: Exploring multimodal vision-language models for augmented time series forecasting." arXiv preprint arXiv:2502.04395 (2025).
Shen, Lefei, et al. "VisionTS++: Cross-Modal Time Series Foundation Model with Continual Pre-trained Vision Backbones." arXiv preprint arXiv:2508.04379 (2025).
He, Zelin, Sarah Alnegheimish, and Matthew Reimherr. "Harnessing Vision-Language Models for Time Series Anomaly Detection." arXiv preprint arXiv:2506.06836 (2025).

전체 9

Jaehyuk Heo

2026-03-17 15:11

이번 세미나는 “Vision-based and Multimodal Approaches for Time Series Analysis”라는 주제로 시계열 데이터를 이미지로 변환하여 대규모 비전 모델(Large Vision Models) 및 멀티모달 모델의 사전학습 지식을 활용하는 최신 연구 동향에 대해 소개해주셨습니다. 발표에서는 기존의 트랜스포머 기반 시계열 모델이 가지는 정보 손실, 긴 시퀀스 처리 시의 높은 계산 비용, 그리고 변수 간 복잡한 상관관계 모델링의 한계를 지적하며, 이를 해결하기 위한 대안으로 시계열의 이미지화(Imaging) 연구가 재조명받고 있음을 강조했습니다. 특히 Gramian Angular Field (GAF)나 Markov Transition Field (MTF)와 같은 다양한 시계열-이미지 변환 기법들을 실제 모델링에 적용하는 방식이 인상적이었습니다. 이를 바탕으로 VisionTS와 Time-VLM 등 최신 논문을 리뷰하며, 대규모 비전 모델을 활용한 제로샷(Zero-shot) 예측이나 텍스트 정보를 함께 활용하는 멀티모달 접근법이 시계열 분석의 범용성을 어떻게 향상시키는지 잘 설명해주셨습니다. 다만, 시계열을 이미지로 변환하는 과정에서 발생할 수 있는 정보 왜곡이나, 여전히 높은 계산 비용 문제 등은 해결해야 할 과제로 남아있음을 명확히 짚어주셨습니다. 시계열 데이터를 비전이라는 새로운 시각에서 해석하려는 시도는 매우 흥미로웠으며, 향후 파운데이션 모델(Foundation Model) 연구에 대한 인사이트를 얻을 수 있는 유익한 발표였습니다. 좋은 발표 감사합니다.
Jungi Lee

2026-02-15 22:55

이번 세미나 주제는 “Vision-based and Multimodal Approaches for Time Series Analysis”로, vision model을 활용한 time series 분석에 관한 다양한 논문들을 소개해주셨습니다. 단순히 time series를 시각화하는 방법을 나열하는 데 그치지 않고, Vision Foundation Model을 활용하기 위해 어떤 형태의 표현이 필요한지, 그리고 왜 vision 모델이 time series 문제에 적합할 수 있는 지에 대해 생각해볼 수 있는 시간이었습니다. 특히 VisionTS는 시계열 데이터를 RGB 이미지 형태로 변환한 뒤, masking 복원 방식으로 time series forecasting을 수행하는 접근을 제안하였습니다. 개인적으로는 해당 방식에 대해 직관적인 공감은 다소 부족했지만, 그럼에도 불구하고 높은 성능을 달성했다는 점에서 매우 흥미롭게 느껴졌습니다. 왜 이러한 단순한 변환과 학습 방식이 효과적으로 작동하는지, 즉 deep learning 모델의 black-box적 특성을 더 깊이 탐구해보고 싶다는 생각이 들게 한 연구였습니다. 전반적으로 vision과 time series의 접점을 넓혀주는 의미 있는 세미나였습니다. 좋은 논문들을 소개해주셔서 감사합니다.
Jinwoo Jang

2026-02-16 17:47

이번 세미나에서는 “Vision-based and Multimodal Approaches for Time Series Analysis”라는 주제를 중심으로, vision 모델을 시계열 문제에 어떻게 접목할 수 있는지에 대한 여러 흥미로운 연구들을 접할 수 있었습니다. 단순히 시계열을 이미지로 변환하는 기법들을 나열하는 데서 그치지 않고, 왜 굳이 vision 모델을 사용해야 하는지, 그리고 시계열 데이터를 어떤 표현 공간으로 옮겨야 foundation model의 장점을 살릴 수 있는지를 고민해볼 수 있었다는 점이 인상 깊었습니다.
특히 VisionTS의 경우, 시계열을 RGB 이미지로 변환한 뒤 masking 기반의 복원 학습을 통해 forecasting을 수행한다는 점에서 다소 과감한 접근처럼 느껴졌습니다. 개인적으로는 이러한 변환이 시계열의 시간적 구조를 충분히 보존할 수 있는지에 대해 처음에는 의문이 들었지만, 실제 실험 결과에서 강력한 성능을 보였다는 점에서 기존의 직관을 다시 생각해보게 되었습니다. 이는 시계열 문제에서 우리가 중요하다고 여겨온 inductive bias가 반드시 명시적으로 반영되지 않더라도, 대규모 vision 모델이 다른 방식으로 패턴을 포착할 수 있음을 느꼈습니다.
이번 세미나는 vision 모델을 시계열 분석의 새로운 도구로 바라보게 만드는 계기가 되었고, 동시에 deep learning 모델이 내부적으로 어떤 표현을 학습하고 있는지에 대한 해석 가능성 문제에도 다시 한 번 관심을 갖게 만들었습니다. 전통적인 시계열 관점과는 다른 방향에서 문제를 재구성해볼 수 있었던, 생각할 거리를 많이 남겨준 의미 있는 시간이었습니다. 좋은 발표 감사합니다.
Doyoon Kim

2026-02-18 08:16

이번 세미나는 시계열 데이터를 이미지화하여 함께 다루는 멀티모달 방법론에 대해 소개되었습니다. LLM의 등장에 따라 텍스트와 시계열의 조합에 대해서는 여러 차례 다루었고 본 개념 자체도 최근에 등장한 것은 아니긴 합니다만, 이미지와의 조합은 비교적 낯선 듯 싶습니다. 새로운 점은 VLM을 이용해서 결과적으로는 텍스트, 이미지, 시계열 모두를 이용할 수 있게 된 점이 있습니다. 발표자분께서 설명해주신 시계열과 이미지 데이터의 공통점으로 현실 세계의 물리 시스템의 관측 결과이자 자연 신호라는 점 자체는 충분히 공감됩니다. 다만, 구조가 다름에도 분석 차원에서의 공통점이 있다고 보기는 어렵지 않나 싶습니다. 특히, 시계열 데이터를 주기에 맞추어 segmentation을 구함으로써 이미지를 형성하는 과정은 오히려 현실적으로 주기를 찾는 것이 어렵기에 현실에서 획득한 시계열 데이터에 잘 적용될지도 궁금합니다. 유익한 발표였습니다. 감사합니다.
Subeen Cha

2026-02-18 09:40

이번 세미나 주제는 “Vision-based and Multimodal Approaches for Time Series Analysis”로, 시계열 데이터를 이미지로 변환하여 vision foundation model과 멀티모달 모델의 사전학습된 표현을 활용하는 다양한 연구들이 소개되었습니다. 기존의 sequence 기반 접근과 달리, 시계열을 2D 이미지로 재구성함으로써 vision 모델의 spatial inductive bias와 representation learning 능력을 활용할 수 있다는 점이 인상 깊었습니다.

특히 VisionTS에서 시계열을 segmentation하여 이미지로 변환한 뒤, masked autoencoder 기반 reconstruction을 통해 forecasting을 수행하는 방식이 흥미롭게 느껴졌습니다. 이러한 접근이 직관적으로는 다소 단순해 보이지만, zero-shot 환경에서도 좋은 성능을 보였다는 점에서 vision foundation model의 강력한 표현 학습 능력을 다시 생각해보는 계기가 되었습니다.
또한 Time-VLM과 같은 연구에서 이미지, 텍스트, 시계열 정보를 함께 활용하여 multimodal fusion을 통해 forecasting 및 reasoning을 수행하는 접근을 소개해주신 부분도 매우 인상 깊었습니다. 이는 단순한 예측을 넘어, 시계열 데이터에 대한 설명, 해석, 이상 탐지 등 다양한 downstream task로 확장될 수 있는 가능성을 보여준다고 느꼈습니다.

전반적으로 이번 세미나는 시계열 데이터를 반드시 sequence 형태로만 다뤄야 한다는 기존의 관점에서 벗어나, representation 자체를 변화시켜 foundation model을 활용할 수 있다는 새로운 방향성을 제시해준 의미 있는 시간이었습니다. vision과 time series 간의 구조적 유사성과 representation learning 관점에서의 접점을 깊이 고민해볼 수 있었고, 향후 multimodal 기반 시계열 분석 연구의 발전 가능성에 대해 많은 생각을 하게 되었습니다. 좋은 발표 준비해 주셔서 감사합니다 🙂
Hankyeol Kim

2026-02-18 17:00

다른 모달리티에 비해 시계열은 추가적인 가공이 없을 때 정보가 상대적으로 부족하기 때문인지, 여러 정제 및 가공 방식이 꾸준히 제안/시도되는 것 같습니다. CAF, RP와 같이 2D 이미지 형태로 변환하는 등의 처리 후 비전 모델과 이미지 대상 기법들을 적용하는 방식도 그러한 일환으로, 경우에 따라 단순한 성능 향상을 넘어 보다 가시적이고 직관적인 결과 해석력을 얻을 수 있을 것 같다는 생각이 듭니다. 다만 TimesNet과 같이 비교적 성공적인 방법론들도 있었긴 하나, 이미지 기반 모델들이 시계열 과업에서 절대적인 우위를 보이는 것은 아니기에, 데이터와 과업 특성에 따른 수평적인 고려대상으로 두는 것이 가장 합당해 보입니다. 그럼에도, LLM을 위시한 멀티모달 모델들을 사용하여 보다 해석가능성 및 zero-shot 예측력을 확보하고자 하는 방향성은 앞으로의 시계열 도메인 연구에 있어 매우 가치있다고 느꼈습니다. 덕분에 비전 기반 시계열 분석 모델들의 연구 흐름 및 케이스들에 대해 알아볼 수 있었습니다, 좋은 세미나 감사합니다!
Jinwoo Park

2026-02-19 20:33

금일 세미나는 “Vision-based and Multimodal Approaches for Time Series Analysis”를 주제로 진행되었습니다. 시계열 데이터는 일반적으로 모달리티의 내재적인 특성으로 인하여 파운데이션 모델 구축이 상대적으로 더딘 편이었습니다. 다만, 최근 파운데이션 모델에 대한 연구들이 조금씩 진행되었고, 최근 연구들에서는 사전학습된 VLM을 활용하는 방향을 제시하고 있습니다. 이에 대한 근거로는 비전 모델이 애초에 선이나 곡선, 형태 같은 low-level의 패턴을 학습했으며, 시계열을 2D로 표현할 경우 spatial inductive bias를 주입할 수 있다는 점이 핵심적인 배경이라고 이해했습니다. 대표적으로 VisionTS는 시계열을 2D 형태로 변환한 뒤 MAE 기반의 patch 복원을 forecasting 문제로 재해석하여 zero-shot 예측을 수행합니다. 다음으로 VisionTS++는 시계열과 비전 도메인 간 스케일/채널/확률적 예측을 문제로 제기하고, 채널 구성 및 continual pretraining 등의 전략으로 이를 보완합니다. 또한 멀티모달 계열 접근은 단순 이미지 변환을 넘어, 시계열의 통계 요약이나 텍스트 정보를 결합해 cross-modal 정렬과 추론 능력을 강화하려는 흐름을 보여줍니다. 이상탐지 측면에서도 비전 기반 screening과 멀티모달 기반 verification을 결합해 작은 이상과 전역 문맥을 함께 다루려는 시도가 소개되었습니다. 종합하면, 시계열을 “이미지화”하는 것은 단순한 시각화가 아니라, 대규모 비전 사전학습 지식을 시계열 표현학습에 전이하기 위한 전략으로 이해할 수 있었습니다. 다만 변환 과정에서의 정보 손실, 해상도 선택, 리사이즈로 인한 시간 왜곡, 도메인 일반화 문제는 여전히 중요한 연구 과제로 남아 보였습니다. 생소하지만 자세하게 설명해주셔서 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.
Suyeon Shin

2026-02-25 13:53

이번 세미나는 “Vision-based and Multimodal Approaches for Time Series Analysis”를 주제로, vision 모델을 시계열 분석에 접목하려는 다양한 시도들을 폭넓게 소개해 주셨습니다. 단순히 시계열을 이미지로 변환하는 기법을 나열하는 데 그치지 않고, 왜 Vision Foundation Model을 활용하려는지, 그리고 어떤 표현 방식이 그 잠재력을 가장 잘 끌어낼 수 있는지에 대한 문제의식을 함께 제시해 주신 점이 인상적이었습니다.
특히 VisionTS와 같이 시계열을 RGB 이미지로 변환한 뒤 masking 기반 복원 학습으로 forecasting을 수행하는 접근은 기존 시계열 관점에서는 다소 비직관적으로 느껴졌습니다. 시간 축의 순차적 구조를 명시적으로 반영하지 않아도 높은 성능을 달성했다는 점은, 대규모 vision 모델이 우리가 예상하지 못한 방식으로 패턴을 학습하고 있을 가능성을 시사한다고 생각합니다. 이러한 결과는 시계열 문제에서 필수적이라고 여겨왔던 inductive bias에 대해 다시 고민해보게 만드는 흥미로운 사례였습니다.
또한 이미지·텍스트·시계열을 아우르는 멀티모달 확장 가능성까지 함께 다루어 주셔서, 단일 모달에 국한되지 않는 새로운 연구 방향을 생각해볼 수 있었습니다. 전통적인 시계열 분석 틀을 벗어나 다른 도메인의 모델을 적극적으로 활용해보는 시도가 어떤 의미를 갖는지 돌아보게 된 유익한 시간이었습니다. 좋은 발표 감사합니다.
Jaeyong Ko

2026-02-25 15:50

이번 세미나 주제는 “Vision-based and Multimodal Approaches for Time Series Analysis” 논문입니다. 시계열 데이터를 이미지로 변환하여 최신 비전 및 멀티모달 모델에 적용하는 다양한 방법론을 다루어 주셨습니다. 단순히 전통적인 시계열 분석에 그치지 않고, 비전 모델이 이미 보유한 선, 곡선, 질감에 대한 사전학습 지식을 어떻게 시계열의 추세나 변동성 파악에 Transfer Learning 할 수 있는지 깊이 있게 이해할 수 있는 시간이었습니다. 특히 VisionTS++ 연구는 기존 비전 모델과 시계열 데이터 사이의 모달리티 및 스케일 차이를 극복하기 위해 이미지 기반의 필터링과 다변량 데이터를 위한 색상 인코딩 방식을 제안한 점이 인상적이었습니다. 개인적으로는 시계열을 2D 이미지로 폴딩(Folding)하여 복잡한 주기 패턴을 효과적으로 포착하고 높은 제로샷 성능을 냈다는 사실이 매우 놀라웠습니다. 이러한 이미지 기반 접근법이 기존 LLM 기반 방식의 토큰화 노이즈나 계산 복잡도 문제를 해결할 수 있는 새로운 대안이 될 수 있음을 확인한 유익한 세미나였습니다. 좋은 연구들을 소개해 주셔서 감사합니다.

« [Paper Review] Introduction to Neural Operator

[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection »

목록보기

전체 559

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 16300	관리자	2020.03.12	0	16300
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15014	관리자	2020.03.12	0	15014
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 15977	관리자	2020.03.12	0	15977
556	[Paper Review] NVIDIA Radio Series (15) Woojun Lee \| 2026.05.04 \| 추천 0 \| 조회 409	Woojun Lee	2026.05.04	0	409
555	[Paper Review] Graph-based RAG (15) Doyoon Kim \| 2026.04.30 \| 추천 0 \| 조회 348	Doyoon Kim	2026.04.30	0	348
554	[Paper Review] Recursive Transformer (16) Jungi Lee \| 2026.04.13 \| 추천 0 \| 조회 603	Jungi Lee	2026.04.13	0	603
553	[Paper Review] Why CLIP fails at Dense Prediction Task? (16) Jinwoo Jang \| 2026.04.06 \| 추천 0 \| 조회 598	Jinwoo Jang	2026.04.06	0	598
552	[Paper Review] Dynamic Large Concept Models (17) Jaeyong Ko \| 2026.03.30 \| 추천 0 \| 조회 390	Jaeyong Ko	2026.03.30	0	390
551	[Paper Review] Programming Refusal with Conditional Activation Steering (17) Sunmin Kim \| 2026.03.10 \| 추천 0 \| 조회 890	Sunmin Kim	2026.03.10	0	890
550	[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (11) Sunghun Lim \| 2026.03.01 \| 추천 0 \| 조회 711	Sunghun Lim	2026.03.01	0	711
549	[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9) Suyeon Shin \| 2026.02.25 \| 추천 0 \| 조회 419	Suyeon Shin	2026.02.25	0	419
548	[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (11) Jaehyuk Heo \| 2026.02.12 \| 추천 0 \| 조회 894	Jaehyuk Heo	2026.02.12	0	894
547	[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9) Hyeongwon Kang \| 2026.02.10 \| 추천 0 \| 조회 1034	Hyeongwon Kang	2026.02.10	0	1034

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호