시계열 데이터 기반 알고리즘 연구
시계열 데이터 기반 이상치 탐지 및 예측 알고리즘 연구
시계열 데이터의 효과적인 활용을 위한 표상 학습 연구
Publications
Heejeong Choi, Pilsung Kang*.
본 논문에서는 시계열 데이터의 분석을 위해 다중 작업 자가 지도 학습(Multi-Task Self-Supervised Learning) 프레임워크를 제안합니다. 이 방법은 시계열 데이터의 다양한 일관성을 학습하여, 다양한 다운스트림 작업(예: 분류, 예측, 이상 탐지)에서 사용될 수 있는 일반적이고 강력한 데이터 표현을 학습합니다.
다중 작업 자가 지도 학습 프레임워크 제안:
불확실성 가중 접근(Uncertainty Weighting Approach):
Hyeongwon Kang, Pilsung Kang*.
이 논문에서는 다변수 시계열 데이터의 이상 탐지를 위해 변수 간 주의 메커니즘을 사용하는 Transformer 기반의 새로운 방법론인 Variable Temporal Transformer (VTT)를 제안합니다. 이 모델은 Transformer의 셀프 어텐션 메커니즘을 활용하여 변수 간 상관관계와 시간적 의존성을 효과적으로 모델링하여 이상을 탐지합니다.
Variable Temporal Transformer (VTT) 제안:
재구성 기반 비지도 학습 모델:
F1PA%K 지표 사용:
변수 주의 메커니즘 도입:
이상 발생 시점과 원인 변수 추정 가능:
최첨단 성능 달성:
이상 탐지 결과의 해석 가능성 제시:
Heejeong Choi, Subin Kim, Pilsung Kang*.
이 논문은 다변수 시계열 데이터의 이상 탐지를 위해 다중 해상도 앙상블과 예측 코딩을 사용하는 새로운 재귀적 자동 인코더 모델(RAE-MEPC)을 제안합니다. 제안된 모델은 복잡한 시계열 데이터의 다양한 시간적 의존성을 효과적으로 학습하여 이상을 정확하게 탐지할 수 있습니다.
다중 해상도 앙상블 인코딩 (Multi-Resolution Ensemble Encoding):
다중 해상도 앙상블 디코딩 (Multi-Resolution Ensemble Decoding):
예측 코딩 (Predictive Coding):
다중 해상도 의존성 학습을 위한 새로운 방법 제안:
예측 코딩 도입으로 시간적 정보 학습 강화:
기존 벤치마크 모델 대비 우수한 성능 달성:
다변수 시계열 데이터에 대한 포괄적이고 효과적인 이상 탐지 방법 제공:
Seonggye Lee, Pilsung Kang*.
본 논문은 시계열 표현 학습에서 효과적인 대조 학습을 위해 새로운 손실 함수인 FoN (Focus on Negative samples) 손실을 제안합니다. FoN 손실은 K-평균 클러스터링을 사용하여 앵커와 유사한 부정적 샘플에 더 높은 학습 가중치를 부여하여 시계열 데이터의 더 나은 표현을 학습할 수 있도록 합니다.
FoN 손실 함수(Focus on Negative samples Loss) 제안:
모델 및 작업에 무관한 손실 함수:
효율적인 학습 및 성능 향상:
새로운 부정적 샘플 학습 방법 제안:
모델-agnostic 및 작업-agnostic 성능 개선 입증:
적은 학습 에포크로 더 높은 성능 달성:
다양한 데이터셋에서 성능 향상:
자연어 기반 알고리즘 연구
대화 시스템 평가 및 학습 알고리즘 연구
텍스트 정보 추출 알고리즘 연구
문서 요약을 위한 토픽 분할 및 비지도 학습 연구
Publications
Gunho No+, Yukyung Lee+, Hyeongwon Kang, Pilsung Kang*. (+: Equally contributed)
본 논문에서는 사전 학습된 언어 모델(Pre-trained Language Model, PLM)을 활용하여 로그 데이터의 이상 탐지를 위한 훈련이 필요 없는 검색 기반 모델인 RAPID를 제안합니다. RAPID는 로그 데이터를 자연어로 취급하고 토큰 수준의 정보를 효과적으로 활용하여, 로그별 학습 없이 실시간 이상 탐지를 가능하게 합니다.
훈련 없이 검색 기반 이상 탐지 (Training-free Retrieval-based Anomaly Detection):
토큰 수준의 정보 활용 (Utilization of Token-level Information):
효율적인 추론 프로세스 (Efficient Inference Process):
로그별 학습이 필요 없는 이상 탐지 프레임워크 제안:
토큰 수준의 세부 정보 활용으로 성능 향상:
효율적인 추론 시간 보장:
다양한 데이터셋에서 뛰어난 성능 입증:
Yukyung Lee, Takyoung Kim, Hoonsang Yoon, Pilsung Kang, Junseong Bang, Misuk Kim*.
본 논문은 대화 상태 추적(Dialogue State Tracking, DST)을 개선하기 위해 엔티티 적응 사전 학습(Entity Adaptive Pre-training)을 활용하는 새로운 방법론인 DSTEA를 제안합니다. 이 방법은 대화의 중요한 엔티티를 집중적으로 학습함으로써 DST 모델의 성능을 향상시키는 데 중점을 둡니다.
엔티티 적응 사전 학습(Entity Adaptive Pre-training):
선택적 지식 마스킹 전략(Selective Knowledge Masking Strategy):
다양한 DST 모델과의 결합 및 성능 개선:
효과적인 엔티티 중심 학습 프레임워크 제안:
모든 BERT 기반 모델에 적용 가능한 범용성 확보:
다양한 엔티티 추출 방법의 결합을 통한 최적의 성능 달성:
실험적 검증을 통한 성능 향상 확인:
Sangmin Lee, Suzie Oh, Saeran Park, Guijin Son, Pilsung Kang*.
본 논문에서는 금융 도메인에서의 대형 언어 모델(LLMs) 성능을 향상시키기 위해 고품질 근거를 포함한 금융 도메인 지시 조정 데이터셋인 FINALE을 제안합니다. FINALE은 Chain-of-Thought (CoT) 프롬프팅을 활용해 모델이 더 나은 추론 능력을 학습할 수 있도록 돕고, 결과적으로 금융 분야의 다양한 작업에서 사용자 이해도를 증진시킵니다.
고품질 근거를 포함한 금융 도메인 데이터셋 생성:
Chain-of-Thought 프롬프팅 기법 적용:
효율적인 데이터 생성 파이프라인 제공:
금융 도메인에 특화된 지시 조정 데이터셋(FINALE) 개발:
모델 성능 및 이해도 개선:
훈련 효율성 및 일반 성능 유지:
자동화된 품질 필터링 프로세스의 유효성 입증:
Yukyung Lee, Joonghoon Kim, Jaehee Kim, Hyowon Cho, Pilsung Kang*.
본 논문은 대규모 언어 모델(LLM)을 사용하여 생성된 텍스트를 평가하는 새로운 평가 프레임워크인 CheckEval을 제안합니다. CheckEval은 평가 기준을 세부적인 하위 항목으로 나누고 각 항목에 대한 체크리스트를 생성하여 평가 과정을 보다 명확하고 일관되게 만듭니다. 이를 통해 기존 평가 방법의 모호성과 불일치를 해결하고, 평가 결과의 신뢰성을 크게 향상시킵니다.
체크리스트 기반의 평가(Checklist-based Evaluation):
평가 프로세스의 단계적 구성:
케이스 스터디를 통한 검증:
명확하고 일관된 평가 프레임워크 제안:
다양한 LLM 평가자 간의 일관성 강화:
기존 평가 방법에 비해 높은 상관성 및 성능 입증:
다양한 응용 가능성을 위한 유연한 평가 프레임워크 제공:
이미지 기반 알고리즘 연구
이미지 인식 모델의 강건성 방법론 연구
이미지 데이터 기반 이상치 탐지 알고리즘 연구
적대적 공격 탐지 및 방어 연구
Publications
Sunwoo Kim+, Hun Im+, Woojun Lee, Seonggye Lee, Pilsung Kang*. (+: Equally contributed)
본 논문은 분포 변화에 직면한 비전-언어 모델의 강인성을 향상시키기 위해 새로운 데이터 증강 기법인 RobustMixGen을 제안합니다. 이 기법은 이미지와 텍스트 콘텐츠를 동시에 고려하여 데이터 증강을 수행함으로써 기존의 MixGen 기법의 한계를 극복하고, 모델이 분포 변화와 노이즈에 더 강력하게 대처할 수 있도록 합니다.
RobustMixGen 데이터 증강 기법 제안:
모달리티 특화 고려:
성능 검증:
새로운 멀티모달 데이터 증강 기법 제안:
잘못된 상관관계 완화 및 강인성 향상:
실제 데이터 시나리오에서의 강력한 성능 입증:
Kyoungchan Park, Pilsung Kang*.
본 논문은 적대적 공격(adversarial attack)에 대한 신뢰성과 안전성을 보장하기 위해 학생-교사 네트워크(student-teacher network) 기반의 새로운 탐지 및 방어 방법을 제안합니다. 제안된 방법은 적대적 예제(adversarial examples, AEs)와 정상 예제(normal examples, NEs)를 구분하고, 방어 프로세스를 AEs에만 적용하여 NEs에 대한 분류 성능 저하를 최소화합니다.
학생-교사 네트워크를 통한 탐지 및 방어 통합:
복원 공격(Restoration Attack) 기법 도입:
광범위한 실험을 통한 성능 검증:
탐지와 방어를 통합한 최초의 방법 제안:
복원 공격 기법을 통한 방어 성능 향상:
백서 공격에 대한 강력한 성능 입증:
실제 데이터셋에서의 우수한 성능:
Kiyoon Jeong, Woojun Lee, Woongchan Nam, Minjeong Ma, Pilsung Kang*.
본 논문은 이미지 캡션의 정확성과 표현력을 평가하고 순위를 매기기 위한 새로운 프레임워크인 ECO(Ensembled CLIP and Consensus Scores)를 제안합니다. ECO는 이미지와 캡션 사이의 의미적 일치도와 캡션의 필수성을 동시에 고려하여 가장 적합한 캡션을 선택하는 방법론입니다. 이 프레임워크는 CVPR 2024의 NICE Challenge에서 우수한 성과를 보였습니다.
ECO 프레임워크 구성:
캡션 필터링 기법 적용:
최종 캡션 선택:
통합된 캡션 평가 프레임워크 제안:
NICE Challenge에서 성과 입증:
캡션 필터링을 통한 평가 정확도 향상:
효과적인 캡션 선택 전략 개발:
알고리즘 응용 연구
시계열, 자연어, 영상 데이터 방법론 개발 및 적용
ML/DL 기반의 진단 및 개선을 통한 지능형 제조 환경 구축
Publications
Jungwoo Choi, Hyeongwon Kang, Jeongseob Kim, Heejeong Choi, Yunseung Lee, Pilsung Kang*.
본 논문은 반도체 공장에서 자동 물류 처리 시스템(AMHS)의 처리량을 예측하기 위한 딥러닝 기반 다중 수평 예측 프레임워크를 제안합니다. 제안된 프레임워크는 다양한 외부 요인으로 인해 발생하는 간헐적인 이상 패턴을 가진 데이터를 처리하고, AMHS의 시스템 처리량을 예측하여 생산성을 향상시키는 데 중점을 둡니다.
다중 수평 예측 프레임워크 제안:
이상 패턴 감지 및 보간:
시간 시계열 교차 검증을 통한 성능 검증:
실제 운영 데이터에 대한 적용성 입증:
이상 탐지 및 데이터 정제를 통한 예측 성능 향상:
강력한 성능과 해석 가능한 예측 모델 제공:
생산성 향상을 위한 예측 기반 최적화 가능성 제시:
Euisuk Chung, Kyoungchan Park, Pilsung Kang*.
본 논문은 반도체 제조 장비의 예기치 않은 고장을 예방하고 유지 보수 계획을 최적화하기 위해 출하 검사 데이터와 유지 보수 보고서를 기반으로 한 고장 분류 및 시기 예측 방법을 제안합니다. 이 방법은 장비의 고장 유형을 정확히 분류하고, 고장 발생 시기를 예측함으로써 생산성 손실을 최소화하는 데 중점을 둡니다.
출하 검사 데이터와 유지 보수 보고서를 결합한 데이터 분석:
딥러닝 기반의 고장 예측 모델:
시계열 데이터 분석을 통한 고장 시기 예측:
고장 유형 분류와 시기 예측을 통합한 새로운 프레임워크 제안:
생산성 손실을 최소화하는 사전 유지 보수 전략 지원:
딥러닝 모델의 적용을 통한 예측 성능 향상:
실제 반도체 제조 환경에서의 적용 가능성 검증:
Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University