[Paper Review] Optimizing Instance Selection for Statistical Machine Translation with Feature Decay Algorithms

Paper Review
작성자
관리자
작성일
2020-03-12 11:36
조회
3053
1. Topic

Optimizing Instance Selection for Statistical Machine Translation with Feature Decay Algorithms

2. Overview

transductive learning방법은 test x에 대한 접근이 가능할 때, 이를 이용하여 좋은 데이터를 선별할 수 있습니다. 본 연구방법론은 n-gram기반의 test source 데이터가 몇번 등장 했는지에 대한 가중치로 training examples들의 상대적 중요도를 산출하였습니다. 여기서 본 논문은 중요하다고 샘플링된 데이터의 diversity를 확보하기 위해 n-gram기반의 test source 데이터가 몇번 등장 했는지에 대한 가중치(count)들 decay해서 다음번에는 이 문장이 덜 뽑히도록 유도를 하게 됩니다. 해당 decay 파라미터를 최적화하기위해 진화전략 방법론을 사용하게 됬고, 각 파라미터의 가우시안 노이즈를 적용해 탐색하게 됩니다. 굉장히 휴리스틱한 방법인라 손이 많이타는 방법론인 것 같습니다. 그리고 fitness function을 최대한 단순계산이 되야 해당 방법론의 적용이 가능할 것 같습니다.

3. 발표자료 및 발표영상

[1] 발표자료

[2] 발표영상

전체 10

  • 2020-03-14 16:52

    이번 세미나는 FDA5 방법론을 통해 좋은 품질의 training data를 선택하는것에 대해 알 수 있었습니다. FDA5는 Feature decay algorithm으로 데이터 사이즈를 축소하며, 이때 선택할 데이터의 다양성을 확보 할 수 있는 알고리즘입니다. 여기서 decay를 한다는것은 데이터의 등장 횟수에 대한 것으로, 한번 뽑힌 데이터가 덜 뽑히도록 하는것을 의미합니다. 학습관점에서 품질이 좋은 데이터를 선택하는것이 중요한데, 세미나를 통해 새로운 방법론을 알 수 있었습니다.

    제가 생각하는 이 방법론의 단점은 5가지의 decay parameter를 최적화 하기위해 상당히 많은 시간이 소요된다는것입니다. 또한 진화알고리즘은 데이터의 수가 많을수록 풀이시간이 급격히 증가한다는 단점이 있는데, 빠른 시간안에 좋은 품질의 솔루션을 뽑기 위해서는 데이터 사이즈가 많지 않은 상황에 접목할 수 있는 방법론이라 생각했습니다.

    발표를 통해 새로운 방법론을 접할 수 있는 좋은 기회였습니다.


  • 2020-03-24 20:39

    완벽한 모델을 사용하더라도 좋지 않은 데이터를 사용한다면 우수한 결과를 낼 수 없습니다. 많은 연구들이 모델 자체를 개선하고자 시도한 반면 선정된 논문은 모델을 학습시키기 위한 좋은 데이터를 선별하는 방법을 제안합니다.

    제안된 FDA5(Feature Decay Algorithm)은 Training 데이터 중 품질이 좋은 데이터를 선택하는 것을 목적으로 합니다. 이를 위해 Test sentence 내의 token의 IDF와 n-gram의 길이를 이용해 feature value를 결정하고 문장의 길이를 이용하여 정규화 합니다. 이후 top score(품질이 좋다고 평가됨)로 선택된 데이터 집합 내에서 자주 출현할수록 패널티를 주어 학습 크기를 줄이고 다양성을 확보합니다. 이 과정에서 총 5개의 하이퍼 파라메터를 최적화하는데 이는 진화 알고리즘을 이용하여 해결하였습니다.

    양질의 데이터를 선별하는 방법론에 대해 학습할 수 있어서 대단히 흥미로웠으며, 꼼꼼한 자료와 상세한 설명으로 이해에 큰 도움이 되었습니다. 감사합니다.


  • 2020-03-24 20:42

    이정호]
    새로운 방법의 머신러닝 접근이 아니였나 생각합니다. 우선 test data 에 대한 정보를 기반으로 좋은(잘 성능이 나오게하는) train sample을 선별한다는 것이 흥미로웠습니다. 번역 task 의 경우 매칭되는 단어가 다를것인데 이를 어떻게 반영할까 궁금했는데, 빈도수를 통해 벡터화 시키고 이를 활용하는것 같았습니다. 기존의 skip gram 과 비슷한 원리인듯하고, 하이퍼 파라메터 서치가 상당히 중요한 알고리즘인데, 이를 진화 알고리즘을 채택하여, 최적화를 하였습니다. 새로운 문제해결을 시도한 방법이라 흥미있게 들었는 세미나 였습니다.


  • 2020-03-24 20:54

    이번 세미나는 김동화 박사과정의 모델을 학습 시키기 위한 적절한 데이터를 선택하는 연구에 대한 발표였습니다. 일반적인 사례로 쓰레기 데이터(품질이 좋지 않는 데이터)를 가지고 좋은 모델을 학습시키게 되면 쓰레기 결과(좋지 못한 결과)가 나온다는 것은 자명합니다.
    세미나에서 발표한 FDA5(Feature Decay Algorithms)라는 알고리즘은 학습 데이터와 테스트 데이터의 품질을 평가하여 양질의 데이터를 선택할 수 있도록 하는 최적화 알고리즘 입니다. 학습 데이터셋과 테스트 데이터셋의 데이터의 품질을 평가하고 이를 최대화 하기 위해 진화알고리즘(ex. 유전 알고리즘)을 사용합니다.
    이번 세미나에서는 딥러닝 모델에 대한 설명이 아니라 데이터의 품질을 높이기 위한 방법론에 대해 알게되어서 좋았으며, 예시를 통한 설명으로 어려운 수식을 이해할 수 있었습니다.


  • 2020-03-25 18:13

    금일 세미나에는 Semi Supervised Learning 관점에서 데이터의 quality를 기준으로 training instance를 선택하고자 하는 접근법을 소개한 'Optimizing Instance selection for Statistical Machine Translation with Feature Decay Algorithms' 란 주제로 김동화학생이 세미나를 진행해 주었습니다.
    해당 논문에서는 모델 학습에 필요한 Training Instance 선정을 위해 FDA5방법론을 통해 해당 Instance가 실제 Test Data Set의 Inference과정에서 유의미한 Instance를 선택하고자 하였습니다. 좀더 자세히 말하면 Text 데이터의 도메인에서 test Sentence를 n-gram 방식의 vector representation을 수행하고, 이를 Idf(Inverse Document Frequency)를 활용한 scoring방법을 통해 평가함수를 정의하고, 해당 함수를 메타휴리스틱방법론인 Genetic & Evolutionary Algorithm을 활용하여 의미있는 학습데이터 instance set을 정의한다고 이해하였습니다.
    해당 논문에서 재미있었던 부분은 Evolutionary Algorithm으로 기존의 Genetic algorithm의 Binary 코딩방식의 Continuous 확장방법론으로 continuous variable을 처리할 수 있고, Gaussian noise 형태의 mutation을 가져가는 점이 인상적이였습니다.
    물론 해당 방법론이 데이터의 수가 많은경우, 계산복잡도가 높아지며, Test Set에 dependent 한 한계점을 가질 수 있지만, 한정된 데이터 상황에서는 유의한 연구 결과를 제시할것이라고 생각됩니다.
    현재 개인연구방향에서의 데이터품질에 대한 고찰을 옅볼수 있는 좋은 논문발표였다고 생각합니다. 발표를 준비한 김동화학생에게 감사의 인사 전합니다


  • 2020-03-27 14:19

    모델 자체도 중요하지만 어떤 데이터를 선별하여 학습할지도 중요합니다. 이에 관련 방법론에 대한 발표였습니다. 개인적인 연구로 sampling 관점에서 진행을 하고 있는데, 발표 논문에서 많은 아이디어를 얻었습니다. 기존에 test 데이터에서 어떤 정보도 얻을 수 없다는 고정관념이 있었는데, label 정보가 아니라면 SSL 느낌으로 선별할 수 있다는 관점입니다. 해당 논문에서는 텍스트 데이터에 적용한 것으로 N-gram, frequency 관점에서 score를 정하고, 관련 하이퍼파라미터에 대해 진화알고리즘으로 접근하였습니다. 문장 길이별로 score가 어떻게 변화는지, 추가적으로 다양성 확보를 위해 decay를 적용하였을 때에 성능 실험을 다양하게 하였습니다. 아이디어 자체와 본인의 타당한 수식을 정의하여 흐름 전개하는 것에서 많은 것을 배웠습니다.


  • 2020-03-27 17:34

    오늘 세미나는 FDA5라는 학습 데이터 선택 방법론에 관한 발표였습니다. 일반적으로 어떻게 같은 데이터를 가지고 좋은 성능을 낼 수 있는 모델을 만들 것인지에 대해서는 많은 고민을 하지만, 어떻게 데이터를 좋은 품질을 갖도록 만들 것인지에 대해서는 많은 고민을 하지 않기에 생각을 달리 할 수 있게 하는 의미있는 세미나였다고 생각합니다. 다만, FDA5가 가지는 연산량 측면에서의 약점과 테스트 데이터 자체가 corrupt 되었을 경우 해당 방법론 또한 그 의미를 상실한다는 점은 큰 약점이 될 수 있다고 생각합니다. 개별적으로 진행 중인 감성분석 프로젝트에서 consistency learning과 같은 방법론을 접하며 data에 추가된 noise가 모델의 일반화 성능 향상에 긍정적 영향을 줄 수 있다는 사실을 흥미롭다고 생각한 적이 있었습니다. 그러나 언제 noise가 도움이 되고 또 언제 모델의 성능을 하락시키는지에 대한 답을 내리지는 못하였는데, 오늘 발표된 논문과 같은 연구 분야를 탐색해보면 유사한 답을 찾을 수 있지 않을까 하는 생각이 들었습니다.


  • 2020-03-27 17:37

    김동화 석박통합과정의 세미나 발표를 들었습니다. 오늘 발표해주신 논문은 통계적 기계번역이 많이 사용되던 시기에 발표 됐던 논문으로 test instance 를 활용해서 학습 데이터 중 품질이 좋은 training instance 를 선택하는 방법에 대한 transductive learning 에 해당하는 내용이었습니다. 논문에서 제안하는 방법은 FDA5 방법론으로 test instance 와 유사한 training instance 를 찾기 위해 FDA(feature decay algorithm)과 함께 진화 전략(Evolutionary strategies) 를 사용하였다고 합니다.

    처음 진화 전략에 대해서 설명해주실 때 기존에 알고 있던 유전 알고리즘과의 차이가 궁금했었는데, 알기 쉽게 설명해주셔서 이해하는데 도움이 많이 되었습니다. 개인적으로 모델링 관련 논문 만을 많이 보다보니, 좋은 품질의 학습 데이터 자체를 선택하기 위한 노력에 대한 생각을 깊게 해보지 않았는데 세미나 발표를 통해서 시야를 넓혀 주신 것 같아서 감사합니다.


  • 2020-03-27 18:08

    FDA5 방법론은 모델의 성능을 높이는데 초점을 맞추는 것이 아닌 데이터의 품질을 향상시키는 방법론입니다. 트레이닝 데이터에서 테스트 데이터와 같은 토큰이 나왔을 때 점수를 부여하고, 높은 점수의 토큰만을 취하는 방법은 안 좋았던 기존의 트레이닝 데이터를 개선시키는 방법입니다. 테스트 데이터가 좋은 데이터라는 것만 증명되면 데이터의 퀄리티를 개선시켜 전체적인 성과를 높일 수 있는 심플하면서 획기적인 방법입니다. 결과가 잘 안나왔을 때 모델의 성능을 개선시키려는 것에서 확장돼 데이터까지 개선시키는 것이 참신하고 의미있는 아이디어였습니다.


  • 2020-03-27 23:11

    모델 관점에서 연구가 이루어지는 경우가 대부분인데 이번 세미나는 모델 학습에 사용되는 데이터를 어떻게 선별적으로 잘 선택할지에 대한 발표였습니다. 사실 학습하기 좋은 데이터라는 기준이 참 애매하고 이를 반영하는 것도 어렵다고 생각했는데 발표해주신 연구는 굉장히 흥미로웠습니다. 또한 메타 휴리스틱 기법인 진화 알고리즘을 사용하여 최적화하는 그 과정 자체를 잘 설명해주셔서 많은 것을 배울 수 있었던 세미나였습니다.


전체 556
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 15352
관리자 2020.03.12 0 15352
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 14095
관리자 2020.03.12 0 14095
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 15051
관리자 2020.03.12 0 15051
553
New [Paper Review] Why CLIP fails at Dense Prediction Task? (1)
Jinwoo Jang | 2026.04.06 | 추천 0 | 조회 34
Jinwoo Jang 2026.04.06 0 34
552
[Paper Review] Dynamic Large Concept Models (8)
Jaeyong Ko | 2026.03.30 | 추천 0 | 조회 116
Jaeyong Ko 2026.03.30 0 116
551
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim | 2026.03.10 | 추천 0 | 조회 378
Sunmin Kim 2026.03.10 0 378
550
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim | 2026.03.01 | 추천 0 | 조회 317
Sunghun Lim 2026.03.01 0 317
549
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin | 2026.02.25 | 추천 0 | 조회 240
Suyeon Shin 2026.02.25 0 240
548
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo | 2026.02.12 | 추천 0 | 조회 486
Jaehyuk Heo 2026.02.12 0 486
547
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang | 2026.02.10 | 추천 0 | 조회 467
Hyeongwon Kang 2026.02.10 0 467
546
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim | 2026.02.03 | 추천 0 | 조회 556
Hankyeol Kim 2026.02.03 0 556
545
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park | 2026.01.29 | 추천 0 | 조회 576
Sieon Park 2026.01.29 0 576
544
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha | 2026.01.28 | 추천 0 | 조회 385
Subeen Cha 2026.01.28 0 385

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 김재희: jaehee_kim@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호