Seminar

BOARD

[Paper Review]Semi-Supervised Learning in Auto Speech Recognition

Paper Review

작성자

Jounghee Kim

작성일

2021-07-07 08:56

조회

4774

1. Topic

음성인식(ASR)에 Semi-Supervised Learning을 적용한 5가지 논문을 리뷰합니다.

2. Overview

Semi-Supervised Learning을 적용한 주요논문 5가지

[1] CPC1 : Representation Learning with Contrastive Predictive Coding
- Contrastive Predictive Coding 을 다양한 Task에 적용한 논문

[2] Wav2vec : Unsupervised Pre-training for Speech Recognition
- 음성에 CPC를 적용하는 방법을 전문적으로 다룬 논문

[3] VQ-wav2vec : Self-Supervised Learning of Discrete Speech Representations
- Quantization 모듈을 추가하여 BERT의 MLM pre-training을 음성에 도입

[4] Wav2vec 2.0 : A Framework for Self-Supervised Learning of Speech Representations
- Quantization 모듈을 보안하고 End-to-End 학습이 가능하도록 구조 변경

[5] Pushing ASR : Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition
- 2가지 Semi-Supervised Learning 방법론을 음성인식에 적용

3. 발표 자료 : 첨부파일

4. 발표 영상 : ">[LINK]

전체 19

Subin Kim

2021-07-12 14:31

오늘 세미나에서는 발표자분께서 음성인식(ASR)에 Semi-Supervised Learning을 적용한 대표적인 5가지 논문을 순서대로 소개해 주셨습니다. 먼저 CPC1 모델은 Semi-supervised learning을 사용하여 음성 데이터만으로 음성의 특징을 잘 추출하는 것, 즉 좋은 representation을 추출하는 것을 목적으로 하는데, Contrastive Predictive Coding을 활용하여 음성 전반적으로 공유되는 high level 정보를 추출하고자 했습니다. 이를 속도, 성능 측면에서 보완한 것이 Wav2Vec이며 aggregator를 causal CNN으로 변경하여 병렬처리로 속도를 높이고 LM과 acoustic model을 함께 활용하여 decoding 성능을 높였습니다. 이를 더 발전시킨 모델이 VQ-Wav2Vec이며 이는 이산형 sequence를 추출하여 sequence 패턴을 확습하고, BERT MLM에 적용 가능할 수 있다는 장점이 있습니다. 그리고 Acoustic model과 LM을 함께 활용할 수 있습니다. 하지만 3중 모델 구조로 재현성이 부족하고 quantized vector를 추출하는 codebook에 제약이 없어 단순한 pattern만 학습하게 되는 한계가 있습니다. 그리고 Acoustic model은 앞서 추출된 feature vector만을 활용할 수 있다는 한계가 있습니다. 이러한 한계를 보완하고 end to end 학습이 가능하도록 MLM과 CPC를 함께 적용한 모델이 Wav2Vec2.0이며, codebook에 제약식을 추가해 다양한 pattern도 학습할 수 있도록 하였습니다. 그리고 fine-tuning시에 wav2vec도 함께 학습하도록 설계하여 모델을 보정하였습니다. 이 모델의 장점은 적은 Label로도 좋은 성능을 내는 것인데, 실험 결과 LM의 영향을 많이 받는 것이 단점으로 드러났고, 모델이 무겁다는 것도 한계점으로 작용하였습니다. 마지막으로 Pushing Limit 모델은 Wav2Vec2.0의 transformer block을 conformer로 대체하고 mel-spectrogram 입력의 일부분을 masking하여 특정 주파수/시간 의존도를 낮춰 robust하게 만들었습니다. 그리고 한가지 흥미로웠던 점은 매 iteration마다 conformer의 크기를 증가하여 복잡한 패턴이나 노이즈 제거 능력을 학습할 수 있도록 한 것입니다. 학습 방법론으로는 Unlabeled data로 사전학습을 하고 , Labeled data로 fine-tuning을 한 후, 이 모델로부터 Unlabeled data의 pseudo label을 추출하여 pseudo dataset을 구성하고 다음 iteration에 사용한다는 것입니다. 이 방법론의 학습 과정을 들으면서 Semi-supervised 방법론이 학습과정에서 어떻게 구현이 되는지 자세히 이해할 수 있었습니다. 5개의 논문을 장점/단점을 기반으로 흐름을 자연스럽게 구성하여 천천히 설명해 주셔서 발표를 잘 따라갈 수 있었던 것 같습니다. 개인 연구에서도 성능 향상을 위한 많은 고민과 시도를 한 것이 느껴졌는데, 논문 작성에 좋은 결과 있길 응원합니다. 좋은 발표 감사합니다.
Myeongsup Kim

2021-07-12 15:38

오늘 세미나에서는 음성 인식에서 Semi-Supervised Learning을 사용한 다양한 Model에 관해 소개해 주셨습니다. 음성 인식은 Domain Knowledge를 활용하여 Feature를 생성하는 단계와, Feature를 이용하여 Acoustic Model을 개발하는 두 단계의 Process를 갖는데, 소개된 Model들은 음성 데이터만을 이용하여 Feature를 추출할 수 있는 Model을 개발하는 것을 목적으로 한다고 이해했습니다. 총 5개의 Model이 소개되었는데, CPC이후의 Model들은 Language Model을 사용하고 있으며, 이후 발전에 따라 MLM 또는 Fine-Tuning을 사용하고 있습니다. 음성 Data역시 Sequential Data이며, 언어를 기반으로 하기에 LM의 구조를 사용하고, 더 나아가 특정한 Task에 대해 Fine-Tuning을 수행하는 방식으로 발전하고 있는 것 같습니다. 개인적으로 아직까지 음성 인식 분야가 낯설게 느껴지는데, 해당 분야의 발전 동향과 각 Model의 장/단점에 대해 알 수 있어 유익한 시간이었습니다. 감사합니다.
Seungwan Seo

2021-07-12 16:07

금일 세미나에서는 발표자께서 지속적으로 연구중이신 음성인식에 Semi-Supervised Learning을 적용한 논문들에 대한 것이었습니다. 발표해주신 논문은 CPC, Wav2Vec, VQ-wav2vec, wav2vec 2.0, 그리고 Pushing ASR 입니다. contrastive predictive coding을 사용하는 CPC를 시작으로 causal CNN module을 사용하는 wav2vec, quantization module을 통해 패턴을 학습하는 VQ-wav2vec, 이를 end-to-end 학습이 가능하도록 해준 wav2vec 2.0, 그리고 conformer를 사용하는 Pushing ASR까지 흐름을 잘 설명해주셔서 세미나를 듣고 연구의 흐름을 이해하기 편했습니다. 세미나를 들으면서 지금까지 ASR 분야에서 사용하던 input transform 방식이 아니라 현재 vision domain에서 사용하고 있는 방식을 차용하는 아이디어도 적용할 수 있지 않을까 라는 생각이 들었습니다.
Jina Kim

2021-07-13 17:05

오늘 세미나에서는 semi-supervised learning을 적용한 speech recognition 방법론인 pushing ASR을 포함해, 여러 음성인식 모델들을 흐름에 따라 정리해주셨습니다. 음성 전반적으로 나타나는 high-level의 정보를 중요한 정보로 보고, 이를 잘 표한하는 representation을 학습하는 것이 CPC의 목표이며, 음성에 CPC를 적용하는 방법을 다룬 Wav2Vec은 CNN을 여러개 stacking해서 RNN처럼 사용을 하면서 속도 향상을 도모했습니다. 또한 음성 데이터와 aligned된 텍스트 데이터만으로 LM을 함께 개발하여 acustic model과 같이 사용함으로써 더 자연스러운 speech recognition이 가능하게 했습니다. VQ-wav2vec은 BERT의 MLM pre-training까지 활용해 sequence 패턴을 더 잘 학습하도록해 성능을 향상시켰습니다. Wav2vec 2.0 또한 MLM을 활용하며 대량의 unlabeled 음성 데이터를 pre-training한 후, 소량의 음성과 텍스트 페어 데이터로 fine-tuning하는 방식으로 self-supervised learning을 적용해 적은 label만으로도 높은 성능을 보였습니다. 전체적으로 LM의 성능이 speech recognition의 성능에 주요한 영향을 미친 것을 알 수 있었습니다. 오늘 새로 소개해주신 pushingASR은 self-supervised 방법과 self-training 방법을 모두 사용하는데, 먼저 self-supervised 방법으로 teacher model을 pretraining하여, labeled 데이터로 teacher model을 fine-tuning하며, 학습된 모델에 unlabeled 데이터로 sudo label을 부여해 이들을 다시 활용하여 모델을 학습합니다. 그동안 지속적으로 음성 인식에 대한 발표를 해주셨는데, 오늘 다시 한번 이전에 소개해주신 모델들의 특징들을 상기하고, 어떤 흐름으로 발전하고 있는지를 알 수 있었습니다. 좋은 발표 감사합니다.
Heejeong Choi

2021-07-13 19:20

금일 세미나는 "Semi-Supervised Learning in Auto Speech Recognition"라는 주제로 진행되었습니다. 본 발표에서는 음성인식에 Semi-Supervised Learning을 적용한 5가지 방법론이 소개되었습니다. 개인적으로 최근에 semi-supervised learning 및 self-supervised learning을 이상치 탐지 분야에서 활용하는 부분에 관심을 가지고 있어서 금일 발표 내용이 매우 흥미로웠습니다. 특히 음성에 CPC를 적용하는 wav2vec이 소개되고, 해당 모델에 Quantization 모듈을 추가하여 BERT의 MLM pre-training을 음성에 적용한 VQ-wav2vec이 소개되었으며, 해당 모델의 Quantization 모듈을 보안하고 End-to-End 학습이 가능하도록 구조를 변경한 wav2vec 2.0이 제안된 wav2vec -> VQ-wav2vec -> wav2vec 2.0으로 발전하는 부분이 가장 인상 깊었습니다. 더불어 CPC를 음성에 전문적으로 적용하기 위한 아이디어를 적용한 wav2vec을 보며, 이상치 탐지에 CPC를 적용하는 방법에 대해서도 고민해볼 수 있는 시간이었습니다. 좋은 발표 감사합니다.
Takyoung Kim

2021-07-16 01:08

초기에 음성 데이터를 정제하기 위해 mfcc 등의 handcrafted feature를 뽑는 것이 중요한 이슈였다면, CPC 방법론이 등장한 이후에는 파동 데이터 자체를 사용하여 바로 모델 학습이 가능해졌습니다. 이전 세미나에서 소개해 주신 Vq-wav2vec은 음성인식에 bert 개념를 도입하여 성능을 향상시킨 논문입니다. 음성 feature에 mlm을 적용하기 위해서 이산화 형태를 미분이 가능한 방식으로 표현하는 것이 주된 기여점이엇습니다. 이후 Wav2vec 2.0은 cpc와 mlm을 통합하여 수행할 수 있도록 모듈을 구성하였습니다. 또한 임베딩을 골고루 학습시킬 수 있도록 유도하는 diversity loss, 그리고 pretrained wav2vec 2.0의 가중치도 finetuning이 가능하도록 하였습니다. 마지막 논문인 Pushing ASR에서는 self-supervised와 self-training을 함께 사용하였습니다. Self-training은 Noise regularization 기법 중 하나인 noise student 학습 기법이 사용되었습니다. 또한 Transformer 대신 conformer를 사용하였고, handcrafted feature인 mel-spectrogram까지 활용하였습니다. 음성인식에 대한 연구가 굉장히 빠르게 진행되고 있다는 것이 느껴졌으며, 대용량의 음성 데이터가 확보된 이후 등장할 모델이 굉장히 기대가 되었습니다. 발표 잘 들었습니다.
Kyoungchan Park

2021-08-15 21:34

오늘 세미나는 음성 모델과 관련한 논문을 소개해주셨습니다. 음성 데이터는 어쩌면 비정형 데이터중에서 가장 representation vector를 학습하기 어려운 데이터일 것 입니다. 따라서 이번에 정리해주신 연구 흐름에서 text 정보를 추가로 활용하고 pretraining등을 하는 연구가 제안된 것은 매우 자연스러운 과정이라고 생각했습니다. 마지막에 말씀해주신 Pushing ASR에서는 좀 더 일반화된 representation vector를 학습하고자 self-supervised 방법론과 self-training을 동시에 적용하였습니다. 음성 데이터는 그 특성상 noise가 끼기 쉬운 데이터인 탓인지 오늘 소개해주신 연구들을 보면서 결국 그런 noise에도 강건하게 모델을 잘 학습할 수 있도록 하는 것이 음성 관련 연구에서의 핵심이라는 생각이 들었습니다. 앞으로 음성 데이터에서 이러한 문제점을 어떻게 해결하는지 기대가되고 음성 데이터에서 사용하는 방법론을 다시 이미지나 텍스트에 적용할 수도 있겠다는 생각을 하였습니다. 좋은 발표 감사합니다.
Euisuk Chung

2021-07-16 15:58

음성을 텍스트로 변환하는 task인 음성인식(ASR)은 음성데이터를 (1)Domain Knowledge를 활용하여 Handcraft Feature를 생성하고, (2)Handcraft Feature를 이용하여 Acoustic Model을 개발하는 2가지 과정을 분리하여 수행되어 왔습니다. 이러한 ASR에 Labeled 데이터뿐만 아니라 Unlabeled 데이터를 함께 활용하여 모델의 성능을 향상시키고자 하는 연구분야인 Semi-Supervised Learning을 접목하여 음성 데이터만으로 음성의 특징을 잘 추출할 수 있는 모델을 통해 Handcraft Process를 대체하였습니다.

이번 세미나에서는 이러한 음성인식(ASR)에 Self-Supervised Learning을 적용한 대표적인 논문 5가지를 순서대로 소개해 주셨습니다.
① CPC-1 : CNN Encoder를 통해 일정길이의 음성을 특징벡터로 변환하고, RNN Aggregator를 통해 특징벡터를 공유 벡터로 변환 음성 전반적으로 공유되는 high level 정보를 추출이 가능하게 함
② Wav2vec : 기존 CPC-1에서 병렬처리가 가능하도록 Aggregator를 Casual CNN 아키텍처로 변환하고, Acoustic Model과 Language Model를 함께 적용하여 성능을 개선함
③ VQ-wav2vec : Vector Quantization 모듈을 추가하여 연속형 Vector를 이산형태로 변경하고, 이를 BERT의 MLM으로 학습함으로서 성능을 개선함
④ Wav2vec 2.0 : VQ-wav2vec은 모듈들을 따로 개발해야하는 단점이 존재하였는데, Aggregator를 Transformer로 변경하고, Masking, Quantization 모듈을 아키텍처에 포함하여 MLM, CPC를 한꺼번에 수행하여 pre-training이 가능하게 함
⑤ Pushing ASR : 2가지 Semi-Supervised Learning 방법론인 Self-Supervised 방법론(Wav2vec 2.0과 동일한 Pretraining 방법론)과 Self-Training 방법론(Noisy Student 학습 방법론)을 사용한 방법론으로, 특징으로는 Conformer Block과, Noisy Input을 사용한다는 점이 있습니다.

5개의 논문을 장점/단점을 기반으로 논문들을 소개해주셔서 발표를 잘 따라갈 수 있었습니다. 뿐만 아니라 마지막에 Summary를 수행하여주셔서 많은 기법들을 소개해주셨음에도 불구하고 다시 한번 정리할 수 있어 좋았습니다. 개인 연구에서도 성능 향상을 위해 많은 실험들을 하고 계시는 것을 보여주셨는데 좋은 결과 기대합니다. 좋은 발표 감사합니다!
Hyeongwon Kang

2021-07-19 01:45

이번 세미나는 auto speech recognition에서의 semi-supervised learning에 대한 주제로 진행되었습니다. 이전 모델들부터 세미나의 메인 모델인 Pushing ASR까지의 발전되어온 과정을 소개해주셨습니다. 가장 먼저 CPC1의 경우 CNN기반의 Encoder와 RNN기반의 Aggregator를 통해 음성 데이터로 부터 음성의 특징을 잘 나타내는 representation vector를 추출하고자 하였습니다. 하지만 병렬처리가 안되 속도가 느렸으며, 음성 관련 실험 내용이 부족하고 성능이 높지 않았다는 단점이 있었습니다. Wav2vec은 이를 해결하고자 Aggregator를 Causal CNN으로 변경하여 병렬처리를 가능하게 하였으며, Acoustic Model과 Language Model을 함께 적용하여 성능을 향상시키고 다양한 실험을 표기하였습니다. VQ-Wav2vec은 음성으로부터 이산형 sequence를 추출하고 MLM 적용하여 성능 향상을 꾀하였습니다. 하지만 모듈들을 따로 개발해야하는 단점이 존재하였는데 Wav2vec 2.0에서 이를 해결하고자 MLM과 CPC를 함께 적용 가능한 End-to-End 아키텍처를 설계하였습니다. 본 논문인 Pushing ASR은 Wav2vec 2.0과 동일한 Self-supervised 방법론과 Self-Training방법인 Noisy Student를 활용하였습니다. Noisy student는 Labeled된 데이터를 통해 Teacher 모델을 학습하고 inference를 통해 Unlabeled data를 labeling하고 그 데이터를 student 모델이 원 데이터와 함께 학습하는 방법입니다. 또한 아키텍쳐에서도 transformer 대신에 convolution module이 추가된 consformer를 사용하였습니다. 본 논문은 두가지 semi-supervised 방법론이 효과적인것을 실험적으로 보였으나 Wav2Vec 2.0과 동일하게 많은 자원을 필요로 하다는 단점이 존재하였습니다. 1학기 비정형 데이터 분석 수업 프로젝트로 Wav2vec을 사용한 적이 있었습니다. 이전에 Wav2vec 세미나를 듣지 못하였어서 Wav2vec에 대한 정확한 이해 없이 모델을 사용하였었는데, 이번 세미나를 통해서 궁금한 점을 해결할 수 있었습니다. 또한, 비정형 데이터 분석 프로젝트를 통해 ASR에 흥미를 느끼고 있었는데 후속 논문들까지 설명해주셔서 집중해서 들을 수 있었습니다. 좋은 발표 감사합니다.
Hyeyeon Kim

2021-08-16 18:37

오늘 세미나는 Semi-supervised learning을 음성에 적용한 논문들에 대한 세미나였습니다. 총 다섯개의 논문을 소개하며 음성 분야의 연구의 흐름을 짚어주어서 방법론의 흐름을 따라가기 쉬웠습니다. 그 중 VQ-wav2vec은 quantization모듈을 추가하여 BERT의 MLM pre-training을 음성에 도입한 모델입니다. 해당 모델은 vector quantization module 을 적용하여 음성 데이터를 이산형 sequence로 변형한 모델이고, BERT의 MLM(masked language modeling)을 적용하여 음성 시퀀스 내의 패턴을 찾을 수 있도록 모델링 한 것입니다. BERT의 MLM self-supervised 방법이 시퀀스 패턴을 학습하는데 성능이 좋기 대문에, 이를 음성에 적용했다는 것이 가장 큰 의의가 될 것입니다. 이처럼 semi-supervised learning을 음성에 도입하므로써 성능의 향상에 기여할 수 있었는데, 그 원리와 전체적인 흐름을 잘 설명해주셔서 매우 유익하였습니다. 매번 음성 분야에 대한 좋은 세미나 감사합니다.
Hoonsang Yoon

2021-07-25 20:34

본 세미나는 김정희 석사과정의 연구 분야인 음성 인식 (ASR)에 대한 정리로서 5가지 모델에 대하여 리뷰하였으며 각기 다른 훈련 방식과 세부 목적을 갖고 있지만 공통적으로 음성의 Global 정보와 Local 정보를 함께 다루는 것을 지향하고 있습니다. 물론 Self-Attention을 활용하는 Transformer 이후 Local한 정보 이외에 Global한 정보를 추가적으로 학습하려는 Variant가 대부분의 Task에서 좋은 성능을 낸다는 것은 알고 있지만, 특히 음성에서 어떠한 장점이 있는지 궁금합니다. 또한 ASR는 궁극적으로 음성 데이터로부터 좋은 Representation Vector를 추출하려는 목표가 있으며 이를 위해, CPC는 CNN과 RNN을 통핸 특징 벡터와 공유 벡터 생성, Wav2Vec은 Aggregator를 RNN에서 Causal CNN으로 변경, VG-wav2vec은 BERT의 MLM pre-training을 음성에 도입하는 방식을 택하였으며, 마지막으로 새로운 논문인 Pushing ASR에서는 Unlabeled Data를활용하는 방식에 대하여 제안합니다. 항상 느끼는 것이지만 발표를 함에 있어 핵심을 잘 정리하는 모습이 존경스럽습니다. 발표 감사합니다.
Kyoosung So

2021-07-26 15:53

이번 세미나에서는 음성 Semi-Supervised Learning의 주요 논문들에 대해서 소개해 주셨습니다. 요새 특히 self supervised나 semi-supervised 관련 연구가 활발히 진행되고 있는 것 같은데, 그 중에서도 음성에 관련된 semi-supervised learning 관련 흐름을 짚어주셔서 굉장히 재밌게 들었습니다. 우선 CPC의 경우 CNN 기반의 인코더와 RNN 기반의 aggregator를 사용하지만 RNN이 CNN으로 대체될 수 있기 때문에 그 후로는 대부분 CNN으로 대체되어 병렬 처리가 가능하도록 구조를 구축한다고 이해했습니다. 대표적인 것이 Wave2Vec인데, causal convolution을 이용하여 연산량을 효과적으로 줄이면서도 넓은 범위의 인풋을 처리할 수 있도록 한 모델입니다. VQ-wave2vec은 연속형 벡터를 이산형 벡터로 양자화(quantization)하는 과정을 거치는데, 이를 통해 Bert의 입력으로 사용하여 MLM 기법으로 학습이 가능하게 됩니다. 이외에도 여러 모델을 소개해주셨는데, 특히 Pushing ASR이 흥미로웠습니다. 일련의 self-supervised -> semi-supervised 과정을 거쳐 학습하는 방식도 흥미로웠지만 Conformer라는 구조를 통해 local & global 정보를 모두 반영하는데 task에 굉장히 적합한 구조를 이용한다는 점이 독특했습니다. 항상 재밌는 발표 감사합니다.
Yukyung Lee

2021-07-27 02:39

오늘 세미나는 Semi-supervised Learning in Auto Speech Recognition를 주제로 진행되었습니다. Semi-supervised learning을 사용한 5가지 논문에 대해 다루어주셨고, 각 모델의 특징을 알 수 있는 시간이었습니다.

음성 데이터 처리가 굉장히 어려운 이유는 다른 데이터에 비해 노이즈가 더해지기 쉽기 때문인데, 딥러닝 모델이 학습을 통해 음성의 특징을 캐치한다는 것 자체가 놀라웠습니다. 그중에서도 VQ-wav2vec이 기억에 남습니다. 먼저 BERT의 mlm이 얼마나 특징 학습에 큰 영향을 주는 objective인지 다시한번 느낄 수 있었습니다. VQ-wav2vec을 통해 이산형 시퀀스를 생성한 후 이를 BERT의 인풋으로 활용하고, 추출된 representation을 이용하여 LM에 태우는것을 보며 딥러닝 모델이 음성 데이터를 어떻게 이해하는지 흐름을 알 수 있었습니다. 이 모델은 3가지 모듈로 구성되었기 때문에 구현상 제약이 있지만 추후 모델의 아이디어를 발전시키는데 중요한 브릿지 역할을 했다고 이해했습니다.

가장 마지막에 소개해주신 Pushing ASR도 기억에 남습니다. 이는 앞선 방법들을 모두 적용하여 큰 성능 향상을 보인 모델입니다. 좋은 방법론들이 이미 제안되었다고 해도, 실제로 이를 결합하고 좋은 성능을 보이는건 매우 어려운 일이라 생각합니다. 또한 추가적으로 음성에서 적용 가능한 Semi-supervised 방법론을 적용하였는데, Noisy Student 방법을 적용하였습니다. 해당 방법론에 대해 들어본적은 있었지만, 본 세미나를 통해 정확한 개념을 익힐 수 있어 매우 유익했습니다. 음성에서 Noisy input을 만다는 과정도 재미있었는데, mel spectogram에서 masking을 진행하여 노이즈를 추가하였습니다.

가장 마지막 페이지에 모든 내용을 정리한 표도 매우 직관적이라 재미있게 들을 수 있었습니다. 항상 느끼는것이지만 발표자료의 퀄리티가 매우 우수하고, 일목요연하게 정리되어있어 큰 도움을 받고 있습니다. 좋은 발표 좋은 논문 소개 감사합니다 🙂
Jeongseob Kim

2021-08-03 01:55

금일 세미나는 음성인식에 관련한 다양한 “Semi-Supervised Learning” 방법론들에 대해 종합적으로 진행되었습니다. 음성인식 task와 주요 방법론들에 대한 사전 지식이 다소 부족했는 데, 발표 도입 부분에서 이러한 내용을 종합적으로 요약 전달해주셔서 이해에 큰 도움이 되었습니다. 학습에 가용한 데이터 수 자체가 un-label 데이터가 훨씬 많기에, 이를 활용하는 Un-supervised 혹은 semi-supervised 방법론은 관심을 갖게 하는 것 같습니다. 본 세미나는 이러한 semi-supervised 방법론에 기반해 label 되지 않은 음성데이터를 학습에 활용할 수 있는 연구들을 정리해주셨습니다. 가장 먼저, 음성 데이터 자체에서 좋은 Feature vector들을 뽑아내는 방법론을 연구한 CPC모델을 소개해주셨습니다. 이를 위해서, 음성 전반적으로 공유되는 ‘high-level’ 정보를 캡쳐하기 위한, CPC-training 기법을 적용합니다. 둘 째로, 병렬 처리가능한 CNN 구조를 적용한 Wav2vec 방법론을 소개해주셨습니다. 인상깊었던 점은 음성데이터 외에도 텍스트 데이터를 함께 학습하는 언어 모델을 활용한 점입니다. 셋 째로, VQ-Wav2vec 모델을 소개해주셨습니다. 연속형 음성 데이터를 이산적으로 바꾸는 quantization 모듈을 적용하고, BERT의 MLM task를 활용한 것이 특징입니다. 결국, 개량된 언어모델의 패턴학습 역량을 차용학는 것이 포인트라고 생각했습니다. 이를 위해, 이산적인 sequence로 변환하는 quantization 모듈도 함께 적용되는 것은 당연한 수순이었을 것 입니다. 다음으로 소개된 wav2vec 2.0 모델은 이전 모델에서 따로 따로 구현되어있던 구조를 End-to-End로 결합한 것을 특징으로 볼 수 있습니다. 여기에, Diversity Loss를 추가해 새롭게 Loss를 디자인했습니다. 결론적으로 un-labeld데이터를 잘 활용하면서도 안정적이고 높은 성능을 보이는 것을 알 수 있었습니다. 무엇보다도, 다양한 Task에 적용할 수 있는 범용성을 갖고 있습니다. 마지막으로 소개해주신 모델은 conformer 구조를 활용했습니다. Conformer 구조는 Convolution 연산을 포함하기에, 전역적인 정보와 지역적인 정보를 모두 학습할 수 있다는 장점을 갖습니다. 학습 과정에선 self-supervised learning과 self-training 방법론을 함께 활용하는 모습을 보여줍니다. 더불어, noisy input을 활용함으로써, 더욱 강건하도록 유도합니다. 결국 높은 성능을 보여주지만, 그만큼 모델의 사이즈도 굉장히 커진다는 점을 보여주었습니다. 말 그대로 “Limit”에 도달하기 위해 많은 자원을 요구하는 모델이라는 생각을 했습니다. 그동안 생소했던 분야에 대해 핵심만 요약해 히스토리를 보여주셔서 큰 도움이 되었습니다. 이전 모델의 한계점을 보완하기 위해 순차적으로 방법론들이 개선되는 모습도 인상 깊었습니다. 마지막 장표에서 각 방법론들을 비교해주신 것도 전체적인 이해를 하는 데 큰 도움이 되었습니다. 여러모로 음성 인식에 관한 이해를 한층 높일 수 있는 좋은 발표였습니다. 늘 그래오셨듯 언제나 좋은 발표 감사드립니다.
Yunseung Lee

2021-08-08 22:02

금일 세미나는 “Semi-Supervised Learning in Auto Speech Recognition”에 대한 소개로 진행되었습니다. 음성인식에서의 Semi-supervised learning의 주요 5가지 모델을 발전 순서에 따라 소개해주셨습니다. 먼저 각 방법론은 좋은 representation vector를 추출하는 것을 목표로 삼고 있습니다. 첫번째 모델인 CPC1의 경우에는 음성 데이터만을 활용하여 음성 내에 공유정보를 추출할 수 있도록 합니다. 하지만 aggregator가 RNN계열이라 병렬처리가 어려워 속도가 느리다는 한계점을 갖고 있었습니다. 이런 단점을 개선하여 Wav2vec이 제안되었는데, 해당 방법론은 Aggregator의 RNN을 Causal CNN으로 변경합니다. 또한, 음성데이터와 pair된 text 데이터를 활용하여 language model을 모델링하여 함께 활용함으로써 성능을 향상시켰습니다. 이후에 소개된 VQ-wav2vec은 quantization 모듈을 추가하여 MLM task를 pretraining 에 활용한 모델입니다. Wave2vec 2.0은 앞서 소개한 Wave2vec의 quantizaiton을 보완하고 end-to-end learning이 가능하도록 모델 구조를 변경하였습니다. 마지막으로는 Pushing ASR 모델을 소개해주셨는데, 여기서는 transformer block 대신 conformer block을 활용하여 global 정보와 추가적으로 local 한 정보도 취합하도록 합니다. 5개의 모델에 대해 장점과 한계점, 그리고 각각의 특징을 명료하게 설명해주셔서 음성인식 task를 이해하는데에 도움이 많이 되었습니다. 좋은 발표 감사합니다.
Donghwa Kim

2021-07-07 19:59

이번세미나에서는 전반적인 음성연구에 대한 동향을 알 수 있었습니다. 먼저, CPC는 음성분야에 self-supervised learning을 적용하는 방법으로 순차적인 음성 signal들은 서로 공유하고 있다고 가정하고 음성벡터의 유사성을 높이는 모델 학습구조를 가지고 있었습니다. Wav2vec은 causal convolution을 음성시그널을 인코딩하고 acoustic model의 단어 softmax와 LM의 단어 softmax 두가지를 고려하여 학습하는 구조를 가졌습니다. VQ-wav2ec은 BERT MLM pre-training 방식을 적용한 논문이었습니다. ASR 자소예측결과를 BERT에 접목시킨 것이라고 할 수 있습니다. VQ-Wav2vec이란 Wav2vec Encoder -> quantization(Gumbel) ->aggregator의 구조를 가지고 있습니다. Gumbel softmax는 noise + softmax with temperature를 이용하여 discrete한 형태로 변환한것을 말하여 VQ-Wav2vec는 lookup table을 이용하여 continuous variable로 다시 변형시키는 특징을 가지고 있습니다. 하지만 VQ-Wav2vec는 너무 feature을 discrete하게 단순하게 만드는 단점이 있고 acoustic model과 LM이 따로 학습된다는 문제도 있습니다. 이러한 문제를 해결하기 위해Wav2vec 2.0 모델(MLM+CPC)이 제안되었으며, quantization(Gumbel) 방식단계에서 masking을 사용하는 관점에 end-to-end learning이라고 할 수 있습니다. Loss function에 quantization된 count를 반영해서 diversity를 반영하게 됩니다. Fine-tuning 단계에서 linear layer 뿐만 아니라 wav2vec 2.0 encoder 또한 학습되게 하는 특징이 있었습니다. Pushing limit에서 Conformer block은 transformer block convolution module을 추가해 local정보를 잘 반영하도록 사용되었습니다. 입력구조가 Spec augmentation을 사용하게 되는데 해당 방법은 freq, time 축에 대해서 zero masking을 사용하는 방식도 소개해 주었습니다. 음성 분야 이해에 많은 도움이 되었습니다. 감사합니다.
Hyungseok Kim

2021-07-08 17:49

금일 세미나 시간에는 계속해서 음성인식 관련 연구를 수행중인 김정희 석사과정이 Semi-Supervised Learning in Auto-Speech Recognition논문을 주제로 발표를 진행해 주셨습니다. 우선 지난 세미나시간 과정에서 다루어 보았던 음성인식분야에서 Milestone이 될 수 있는 연구들과 해당 연구의 특징을 친절하게 소개해 주었습니다. 지속적으로 음성인식연구를 팔로우업하고 있지 않는 입장에서도 지금까지의 흐름을 파악하는데 아주 큰 도움이 되었습니다. 해당 세미나의 주요 연구내용 Pushing ASR에서의 구조적인 특징 중 하나는 conformer block이라 할 수 있는데, 기존 transformer 블록에서 추가적으로 convolution Module이 추가된 형태입니다. 따라서, self-attention을 통해서는 global 정보를, convolution을 통해서는 local 정보를 함께 취합할 수 있게 됩니다. 또한, Pushing ASR 학습과정은 SSL방법론 가운데 self-supervised 방법론과 self-training(noisy student) 방법론을 동시에 활용하여 학습을 수행하게 됩니다. 해당논문에서는 이 과정을 4번까지 반복하여 self-training 과정을 거치면서 점차 모델의 사이즈를 증가시켜, 더 복잡한 패턴과 노이즈 제거능력의 학습을 도모하였습니다. 점차 student의 size가 점차 커지면서 연산의 cost가 증가하는 문제가 있지만, 두가지의 SSL방법론을 함께 활용하여 의미 있는 성능향상을 확인할 수 있었습니다. 특히, 세미나의 마지막에 summary에 해당하는 슬라이드에서의 기존의 음성인식 연구들 사이의 비교 테이블은 세미나의 내용을 한 장의 슬라이드로 깔끔하게 wrap up 할 수있어 매우 좋았습니다. 마지막으로, 매번 좋은 자료를 통해 세미나를 준비해 주시는 발표자님께 감사의 인사 전합니다.
Jungho Lee

2021-07-08 18:04

음성인식의 기본개념과 백그라운드를 설명하면서, 흐름을 따라가기 매우 좋았습니다. 기존 모델은 aggregator 가 rnn 을 사용하기 때문에 속도의 문제가 발생하는데,
이를 해결하기 위해서 causal cnn 으로의 발전과정을 들으며, 어떻게 conformer 가 나오게 됬는지에 대한 이해가 매우 좋았습니다. 이를통해 wave2vec 으로의 발전과정을 알아보고, 문제점 및 발전과정을 전체적으로 리마인드 할수 있었습니다. conformer block 은 self attention 의 global 정보를 취합하는 방법인데, 음성에서 local 정보를 더 잘 취합하기 위해 convolution module 을 사용했다고합니다. 최근에 논문을 많이 읽지 못했었는데, conformer 와 유사하게 transformer 에 대한 연구가 계속 되면서, 특정 도메인 분야에서 다양한 변화가 일어 나는 것 같습니다. wave2vec 에서 주로 사용되는 방식에는 teacher 모델을 사용하는 경령화 방식을 적용했는데, teacher 모델에서 나오는 sudo label 을 사용하여 unlabeled data 를 사용했습니다.
이러한 방식이 예전부터 semi-supervised 에서 주로 활용되는데, 실제로 학습에서 성능결과로 나오는 논문은 오랜만에 본 것 같습니다.
개인적으로 관심있는 transformer 의 특정 도메인에서의 변형에 대한 재밌는 세미나였습니다.
Jaehyuk Heo

2021-07-11 18:57

오늘 발표는 음성에서 연구되어온 semi/self-supervised learning에 대한 전반적인 연구 흐름을 들어볼 수 있는 좋은 시간이었습니다. 연구 발표 흐름은 Contrastive 학습 방식을 적용한 CPC -> wav2vec -> VQ-wav2vec -> wav2vec 2.0 -> Pushing ASR로 각각의 제안 방법과 문제점 그리고 다음에 이를 해결한 방법까지 소개해주시면서 개인적으로 음성인식에 대한 연구를 잘 알지 못하고 있었음에도 불구하고 내용을 이해하고 따라가기 수월했습니다. 음성 self supervised Learning의 목표는 음성 데이터만으로 음성의 특징을 잘 추출할 수 있는 모델 개발을 하는 것이고, 좋은 representation vector를 얻는 것입니다. 이를 위해 지금까지 문제점들과 해결책들을 요약해서 작성해보자면 처음 공유 정보를 사용하기위해 RNN이 사용되었지만 이는 Convolution으로 대체하여 병렬처리가 가능하게 되었고 여러개의 모듈로 구성되어 있던 방법 또한 End-to-End 로 구성할 수 있는 방법이 등장했습니다. 또한 unlabeld data를 pretrained 하는 방법들이 많이 등장하면서 음성에서 또한 이와 같은 방법으로 새로운 연구가 소개되었고 noisy student와 비슷한 방식으로 모델을 학습하며 Pushing ASR까지 연구가 진행되었습니다. 하지만 아직까지의 문제점으로는 모델을 학습하기 위한 자원이 많이 필요하고 이말은 즉 모델의 사이즈가 크기 때문에 발생하는 문제점이라고 생각됩니다. 또한 연속적인 음성 데이터를 이산형으로 변환하고 모델을 학습하고 결과를 다시 연속형으로 변화하는 과정이 필요합니다. 이후 김정섭 석사과정이 발표한 Neural ODEs에 대한 세미나를 듣고 음성 쪽에 적용하면 이러한 변환 과정이 필요없게 되지 않을까 하는 생각이 들었습니다. 오늘도 좋은 발표 감사합니다.

« [Paper Review] BERT-of-Theseus: Compressing BERT by Progressive Module Replacing

[Paper Review]Augmented Neural ODEs »

목록보기

전체 516

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11433	관리자	2020.03.12	0	11433
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10079	관리자	2020.03.12	0	10079
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11159	관리자	2020.03.12	0	11159
513	[Paper Review] Introduction to PINN (Some basic concepts and research directions) (3) Hankyeol Kim \| 2025.07.18 \| 추천 0 \| 조회 53	Hankyeol Kim	2025.07.18	0	53
512	[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (6) Sieon Park \| 2025.07.14 \| 추천 0 \| 조회 111	Sieon Park	2025.07.14	0	111
511	[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (5) Subeen Cha \| 2025.07.10 \| 추천 0 \| 조회 113	Subeen Cha	2025.07.10	0	113
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 291	Jaewon Cheon	2025.06.27	0	291
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 376	Minjeong Ma	2025.06.07	0	376
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 38	Minjeong Ma	2025.06.02	0	38
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 35	Kiyoon Jeong	2025.06.02	0	35
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 35	SangMin Lee	2025.06.02	0	35
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 477	Siyul Sung	2025.05.31	0	477

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호