| 번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
| 공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 15352
|
관리자 | 2020.03.12 | 0 | 15352 |
| 공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 14095
|
관리자 | 2020.03.12 | 0 | 14095 |
| 공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 15051
|
관리자 | 2020.03.12 | 0 | 15051 |
| 553 |
New [Paper Review] Why CLIP fails at Dense Prediction Task? (1)
Jinwoo Jang
|
2026.04.06
|
추천 0
|
조회 34
|
Jinwoo Jang | 2026.04.06 | 0 | 34 |
| 552 |
[Paper Review] Dynamic Large Concept Models (8)
Jaeyong Ko
|
2026.03.30
|
추천 0
|
조회 117
|
Jaeyong Ko | 2026.03.30 | 0 | 117 |
| 551 |
[Paper Review] Programming Refusal with Conditional Activation Steering (15)
Sunmin Kim
|
2026.03.10
|
추천 0
|
조회 378
|
Sunmin Kim | 2026.03.10 | 0 | 378 |
| 550 |
[Paper Review] Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (9)
Sunghun Lim
|
2026.03.01
|
추천 0
|
조회 318
|
Sunghun Lim | 2026.03.01 | 0 | 318 |
| 549 |
[Paper Review] Rethinking the Power of Timestamps for Robust Time Series Forecasting: A Global-Local Fusion Perspective (9)
Suyeon Shin
|
2026.02.25
|
추천 0
|
조회 240
|
Suyeon Shin | 2026.02.25 | 0 | 240 |
| 548 |
[Paper Review] Recent Research Trends Foundation Model for Visual Anomaly Detection (10)
Jaehyuk Heo
|
2026.02.12
|
추천 0
|
조회 486
|
Jaehyuk Heo | 2026.02.12 | 0 | 486 |
| 547 |
[Paper Review] Vision-based and Multimodal Approaches for Time Series Analysis (9)
Hyeongwon Kang
|
2026.02.10
|
추천 0
|
조회 467
|
Hyeongwon Kang | 2026.02.10 | 0 | 467 |
| 546 |
[Paper Review] Introduction to Neural Operator (10)
Hankyeol Kim
|
2026.02.03
|
추천 0
|
조회 557
|
Hankyeol Kim | 2026.02.03 | 0 | 557 |
| 545 |
[Paper Review] Enhancing Time Series Forecasting through Selective Representation Spaces: A Patch Perspective (13)
Sieon Park
|
2026.01.29
|
추천 0
|
조회 576
|
Sieon Park | 2026.01.29 | 0 | 576 |
| 544 |
[Paper Review] ELFS: Label-Free Coreset Selection with Proxy Training Dynamics (13)
Subeen Cha
|
2026.01.28
|
추천 0
|
조회 385
|
Subeen Cha | 2026.01.28 | 0 | 385 |
VQ-Wav2vec에 대해서 발표해주셨습니다. MLM pre-training의 조건은 입력이 시퀀스의형태인 조건과 이산형태의 배열을 만족하여야합니다. 따라서 중간에 이산형 형태를 표현해주는 모듈이 필요합니다. 대안으로 Gumbel-softmax와 k-means clustering이 존재하였습니다. Gumbel-softmax는 0~1의 noise 값을 logit에 더해주고 temperature scaling을 하게 되면 categorical distribution를 묘사할 수 있었습니다. k-means clustering 또한 가장 가까운 centroid에 할당할수 있다는 점에서 적용할수 있는데 미분이 가능하도록 forward에서는 y를 그대로 보내고, backward계산에서 trainable x에 대해서 흘려보내도록 수식을 구성해 중간단계에서 discrete한 모듈도 gradient-based update가 가능하도록 제안하였습니다. VQ wav2vec에 BERT를 적용하는 구조는 임의로 생성된 token을 BERT의 훈련방식을 사용하는 구조를 이루어졌습니다. 해당 구조는 텍스트의 정보의 의미를 담고 있다기는 보다는 음성 feature를 임의의 토큰으로 설정하여 그 관계를 masking prediction 하는 내용인것 같습니다. 개인적으로 vq의 모듈과 dropout, relu 모듈을 추가했을때 보다 유의미한 성능 향상이 있어야 좋은 제안 방법론이지 않을 까 생각해봅니다. 좋은 발표 감사합니다.
금일 세미나 주제는 vq wav2vec입니다. 기존의 방법론들이 음성을 연속적인 데이터로 활용을 했다면, 이 논문은 음성을 비연속적인 데이터로 변경하고 self-supervised learning을 적용합니다. 이 이산적인 데이터를 sequence model, BERT의 입력으로 사용하여 음성인식을 수행합니다. 본 논문에서는 중간에 이산적 데이터로 인한 미분 불가능 문제를 해결하기 위해 Gumbel-softmax 와 K-means clustering을 적용하여 연속형 데이터를 discrete representation으로 근사합니다. 이를 바탕으로 discrete sequence를 입력으로 하는 언어 모델과 호환이 가능하여, BERT의 MLM이 좋은 성능을 보였습니다. 데이터를 어떻게 embedding할 것인가에 따라 활용할 수 있는 모델의 범위가 달라진다는 부분이 인상깊었고, 새로운 모델에 대한 아이디어를 고민할 때, 새로운 시각에서의 데이터를 표현하는 방법도 고려할 수 있다는 것을 알게 되었습니다. 또한, 이전에 음성인식 모델에 관련해서 짧게 나마 공부했었는데, 이번 발표 덕분에 한번더 전반적인 모델 구조에 대해 이해해보며 정리해볼 수 있었습니다. 깔끔한 발표 감사합니다.
본 세미나는 음성 데이터 분석에 대한 발표였으며 이 중, Wav2vec은 음성 데이터를 텍스트로 변환하는 ASR을 달성함에 있어 입력과 출력의 발화 위치가 정확하게 Align 되어 있는 데이터를 찾기 어렵기에, 데이터 특성을 활용해 학습하는 Self-Supervised Learning을 사용하는 기법을 말합니다. 이 때 데이터 특성은 음성 내 전반적으로 공유하고 있는 정보를 의미하며 거리가 있는 음성 데이터들끼리 서로 예측할 수 있다면 그들 사이에 존재하는 공유 정보를 학습할 수 있습니다. 그리고 Wav2Vec의 골자는 취하되 연속적인 음성 데이터를 비연속적인 데이터로 변경하여 훈련하는 것이 VQ(Vector Quantized)-Wav2Vec이며, 비연속 데이터로 변경하는 과정에 Gumbel Softmax와 K-Means 절차가 포함됩니다. 이후 음성 입력에 대하여 BERT의 MLM Training과 Transformer Encoder 아키텍처를 활용하여 Sequence 패턴을 추출하고자 합니다. 질문 했던 부분이 Language Model에 언어가 아닌 음성을 Input으로 사용해도 되는지에 대한 부분이었는데 이것이 가능하다면 모든 종류 Sequence Pattern mining에도 BERT가 사용될 수 있다고 생각되었습니다. 음성에 대한 양질의 발표 준비해주셔서 감사합니다.
이번 세미나에서는 SSL 기반의 음성인식에 대한 방법론입니다. 이전부터 발표자꼐서 음성을 텍스트로 변환하는 방법을 주로 설명해 주셨고, 음석의 특징을 잘 설명해주었습니다. 음성에 대한 설명을 할때 푸리에 변환가 mel spectrum 에 관한 선행지식을 이해하기 쉽게 설명해 주었습니다.. wav2vec 모델의 경우 bert 의 MLM pretrain 방식을 적용하여 학습을하고, gumbel-softmax 를 통해 역전파가되는 학습 샘플링 기법을 설명해주었습니다. 음성인식은 연구실에서 자주 다루지 못했던 논문인데, 알기쉽게 좋은 발표 준비해주셔셔 감사합니다.
이번 세미나는 auto speech recognition을 위한 VQ-Wav2Vec 모델에 대한 내용으로 이루어졌습니다. 먼저, ASR은 음성을 인식해 text로 변환하는 것을 말합니다. 음성 데이터를 handcraft feature를 생성하고, 이를 사용해 acoustic model을 통해 ASR task를 해결하게 됩니다. 이때 handcraft feature를 사용하는 것은 domain nowledge가 필요하기 때문에 비용, 유지보수 등에서 문제가 생길 수 있으므로 모델로부터 feature를 추출하는 방법으로 대체하려는 방법이 제안되었습니다. 이를 위해 음성 데이터 내에서의 전반적인 정보를 추출하기 위해 self-supervised learning이 활용되었습니다. VQ-Wav2Vec은 음성을 Masked language model에 입력으로 넣어 sequence 안의 패턴을 추출하고자 하는 모델입니다. MLM pre-training을 위해서는 input이 sequence여야하고, 각각은 discrete한 형태여야 하기 때문에 Wav2Vec의 output을 discrete하게 만드는 과정이 추가됩니다. 음성 고유의 형태를 변형하여 input으로 사용한다는 점에서 인상 깊었습니다. 좋은 발표 감사합니다.
VQ-Wav2vec은 Constractive Predictive Coding의 InfoNCE loss를 음성분야에 적용한 Self-Supervised 방법론 입니다. 해당 방법론은 이전 논문인 Wav2vec과는 다르게 Vector Quantization 모듈을 추가하여 Continouse 공간에서 표현된 벡터를 몇개의 대표값으로 치환할 수 있도록 설계되어 있습니다. 이 변경된 아키텍처를 활용하면 Discrete Representation을 입력으로 필요로 하는 Transformer, BERT 등의 아키텍처를 활용할 수 있는 장점을 갖고 있습니다. 또한 Vector Quntization 모듈을 사용함으로써 노이즈가 제거된 음성 Sequence 안에 있는 패턴을 더 잘 학습할 수 있는 장점을 갖고 있습니다. ASR Task에서 Vector Quntization을 사용하여 성능을 끌어올렸지만, 논문에서 제시한 Pipe Line은 3개의 모델을 차례로 학습해야 하기 때문에 재현성 측면에서 단점을 갖고 있습니다. 또한 Language Model에 따라 성능이 크게 변하는 것을 보면 성능이 크게 향상된 이유가 Vector Quntization 모듈보다는 Language Model 덕분으로 해석할 수 있습니다. 생소한 분야이지만 항상 좋은 발표 해주셔서 이해가 잘 됩니다. 앞으로도 좋은 세미나 그리고 좋은 개인연구 결과 기대하겠습니다.
본 세미나는 VQ-Wav2vec에 대해 발표해주셨습니다. VQ-Wav2vec은 ‘음성’이라는 연속적인 데이터를 비 연속적인 데이터로 변환, 이를 self-supervised learning에 적용한 모델입니다. 연속 데이터인 ‘음성’ sequence 에서 패턴을 효과적으로 추출하기 위해 BERT의 Masked Language Model 방법론을 활용합니다. 이산적 시퀀스를 가져야 BERT모델을 활용할 수 있기에, 음성 데이터를 이산적으로 분해하고 이를 활용한 것으로 발표자분의 설명에 따라 이해할 수 있었습니다. 그리고 이러한 이산 변형을 위해 gumbel-softmax 와 k-means clustering 을 활용했습니다. 처음 떠올려보면, 연속적 데이터를 이산적 데이터로 어떻게 변형하는 가에 대한 막연한 의문이 많았는 데, 미분 불가능 문제, gradient flow문제 등을 해결해가는 과정을 구체적으로 설명해주셔서 이해를 높일 수 있었습니다. 더불어, 그동안 잘 알지 못했던 speech recognition 분야에 대해 서두에서부터 자세히 짚어주셔서 조금 더 쉽게 전체적인 발표 내용을 이해할 수 있었습니다. 좋은 발표 해주신 발표자님께 감사드립니다.
서로 다른 Domain의 데이터는 각각 다른 특징을 가지고 있습니다. Speech Recognition에 사용되는 데이터의 경우 사람의 언어로부터 출발하지만, 데이터는 연속적이라는 특징을 가지고 있습니다. 이로 인해 Token을 기반으로 하는 다양한 모델을 적용하기에 어려움이 존재했습니다. 오늘 소개해 주신 논문에서는 이러한 단점을 극복하고자 Wav2vec의 출력을 이산적으로 변형한 뒤, BERT를 적용하는 방법을 제안합니다. 이 경우, 단순히 이산화를 진행할 경우에 미분이 불가능한 문제가 추가적으로 발생하므로, 이러한 문제를 해결하기 위해 Sampling을 사용합니다.
모델의 구조를 설계하는 것은 물론 중요하지만, 사용되는 데이터의 특성을 잘 이해하는 것 또한 매우 중요하다고 생각합니다. 오늘 세미나에서는 음성 데이터가 갖는 특징, 그로 인해 사용 가능한 모델의 폭이 줄어든다는 점, 다양한 모델을 사용하기 위해 데이터를 변환하는 방법 등을 폭넓게 알 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나는 SSL 기법을 음성 인식에 적용한 논문에 대해 다루었습니다. 음성의 경우 text 데이터와 마찬가지로 자연어 정보를 담고 있지만 연속적인 특징이 있습니다. 따라서 음성 데이터에 대해 representation vector를 뽑기위해 이산화를 위한 추가적인 작업이 필요합니다. 본 연구에서는 이런 이산화 작업을 위해 vector quantization 모듈을 추가하고 이를 적용할 수 있도록 모델 구조를 변경하였습니다. 이 때 음성 내의 자연어 정보를 잘 반영하는 representation을 뽑기 위해 SSL을 적용하는 것으로 이해하였습니다. 개인적으로 이미지, text, 음성 순으로 데이터를 다루는 것이 어렵다고 생각이 되는데 음성 데이터에서 좋은 feature를 추출하기 위해 어떤 연구들이 수행되는지 알아볼 수 있어 좋았습니다. 좋은 발표 감사드립니다.
본 세미나를 진행해준 김정희 석사과정에게는 항상 감사함을 느끼고 있습니다. 음성인식과 관련해서는 연구에서의 접점이 없기 때문에 대학원 생활을 하면서 해당 분야의 연구들을 접할 기회가 지금까지 없었습니다. 하지만 본 세미나를 통해서 음성인식 분야에 대한 흐름과 함께 오늘 VQ Wav2Vec과 같이 최신 연구를 파악할 수 있었습니다. 다양한 연구분야를 다루는 우리연구실만의 특장점이 아닐까 생각됩니다. 항상 발표자의 세미나를 참관하면서 느끼는 바는 예시 figure나 명시적인 개념그림을 발표자료에 적극적으로 잘 활용하여 너무 좋습니다. 이런 시각적으로 풍부한 자료들로 인해서 해당 연구분야를 접하지 못한 청중임에도 불구하고 무리없이 내용들을 따라갈 수 있었습니다. 항상 친절한 자료 다시금 감사하다고 전하고 싶습니다. 해당 VQ-Wav2Vec 결국 기존 Wav2Vec의 output을 이산형태로 만들어 기존 BERT모델의 pre-training의 그것과 같게 성능을 높이고자한 연구였습니다.이과정에서 적절한 figure들이 너무 인상적이였습니다. 좋은 발표 감사합니다.
금일 세미나는 Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations를 주제로 진행되었습니다. speech는 representation을 뽑아내기위해 feature를 생성하는게 매우 중요한데, 사람의 개입이 필요한 부분이 있었습니다. 하지만 오늘 소개해주신 방법론은 딥러닝 기반으로 representation을 비교적 쉽게 생성할 수 있으며 가장 큰 핵심은 만들어진 vector를 대표값으로 취합해주는 과정임을 알 수 있었습니다(자연어는 discrete하기 때문에). 이를 위해 clustering을 이용하였고 자연어 데이터의 본질적인 의미에 대해 다시 한번 더 고민 할 수 있는 좋은 시간이었습니다. 발표자료가 매우 우수합니다 ..!
Vq-wav2vec에 대해 발표해주셨습니다. 본 발표에 앞서 음성을 텍스트로 변환하는 Auto Speech recognition에 대해 설명해주셨습니다. ASR을 진행을 할 때 음성 데이터를 handcraft feature로 생성하게 되면 domain nowledge가 필요하게 되고, 이로인해 비용, 유지보수 등 문제가 생길 수 있으므로 딥러닝 모델로부터 유용한 feature를 추출하고자 하는 것입니다. Self-supervised learning을 이용하여 음성내의 공유정보를 추출하여 학습하고자 하였습니다. NLP의 Language Model 중 하나인 BERT의 pre-training 방법론을 활용하였으며 이를 위해 음성 데이터를 이산 형태로 변환하고 MLM 방법을 적용하여 학습하였습니다. 음성데이터의 이산화를 위해서 Gumbel-Softmax 또는 K-means를 이용하였습니다. 음성인식에 대한 연구를 접해본 적이 없었기에 많이 생소하고 모르는 부분이었지만 처음에 관련 내용을 간단하고 이해가 쉽게 언급을 해주셔서 본 논문 내용을 이해하기 한결 수월했습니다. 좋은 발표 감사합니다.
음성에 대한 연구를 조금 더 이해할 수 있는 시간이었습니다. 음성 데이터는 연속적인 특성을 지닙니다. 하지만 이를 비전 모델의 인풋으로 사용하기에는 인풋이 그래프 형태의 이미지가 되기 때문에 너무 sparse해 지는 문제가 있습니다. 또한 RNN-based model의 인풋으로 사용한다면 sequence의 길이가 너무 길기 때문에 RNN이 가지고 있는 본질적인 문제를 마주할 수밖에 없습니다. 이런 상황에서 본 연구의 저자들은 최근 다양한 도메인에서 SOTA를 기록하고 있는 BERT를 음성 데이터에 사용합니다. 아마 음성을 연구하시는 많은 연구원들이 같은 고민을 하고 시도를 해봤지 않을까 생각합니다. 하지만 이산적인 단어를 이산적인 토큰으로 변경하여 BERT의 인풋으로 사용하면 되는 NLP task와는 다르게 음성 도메인에서는 연속적인 음성 데이터를 이산적인 토큰으로 변경 해야 하는 문제가 있습니다. 본 연구에서는 미분 가능한 이산화를 위해 다양한 시도들을 하고 있으며 실질적으로 이 부분이 main contribution이지 않을까 생각하였습니다. 좋은 발표 감사합니다.
오늘 발표는 연구실에서 음성인식을 오래 공부하신 김정희 석사과정께서 “Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations”라는 논문을 주제로 발표해주셨습니다. 음성인식 분야에 대해서는 아는 부분이 많이 없지만 발표를 통해 음성데이터로 부터 기존에 해왔던 handcraft feature를 딥러닝 기반으로 바꾸어 feature를 추출하는 방법과 wav2vec 의 사용방식에 대해서 알 수 있는 좋은 기회였습니다. 또한 음성인식이 어려운 이유로는 과정이 복잡하다는 인식이 있었는데 이 내용에 대해 발표자분께서 코드 구현에서 필요한 부분도 함께 상세하게 설명해 주셔서 더욱 이해하기 좋았던 발표였습니다. Wav2vec 의 결과로 BERT의 MLM task를 활용하는 것을 보고 BERT가 정말 많은 곳에서 활용되어 좋은 결과를 나타내고 있다는 것을 또 한번 알게 되었습니다. 음석인식 task가 아직까지 어려운 이유는 End-to-End 보다는 여러 모듈을 거쳐 진행되기 때문이라 생각됩니다. 최근 1년동안 음성인식에 대한 연구와 현업에서의 관심이 많아진 것 같아서 알아둘 필요가 있으면 좋겠다 생각했는데 발표를 통해 알게 될 수 있는 좋은 기회였고 앞으로도 기회가 있으면 개인적으로 관심을 가져서 배워보고 싶습니다.
Pretrain 기반 self-supervised 모델이 자연어처리에서 큰 성공을 거두고 이어 음성 도메인에서도 유사한 흐름으로 발전하고 있는 것 같습니다. CPC1에서 Wav2Vec, 그리고 발표 논문인 VQ-Wav2vec을 지나 wav2vec 2.0까지의 흐름을 소개해 주셔서 굉장히 유익했습니다. Vq-wav2vec은 음성 정보를 vector-quantize하여 하나의 discrete한 시퀀스로 나타내고, 이를 시퀀스 모델의 입력으로 사용하여 분산표상으로 나타낸 후 음성 모델의 입력으로 사용하는 형태를 갖습니다. BERT의 큰 성공에 영감을 받아 본 모델 역시 BERT와 유사한 학습 방법을 보입니다. 정보를 이산화하고 학습을 통해 이를 최적화하려면 이산화하는 과정이 미분가능해야 한다는 제약이 있는데, 이를 해결하기 위해 gumbel-softmax나 kmeans 방법을 소개해주셔서 모델을 설계할 때 저자가 고민한 흐름을 잘 이해할 수 있었습니다. 유사한 방법으로 미분가능한 형태를 만들기 위해서는 코드 측면에서의 최적화를 꼼꼼하게 진행해야겠다는 생각도 들었습니다. 발표자료에 코드와 직관적인 그림을 첨부해주셔서 이해가 쉬웠습니다. 감사합니다.
이번 세미나는 Self-Supervised Learning of Discrete Speech Representations(VQ-Wav2vec)이라는 논문을 주제로 진행되었습니다.
먼저 ASR(Auto Speech Recognition)에 대하여 설명해주셨는데요. ASR은 음성을 텍스트로 변환하는 것으로, 특징으로는 (1)다양한 주파수가 혼합되어 음성을 구성하고 있으며, (2)입출력의 길이가 일정하지 않고, (3)발화 위치가 align되어 있는 데이터를 찾기 어렵다는 특징이 존재합니다.
먼저 특징 (1)로 인해 주파수 단위 분해을 통해 푸리에 변환과 mel-filther bank를 활용하여 음성의 특징이 두드러지도록 가공을 수행하고, (2), (3)으로 인해 음성 길이와 위치에 상관없이 적용 가능한 아키텍쳐를 활용하거나, 가변적인 길이의 출력을 생성하는 seq-to-seq 아키텍쳐, CTC(Connectionist Temporal Classification)아키텍쳐를 이용하게 됩니다. 이를 다시 요약하자면, 도메인 지식을 활용하여 handcrafted feature를 생성한다는 점과, 그렇게 도출된 feature를 이용하여 acoustic model을 개발한다는 것입니다.
이전까지의 논문들은 연속적안 음성(데이터)에 self-supervised learning을 적용하여 음성 데이터만으로 특징을 잘 나타내는 벡터를 추출할 수 있도록 했으나 본 논문은 연속적인 데이터를 비연속적 데이터로 변경하고 이에 self-supervised learning방법을 적용하였습니다. VQ-wav2vec은 wav2vec 모델의 출력을 이상 형태로 만들억서 BERT의 MLM pretraining 방법을 적용하여 음성인식의 성능을 향상 시키는 것을 목적으로 합니다. wav2vec 모델의 출력을 이산화하고 이를 학습을 통해 최적화하려면 해당 과정이 미분가능해야 한다는 제약이 있는데, 이를 해결하기 위한 gumbel-softmax나 k-means 방법을 소개해주시면서 이를 통해 얻을 수 있는 장점에 대한 발표자 분의 의견과 근거를 들을 수 있어 매우 흥미로웠습니다. 좋은 발표 감사합니다!
금일 세미나는 discrete speech representation에서의 self supervised learning에 대한 방법론인 VQ-Wav2vec에 대한 소개로 진행되었습니다. ASR task에서 음성 모델에 데이터를 넣기 전 전처리가 필요한데, handcrafted feature 대신 딥러닝 모델을 활용하여 representation을 추출하기 위한 배경에서 연구가 진행되었습니다. 이 학습과정에서는 음성 내 전반적으로 공유하는 정보를 추출하는 것을 목적으로 SSL 을 적용합니다. Contrastive Predictive Coding(CPC) 를 적용하여 이 목적을 달성하고자 하였습니다. 이를 위한 continuous audio를 discretization 하는 과정을 거치고, BERT의 MLM 방법을 적용하여 음성인식의 성능을 향상시켰습니다. 연속적인 데이터인 음성을 이산화하여 BERT의 학습방법을 적용한 점이 흥미롭고 참신한 아이디어라고 생각했습니다. 좋은 발표 감사합니다.
금일 세미나는 "Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations"라는 주제로 진행되었습니다. 본 발표에서는 Vector Quantization 모듈을 추가하여 Discrete representation을 출력할 수 있도록 아키텍처를 변경하고 추출한 Discrete Representation을 BERT, Transformer와 같은 아키텍처의 입력으로 활용함으로써 음성 Sequence 안에 있는 패턴을 더 잘 학습할 수 있는 방법이 소개되었습니다. 개인적으로 공부하고 있는 이상치 탐지 분야에서 normal 데이터의 representation이 매우 중요한데 Vq-wav2vec에 적용된 self-supervised 방법을 normal representation을 추출하는데도 적용할 수 있을 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
금번 세미나에서는 Vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations라는 논문을 소개해주셨습니다. 해당 방법은 기존에 많이 사용하던 Wav2vec에서 vector quantization 방법을 사용해 연속된 공간에서 표현되는 벡터들을 소수의 대표 벨터로 치환하도록 설계했습니다. 이를 통해 Transformer 기반의 discrete representation을 입력받는 모델들에 사용할 수 있도록 하였습니다. 시각적으로 굉장히 잘 설명되어 있어 이해가 편했던 친절한 발표였습니다. 좋은 발표를 해 주셔서 감사합니다.
이번 세미나는 self-supervised learning 기반의 Discrete representation of speech에 대한 세미나였습니다. Discretization이 목표이기 때문에 Wav2Vec 모델의 출력을 이산 형태로 만들어야하므로 BERT의 입력으로 중간에 생성된 이산 배열을 활용을 합니다. 또한 Wav2Vec모델이 CPC방법으로 학습이 가능해야 하기 때문에, Gumbel-Softmax, K-means Clustering 방법을 고려할 수 있습니다. 이렇게 이산화를 함으로서, 노이즈를 제거할 수 있음을 주장하면서 BERT의 입력으로 이산화된 값들을 입력하고, BERT로 부터 추출된 feature를 이용하여 acoustic model을 학습하고 평가하는 목표도 갖고 있습니다. 기존 방법론 (Mel-spectrogram)보다는 아직은 아쉬운 성능을 갖고 있지만, 이산화라는 새로운 방법을 도입하는 것에서 이미 의의가 있는 것 같습니다. 흥미로운 분야에 대한 발표 감사합니다.