번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10343
|
관리자 | 2020.03.12 | 0 | 10343 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 8952
|
관리자 | 2020.03.12 | 0 | 8952 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10063
|
관리자 | 2020.03.12 | 0 | 10063 |
499 |
New [Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 11
|
Doyoon Kim | 2025.05.01 | 0 | 11 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (10)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 113
|
Sunghun Lim | 2025.04.24 | 0 | 113 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (11)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 106
|
Suyeon Shin | 2025.04.21 | 0 | 106 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (14)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 153
|
Woongchan Nam | 2025.04.16 | 0 | 153 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (16)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 294
|
Kiyoon Jeong | 2025.04.16 | 0 | 294 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (15)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 328
|
Hyeongwon Kang | 2025.04.09 | 0 | 328 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 317
|
Jaehyuk Heo | 2025.04.02 | 0 | 317 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 320
|
Jaehee Kim | 2025.04.02 | 0 | 320 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 272
|
Jungho Lee | 2025.04.02 | 0 | 272 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 253
|
Hankyeol Kim | 2025.03.25 | 0 | 253 |
이번 세미나는 음성합성 분야에서 널리 활용되고 있는 타코트론2에 관한 발표였습니다. 타코트론2는 텍스트로부터 mel-spectrogram을 생성한 후, WaveNet을 통해 실제 음성을 합성하는 두 단계로 이루어진 모델입니다. 이전에 음성을 활용한 감성 분석 프로젝트에 참여하며 mel-spectrogram이나 MFCC feature와 같은 음성처리 분야에서 자주 사용되는 feature들의 추출이 지나치게 수작업에 의존하고 있다는 생각이 들었는데, 이렇게 직접 mel-spectrogram을 추출하는 신경망 기반의 모델 또한 좋은 성능을 낼 수 있다는 것이 고무적이었고, 또 추가적인 실험에서 여전히 수작업으로 추출한 mel-spectrogram 또한 좋은 성능을 낸다는 점도 기억에 남습니다. 아직까지 음성처리는 우리 연구실에서 많은 지식을 가지고 있는 분야가 아닌데, 이번 세미나를 통해 음성처리 분야에 대해 전반적인 내용을 알 수 있어 유익했고, 기회가 된다면 우리 연구실에서 전문성을 가진 자연어나 이미지처리, 이상치 탐지와 융합하여 좋은 연구를 많이 진행할 수 있었으면 좋겠습니다. 마지막으로 직접 모델을 사용하여 발표 음성을 생성하고 결과물을 공유하는 적극적인 자세가 인상깊었고, 단순히 이론을 잘 전달하는 것을 넘어 실제 적용 측면에서 경험할 수 있는 내용을 공유해주어 청자로서 얻을 것이 많은 세미나였습니다. 발표 감사합니다.
이번 세미나 시간에는 김정희 학생이 음성합성분야에서의 대표적인 논문인 “TACOTRON2 : Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions” 을 주제로 다루어 보았습니다. 평소에 연구실 세미나에서 Vision 혹은 NLP관련한 연구들은 많이 다루어 보았지만 TTS와 같은 음성 쪽의 연구에 대하여 접할 기회가 적었는데, 해당 분야에 대한 지식이 많이 부족한 상황에서도 해당 논문을 이해할 수 있도록 친절하게 발표를 진행해 주었습니다. 특히, Mel-spectrogram과 WaveNet에 대한 내용들은 적절한 예시와 시각자료를 통해 빠르게 파악할 수 있었습니다. WaveNet의 경우, 과거 TCN 구조에 대한 이해와 더불어 사전에 알고 있었지만, 그 구조를 매우 잘 표현해주었던 것 같습니다. 앞으로도 세미나시간에 다양한 분야의 연구들을 계속해서 접하는 것 뿐만 아니라 좋은 연구성과로도 이어졌으면 하는 바램 입니다. 좋은 세미나 시간을 채워 주셔서 감사합니다.
이번 세미나에서는 대표적인 TTS model 타코트론2을 주제로 발표해주셨습니다. TTS task에서 text를 바로 음성으로 생성하는 것이 어렵기 때문에 1) Mel-spectrogram 생성, 2) 생성된 Mel-spectrogram으로부터 음성을 합성하는 2-stage로 진행되는데 타코트론 2는 첫번째 단계를 담당하며, 두번째는 WaveNet을 사용합니다. 우선 타코트론은 seq2seq model로 character를 input으로 받아 mel-spectrogram을 output으로 합니다. encoder에서 고정된 길이의 hidden vector로 변환하며 attention은 이 hidden vector로부터 시간 순서에 따라 추출된 정보를 decoder에 전달합니다. 마지막으로 decoder는 전달받은 정보를 이용해 mel-spectrogram을 생성합니다. loss는 생성된 mel-prediction과 정답 mel-spectrogram의 오차에 대한 MSE와, 생성된 종료 확률과 실제 종료여부의 차이를 binary cross entropy를 더한 값을 사용합니다. 타코트론 2로 생성된 mel-spectrogram을 음성으로 합성하는 것은 WaveNet입니다. 이는 과거의 음성 데이터와 mel-spectrogram이 주어졌을 때 그 다음 시점에 나타나는 음성의 조건부 확률을 계산하여 생성하는 model입니다. 음성데이터의 형태부터 매우 자세히 설명해주셔서 처음 접하는 분야였지만 이해에 큰 무리없이 흥미를 가지고 들었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나에서는 타코트론2에 대해서 세미나를 진행하였습니다. 타코트론1,2는 인코더와 vocoder로 이루져 있습니다. 여기서 타코트론 1은 이 vocoder는 GriffinLim을 사용하였고, 타코트론 2는 이 vocoder를 wavernet이라고 하는 dilated convolution을 사용하였습니다. 개인적으로 dilated convolution기반의 타임시리즈가 연산효율이 좋고 성능도 뛰어난 좋은 알고리즘이라는 점에서 타코트론2의 성능이 비약적으로 올랐다고 생각이 됩니다. 개인별 음성을 입히는 과정에서 어떤방식으로 서비스가 될 지 궁금하기도 하고, 궁극적으로 음성 분석을 하기 위해 시간의 길이에 따른 계산 복잡도가 오르는 문제를 어떻게 해결하지가 궁금합니다. 또다른 상황에서는 음성자체에 노이즈가 심한 경우, 나이에 따른 소리의 다양성들을 커버할수 있는 좋은 방법론이 나오게 되면 음성분야 발전이 크게 이루어질 것 같습니다. 좋은 발표 감사합니다.
본 세미나는 Text to speech, 즉 글을 소리로 옮기는 과정에 대한 내용이었으며 음성 자체가 주파수에 따라 분해하여 Mel Spectogram(MS)으로 나타낼 수 있으므로, 해당 MS를 재현하면 소리를 만들어 낼 수 있다는 것이 큰 골자였습니다. 이를 위해 먼저 Tacotron2를 활용하여 텍스트로부터 MS를 생성하는데 이때 Input을 텍스트, Output을 MS로 return하는 seq2seq 모델을 구성하며 이 때 텍스트와 소리의 위치가 잘 맞도록 Local Sensitive Attention을 활용합니다. 이에 대한 평가는 MS에 대한 MSE score를 적용하며, 실제 음성이 발화되는 길이와의 연관성도 고려하기 때문에 컴퓨터가 Token 단위로 읽어서 생성하는 것보다 더 자연스러운 MS를 생성할 것 같습니다. 이후 MS를 Wavenet의 입력으로 넣어 음성을 생성하는데 이 때, t 시점의 음성 데이터에서 t+1 시점의 음성에 대한 확률 계산을 통해 연속적인 Speech를 구성합니다. 모델에 대한 평가는 Mean Opinion Score를 활용하는데 이 때, 사람의 판단으로 Metric을 구성한것은 조금 의아하였습니다. 확실히 연구실에서 많이 다루는 분야가 아니어서 이색적인 주제가 좋았으며, 평소 자신의 연구 주제를 발전시키기 위하여 노력하는 모습을 본 받아야겠다는 생각을 하고 있습니다. 좋은 발표 들려주셔서 감사합니다.
이번 세미나는 김정희 석사과정의 Text-to-Speech(TTS)와 관련된 주제였습니다. TTS의 단계는 크게 문자열처리 -> 운율 후보 검색 -> 음성 조각 선택 -> 음성합성 으로 나눌 수 있습니다. 과거에는 이러한 단계를 거쳐 TTS가 이루어 졌다면, 현재는 딥러닝을 적용하여 End-to-End가 가능해 졌습니다. 이번 세미나에서 소개해준 논문은 Tacotron2 였으며, TTS를 텍스트로부터 Mel-Spectogram을 생성하는 단계와 Mel-Spectogram으로부터 음성을 합성하는 단계로 나누어 수행합니다.
먼저, 텍스트로부터 Mel-Spectogram을 생성하는 단계에서는 Encoder에서는 이전 시점의 정보를 반영한 Local Sensitive Attention을 사용합니다. 그리고, Decoder에서 생성된 Mel-Spectogram를 사용하여 현재시점의 Mel-Spectogram을 생성합니다.
두번째 단계는 WaveNet을 사용하여 Mel-Spectogram을 음성으로 생성하게 됩니다. WaveNet 구조는 Dilated Causal Convolution 레이어로 이루어진 Residual block으로 구성되어 있습니다. Dilated Causal Convolution을 통해 적은 레이어로도 receptive field를 넓게 볼 수 있는 장점이 있습니다.
이번 세미나에서 생소한 TTS분야에 대해 차근차근 예시를 들어 자세하게 설명해주셔서 이해가 정말 잘 되었습니다. 발표 감사합니다.
김정희 석사과정의 세미나 발표를 들었습니다. 오늘 발표 해주신 논문은 Text-To-Speech 관련해서 간략한 소개와 함께 TTS 분야에서 매우 유명한 Tacotron2 구조를 자세히 다뤄주셨습니다. 발표 초반부에 음성 데이터의 특징과, 음성 특질 추출 부분에서 Spectrogram, Mel-Spectrogram 등에 대해서 쉽게 설명해주셔서 이해가 수월했습니다. Tacotron 의 인풋으로는 Text 가 들어가게 되고 아웃풋으로는 Mel-Spectrogram 이 출력되는 상황인데 이를 위해서 인코더 단에서는 한국어 기준 초/중/종성 단위로 분리가 필요하며 이를 One-Hot 인코딩해서 인코더 인풋으로 넣어주게 되고 임베딩 레이어, Conv 레이어, bi-LSTM 레이어를 거쳐 Encoded Feature Vector 를 추출하게 됩니다. 이를 디코더 단에서는 Attention 기법을 적용하여 디코딩을 진행하게 되는데, TTS 특징을 조금 더 잘 살려주기 위해서 Local Sensitive Attention 을 적용했다고 합니다. 디코더 단에서는 총 3개의 파트가 존재하는데 현재 시점의 Mel-Spectrogram을 생성하는 부분과, 현재 시점에 종료확률을 계산하는 부분, Mel-Spectogram 의 품질을 향상시키는 부분이 있었습니다. 이후, Tacotron2 구조를 통해서 추출한 Mel-Spectrogram 을 WaveNet 을 Vocoder 로 사용하여 음성을 출력하게 되고 이를 실제 음성을 Ground Truth 로 하여 loss 를 줄이도록 학습을 하게 되면 TTS를 가능케 하는 모델을 학습시킬 수 있는 것을 잘 설명해주셨습니다. TTS 관련해서 호기심은 많이 가지고 있었으나 공부하기가 어려웠는데 쉽게 잘 정리해주셔서 도움이 많이 됐습니다. 발표 잘 들었습니다. 감사합니다.
개인적인 일정으로 세미나를 참석하지 못하여 유투브 영상을 시청한 후 세미나 후기를 작성합니다. 음성의 전반적인 아날로그 신호부터 스펙트로그램 까지의 변환과정을 이해하기 쉽게 설명하였습니다. 또한, 타코트론2 모델에 대해 상세한 설명이 좋았습니다. 타코트론2의 모델은 Seq2seq와 Vocoder라고 불리는 wavenet의 조합입니다. 특히 Seq2seq에서 기존의 Attention과는 다르게 음성 도메인의 시계열적으로 관련있게 정보를 활용하여 score를 산출하는 점이 인상적이었습니다. Seq2seq의 decoder부분에서 멜 스펙트로그램의 smoothing 과정을 진행할 때에는 전체 길이에 대해 멜 스펙토그램을 추출한 후에 해당 feature를 conv 연산을 통해 고품질의 멜 스펙트로그램을 추출합니다. 이러한 과정은 autoregressive 연산량을 획기적으로 줄이면서 전체의 시계열 멜 스펙토그램을 보기 때문에 모든 장점을 취한다고 생각하였습니다. 추가적으로 타코트론2 논문에서 상세하기 다루지 않은 wavenet도 본인만의 그림으로 conditional 부분으로 쉽게 설명한 점이 인상적이었습니다. 개인적으로 목소리 데이터를 수집하여 실험한 점, 세미나 발표자료를 이해하기 쉽게 가공하고 여러 블로그를 참조한 점 등과 같이 준비성과 열정에서 본받을 점이 매우 많았습니다. 좋은 발표 감사합니다.
이번 세미나는 저는 세미나로서 처음 접했던 TTS 모델인 타코트론2 논문에 관한 내용이었습니다. 타코트론은 직접 음성을 합성하는 것이 아니라 Mel-spectrogram을 생성하는 역할을 담당하는데, mel-spectogram은 local sensitive attention을 사용한 인코더로 text를 인코딩한 후 디코더를 통해 생성되는 데이터입니다. 이후 이렇게 생성된 mel-spectogram을 wave-net의 vocoder를 통해 음성으로 변환하여 출력하는데, dilated-convolution을 기반으로 하는 wavenet이 시계열 특성을 갖는 음성, 시계열 데이터 등에서 굉장히 좋은 성능을 낸다는 것은 알고 있었으나 실제 음성에 적용되는 TTS 분야의 이론을 접한 것은 거의 처음이라 굉장히 신기하기도 했고 신호를 직접 다뤄야 한다는 점에서 난이도가 있는 분야라고 생각하였습니다. 가장 흥미로웠던 부분은 음성 또한 이미지, 텍스트와 같은 어떠한 형태를 갖는 데이터이므로 이를 이용해 다양한 결과를 생성할 수 있다는 점입니다. 앞으로 해당 분야에 대해 더욱 많은 연구를 진행하셔서, 이번과 같은 흥미로운 세미나를 열어주시면 좋겠습니다. 좋은 발표 감사합니다.
김정희 석사과정과 평소 음성합성에 대한 이야기를 많이 나누었던 터라 본 세미나가 굉장히 재미있었습니다. 음성합성 분야는 신경망의 입력으로 들어가는 전처리부터 낯선 개념이 많이 등장하는데, 자세하게 조사하여 유의미한 결과물(실제 합성된 음성)까지 도출한 부분이 인상깊었습니다. Mel-spectogram이 시간 축으로 구성되어 있기 때문에 자연어처리 모델과 큰 맥락에서는 유사한 부분이 있어 흐름을 따라가기가 용이했고, 입력 데이터의 feature를 추출하는 과정에서 큰 receptive field가 필요한 음성의 특징 등에 대해 상세하게 설명해주셔서 많은 공부가 되었습니다. 다만, 사람의 음성을 합성하였을 때 정량적인 평가가 좋은가 정성적인 평가가 좋은가에 대해서는 스스로 답하기가 너무 어려운 문제 같습니다. 또한 음성의 경우 pitch, 빠르기 등 추가적으로 고려해야 할 특징이 너무 많아 정량적인 평가 기준으로 판단하는 것이 옳은지에 대해서는 의문이 들었습니다. 그렇기 때문에 연구실에서도 음성 분야에 흥미를 갖는 사람이 점점 많아져서 관련된 이야기를 나눌 수 있으면 좋겠습니다. 발표 감사히 잘 들었습니다.
평소에 연구실 세미나에서는 듣기 힘들었던 TTS에 관하여 진행 된 세미나였습니다. 타코드론2의 경우 스테디샐러 같은 논문으로 당연하게 old fashion한 구조를 가지고 있으며 성능또한 최근의 다른 방법론들에 비해 좋지 못합니다. 지속적인 세미나를 통하여 새로운 분야를 follow-up 할 수 있게 되어 좋습니다. 개인적으로는 NLP 분야와 유사하게 영어와 한글이 구조적으로 매우 다르기 때문에 한국어를 위한 모델들을 생성하는 것 또한 매우 유용하고 유의미한 연구 분야이지 않나 라는 생각을 합니다.
sequence-to-sequence를 통한 mel-spectogram을 생성한 후 wavenet을 이용해 음성을 합성하는 Text to speech모델인 타코트론2를 소개해주셨습니다. 타코트론은 글자(character)를 input으로 받아서 local sensitive attention을 사용한 seq2seq을 통해 mel-spectogram을 생성합니다. 이를 wavenet에서는 dilated causal convolution을 이용해 음성으로 변환하는데 이전에 다양한 시계열 모델에서 보았던 dilated convolution 연산이 여기서도 유용하게 사용되는 것이 흥미로웠습니다. 오랫동안 준비한 것이 잘 보였고 많은 것을 배울 수 있던 세미나였습니다. 좋은 발표 감사합니다.
이번 세미나는 TTS(Text To Speech), 즉 글을 소리로 옮기는 과정에 대한 내용이었습니다. 처음 듣는 분야의 세미나여서 흥미롭게 들을 수 있었습니다. 오늘 세미나에서 다룬 논문은 TTS 모델 중 가장 유명한 Tacotron2로, 고품질의 음성학습이 가능한 모델입니다.
음성데이터는 사람이 말하는 소리를 측정한 데이터로 X축은 시간, Y축은 진폭을 기록한 아날로그 데이터이고, 컴퓨터는 이를 샘플링해주어 디지털 데이터로 변환하여 사용하게 됩니다.
음성은 일반적으로 여러 주파수로 구성되어 있기에, 이에 따라 분해하여 Spectrogram이라는 데이터로 추출할 수 있고, 이 때 sliding window를 사용하면 시간, 주파수, 진폭에 대한 정보를 기록할 수 있습니다. 하지만, 이는 사람의 청력을 고려한 정보를 저장하지 않은 특징추출기법이었습니다. 그렇게 해서 나온 저주파 특징추출기법인 Mel Spectrogram(MS)이 나오게 되었습니다.
Tacotron2는 고품질 음성을 생성할 수 있는 딥러닝 TTS모델로, 먼저 텍스트로부터 MS를 생성하는데 이때 텍스트를 Input으로, Output을 MS로 return하는 seq2seq 모델을 구성하며 이 때 텍스트와 소리의 위치가 잘 맞도록 Local Sensitive Attention을 활용합니다(Tacotron2). 이후 생성된 MS를 입력으로 넣어 음성을 생성하는데 이 때, t 시점의 음성 데이터에서 t+1 시점의 음성에 대한 확률 계산을 통해 연속적인 Speech를 구성합니다(WaveNet).
처음 들어본 생소한 개념이었음에도 불구하고 앞에 기본적인 개념들을 설명해주셔서 너무 흥미진진하게 잘 들을 수 있었던 것 같습니다. 좋은 발표 감사합니다.
금일 세미나에서는 대표적인 음성합성 모델인 tacotron2 에 대한 발표가 진행되었습니다. 먼저 tacotron2 는 text 로부터 mel-spectogram을 생성해내는 모델입니다. 이를 위해 text를 먼저 melspectogram 으로 변환하고, mel spectogram 을 다시 음성으로 합성하는 과정을 거칩니다. 먼저 Encoder 단에서 전처리된 text 를 입력으로 받고 decoder 에서는 local sensitive attention 을 적용하여 TTS 특징에 맞는 text 와 mel-spectogram 을 align 하도록 합니다. 또한, mel-spectogram 을 계속 생성할 것인지와 현재 시점의 mel-spectogram 을 생성하는 일을 수행합니다. 이후 WaveNet 을 적용하여 생성된 mel-spectogram 으로부터 음성을 합성해냅니다. 음성합성분야가 익숙하지 않았는데, 꼼꼼하게 설명해주셔서 이해하기 좋았습니다. 감사합니다.
이번 세미나는 TTS의 대표 방법인 tacotron2에 대한 세미나였습니다. 우선 음성 데이터를 추출하려면 Mel-Filter Bank 방법을 사용하여 혼합된 주파수를 분해하여 시간 별로 표현합니다. Tacotron2는 총 두가지의 단계로 분해됩니다. 우선 텍스트로부터 mel-spectrogram을 생성하고( tacotron2를 학습), mel-spectrogram으로부터 음성을 합성(wavenet을 학습)합니다.
Tacotron2를 학습할 때는, conv와 bi-LSTM으로 input을 처리한 다음, attention을 적용해 decoder에서 사용할 정보를 만들어줍니다. 그리고 decoder에서는 mel-spectrogram을 생성합니다. WaveNet은 과거 시점까지 음성데이터와 mel-spectrogram을 조건으로 한 시점 뒤 특정 음성의 등장 확률을 추출하는 모델입니다.
세미나 초반에 다소 생소한 음성 데이터에 대한 특징을 설명하여 모델에 적용되는 방법의 이해가 더 잘 되었습니다. 또한 tacotron2와 WaveNet의 구조를 단계별로 자세하게 설명해주어서 이해가 잘 되었습니다. 음성 데이터를 다룰 때에는 base가 되는 두 모델에 대해서 이해할 수 있는 세미나였습니다. 감사합니다.
금일 발표는 "TACOTRON2"라는 주제로 진행되었습니다. 본 발표에서는 TTS 모델 중 음성 합성 품질이 뛰어난 TACOTRON2 방법론이 소개 되었습니다. 본 방법론은 텍스트로부터 Mel-spectrogram을 생성하는 TACOTRON2과 Mel-spectrogram으로부터 음성을 합성하는 WaveNet으로 구성 되어있습니다. 이 중 WaveNet은 특히 time series anomaly detection에서도 자주 언급되는 모델이기 때문에 더 관심을 가지고 발표를 청취하였습니다. 개인적으로 요즘 follow-up하는 논문들 중 dilated CNN/RNN을 사용하는 방법론들을 많이 접하였는데, WaveNet도 dilated CNN을 기반으로 하는 모델이기 때문에 본 발표를 청취하며 다양한 길이의 sequence 정보를 반영하는 것이 굉장히 중요한 역할을 한다는 것을 다시 한 번 느꼈습니다. 음성 분야의 경우 저희 연구실에서 거의 다루지 않는 분야인데, 해당 분야를 세미나에서 지속적으로 접할 수 있어 좋았고 특히 발표자가 실제로 직접 구현한 결과물을 함께 보여준 부분도 인상 깊었습니다. 좋은 발표 감사합니다.
저희 연구실에서 많이 다루어지지 않은 주제인 Text to speech 관련 세미나 였습니다. 지난번 동화형의 mel spectrogram 을 한번 듣고, 관련된 데이터를 보게된 경험이 있었는데, 도움을 많이 받았었던 경험이 떠올랐고, 우선 다양한 도메인의 주제를 세미나를 통해 들을 수 있는것이 매우 유익했습니다. 본 논문에서는 mel spectrogram 을 이용한 TACOTRON2 와 Wavenet 을 사용하고 있습니다. wavenet 은 dilated cnn 을 기반으로 음성데이터에 적용된 방법으로 대표적인 논문으로 설명되었습니다. 끝으로 발표자의 실험적인 부분을 볼 수 있었습니다. 좋은 발표 들을수 있어서 감사합니다.
이번 세미나는 TACOTRON2를 주제로 진행되었습니다. 음성 관련 세미나가 많지 않은데 새로운 분야를 접할 수 있어 재미있게 들었습니다. 발표자료 구성과 흐름이 탄탄해 TTS에 대해 기본적인 개념이 없더라도 놓치지 않고 따라갈 수 있었습니다. 소개해주신 논문은 TTS모델중 굉장히 유명한 모델로 음성을 생성해내는 task를 수행합니다. 먼저 텍스트로 부터 mel spectrogram을 생성하고, mel spectrogram으로부터 음성을 합성합니다. 이 중에서도 mel spectrogram을 딥러닝 기반으로 추출하는 모델이 타코트론 2라고 볼 수 있습니다. 그후 wave net으로 음성 합성을 진행했고 이러한 과정이 모델 기반으로 좋은 성능을 내는게 신선하게 다가왔습니다. 좋은발표 준비해주셔서 감사합니다
이번 세미나에서는 Text Data로부터 고품질의 음성을 생성할 수 있는 Tacotron2 모델에 대해 소개해 주셨습니다. Tacotron2의 경우 Text-to-Speech (TTS) 분야에서 근간이 되는 모델로, Text Data로부터 Mel-Spectrogram을 생성하는 부분과, Mel-Spectrogram으로부터 음성을 합성하는 부분으로 구성되어 있습니다. 일반적으로 Text Data로부터 Mel-Spectrogram을 생성하는 부분을 Tacotron2, Mel-Spectrogram으로부터 음성을 학습하는 부분을 Wavenet으로 언급합니다. Tacotron2의 경우 Encoder, Attention, Decoder로 구성되어 있으며, Attention 부분은 매 시점 Decoder에서 사용할 정보를 Encoder에서 추출하고 할당하는 역할을 수행합니다. Decoder의 경우 Mel-Spectrogram을 추정하는 부분과, Stop Token을 추정하는 부분으로 구성되어 있고, 각각의 Loss를 합하여 학습을 수행합니다. 이후에 Tacotron2를 통해 생성된 Mel-Spectrogram을 이용하여 음성을 합성합니다. WafeNet의 경우 30개의 Residual Block으로 구성되어 있고, 각 Residual Block에서 추출된 Output을 Skip Connection을 이용하여 합친 뒤, 최종 Output으로 사용합니다. Residual Block의 경우 Dilated Casual Convolution과 Gated Activation Unit으로 구성되어 있습니다. 개인적으로 TTS에 대한 지식이 많지 않은데, 본 세미나를 통해 TTS의 큰 구조를 파악할 수 있었습니다. 감사합니다.