[Paper Review] Speech to Speech Translation

Paper Review
작성자
Jounghee Kim
작성일
2021-12-28 16:12
조회
3915
[ 발표 요약 ]

1. Topic

Speech to Speech Translation

2. Overview

Speech to Speech Translation(S2ST)이란? 특정 언어의 음성을 목표로 하는 언어의 음성으로 변환하는 시스템을 의미한다.
초기 시스템은 기능을 나누어 음성 인식(ASR), 번역(MT), 음성 생성(TTS)을 차례로 수행함으로써 음성 번역을 수행하였다.
최근에 딥러닝과 관련된 방법론들이 발달되면서 음성 번역 과업을 하나의 모델로 수행할 수 있는 End-to-End 방법론이 개발되었다.

오늘 세미나는 구글에서 개발한 최초의 음성 번역 End-to-End 모델인 Translatotron과 최근에 이를 개량한 Translatotron2를 소개한다.

[1] Direct speech-to-speech translation with a sequence-to-sequence model : Translatotron

본 논문에서는 음성 번역 시스템의 작업을 하나의 모델로 수행할 수 있는 End-to-End 아키텍처를 제안한다.
그리고, End-to-End 아키텍처가 음성 번역 과업을 잘 수행할 수 있도록 보조 인식 작업을 함께 학습하는 Multi-task learning 방법론을 적용한다.
실험 결과를 통해 고유명사와 같은 독특한 단어의 음성이 번역 음성에 보존된 것을 확인할 수 있다.

[2] Robust direct speech-to-speech translation : Translatotron2

본 논문은 Attention 기반 생성 모듈을 Duration 기반 생성 모듈로 변경하여 Robust한 음성을 생성함으로써 translatotron 의 단점을 보완한 방법을 제안한다.
또한 보조 인식 작업을 통해 생성된 음운 정보를 번역 음성 생성에 직접적으로 활용하는 방법을 제안하여 번역 및 음성의 품질을 향상시켰다.

3. 발표자료 및 발표영상

[1] 발표자료 : 하단첨부

[2] 발표영상 : ">[LINK]
전체 21

  • 2021-12-28 19:13

    이번 세미나에서는 Speech-to-Speech Translation에 대해 소개해 주셨습니다. 특정 언어로 구성된 발화를 동일한 의미의 다른 언어로 구성된 발화로 변환한다는 문제 정의 자체가 현실에서 매우 널리 사용될 수 있는 흥미로운 문제로 느껴졌습니다. 소개해 주신 Translatotron의 경우 선행 연구들이 음성 인식을 수행하고 자연어 수준에서 번역을 처리한 뒤 음성을 합성하거나, 음성번역을 먼저 수행한 뒤 음성합성을 수행한 것과 달리, 전체 과정을 단일 모델로 직접 음성을 번역하는 End-to-End 구조를 활용하였습니다. 자연어 토큰의 경우 이산적 특성을 가지고, 음성의 경우 연속적인 특성을 갖기에, 기존 번역 모델이 이러한 데이터의 특성을 잘 반영할 수 있도록 모델의 구조를 설계한 것으로 보입니다. 문제 자체가 매우 흥미로웠기에, 향후 어떠한 발전이 등장할지 지켜보고 싶습니다. 감사합니다.


  • 2021-12-31 21:16

    이번 세미나는 speech-to-speech 음성 translation을 목적으로 한 Translatotron에 대한 세미나였습니다. 음성의 특징을 추출하고, 번역을 수행한 뒤, 음성 합성하는 절차를 갖는데, 이때 번역을 수행할 때는 딥러닝 아키텍처를 활용하여 source Log-mel spectrogram에서 target spectrogram을 생성하여 수행합니다. Translatotron은 최초로 end-to-end translation을 시도한 방법론으로, 매우 실용적인 방법론입니다. 그 이후에 등장한 방법론인 translatotron2는 translatotron 첫번째 방법론에서 더 나아가 attention 기반 생성 모듈을 Duration 기반 생성 모듈로 변경하여 robust한 음성을 생성한 방법론입니다. 계속적으로 음성에 대한 연구를 진행하시고, 음성 관련 세미나를 서로 다른 주제로 설명해주셔서 다른 연구 분야에 대해 익힐 수 있었습니다. 감사합니다.


  • 2022-01-02 00:25

    발표자님의 관심 분야인 speech domain에 관련한 세미나였습니다. 본 세미나에서는 두 가지 논문을 통해 speech-to-speech translation에 대해 알아보았습니다. 두 논문 모두 구글에서 진행된 연구이며 그들이 가지고 있는 언어 번역 기술이 녹아들어 있는지, 혹은 논문은 연구용이고 서비스용은 다른 로직을 가지고 있는지 궁금했습니다. 일반적으로 이러한 task에서 end-to-end 방식의 딥러닝 모델만으로는 서비스에서 필요한 성능을 달성하기 어려운 것으로 알고 있는데 본 연구는 end-to-end를 지향하고 있어서 신기했습니다. 또한 어려운 점이라고 짚어주신 연속적인 space를 지니는 인풋과 이산적인 특성을 가지는 단어간의 맵핑에 대한 문제는 공감이 되었고 앞으로도 잘 풀어 나가야 하는 부분이라는 생각이 들었습니다. 지난번 최성준 교수님 세미나에서 모든 딥러닝 연구자가 end-to-end를 지향하는 것은 아니라는 말씀을 해주셨는데 이런 문제도 파이프라인을 나눠서 풀어보면 좋지 않을까 라는 생각을 하였습니다. 그간 지속적으로 음성에 대한 세미나를 진행해 주셔서 많이 배울 수 있었습니다. 감사합니다.


  • 2022-01-02 16:31

    본 세미나는 Speech-to-Speech Translation이라는 주제가 소개되었습니다. 이는 Source 언의 음성을 Target 언어의 음성으로 변환하는 것으로 통역하는 것으로 쉽게 이해할 수 있습니다. 기본 흐름은 음성인식을 통한 Source 텍스트 추출, 추출된 text의 번역, 번역된 target 텍스트의 음성합성으로 볼 수 있습니다. 또는 source 음성인식과 번역이 동시에 이루어질 수도 있고 End-to-End로 진행할 수 있습니다. 이러한 End-to-end 방법론 중 Translatotron 1과 2가 본 세미나에서 다루어졌습니다. 개인적으로 어떤 형태로 음성데이터를 다룰까에 대해서 궁금했었는데 스펙토그램이 이의 해당 됨을 알 수 있었습니다. 특히 본 방법론에서는 사람은 저주파에 민감하기에 Mel filter bank라는 가중치를 이용하여 mel-spectogram이란 것을 이용하게 됩니다. Translatotron의 구조는 정보추출, 보조 인식 작업, 번역 음성 생성으로 구성되어있습니다. Translatotron 2에서 변화되는 것은 Attention 기반 생성모듈이 아닌 Duration 기반이 된 것, target decoder에서 생성된 target 음운 정보를 음성생성 모듈에 포함 시키며 음성인식의 정보를 직접 활용하는 점 입니다. 개인적으로 SST기술이 실생활에서 가장 많이 활용될 기술 중 하나라고 생각합니다. 이에 따라 음성인식, 음성합성에 대한 기본적인 지식은 가지고 있어야 하지 않을까 생각합니다. 마지막까지 퀄리티 높은 세미나 준비해주신 김정희 선배님께 깊은 감사의 말씀드리며 앞으로 하시는 일 모두 잘 되시기를 기원하겠습니다. 감사합니다.


  • 2022-01-03 11:11

    이번 세미나는 Speech-to-Speech Translation을 주제로 진행되었습니다. Speech-to-Speech Translation이란 음성을 입력으로 받아 타겟 언어로 변환하여 출력하는 것을 의미합니다. 본 세미나에서는 해당 task의 end-to-end 방법론인 Translatotron, Translatotron2에 대해 진행되었습니다. Translatotron은 최초의 end-to-end 방법론입니다. 먼저 Fourier 변환을 통해 spectrogram, Mel Bank 가중치를 적용하여 Mel-spectrogram을 추출합니다. 그 다음 source encoder와 speaker encoder를 통해 내용과 화자 정보를 추출하고, Attention과 decoder를 통해 음소 생성, multi-head attention과 decoder를 통해 번역 음성을 생성합니다. Translatotron2는 앞선 Translatotron을 attention을 duration으로 변경하여 robust한 음성을 생성하게 하였고, 보조작업 아키텍처에서 생성된 target 음운 정보를 음성생성 모듈에 포함시키거나, source encoder에 BiLSTM 대신 Conformer 구조를 사용하는 등 변화를 주어 성능을 개선한 방법론 입니다. Speech-to-Speech Translation에 대한 기초적인 설명부터 자세히 설명해주셔서 흐름을 이해하기 쉬웠으며, 실제 변환된 음성을 들을 수 있어 재미있었습니다. 그간 발표자분의 발표를 들으면서 음성 분야에 대해 많이 들을 수 있어 좋았으며, 항상 발표 퀄리티가 좋아서 배우고 싶었습니다. 그동안 감사했습니다.


  • 2022-01-03 14:48

    이번 세미나에서는 Speech-to-Speech Translation을 주제로 Translatotron, Translatotron2에 대해 소개되었습니다. S2ST는 음성 데이터를 입력으로하여 번역된 음성 데이터를 출력하는 task를 말합니다. 전체 과정은 입력된 음성 데이터를 텍스트로 변환하는 음성 인식과 텍스트를 target 언어로 번역하는 번역과정, 그리고 번역된 텍스트로 음성을 생성하는 TTS로 나눠집니다. 각각의 문제를 한 번에 풀기 어렵기에 초기에는 이를 나눠서 수행하는 연구들이 제안되다가 Translatotron에서 처음으로 전체과정을 end to end로 학습할 수 있는 구조를 제안하였습니다. Translatotron은 S2ST의 전체 과정을 Feature Extraction(음성 특징 추출), Translatotron(번역 수행), Vocoder(음성 합성)의 단계로 나누어서 구조를 설계하지만 이들을 각각 학습하는 것이 아닌 end to end로 학습하게 됩니다. 이를 통해 학습 과정을 줄이고 보조인식 작업을 함께 활용해 어느 정도의 성능향상도 있었지만 각각의 어려운 task들을 한 번에 학습하기에 cascade 시스템보다는 성능이 떨어진다는 한계점이 있었습니다. Translatotron2에서는 Attention기반의 생성 모델을 Duration 기반으로 변경하는 것으로 original translatotron의 단점을 보안하여 좀 더 robust한 음성을 생성할 수 있음을 보여줍니다. 이번 세미나를 통해 speech to speech translation task라는 다소 생소한 분야의 발전과정부터 end to end의 학습 구조까지 잘 공부할 수 있었던 것 같습니다. 좋은 발표 감사드리며 사회에서도 높은 역량을 뽐내며 인정받으시기 바랍니다. 화이팅입니다 !


  • 2022-01-03 17:20

    이번 세미나에서는 translatotron에 대해서 설명해 주셨습니다. 음성 인식(ASR), 번역(MT), 음성 생성(TTS)을 차례로 수행함으로써 음성 번역을 수행한다는 면에서 3가지 task를 동시에 모두 수행한다고 할 수 있습니다. MFCC의 특징을 BiLSTM를 사용해서 음성 특징을 뽑아내고, 화자의 정보를 같이 주기 위해서 Speaker Encoder도 도입된다는 것도 알 수 있었습니다. Decoder 단계에서는 Translation에서 많이 사용되는 있는 decoder 구조의 생성기법을 사용되었습니다. 세부적으로 어느 시점에서 멈추는 확률을 별도로 추가하는 모듈이 있었고 (binary cross entropy), 각 spectrogram을 생성시키는 과정으로 이루어졌습니다 (mean square error 사용). 이 Task에서도 back-translation과 같은 텍스트데이터를 음성데이터로 변환하는 과정을 활용하였습니다. Translatotron2에서는 디코더의 음운정보를 인코더 추가하는 모듈 구조를 제안하였습니다. 텍스트의 강한 특징들을 더 음성에 반영했다는 면에서 안정적인 학습구조인지 않나 싶습니다. 좋은 발표 감사합니다.


  • 2022-01-03 21:49

    금일 세미나에서는 Translatotron과 Translatotron2 모델에 대한 소개가 있었습니다. Translatotoron은 기존의 음성번역, 음성인식, 음성합성 모듈을 개별적으로 조합한 cascade 방식이 아니라, end-to-end 프레임워크로 음성 직접 번역을 수행한 모델입니다. Translatotron은 음성으로부터 mel-spectrogram을 생성하고, 이 source mel-spectrogram을 target spectrogram으로 직접 translation을 시켜, 최종적으로 vocoder를 통해 음성을 출력하게 됩니다. encoder는Bi-LSTM으로 source encoder와 speaker encoder로 구성이 되고, source encoder로부터는 번역을 위한 특징이 추출되며 speaker encoder로부터는 target 화자의 목소리의 condition 정보를 추출합니다. 이에 학습시에만 보조적으로 attention을 활용하여 decoding을 수행하는데, low level에서는 source음소, high level에서는 target의 음소를 생성하도록 동작합니다. 학습과 추론 모두에서 사용되는 tacotron2 decoder를 통해서는 target 음성의 spectrogram이 생성됩니다. 이를 보다 개선한 모델이 Translatotron2이며, 여기에서는 attention 이 아닌, gaussian upsampler를 통해 duration 기반 음성을 생성을 하도록 하였고, 보조적인 ASR decoding 결과물인 target 음소 정보를 직접 활용하여 번역 음성을 생성하고자 했습니다. 또한, Source encoder는 Conformer로 대체했습니다. 이로써 end-to-end 음성 번역 모델의 성능을 cascade 모델과 유사한 수준까지 높이게 되었습니다. 연구 흐름과 제안된 방법론의 세부 동작 과정을 자세하게 발표자료에 시각화해 주셔서 이해에 많은 도움이 되었습니다. 그동안 음성과 관련된 유익한 발표 들려주셔서 감사했습니다.


  • 2022-01-03 22:36

    이번 세미나는 speech-to-speech translation을 위한 end-to-end 모델 Translatotron과 Translatotron2를 주제로 진행되었습니다. 발표자님께서 꾸준히 관심을 가지고 연구해오신 음성 분야에 관한 세미나인 만큼 초반 연구 흐름 정리를 깔끔하고 명확하게 진행해주셨습니다. 음성 분야가 익숙하지 않을 연구실 구성원들을 위해 기초 task 설명부터 음성 번역 연구의 발전 흐름까지 세세하게 짚어주셔서 감사합니다. 음성 번역은 기계번역과 비슷하게 source 언어의 음성을 target 언어의 음성으로 변환하는 것을 목표로 합니다. 보통 음성 번역이라 하면 source 음성을 인식하고 번역한뒤 합성하는 3단계로 나눠 생각할 수 있는데, translatotron은 각 모듈을 독립적으로 개발하는 것이 아닌 end-to-end 프레임워크를 고안하여 하나의 모델로 바로 음성 번역을 수행하는 것을 목표로 합니다. 신호처리 기술을 통해 source 음성에서 특징 벡터를 추출하고, 모델을 거쳐 target spectogram이 생성되며, 이를 vocoder를 통해 음성으로 변환합니다. 이때 source mel-spectogram에서 target spectogram을 생성하는 번역 과정을 translatotron 모델이 수행합니다. 이렇듯 translatotron 구조를 정보추출, 보조 인식 작업, 번역 음성 생성의 3가지 하위 구조로 나누어 볼 수 있고, Translatotron2는 보조 인식 작업에서 생성된 target 음운 정보를 생성 모듈에 포함시켜 직접적으로 음성인식 정보를 활용한다는 특징이 있습니다. 이번 세미나가 발표자님의 졸업 전 마지막 발표였는데, 그동안 고생 많이 하셨고 마지막까지 유익한 발표 진행해주셔서 감사합니다.


  • 2022-01-03 23:20

    금일 세미나는 "Speech to Speech Translation"라는 주제로 진행되었습니다. 본 발표에서는 주어진 언어의 음성을 변환하고자 하는 언어의 음성으로 변환하는 Speech to Speech Translation가 소개되었고, 최초로 제안된 End-to-End Speech to Speech Translation 모델인 Translatotron과 Translatotron2가 소개되었습니다. 개인적으로 Translatotron이 기존에는 순차적으로 수행되었던 음성 특징 추출, 번역, 음성 합성을 multitask learning을 통해 통합한 점이 인상 깊었습니다. 또한, Translatotron2에서 Translatotron의 attention 기반 생성 모듈을 duration 기반 생성 모듈로 변경하여 robust한 음성을 생성한 점도 흥미로웠습니다. 특히 duration 기반 생성 모듈은 처음 접했는데 NLP의 특징을 반영하는데 좋은 방식 같다는 생각이 들었습니다. 좋은 발표 감사합니다.


  • 2022-01-04 11:43

    이번 세미나에서는 "Speech to Speech Translation"이라는 주제에 대해 발표를 진행해주셨습니다. S2S에는 text 추출 단계를 거치는 cascade 등의 방법론도 있지만, Translatotron과 같은 방식은 그러한 중간 연산이 없이 speech를 바로 speech로 변환하는 방법론입니다. Translatotron의 경우 우선 입력 음성으로부터 신호처리 기술 기반의 음성 특징 벡터를 추출하는 정보 추출 아키텍처와 보조 인식 아키텍처, 그리고 번역 음성을 생성하는 아키텍처로 이루어져있습니다. 정보 추출 아키텍처의 경우 LSTM을 기반으로 해서 화자의 특징 벡터를 생성하게 됩니다. 보조 인식 아키텍처는 마찬가지로 LSTM으로 구성되나 인코더의 고층 레벨에서 타겟의 정보를 추출할 수 있도록 합니다. 최종 아키텍처인 번역 음성 생성 아키텍처는 앞서 인코딩된 정보를 활용해 각 시점마다의 spectrogram 및 종료 확률을 계산하는 디코더 역할을 수행합니다. S2S는 음성 번역 분야에서의 끝판왕이라는 느낌이 들었고, 앞으로 어떤 모델이 제안되어 발전을 하게 될 지 궁금합니다. 마지막 발표까지 음성에 대해 질 높은 세미나를 진행해주셔서 감사하고, 그동안 수고 많으셨습니다. 앞으로 꽃길만 걸으시길 바라겠습니다.


  • 2022-01-04 16:22

    이번 세미나에서는 음성번역관련 방법론에 대해서 정리하는 시간을 가졌습니다. translatotron2 아키텍쳐에서는 conformer 구조를 사용하며 gaussian upsampler 를 사용한 스팩토그램 디코더를 통해 feature 를 생성하는 방법이 인상깊었습니다. attention 의 약점, 문제를 다른 방법으로 해결하는 시도를 보였고, loss 구성에서 음소 예측, duration 예측, mel spectogram 예측 목적식이 함께 적용되는 것을 확인했습니다. 다양한 정보를 단계별로 적용한 loss 는 최근 딥러닝 모델의 트렌드 인것 같습니다. 연구실에서 많이 접하지 못한 음성에대한 많은 논문들을 양질의 자료로 접할 수 있어서 좋았고, 음성 도메인에서 사용한 기법을 통해 다른 시계열 같은 모델에 적용할 수 있는 방법론을 적용 할 수 있어서 유익했습니다. 마지막 발표에도 양질의 자료와 실험을 제공한 점은 매우 본받아야 한다고 생각합니다. 감사합니다.


  • 2022-01-04 20:17

    Speech to speech translation에 대해 설명해주셨습니다. 음성 관련 흥미로운 어플리케이션을 자주 설명해주셔서 좋습니다. 개인적으로는 speech 분야는 end task에 걸쳐 있는 경우가 대부분이라 end-to-end가 아닌 pipeline 기반의 방법론이 당장은 더 활용성이 높지 않을까 생각하지만 추후 발전을 기대했을 때는 end-to-end 역시 가치있는 시도인 것 같습니다. Src mel-spectrogram을 tgt mel-spectrogram으로 '번역'하는 과정에서 기존 translation task에서 발생했던 여러 이슈가 동일하게 존재하고 해결가능한지 기대되었습니다. 이전에 low-resource translation에서 transfer learning을 통해 효과적으로 학습한 논문을 보았는데 음성에서 동일한 접근이 가능하다면 활용성이 높을 것 같습니다. 세미나 잘 들었습니다.


  • 2022-01-04 22:17

    먼저, Speech to Speech Translation(S2ST)란 특정 언어의 음성을 목표로 하는 언어의 음성으로 변환하는 시스템을 의미합니다. 초기 S2ST는 기능 3단계로 나누어 음성 인식(ASR), 번역(MT), 음성 생성(TTS)을 차례로 수행함으로써 음성 번역을 수행하였으며, 점차 발전되어 오면서 2단계, End-to-End 방법론까지 발전되어 왔습니다. 금일 세미나는 구글에서 개발한 최초의 음성 번역 End-to-End 모델인 Translatotron과 이를 개량한 Translatotron2를 소개해 주셨습니다.

    [1] 가장 먼저, Translatotron 논문에서는 음성 직접 번역(S2ST)을 적용하여 Target 음성 생성하는 End-to-End 아키텍처를 제안합니다. 번역 수행과정은 Feature Extraction을 통해 음성 특징 벡터를 추출하고, Traslatrotron을 통해 번역을 수행하고, 마지막 단에 Vocoder를 통해 Spectrogram을 음성으로 변환해줍니다. 핵심 구조인 Translatotron은 정보추출, 보조인식작업, 번역음성생성 파트로 세분화할 수 있습니다. 각각 음성 번역에 필요한 정보를 추출 및 요약, 모델이 번역과 관련된 정보를 잘 학습할 수 있도록 보조, 인코딩 정보를 바탕으로 spectrogram을 생성합니다.

    [2] 다음으로 Translatotron2는 기존의 Attention 기반 생성 모듈을 Duration 기반 생성 모듈로 변경하여 보다 더 Robust한 음성을 생성함으로써 이전 모델의 단점을 보완합니다. 또한 앞에서 소개했던 보조인식작업을 통해 생성된 음운 정보를 번역 음성 생성에 직접적으로 활용함으로써 번역된 음성을 생성합니다. 뿐만 아니라 Source Encoder단에서 BiLSTM 대신 Conformer구조를 적용함으로써 point-wise local 정보와 Multi-head Attention Module을 통해 Global한 정보를 취합할 수 있도록 하였습니다.

    발표자 분의 음성에 대한 열정을 마지막까지 느낄 수 있던 발표였던 것 같습니다. 항상 음성 관련 흥미로운 논문 및 개념을 소개해주셔서 감사합니다.


  • 2022-01-05 19:09

    오늘 세미나는 speech to speech translation에 대한 내용으로 진행되었습니다. 음성인식, 번역, 음성 생성을 단계별로 수행하던 기존 연구들과 달리, 최근에는 end-to-end 방법론이 많이 연구되고 있습니다. 오늘 세미나에서 소개해주신 Translatotron2 역시 end-to-end로 음성번역을 수행하는 모델로, source 음성으로부터 생성한 mel-spectogram을 target spectogram으로 바로 매칭하여 이를 vocoder가 음성으로 변환함으로써 음성 직접 번역을 가능하게 했습니다. 특히, Translatotron2는 기존 attention과 달리 duration 기반으로 음성을 생성할 수 있도록 gaussian upsampler를 사용하였습니다. 음성 분야에 대해 자세히 설명해주셔서 그간 많은 도움을 받았습니다. 마지막 세미나까지 고생하셨습니다. 감사합니다.


  • 2022-01-09 23:33

    본 세미나는 발표자의 연구 주제인 음성 분야에 대한 주제였으며, 실시간 언어 통역인 Speech-to-Speech Translation의 대표 모델 Translatotron 1/2를 소개해주었습니다. 기본적으로 Translatotron은 기존 절차인 A언어에 대한 음성 인식 후 해당 언어를 B 언어로 기계 번역을 실시한 뒤, 음성 합성을 활용해 B 언어의 음성을 생성하는 절차 대신, End-to-End로써 두 언어에 대한 실시간 통역을 진행할 수 있다는 데에 의의가 있습니다. Translatotron은 음성 특징 추출, Source Log-mel Spectrogram에서 Target의 것을 생성한 뒤, 음성으로 변환하는 절차를 가지며, 이어 등장한 2번째 모델은 Attention 기반 생성 모듈을 Duration 기반 생성 모듈로 변경하여 노이즈에 강건한 음성을 생성하여 첫번째 모델의 문제를 보완하였습니다. 연구실 내의 자기만의 연구 주제를 확고히 하여 노력하는 모습이 언제나 멋있었으며 이번 세미나를 포함하여 지난 발표들이 모두 잘 이어지는 구조여서 좋았습니다. 감사합니다.


  • 2022-01-14 16:15

    이번 세미나는 S2ST를 주제로 진행해주셨습니다. 이는 특정 음성을 타겟 음성으로 변환하는 작업으로 기본적으로 음성 인식 - 번역 - 음성 생성에 이루는 과정을 포함하고 있는 작업이었습니다. 굉장히 폭 넓게 다양한 비즈니스에 응용될 수 있는 연구라는 생각이 들었습니다. 따라서 구글 같은 초거대 기업에서도 관심을 갖고 연구를 진행하는게 납득이 되었습니다. 이번 세미나에서는 [음성인식-번역-음성생성]의 과정을 end-to-end를 통해 해결한 Translatotron과 Translatotron2를 소개해주셨습니다. Translatrotron에서 해당 과정을 end-to-end로 구현하기 위한 학습 과정이 인상 깊었고, 이를 개량한 version 2에서는 노이즈에 강건한 모델을 만들기 위해 duration 기반의 음성 생성 방식을 채택한 부분이 인상 깊었습니다. 잘 모르는 분야지만 해당 분야에 대해 잘 이해할 수 있도록 설명해주셔서 좋았습니다. 좋은 발표 감사드립니다.


  • 2022-01-26 21:47

    Speech domain에 대한 연구분야 중 speech to speech translation task에 대해 소개해주셨습니다. Speech task들은 domain 특성상 기존 nlp 모델들과는 상이한 구조를 가지고 있지만, 최근 e2e 모델의 성능이 높아짐에 따라 단일 모델로 좋은 성능을 낼 수 있는 프레임워크가 제안되고 있습니다. 논문에서 제안한 방법을 살펴보면, 더 좋은 PLM을 사용하는 것 만큼 generation model이 적절한 음성을 return할 수 있도록 decoder의 기능을 세분화 하는것이 인상적이었습니다. 그 중에서도 duration prediction에 해당되는 Translatotron2가 인상깊었습니다. melspectogram과 음소를 align 시켜주는 과정이 decoder에서 핵심적인 역할을 수행한다고 생각하였으며, gaussian upsampler를 통해 feature를 생성하는 방식이 신선하게 느껴졌습니다. text generation에서는 동일한 token을 반복하지 않기 위해 trigram blocking과 같은 테크닉들을 사용하나 해당 모델은 gaussian upsampler를 통해 통계쩍으로 동일한 발음이 생성되지 않도록 만들어주는 과정을 진행합니다. 기존에 이미 제안되어 널리 사용되는 방법론들이 존재하더라도 다양한 방법으로 문제를 해결하는 관점을 키우는것이 중요하다는 것을 배울 수 있었습니다. 감사합니다.


  • 2022-01-28 16:05

    오늘 소개해주신 내용은 speech-to-speech translation에 대한 전반적인 연구 흐름이었습니다. 이전부터 음성분야의 연구를 위주로 소개해주셔서 내용을 따라가는데 좋았습니다. 오늘은 음성 분야에서도 stylegan과 같이 다른 음성 스타일로 학습가능한 translatotron에 대해 설명해 주셨습니다. 세미나 내용은 speech to speech translation 순차적으로 세부적인 sub-task로 해결하는 방법부터 end-to-end 구조로 구성하여 학습 과정까지 설명해주셔서 흐름을 알기 좋았습니다. 마지막으로는 보다 robust하게 변환할 수 있는, translatotron을 개선한 translatotron2에 대해 설명해주셨습니다. 세미나를 위해 직접 재현하고 결과 파일을 공유해주셔서 음성 분야가 생각 이상으로 빠르게 발전하고 있다는 것을 느꼈습니다. 마지막까지 좋은 발표 감사합니다.


  • 2022-02-08 14:28

    금일 세미나는 Speech to Speech Translation에 대해 진행되었습니다. Speech to Speech Translation(S2ST)이란? 특정 언어의 음성을 목표로 하는 언어의 음성으로 변환하는 시스템을 의미합니다. 음성인식과 번역을 한번에 가능하게 하는 End-to-End 접근의 모델이 가능할 까 생각했는 데, 딥러닝 기반으로 한번에 가능한 모델이 있다는 점에 다시 한 번 놀라면서 세미나를 들을 수 있었습니다. 오늘 세미나에서는 구글에서 제안한 연구의 연속 2가지를 소개해주셨습니다. 바로 ‘translatotron’ 과 ‘translatotron2’입니다. translatotron은 sequence to sequence model 구조를 기반으로 음성 번역을 End-to-End 구조로 해결할 수 있는 모델을 제안합니다. ‘translatotron2’는 기존 translatotron의 단점들을 보완해 보다 robust하며 품질이 좋은 음성 번역 결과물을 내놓아 주었습니다. 그동안 음성 데이터와 관련한 정말 많은 연구들을 소개해주셨습니다. 덕분에 음성과 관련한 배경 지식을 많이 쌓을 수 있었습니다. 그동안 수고 많으셨고 감사합니다.


  • 2022-02-11 15:08

    금일 세미나는 Speech to Speech Translation을 주제로 진행되었습니다. 최근 음성번역은 end-to-end로 음성 인식, 번역, 생성을 수행하는 모델을 개발하는 연구흐름을 갖고 있으며, 이러한 최초의 end-to-end 음성번역 모델인 translatotron과 이 모델을 기반으로 강건하게 음성을 생성하며, auxiliary task로 번역과 음성 성능을 향상시킨 translatotron2에 대해 소개합니다. Translatotron 구조는 크게 정보추출, 보조 인식작업, 번역 음성 생성으로 나누어져 있습니다. 정보추출을 위해서 내용을 추출하고 요약할 수 있는 source encoder를, 원하는 화자의 목소리로 변환하기 위해 speaker encoder를 사용하게 됩니다. 보조 인식 작업의 경우 학습 시에만 활용되며 attention 기반의 decoder를 사용하여 음소 단위의 생성을 수행하게 됩니다. 마지막으로 번역된 음성을 생성하는 단에서는 encoder로부터 전달받은 내용과 화자 정보로 target 언어와 음성을 생성하도록 설계됩니다. 이러한 translatotron에 추가적인 convolution module, gaussian upsampler 등을 활용하여 품질의 측면에서 성능을 개선한 점이 인상적이었습니다. 또한 음성 번역을 위해 구성되는 여러 모듈에 대해 상세히 알 수 있어 유익한 시간이었습니다. 좋은 발표 감사합니다.


전체 503
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10473
관리자 2020.03.12 0 10473
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9084
관리자 2020.03.12 0 9084
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10202
관리자 2020.03.12 0 10202
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 23
Junyeong Son 2025.05.08 0 23
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 104
Doyoon Kim 2025.05.01 0 104
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 212
Sunghun Lim 2025.04.24 0 212
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 161
Suyeon Shin 2025.04.21 0 161
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 188
Woongchan Nam 2025.04.16 0 188
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 365
Kiyoon Jeong 2025.04.16 0 365
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 385
Hyeongwon Kang 2025.04.09 0 385
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 382
Jaehyuk Heo 2025.04.02 0 382
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 373
Jaehee Kim 2025.04.02 0 373
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 303
Jungho Lee 2025.04.02 0 303

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호