[Seminar]Mel Frequency Cepstrum Coefficient

Paper Review
작성자
Donghwa Kim
작성일
2020-06-05 17:03
조회
5380
1. Topic

Mel Frequency Cepstrum Coefficient

2. Overview
MFCC는 크게 3단계를 커져서 만들어집니다.
  • step-1) 음성 시그널을 잘게 쪼갠후,  Fourier Transform을 이용하여 frequency domain의 feature를 만들게 됩니다. 이를 Spectrogram이라고 말합니다.
  • step-2) 사람은 고주파보다 저주파를 잘 인식을 합니다. 그래서 이 Spectrogram의 저주파를 잘 인식할수 있도록 하는 mel-filter를 사용하여 저주파 부분을 확장합니다.
  • step-3) 사람의 목소리는 smoothing된 Fourier Transform의 값으로 표현이 됩니다. 그래서 smoothing된 Fourier Transform의 값을 구하기 위해서 한번더 Discrete Cosine Transform(FFT보다 연속성을 잘 가짐)을 적용하게 됩니다. 두번 연속된 Fourier Transform의 저주파 구간은 한번 Fourier Transform 된 smoothing된 곡선을 의미하기 때문입니다. 이러한 과정을 Cepstral analysis라고 합니다.
마지막으로, 두번 연속된 Fourier Transform의 저주파(coefficient)구간을 몇개(N)를 볼것인지 선택하여 최종적으로 MFCC feature가 생성됩니다.

추가적으로 모델에 사용되는 Tensor의 형태는 예시는 아래와 같습니다.
  • Tensor(Batch size, Frame_length, n_coefficient)
3. 발표자료 및 발표영상

[1] 발표자료

[2] ">발표영상
전체 12

  • 2020-06-05 19:31

    오늘 세미나는 STT(Speech to text)에 사용되는 오디오 데이터가 만들어지는 원리와 과정에 대한 내용이었습니다. 배운 지 오래되어 기억이 가물가물했던 푸리에 변환을 명쾌하게 설명해주셔서 잘 이해할 수 있었습니다. 특히 소리 데이터에서 샘플링을 할 때 왜 주파수의 두 배가 필요한지를 직관적으로 설명해주셔서 좋았습니다. 그 후 mel-spectogram까지 변화되는 과정을 알기 쉽게 잘 설명해주셨습니다. mel-spectogram은 사람이 들을 수 있는 범위가 저주파로 한정적이기 때문에 저주파를 조금 더 집중적으로 잡아낼 수 있는 mel-filter를 이용해 주파수를 mel-scale로 변환한 것입니다. 그 후 discrete cosine transform을 통해 사람 목소리의 특징 위주로 뽑아내게 됩니다. 비교적 낯선 오디오 분야를 자세한 식과 함께 좋은 예시로 잘 설명해주셔서 좋았습니다. 특히 전체적인 흐름을 장표 한 장으로 설명해주신 부분이 좋았습니다. 앞으로 오디오 분야를 이용해 분석을 수행할 때 본 세미나의 ppt를 자주 이용하게 될 것 같습니다. 감사합니다.


  • 2020-06-05 21:19

    김동화 석박통합과정의 세미나 발표를 들었습니다. 이번 발표는 연구실 입학 후 세미나에서 처음으로 음성 도메인의 기초 개념부터 푸리에 변환 관련해서 자세한 발표를 들을 수 있는 기회였던 것 같고 먼저 감사하다는 말씀을 드립니다. 음성 데이터를 푸리에 변환을 통해 스펙트로 그램, Mel-스펙트로 그램 등을 만들어 내는 과정을 시각적으로 쉽게 설명해주시고 ,중간 중간 음성 또한 들려주셔서 지루하지 않게 발표를 들을 수 있었습니다. 개인 연구에 대해서 소개를 해주실 때도 기존에 제출 하셨던 논문에서 어떻게 아이디어와 연구를 발전시켜 나가는지에 대해서도 말씀을 잘 해주셔서 개인적으로 많은 것을 배울 수 있었던 시간이었습니다. 개인연구 잘 마무리 하셔서 좋은 연구 결과물 얻으시면 좋겠습니다. 발표 잘 들었습니다. 감사합니다.


  • 2020-06-05 21:31

    이번 세미나는 Speech to text를 주제로 진행되었습니다. 최근 많이 연구되고있는 분야지만, 제대로 접할 기회가 없었는데 세미나를 통해 Audio signal로부터 feature를 추출하고 딥러닝 모델을 통해 학습하는 과정을 배울 수 있어 유익했습니다. Fourier transform에 대해 개략적인 흐름만 이해하고있었는데, 깊게 배울 수 있는 기회였습니다. 특히 어려운 내용을 수학적으로 자세히 설명해주신 다음에 직관적인 설명을 추가로 해주셔서 개념을 확실히 이해할 수 있었습니다. Audio signal 전체가 음성 feature로 사용된다고 생각했었는데, Log Mel-spectoram으로 변환 -> smoothing -> dimension reduction을 통해 feature를 도출해낸다는것을 알게되었습니다. 감사합니다


  • 2020-06-05 21:40

    음성처리에서 주로 사용되는 feature인 MFCC에 대한 세미나였습니다. MFCC 생성 방법 뿐 아니라 MFCC 생성에 필요한 푸리에 변환과 음성 데이터 자체에 대한 부가적인 정보들을 같이 설명해주셔서 이해가 수월했습니다. MFCC는 크게 FFT를 통한 spectrogram 생성, mel-filtering, cepstral analysis의 과정을 거처 생성됩니다. 물론 텍스트와 이미지 도메인에도 다양한 전처리가 필요하지만 텍스트는 token-level의 임베딩을 통해, 이미지는 CNN layer를 통해 특징이 추출되므로 상대적으로 그 과정이 복잡하지 않고 심지어 특징 추출 layer에 대한 학습 또한 가능합니다. 하지만 MFCC의 경우 추출에 많은 프로세스가 필요하고 하이퍼 파라메터 설정과 같이 사람의 개입이 다소 많이 이루어지고 있어 의외였고, 음성처리 분야에서 주로 사용되는 다른 feature 또한 살펴봐야겠다는 생각이 들었습니다. 개인적으로 NLP를 연구하고 있지만 최근 프로젝트를 진행하면서 텍스트뿐 아니라 음성에 대한 이해 및 활용의 필요성을 느낀적이 있었는데, 오늘 세미나를 통해 개론적으로나마 음성에 대한 이해도가 높아진 것 같아 감사 말씀드립니다. 마지막으로 multi-modal learning에서 각 modality를 domain으로 삼아 개인연구를 진행하겠다는 계획이 신선하게 느껴졌는데, 좋은 결과 있길 바라겠습니다.


  • 2020-06-07 16:25

    연구실에서 처음 진행되는 음성 관련 세미나로 기억합니다. 김동화 박사과정도 개인연구를 진행하면서 낯선 개념들을 이해하기 어려우셨슬텐데, 발표자 스스로 이해한 플로우를 시각적인 자료들과 함께 잘 설명 해주셔서 이해가 수월했습니다. 개인적인 이해로는 MFCC가 결국 유의미한 음성 feature를 뽑는 과정인 것 같습니다. 하지만 이러한 feature를 뽑는 과정에 저희에게 익숙한 DNN 기법들이 사용되기보다 vision이나 text domain에서 전통적으로 feature를 뽑았던 것과 마찬가지로 "지금 저희가 공부하기로는" 약간 old fashioned 방식이 사용되고 있는 것이 아닌가 생각이 들었습니다. Vision 분야에서 처음 노력했던 것 처럼 이 부분을 보다 자동화 할 수 있는 연구들이 분명 진행되고 있을텐데 어떤 방식으로 사용이 되고 있고 왜 과거의 방식들을 이기지 못하는지에대한 궁금증이 조금 생겼습니다. 끝으로 이러한 분야를 보고 본인의 연구 분야인 multi-modal task로 문제를 정의할 수 있는 능력을 배워야 겠다고 생각했습니다. 재미있는 연구 주제가 될 것이라 생각하고, 아마 또 좋은 논문을 작성할 수 있지 않을까 기대됩니다.


  • 2020-06-10 02:02

    최근 음성데이터의 결과물을 받아본적이 있었는데, mel-spectrum 으로 변환된 데이터라고만 받아들여, 이를 해석하는데 조금 난해 했습니다. 해당 과정을 차근차근 설명해주셔셔, 조금 더 의미론적으로 파악하는데 도움 되었습니다. 실제 feature를 뽑아내는것은 전통적인 vision에서 feature 를 뽑아낼 때, bin freq 를 통해 vecter를 생성하는것과 상당히 유사하다고 판단했습니다. 좀 더 연구 해 보아야 하겠지만, 이런 hand craft 방법 말고도, 딥러닝 기반 방법론들도 많이 사용 되고 있을텐데, 찾아보면 재미난 주제가 될 것 같습니다. 감사합니다.


  • 2020-06-10 19:05

    오늘의 발표 주제는 speech to text에 관한 것으로 음성 데이터에 대해 어떤 식으로 데이터를 가공하고 처리해서 피처를 뽑고 이용하는지에 대한 것이었습니다. 2년가까이 연구실 세미나를 들으면서 접해보지 못한 분야의 발표여서 너무 흥미롭고 재미있었습니다. 또한 음성 데이터에서 푸리에 변환을 진행하고, 여러 방법으로 샘플링하는 과정 그리고 framing, tapering 등에 대해서도 이해하기 쉬운 차원으로 예시를 들어주셔서, 처음 듣는 생소한 분야임에도 이해하기 수월했습니다. 음성 데이터는 뭔가 대부분이 노이즈이고 용량도 커서 쉽게 건드릴 수 없는 분야다 라는 모호한 생각을 가지고 있었는데, 이번 계기로 인해 그 벽이 좀 허물어진 것같아 좋았습니다. 관련 논문 및 연구들을 찾아볼 수 있는 동기를 부여해주셔서 감사합니다.


  • 2020-06-14 15:52

    연구실에서 처음으로 음성 인식과 관련한 세미나를 듣게 된 것 같습니다. 기초부터 일목요연하게 차근차근 설명을 해주셔서 문외한이 저도 잘 따라갈 수 있었던 세미나였던 것 같습니다. 특히 수식적으로 생소한 부분에서 의미적으로 풀어서 설명해주시는 부분이 좋았습니다. 또한 남들은 사소하다고 넘길 수 있는 부분에 대해 완벽하게 이해하고 넘어가시는 모습이 참 본받을 점이라는 생각이 들었습니다. 앞으로 연구 혹은 세미나를 준비하는데 있어 많은 참고가 되었습니다.


  • 2020-06-16 17:34

    음성인식에 가장 널리 사용되는 알고리즘인 MFCC와 관련된 흥미로운 세미나입니다. MFCC란 입력된 신호에서 노이즈 및 배경 소리로 부터 실제 유효한 소리의 특징을 추출하는 과정입니다. 다양한 머신러닝 파이프라인에는 전처리로 Feature Engineering하는 과정이 존재합니다. MFCC도 음성에서 사용하는 Feature Engineering 과정으로 이해하고 있습니다. 다만 이러한 Feature Engineering 과정은 사람의 노동력을 많이 필요로 하기 때문에 최근에는 다양한 자동화 알고리즘(NLP 에서는 BPE)이 존재합니다. 음성분야에도 특징추출 자동화 알고리즘이 있는지 개인적으로 궁금합니다. 친절한 세미나 설명 감사합니다.


  • 2020-07-30 19:06

    음성 데이터를 처리할 때 코드로는 몇 줄로 나타낼 수 있지만 많은 개념이 있습니다. 왜 sampling rate를 특정 이상으로 설정해야 하는지, 도메인 지식상으로 특정 ms(시간) 사이에 음성이 바뀔 수 없으므로 overlap하는 것, noise로 인한 불연속적인 wave에 대한 처리 방법에 대해 기본 개념을 이해하는 것은 필수적이라 생각합니다. 또한 사람이 인식할 수 있는 저주파 대역에 포커스를 맞추는 멜 스토그램의 로그 스케일링 처리 및 MFCC를 통한 추가 전처리 등을 배울 수 있었습니다. 음성 도메인 자체가 모델링도 중요하지만 전처리가 다른 분야보다 더 중요하다고 생각하는데, 이런 측면에서 이번 세미나에서 기본 개념들을 잘 알려주셔서 정말 유익했습니다. 감사합니다.


  • 2020-08-03 23:11

    이번 세미나에서는 음성 인식에서 널리 사용되는 MFCC에 대해서 설명하였습니다. 이를 위해 우선적으로 음성 데이터에서 Character 단위의 Text를 인식하는 Speech To Text에 대해서 설명합니다. 이어 음성 데이터가 다양한 단일 주파수로 이루어져 있으므로 음성 데이터를 회전하는 원형 좌표계로 표현하는 Fourier Transform에 대해서 설명하였습니다. 이어 실제로 음성을 처리하기 위해 음소 단위의 작은 프레임으로 소리 신호를 잘라 Fourier Transform을 적용하고, 이 과정에서 불연속적인 파형을 보정하기 위해 아주 작은 값을 Wave의 양 끝에 곱하여 Spectrogram을 얻습니다. 이후 사람의 경우 저주파 대역을 상대적으로 잘 인식하는 것을 고려하여 Mel-Filter를 적용하여 저주파 대역이 확장된 Mel-Spectrogram을 얻고 Log를 취해줍니다. 이후 특정 함수를 Cosine 함수의 합으로 표현하여 낮은 주파수 쪽으로 정보를 집중시키는 Discrete Cosine Transform(DCT)를 적용합니다. 마지막으로 많은 정보를 포함하고 있는 계수를 선택하여 MFCC를 얻습니다.
    개인적으로 처음 접해보는 분야라 매우 난해하였지만 음성 데이터를 처리하는 방식이 상당히 흥미롭게 느껴졌습니다. 또한 상세한 설명과 자료로 이해에 큰 도움이 되었습니다. 대단히 감사합니다.


  • 2020-08-14 00:08

    금일 발표는 "Mel Frequency Cepstrum Coefficient"이라는 주제로 진행되었습니다. 본 발표에서는 음성인식에서 기본이 되는 MFCC에 대해 들을 수 있었으며, 무엇보다 저희 연구실에서 처음으로 진행되는 음성 인식 관련 발표라서 더욱 기대를 가지고 세미나를 청취하였습니다. 김동화 박사과정은 항상 시각적인 자료를 통해 이해하기 쉽도록 발표를 진행하는데, 오늘도 역시 그러한 발표자료 덕분에 처음 진행되는 음성 인식 관련 내용들을 이해하기 수월했습니다. 더불어 오늘 진행된 MFCC 방법론은 사실상 저희가 일반적으로 사용하는 머신러닝 방법론들처럼 짧은 코드를 통해 결과물을 도출할 수 있기 때문에 해당 부분은 따로 공부를 하지 않고 넘어가기 쉬운데 이 부분을 자세하게 step by step으로 설명해주어 매우 유익했습니다. 마지막으로 김동화 박사과정이 오늘 발표한 MFCC를 기반으로 음성과 텍스트/이미지 데이터의 융합과 관련된 개인 연구를 진행하고 있는데 이 부분 역시 흥미로웠습니다. 김동화 박사과정이 이전에 작성한 co-training 논문처럼 좋은 결과가 도출되기를 응원합니다!


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10287
관리자 2020.03.12 0 10287
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8901
관리자 2020.03.12 0 8901
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10015
관리자 2020.03.12 0 10015
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 18
Sunghun Lim 2025.04.24 0 18
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 42
Suyeon Shin 2025.04.21 0 42
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 108
Woongchan Nam 2025.04.16 0 108
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 199
Kiyoon Jeong 2025.04.16 0 199
494
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 281
Hyeongwon Kang 2025.04.09 0 281
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 271
Jaehyuk Heo 2025.04.02 0 271
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 269
Jaehee Kim 2025.04.02 0 269
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 251
Jungho Lee 2025.04.02 0 251
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 242
Hankyeol Kim 2025.03.25 0 242
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 352
Sieon Park 2025.03.19 0 352

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호