[Paper Review] Knowledge Distillation 2021 ver.

Paper Review
작성자
Takyoung Kim
작성일
2021-07-22 21:41
조회
3436
1. Topic

Knowledge Distillation

2. Overview

두 논문은 최근 google에서 활발하게 수행하고 있는 distillation 연구입니다.

첫 번째 논문은 kd를 사용하여 가장 좋은 성능을 낼 수 있는 방향을 function matching의 관점에서 제안합니다.
새로운 알고리즘을 제안한 것은 아니지만 distillation의 여러 variant와의 실험적 비교를 통해 가장 좋은 성능을 끌어올릴 수 있는 방법을 찾습니다.

두 번째 논문은 generalization 성능 향상에만 치중해왔던 기존 kd 연구를 지적하며,
과연 지금까지의 연구가 'distillation'의 이름에 맞는 방법론이었는지를 검증합니다.
그리고 teacher와 student의 예측이 일치해야 한다는 fidelity 개념을 제시하여 generalization과는 명확히 구분해야 하고,
이것이 distillation 연구에서 고려해야 하는 근본적인 방향이라고 주장합니다.

3. 발표자료 및 발표영상

[1] 발표자료 [LINK]

[2] 발표영상 [" target="_blank" rel="noopener">LINK]

4. 참고문헌

[1] Knowledge Distillation: A good teacher is patient and consistent (arXiv 2021.6) [LINK]

[2] Does Knowledge Distillation Really Work? (arXiv 2021.6) [LINK]
전체 18

  • 2021-08-14 17:48

    이번 세미나에서는 Knowledge Distillation에 관하여 두개의 논문을 소개해 주셨습니다. 첫번째는 "Knowledge Distillation: A good teacher is patient and consistent"라는 제목의 논문으로, 기존 KD의 방법론들에 대해서 fixed teacher + independent noise를 통한 학습을 수행하는 것에 대한 문제점을 지적하며 아이디어를 제시하고 있습니다. 즉 원래는 메모리 등의 문제로 인해 teacher를 고정한 후 독립적인 노이즈가 부여된 데이터로 distillation을 수행하곤 하지만, 저자들에 따르면 1) teacher와 student 모델에 완전히 동일한 데이터를 입력으로 사용 2) 오랜 반복을 통해 student의 function이 teacher에 일치되도록 학습 하는 방향으로 distillation을 수행하는 것이 더욱 효과적이라고 합니다. 두번째 논문은 "Does Knowledge Distillation Really Work?"로 distillation task에 대해 완벽히는 모르지만, 어느 정도의 기준점을 제시한, 혹은 앞으로 그런 방향성의 연구가 활발하게 진행되게 할 흥미로운 논문이었습니다. 기존에 단지 student의 파라미터가 적고 성능이 조금 덜하면 distillation이 된 것인가? 라는 의문점이 있었는데, 본 논문에서는 그보다는 명확한 fidelity를 제안하게 됩니다. fidelity는 teacher와 student 간 예측이 같은 정도라고 할 수 있는데, 우리가 일반적으로 distillation이 되었다 생각한 student가 실은 generalization이 잘 되도록 학습한 것이며 보다 fidelity를 중요한 기준점으로 삼아야 한다고 주장합니다. 생소한 분야이나 항상 좋은 발표로 쉽게 이해되도록 설명해 주셔서 감사합니다.


  • 2021-08-15 18:02

    이번 세미나에서는 계속해서 연구실 세미나에서 KD 에 대해서 발표해주시고 있는, 발표자의 아주 재미난 발표였습니다. 제가 처음 발표자의 KD 에 대한 발표를 들었을 때, 그냥 잘 학습된 모델 잘 쓰면되는데, 굳이 또 학습을 시킬까? 라는 의문을 들였는데, 최근에 다양한 주제에 접목되고 있는것을 보고, 편협된 사고를 가지지 말자는 생각을 했습니다. Teacher 모델과 student 모델은 동일한 인풋을 가지고, 모델도 똑같은 모델을로 일치해야합니다. 이전의 문제는 다른 분포의 데이터를 가지게되면, 문제가 됨을 지적하고있습니다. 당연한 듯 들리지만 동일한 예측값을 내도록 매칭해야함을 언급하면서, 이를 위해 mixup을 활용한 augmentation을 활용합니다. 두번쨰 논문에서는 예측이 일치해야한다는 방향으로 제안을 하고있고, 이런 두가지 관점을 논리적인 흐름으로 잘 정리한 발표였습니다. 감사합니다.


  • 2021-08-16 00:46

    이번 세미나에서는 KD와 관련된 논문을 2가지 다루었습니다. 2번째로 다루어주신 논문에서는 재밌는 개념을 소개하였는데 바로 fidelity라는 개념입니다. 이 개념을 통해 student 모델이 teacher 모델로부터 지식을 전수 받아 일반화 성능만 높아지면 된다고 생각하는 기존의 사고에 문제를 제기하였습니다. 본 논문에서는 fidelity라는 개념을 통해 student 모델이 정말 지식을 잘 전수 받았다면 teacher 모델과 유사한 예측을 해야한다는 지적했습니다. 논문의 전개 과정을 따라가다 보면 fidelity의 중요성에 대해서 납득할 수 있는 것도 같았지만 개인적으로는 fidelity를 만족하는 것이 KD의 근본에 더욱 근접한다는 주장은 깊게 공감할 수 없었던 것 같습니다. 좀 더 깊숙히 이해하기 위해 해당 개념에 대해 많이 고민해보아야 할 것 같습니다. 흥미로운 생각거리를 던져준 유익한 발표였습니다. 좋은 발표 감사드립니다.


  • 2021-08-16 11:18

    금일 세미나는 Knowledge Distillation에 대한 최신 논문들에 대한 리뷰로 진행되었습니다. 첫번째 논문은 “Knowledge Distillation: A good teacher is patient and consistent”로서, 효과적인 distillation 학습 설계 방법에 대해 다루고 있습니다. teacher와 student 모델의 입력으로 동일한 데이터를 활용하고, mixup같은 데이터 증강기법을 활용하며, trainining schedule을 길게 잡으면 효과적임을 실험적으로 증명하면서 위와 같은 학습방법들을 추천하고 있습니다. 두번째 논문은 “Does Knowledge Distillation Really Work?”라는 논문으로, teacher model의 지식을 제대로 전달받고 있는가에 대한 질문을 던지면서 student 모델의 fidelity 관점에서 이를 분석합니다. 실험적으로 확인한 결과 좋은 일반화 성능을 갖는 것이 반드시 좋은 fidelity를 보장하지 않는다는 점과 distillation 데이터를 증가시키면 정확도는 향상되지만 최적화는 더 어려워진다는 점을 밝히고 있습니다. 최근 distillation 기법이 기존 모델에 많이 적용되고 있는데, 실제로 distillation이 우리가 원하는대로 잘 동작하는가와 우리가 원하는 효과를 얻기 위한 여러 방법들에 대해 알 수 있어서 유익했습니다. 좋은 발표 감사합니다.


  • 2021-08-16 19:05

    이번 세미나는 knowledge distillation에 관한 두가지 논문에 대한 세미나였습니다. 우선 첫번째로 소개된 논문은 시간, 메모리 측면에서 teacher의 예측 분포를 추론하는 것이 힘들기 때문에 주로 teacher의 추론값을 저장하는 경우가 많은데, 여기서 더욱 보완하여 teacher와 student에 독립적인 노이즈를 적용하여 성능을 향상시킨 모델입니다. 두번째 논문은 knowledge distillation의 근본에 질문을 던진 논문으로, student의 일반화 성능이 아닌, fidelity에 초점을 맞춘 논문입니다. 해당 연구는 여러 teacher모델로 한 실험을 통해 결국 student가 good fidelity를 얻는 것은 어렵다는 주장을 하였습니다. 전체적으로 KD의 현주소에 대해 이해할 수 있는 세미나였고, KD에 내제된 한계점에 대해서 다시한번 생각할 수 있었던 세미나였습니다. 좋은 발표 감사합니다.


  • 2021-07-23 15:08

    오늘 세미나에서는 distillation에 대해 구체적으로 알 수 있었습니다. 전반적으로 이해한 내용은 offline distillation student model 자체만 업데이트, Online distillation teacher model을 업데이트하는 차이를 가지고 있었습니다. 추가적으로 self-distillation은 online에 해당이 되지만 한 개의 shared network를 teacher-student model로 사용하는 방식도 알 수 있었습니다. online 방식으로 teacher, student가 같이 업데이트 되는 방식을 채택하였고, image 자체를 crop해서 logit에 대한 matching 방식이 이뤄졌습니다. 본 논문에서 제안하는 consistent teaching은 동일한 입력에 대한 matching이 이뤄지는 방법과 mixup을 이용한 function matching으로도 응용하였습니다. 두가지 학습특징은 1) Student학습 과정에서 teacher를 함께 업데이트 (online), 2)Teacher의 가중치는 이전 step의 student 가중치를 앙상블하여 구축하는 것들이 있었습니다. 좋은 발표 감사합니다.


  • 2021-07-25 16:44

    오늘 세미나에서는 Knowledge Distillation에 관해 깊은 질문을 던지는 두 편의 논문을 소개해 주셨습니다. 개인적으로 두 번째 논문이 신선하게 느껴졌는데, 해당 논문에서는 Student Model이 특정 Task에 대해 Generalization Performance를 갖도록 하는 것이 KD의 목적이 아니라, Teacher Model의 정보를 올바르게 받아들일 수 있도록 하는 것이 KD의 목적이라고 언급합니다. 이를 위해 Teacher Model과 Student Model의 예측 Class와 분포를 이용한 Fidelity라는 개념을 사용합니다. 실험적으로 확인한 결과 Student Model이 높은 Generalization Performance를 갖더라도 실제로 Fidelity가 반드시 높은 것은 아니라는 것을 보였으며, 이에 관해 Student Model의 Performance와 Teacher, Student Model간 정보 전달은 반드시 일치하지는 않고 KD가 명칭과는 달리 실제로는 Regularization의 역할을 수행한다고 받아들였습니다.

    해당 논문은 널리 연구되고 있는 분야에 대해 근본적인 질문을 던진다는 점에서 매우 신선하게 느껴진 논문이었습니다. 하지만 Fidelity의 경우 저자들이 정의한 지표이기에 다른 방식으로 Fidelity를 정의할 수도 있을 것으로 생각되며, 제한적인 조건 내에서 실험적인 결과로 주장을 전개하였기에, 향후 다수의 반박 논문이 나올 수도 있을 것으로 생각됩니다. 흥미로운 발표를 진행해 주셔서 감사드립니다.


  • 2021-07-25 21:58

    본 세미나는 김탁영 석사과정의 관심 분야인 Knowledge Distillation(KD), 큰 모델을 Distill하여 경량화 시키는 새로운 방식에 대한 발표가 아닌 KD 자체에 대한 고찰을 많이 다루었습니다. Task에 대한 본질을 파악하기 위하여 먼저 기본적인 KD의 절차를 논하며, 미리 Teacher의 추론값을 저장하는 Fixed Teacher, Teacher와 Student에 각기 Independent한 Noise를 부여하는 방법 (Mean Teacher)를 소개하였고, 그 후 첫번째 논문의 주장인 입력값이 Consistent함을 가정하고 Augmentation을 활용하는 Function Matching의 방법을 소개했습니다. 이후에 소개한 논문이 KD의 본질을 직접적으로 다루며, KD의 본 목적은 Student가 Teacher의 예측값을 학습하는 것인데, 실질적으로 해당 현상인 Fidelity가 높지 않고 Generalization Performance만 높은 것을 확인하였습니다. 이를 통해 더 작은 모델을 구축했다 하더라도 자신의 본 목적에 충실하지 못하고 단순히 KD를 통해 일반화 성능 향상 효과만을 얻었음을 증명하고 결국 두 요소 중 Fidelity를 달성하는 것이 성능과 근본 면에서 중요하다고 언급하며 해당 원인은 Optimization과 Dataset으로 나타냅니다. 언제나 재밌는 발표 진행해주셔서 감사합니다.


  • 2021-07-27 00:14

    금일 세미나에서는 KD에 관련된 두 가지 논문을 살펴보았습니다. 최근 연구실 세미나에서도 많이 등장하고 있는 주제로 확실히 모델의 크기가 너무 커지면서 중요하게 자리잡은 연구 분야인 것 같습니다. 이러한 흐름 속에서 첫 번째 논문인 " Knowledge Distillation: A good teacher is patient and consistent" 에서는 새로운 KD 기법을 소개하는 것이 아니라 보다 효율적이고 강건하게 KD를 진행할 수 있는 방법을 설명하고 있습니다. 우선 기존에는 연산상의 이슈로 student model이 보고 배워야 할 teacher의 output을 미리 저장해두는 경우가 대부분이었습니다. 하지만 본 논문에서 저자들은 정확하게 동일한 input을 두 모델에 동시에 feeding하여 teacher to student 학습을 online으로 진행하고 있습니다. 이뿐만 아니라 매우 긴 학습 시간을 필요로 하고 있기에 납득은 가지만 개인 연구자들은 쉽사리 따라하기 힘든 방법이 아닌가 생각하였습니다. 두 번째 논문에서는 fidelity를 통해 KD가 좋은 성능을 내는것이 목표여서는 안 되고, 성능 뿐만 아니라 예측 분포 자체를 잘 모사해야 한다고 말하고 있습니다. 개인적으로 KD domain을 잘 알지 못하여 이러한 주장이 얼마나 많은 연구자들에게 동의를 구할 수 있을지 모르겠으나, 제가 봤던 모든 KD 관련 논문들에서는 [1. 연산량을 줄이면서 2. 성능 감소를 최소화] 하는 것을 목표로 하고 있었습니다. 이미 이러한 방향으로 연구가 굳혀진 분야에서 본 논문을 통해 새로운 바람이 생길지 확인하는 것도 재밌겠다는 생각이 들었습니다.


  • 2021-07-27 00:40

    금일 세미나는 knowledge distillation을 주제로, robust하고 effective 방법을 연구한 두가지의 논문이 다뤄졌습니다. 먼저, 첫번째 논문에서는 consistent teaching & function matching을 제안하는데, teacher와 student가 완전히 동일한 데이터를 받아 같은 예측을 수행하도록 두 모델의 function을 일치시킵니다. 신기했던 게, teacher와 student의 function을 맞추기 위해 out of domain 데이터셋을 사용하여 학습을 수행해도 distillation에 어느 정도의 성능 향상이 존재했다는 것입니다. 두번째 논문은 teacher의 지식이 student에 제대로 distillation되는 지에 대한 의문을 제기한 논문입니다. 여기에서 fidelity의 개념이 나오는데, fidelity는 student의 예측이 teacher의 예측과 맞는 정도를 의미합니다. generalization과 대비되는 점은, generalization은 student가 un-seen, in-distribution data에도 좋은 성능을 내는 것입니다. 본 논문에서는 특히 fidelity에 초점을 맞춰, fidelity를 증가시키는 방향으로 distillation의 학습이 진행되어야 한다고 주장합니다. 특히, self-distillation에서 student가 teacher보다 성능이 높게 나오는 현상은 불가능한 것이며, distillation이 되지 않은 것이라 보고 fidelity를 증가하는 방향으로 generalization을 증가하는 방향이 distillation 동작 원리에 대한 근본적인 접근 방향이라고 주장합니다. 그리고 fidelity 성능이 좋지 않은 원인들에 대해서도 언급을 하고 있는데, 학습 데이터 양과 augmentation 정도, 그리고 학습 방식 및 optimization 측면이 모두 종합적으로 고려되어야 함을 알 수 있습니다. knowledge distillation에 대해 근본적으로 고민해 봐야할 질문들을 던지고 나름의 주장과 근거를 제시한 논문이어서 보다 재미있게 발표를 들을 수 있었던 것 같습니다. 좋은 발표 감사합니다.


  • 2021-07-27 00:47

    이번 세미나는 "Knowledge Distillation: A good teacher is patient and consistent"과 "Does Knowledge Distilation Really Work?" 두가지 논문을 다뤄주셨습니다. 최근 모델들의 사이즈가 커지고 있기에 모델을 경량화할 수 있는 knowledge distilation에 대한 관심도가 커지고 있던 터라 흥미롭게 들을 수 있었습니다.

    첫번째 논문인 "Knowledge Distillation: A good teacher is patient and consistent"은 기존의 fixed teacher, independent noise 모델들의 단점을 지적하며 효과적인 KD를 위한 방법으로 아래 3가지 아이디어를 주장합니다.
    (1) Teacher와 Student의 입력으로 ‘완전히 동일’한 데이터가 들어가야 합니다.
    (2) 같은 입력이 들어가면 같은 예측을 수행하도록 Teacher와 Student의 Function을 일치되도록 해야 합니다.
    (3) 오랫동안 학습을 진행(여러 epoch로 학습) 할 수록 효과적입니다.

    두번째 논문인 "Does Knowledge Distilation Really Work?"은 student가 과연 teacher의 지식을 제대로 전달 받은 것인가에 대한 의문에서 비롯된 논문입니다. 본 논문은 student 모델의 fidelity에 초첨을 두어 good fidelity를 얻는 것이 극도로 어렵다는 것을 가설들을 통해 주장합니다. Student의 fidelity가 좋지 않은 것에 대하여 저자들은 다음 예상 가능한 4가지 원인들로 본 논문을 서술해나갑니다 : (1) 모델 구조(Architecture) / (2) Student의 능력치(Capacity) / (3) 학습 데이터와 검정 데이터의 적합성(학습 데이터에 대한 teacher 예측값 matching이 과연 test에도 옳을까?) / (4) 학습 데이터 자체의 Matching 최적화(학습 데이터의 fidelity가 과연 좋은가) (1), (2)의 경우는 반례를 찾아내었고, (3), (4)에 대하여 실험을 진행하여 다음과 같은 결과를 얻을 수 있었습니다.
    (1) 모델의 좋은 일반화 성능은 항상 좋은 fidelity로 귀결되지 않습니다.
    (2) Fiidelity가 높은 모델은 항상 가장 정확하지는 않더라도, 가장 calibrated되어 있습니다.
    (3) Student의 capacity가 teacher를 따라할 수 있어도 완전하게 같아지는 것은 불가능합니다.
    (4) Distillation data를 늘리는 것은 성능을 늘릴 수 있어도 최적화하기 어렵습니다.
    좋은 발표 감사합니다. KD에 대한 다양한 관점과 실험들을 볼 수 있었던 유익한 시간이었습니다.


  • 2021-07-27 13:12

    금일 세미나는 Knowledge distillation이 잘 작동하기 위하여 고려해야 하는 조건들을 소개한 두가지 논문을 소개해 주셨습니다. 첫번째 논문인 "Knowledge Distillation:A good teacher is patient and consistent" 에서는 Student가 Teacher를 정확하게 모사하기 위해서는 Teacher와 Student에 들어가는 입력을 동일하게 해야 한다고 주장합니다. 즉 데이터의 independent noise 가 학습을 방해하는 요소로 작용하기 때문에 Noisy Student 같은 방법보다는 Aggressive augmentation(Mixup)을 적용하여 Knowledge Distillation이 잘 되도록 시스템을 구성합니다. 또한 정확하게 Teacher를 모사하기 위해서는 많은 시간과 자원이 필요하다는 점을 주장합니다. 두번째 논문인 "Does Knowledge Distillation Really Work?" 에서는 다양한 실험을 통하여 Student 모델과 Teacher 사이의 유사성(fidelity)을 측정하고 이 간격을 줄이기 위한 조건들을 찾습니다. 두 논문을 보면서 알 수 있는 사실은 Distillation이 잘 되게 하기 위해서는 많은 자원이 필요하다는 점 입니다. 즉 많은 Epoch과 데이터 그리고 Augmentation 방법론을 적용해야만 좋은 성능의 Student 모델을 개발할 수 있다는 것을 의미합니다. 따라서 해당 연구는 많은 자원을 갖고 있는 기업에서 서비스 배포용, on device 용도로만 사용할 수 있을 것 같다는 생각이 듭니다. 좋은 발표 감사합니다.


  • 2021-07-29 14:09

    오늘 세미나에서는 knowledge distillation을 robust하고 effective하게 적용할 수 있는 방법을 소개한 논문과, fidelity 개념을 제시하여 teacher와 student 간의 knowledge distillation이 실제로 잘 일어나고 있는지를 판단해야 한다고 주장하는 논문을 소개해주셨습니다. 기존의 distillation 방법들은 teacher model의 size가 매우 크다보니, 예측 distribution을 미리 저장해놓고, 이를 student training에 그대로 사용하였습니다. 이렇게 하는 대신, student 학습과 동시에 teacher 또한 업데이트하면 더 좋은 성능을 달성할 수 있다고 주장합니다. 구체적으로 teacher와 student의 입력으로 완전히 동일한 데이터를 사용하여, teacher와 student의 function을 일치시키도록 학습시키는 방식을 사용합니다. 이러한 방식으로 오래 학습할수록 성능이 증가함을 확인했는데, 그렇게 되면 사실 개인 연구자가 수행하기에는 어려움이 있지 않나 생각됩니다. 두번째 논문에서는 fidelity 향상에 집중을 하였습니다. fidelity란 student가 teacher의 prediction distribution을 얼마나 잘 배웠는가에 대한 measure로, average tio-1 agreement, average predictive KL 등을 사용합니다. 실험 결과, 데이터가 많을수록 fidelity가 증가하는 경향을 보였고, fidelity를 향상시키면, teacher와 student간 generalization 성능 차이가 줄어드는 것을 확인하였습니다. fidelity 자체를 높이려면 이를 위한 최적화의 난이도가 매우 높아지기 때문에, 이를 목적으로 하여 학습하는 것의 효율 등을 생각해봐야할 것 같습니다. 좋은 발표 감사합니다.


  • 2021-07-30 14:44

    금일 세미나는 "Knowledge Distillation 2021 ver."라는 주제로 진행되었습니다. 본 발표에서는 총 두 개의 논문이 소개되었습니다. 첫 번째 논문은 knowledge distillation을 사용하여 가장 좋은 성능을 낼 수 있는 방향을 function matching의 관점에서 제안하였고, 두 번째 논문은 knowledge distillation의 여러 variant의 실험적 비교를 통해 가장 좋은 성능을 끌어올릴 수 있는 방법을 찾았습니다. 두 번째 논문은 개인적으로 한 번의 발표만을 통해 이해하기에는 어려웠지만, 해당 논문이 generalization 성능 향상에만 치중해왔던 기존 knowledge distillation 연구를 지적하며 지금까지의 연구가 distillation이 맞는지에 대해 검증한 점이 매우 흥미로웠습니다. 먼저 google에서 이러한 의문을 제기했다는 점이 놀라웠고, 의문점을 제기하면서 teacher와 student의 예측이 일치해야 한다는 fidelity 개념을 제시하여 이것이 distillation 연구의 근본적인 방향이라고 주장한 점 또한 인상적이었습니다. 개인적으로 읽고 있는 논문들과 세미나에서 접한 논문들은 새로운 모델 제안에 대한 내용이 많았는데 오랜만에 이렇게 근본적인 것에 대하여 고민한 논문에 대해 듣게되어 좋았습니다. 좋은 발표 감사합니다.


  • 2021-07-30 20:01

    오늘 세미나는 올해 6월에 arXiv에 올라온 “Knowledge Distillation: A good teacher is patient and consistent”이라는 논문과 같은 달 마찬가지로 arXiv에 올라온 “Does Knowledge Distillation Really Work?”이라는 논문에 대해서 소개해 주셨습니다. 이전부터 Knowledge Distillation에 대해 자세히 설명해 주셔서 오늘도 따끈따끈한 논문을 들어볼 수 있어서 좋은 시간 이었습니다. 오늘 논문 소개를 들으면 생각한 것은 Knowledge Distillation가 갖추어야할 자격 요건이 이제 정립이 되는 건가 라는 생각 이었습니다. 이전 까지는 Knowledge Distillation을 위해서 평가할 수 있는 요소가 크게 알고 있었던 것이 없었고 대부분 teacher 모델과 비교하여 모델의 사이즈나 연산량 또는 성능을 기준으로 평가했지만 오늘 소개해주신 fidelity와 같은 평가가 앞으로도 계속 필요할 것이라 생각됩니다. 또한 이번에 소개해 주신 fidelity의 평가가 본 논문에서는 모든 Knowledge Distillation 방법에 대한 평가가 아니었기 때문에 현재까지 나온 방법들 또한 정말 fildelity가 떨어지는가 라는 확인도 해보면 좋을 것 같다는 생각이 들었습니다. 오늘도 유익한 시간을 만들어주셔서 감사합니다. 좋은 발표 잘 들었습니다.


  • 2021-08-03 01:58

    금일 세미나는 Knowledge Distillation 과 관련한 최신의 논문들을 중심으로 진행되었습니다. 2개의 연구를 각각 다뤄주셨습니다. 첫 번째로 소개해주신 연구는 모델의 성능 향상 측면에서 접근한 연구입니다. 두 번째 연구는 Knowledge Distillation의 본질적인 방향에 대한 고민을 담고 있다고 생각합니다.
    첫 번째 연구는 새로운 모델 구조를 제안한다기 보단, 좋은 Knowledge Distillation 모델이 갖춰야할 몇가지 조건을 지적합니다. teacher와 student모델 모두 동일한 input을 가져가야 한다는 점. 그리고 이를 입력으로 받는 모델 function이 본질적으로 일치해야한다는 것입니다. 기존에는 teacher와 student 모델 각각이 독립적인 Noise를 바탕으로 진행되기에, 입력 데이터가 서로 다른 분포를 갖기 마련이었습니다. 본 연구는 이러한 점에서 달라져야 한다는 점을 지적합니다. 더불어, 모델의 transformation function 자체를 동일한 입력에 대한 동일한 예측값을 내도록 ‘matching’ 해야 한다고 언급합니다. 본 연구는 이러한 function matching을 위해 mixup을 이용한 data augmentation을 활용합니다. 결국, 입력 데이터가 다소 훼손되더라도, Teacher와 Student 모델을 만들어낸다는 관점에서는 큰 문제가 없다는 점을 지적합니다. 중요한 것은 Teacher를 최대한 닮은 경량화된 함수를 찾아내는 것이 본질이기 때문에, 입력과 출력에 집중하는 것은 후순위라는 것으로 이해할 수 있었습니다. 두번 째 연구는 Knowledge Distillation 방법론의 본질적인 면에 더욱 집중할 수 있었던 내용을 담고 있는 것 같습니다. 결국 distillation 모델은 말 그대로 distillation이 잘 되어야(높은 fidelity) 한다는 점을 지적합니다. 일반화 성능이 높은 KD 모델이라도, fidelity가 낮다면, 정말 좋은 student인지에 대한 의문을 갖는 것입니다.결국, 본질적인 방향을 성능에서 fidelity로 옮겨놓는 것입니다. 이미 탄력을 받아, 많은 연구가 진행되고 있는 주제에 대해, 이처럼 본질적인 질문을 던지고 방향을 새롭게 고민해보도록 하는 점이 인상적이었습니다. 발표자분의 깔끔하고 일목요연한 발표 자료와 발표 덕분에 해당 주제에 대해 보다 잘 이해할 수 있었습니다. 더불어, 나온지 얼마 되지 않은 논문에 대해 이렇게 자세히 접할 수 있게 해줘 발표자와 교수님께 감사하다는 말씀을 댓글로나마 전합니다. 좋은 발표 감사합니다.


  • 2021-08-06 03:45

    이번 세미나는 Knowledge Distillation 관련하여 두 가지 논문을 주제로 진행되었습니다. 먼저 첫번째 논문은 "Knowledge Distillation: A good teacher is patient and consistent"입니다. 본 논문은 효과적인 Knowledge Distillation을 위한 3가지 학습 설계 방법을 제안합니다. 두번째 논문은 "Does Knowledge Distillation Really Work?"입니다. 본 논문은 student 모델과 teacher 모델과 fidelity의 중요성을 언급하며 좋은 fidelity를 얻는 것은 어렵다는 것을 보여주고 있습니다. 개인적으로 Knowledge Distillation에 대해서 잘 알지는 못하지만, 항상 드는 생각이 과연 아이디어만큼 teacher에서 student로의 지식 전달이 제대로 되는 것일까? 단지 student 모델이 주어진 task에 대해 학습을 잘 한 것이 아닐까? teacher만큼의 모델이 애초에 필요 없었던 것 아닐까?란 의문이 있었습니다. 이번 세미나에서 발표된 주제는 저의 의문과 비슷한 질문을 던지고 이를 가설과 실험을 통해 보였으며 Knowledge Distillation이 해결해야할 새로운 방향을 제시한 것 같습니다. 발표자분의 깔끔한 자료 덕분에 이해하기 수월하였습니다. 또한 언제나 자신의 연구 분야에 대해서 고민하고 깊게 연구에 임하는 자세를 보고 많은 점을 느끼고 있습니다. 언제나 응원합니다. 좋은 발표 감사합니다.


  • 2021-08-09 09:15

    금일 세미나시간에는 Does Knowledge Distillation Really Work?”이라는 논문에 대해서 다루어 보았습니다. 최근 3~4년간 Knowledge Distillation은 계속해서 다양한 연구들이 수행되어 오고 있습니다. 이번 세미나에서는 이러한 Knowledge Distillation에 대한 정의를 생각해볼수 있었던 시간이였습니다. 첫번째로 소개한 논문 "Knowledge Distillation: A good teacher is patient and consistent"에서는 기존의 fixed teacher, independent noise 모델들의 단점을 지적하며 3가지의 연구아이디어를 제안합니다. Teacher와 Student의 입력으로 ‘완전히 동일’한 데이터가 들어가야 하며, 같은 입력이 들어가면 같은 예측을 수행하도록 Teacher와 Student의 Function을 일치시키는 과정을 반복적인 학습을 통해 수행하고자 하였습니다. 두번째로 소개한 "Does Knowledge Distilation Really Work?"에서는 student 모델의 fidelity에 초첨을 두어 good fidelity를 얻는 과정에서 단순히 일반화 성능만이 높은 한계점을 보여주고 있습니다. 이러한 문제점을 통해서 해당 논문에서는 teacher와 student의 예측이 일치해야 한다는 fidelity를 앞으로 distillation의 연구방향으로 제시하고 있습니다. 이번 세미나시간을 통해 KD에 대한 대략적인 개념들이 정립이 될 수 있었던 뜻깊은 시간이었습니다.


전체 501
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10336
관리자 2020.03.12 0 10336
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8948
관리자 2020.03.12 0 8948
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10055
관리자 2020.03.12 0 10055
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (9)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 106
Sunghun Lim 2025.04.24 0 106
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (10)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 101
Suyeon Shin 2025.04.21 0 101
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (13)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 150
Woongchan Nam 2025.04.16 0 150
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (16)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 292
Kiyoon Jeong 2025.04.16 0 292
494
[Paper Review] Reasoning over Time Series with LLMs (15)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 320
Hyeongwon Kang 2025.04.09 0 320
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 311
Jaehyuk Heo 2025.04.02 0 311
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 310
Jaehee Kim 2025.04.02 0 310
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 270
Jungho Lee 2025.04.02 0 270
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 253
Hankyeol Kim 2025.03.25 0 253
489
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park | 2025.03.19 | 추천 0 | 조회 367
Sieon Park 2025.03.19 0 367

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호