번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11011
|
관리자 | 2020.03.12 | 0 | 11011 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9658
|
관리자 | 2020.03.12 | 0 | 9658 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10745
|
관리자 | 2020.03.12 | 0 | 10745 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (15)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 189
|
Minjeong Ma | 2025.06.07 | 0 | 189 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (13)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 283
|
Siyul Sung | 2025.05.31 | 0 | 283 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 286
|
Woojun Lee | 2025.05.20 | 0 | 286 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 269
|
Jinwoo Park | 2025.05.16 | 0 | 269 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 250
|
Hun Im | 2025.05.15 | 0 | 250 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 421
|
Junyeong Son | 2025.05.08 | 0 | 421 |
본 세미나에서는 최근 많은 주목을 받았던 논문인 MLP-Mixer: An all-MLP Architecture for Vision를 소개해주셨습니다. MLP-mixer는 CNN과 달리 locality에 대한 제약이 없어 보다 유연한 inductive bias를 갖고 있습니다. 따라서 이를 활용한 모델을 만들었고 기존 구조보다 높은 성능을 기록할 수 있었습니다. 저자의 고민이 보이는 모델의 구조가 매우 인상깊은 논문이었습니다. inductive bias에 대해 청취자분들과 많은 이야기를 나눌 수 있어 매우 유익한 세미나였던 것 같습니다. 좋은 논문을 소개해주셔서 감사합니다.
금일 세미나는 "MLP-Mixer: An all-MLP Architecture for Vision"라는 주제로 진행되었습니다. 발표에서는 컴퓨터 비전에 MLP를 도입하여 SOTA 모델들과 유사한 성능을 내면서 computation이 적은 MLP Mixer 방법론이 소개되었습니다. 해당 방법론은 MLP로 convolutional layer와 self-attention을 대체하였는데, 해당 부분이 매우 흥미로웠습니다. Neural network는 MLP를 시작으로 CNN으로 발전하였는데, 본 방법론에서는 다시 CNN을 MLP로 대체하여 모델의 computation을 줄이고 SOTA 성능을 도출했다는 점이 인상적이었습니다. 특히 MLP를 이용해 self-attention을 대체한 부분은 처음에는 이해가 어려웠지만, 이해를 하고나니 굉장히 흥미롭고 신박한 아이디어라는 생각이 들었습니다. 굉장히 오랜만에 아이디어에 감탄하면서 들은 세미나라 발표를 듣는내내 즐거웠습니다. 좋은 발표 감사합니다.
오늘 세미나에서 MLP 그리고 Transformer 가 가지는 inductive bias 에 대해서 본 논문을 통해 재미난 주제로 진행됬습니다. 저는 transformer 가 cnn lstm 보다 더 나은 성능을 내는 많은 이유 중 하나가 inductive bias 가 적은 모델로 생각했는데요, 기존 모델들은 지역적인 정보가 중요하다, 순차적인 정보(최신정보) 가 중요하다 라는 일종의 가정이 깔리게 됩니다. 즉 이 가정이 깨질 때 모델의 성능이 상당히 나빠진다는 것인데요, 가장 간단한 lstm 예시는 순차적정보가 의미가 없을때가 되겠습니다. MLP 는 사실 이런 가정을 하지않는 모델입니다. 이미지를 패치로 쪼개서 패치단위의 학습을 하게되는 것은 지역적 특성을 좀 더 무시하게되는 것입니다. 일반적으로 Inductive bias 가 적을 때 성능이 좋으려면 수많은 데이터를 넣어서 알아서 특징을 찾아내게 해야하는데, transformer 에서는 이런것이 뒷받침되는 것 같습니다. transformer 도 inductive bias 로 PE 를 사용하지만 기존 다른 모델보단 약하다고 생각하고, MLP -mixer 는 이런 관점에서 모델을 구성하여 이에대한 증명을 한 논문으로 생각합니다.
제가 이해한 바로는 inductive bias란 모델의 결과가 나올 때까지 미리 설계한 가정에 의해 발생되는 에러라고 생각합니다. 예를 들어 우리가 어떤 모델을 선택을 하는 행위 조차도 성능을 도출하는데 있어서 inductive bias가 있다고 생각 할 수 있을 것 같습니다. CNN은 locality, transformer는 attention계열의 구조이므로 어느정도 특별한 모델 가정이지만, 상대적으로 MLP는 특별한 제약이 없는 자유로운 구조라고 할 수 있을 것 같습니다. 모델구조는 크게 feature에 대한 mixing, image patch에 대한 mixing으로 이루어져 있고 단순 MLP의 linear projection에 의해 임베딩이 되는 것 같습니다. 특별했던 점은 mixing을 할 때 feature나 image patch에 대해서 1차원에 대해서 개별적으로 linear projection하는 점이 인상이 깊었습니다. 이렇게 되면 다양한 조합에 대해서 다양한 정보들이 학습되는 것 같습니다. 좋은 발표 감사합니다.
이번 세미나 발표 주제는 MLP Mixer에 대한 것입니다. 발표자분께서 MLP Mixer에 대한 설명을 본격적으로 하기 전에, 제안 모델이 출현하게 된 배경과 관련된 개념인 Inductive Bias에 대해 소개를 해주셨고, 그에 대한 나름의 고민의 결과물을 공유해주셔서 더욱 유익했습니다. MLP Mixer는 channel mixing MLP와 Token(Patch) mixing MLP를 활용하여 기존의 CNN과 self-attention을 대체하였고, Classification task 에서 SOTA 성능은 아니지만, SOTA 모델과 견줄 만한 성능을 보였습니다. MLP Mixer는 image를 patch 단위로 분할하여 FC layer를 거친 후, N개의 mixer layer를 거치게 됩니다. 이때, token mixing MLP와 channel mixing MLP를 순서로 데이터가 흐르는데, 결과론 적으로는 특수한 형태의 CNN과 비교가 가능하나, CNN에 비해 학습 효율이 좋다고 합니다. 다만 ViT에 비해서는 성능이 살짝 떨어지는데, 학습 효율과 성능 간의 trade-off를 생각한다면 충분히 의미가 있을 수 있습니다. 본 세미나 시간에도 활발히 토론이 이루어진 것처럼, mixer라는 표현에 대해서, 그리고 논문에서 그 방법론을 뒷받침하는 논리에 대해서 모두 와닿진 않았지만, 큰 아이디어 전개 자체가 재미있어서 흥미롭게 들을 수 있었습니다. 좋은 발표 감사합니다.
해당 세미나 시간에는 MLP-Mixer: An all-MLP Architecture for Vision라는 논문을 주제로 수행되었습니다. 해당 논문에서는 기존 CNN으로 대표되는 Vsion 도메인에 MLP를 도입하여 최근 SOTA모델들과 유사하거나 보다 더 나은 성능을 도출하였습니다. 해당 논문에서의 주요한 개념으로 관통되는 inductive bias는 세미나 시간에도 매우 다양한 시각으로 해석이 되고 토론을 이끌어 내었습니다. 제가 이해한 바로는 머신러닝에서의 inductive bias는 학습 모델이 일반화된 성능의 정확한 예측을 하기 위해 사용하는 추가적인 가정 등으로 이해하고 있습니다. 예를 들어, 과거 세미나에서 언급되었던 Maximum margin 같은 가정들이 두 클래스 사이의 경계면을 결정할때 margin을 최대화 한다는 가정이 이러한 inductive bias의 대표적인 예시가 될 수 있을것 같습니다. 해당논문에서 MLP는 거의 모든 함수를 표현할 수있기에 이러한 Inductive bias 관점에서 고정된 window 파라미터 연산 등의 방식을 취하는 CNN 대비 자유로운 모델이라고 주장하고 있습니다. 제안하는 방법론에서 구체적으로는 MLP구조를 통해 기존 CNN 그리고 attention의 연산을 하나의 Image Path내의 channel들 간의 mixing을 이용하여 특성간의 교류를 유도하는 channel mixing과 Image Patch들 간의 mixing을 이용하여 공간 정보들 간의 교류를 유도하였습니다. 개인적으로 inductive bias라는 개념을 다시 한번 생각해보게되는 매우 흥미로운 세미나 발표주제 였고, Mixing의 방식에 대한 구체적인 내용과 그 이유를 논문을 통해 다시한번 확인해 보고 싶습니다. 시험기간임에도 불구하고 재미있는 발표주제로 세미나 시간을 알차게 채워준 발표자에게 감사의 인사 전합니다.
세미나 전반에 Inductive Bias에 대한 논의가 있었는데, 개인적으로 매우 흥미롭게 느껴졌습니다. 오늘 소개된 논문은 ViT에서 Self-Attention을 MLP로 대체하고자 하는 시도를 하였으며, 이러한 변화를 주었을 때의 장점으로 Inductive Bias를 줄일 수 있다는 것을 근거로 들고 있습니다. Inductive Bias의 경우 정밀하게 측정하기가 어렵기 때문에 명확하게 특정 구조가 큰 Bias를 갖는다고 말하기는 어려울 것 같지만, 전반적인 논리 전개에는 무리 없이 동의할 수 있었습니다.
소개된 Model의 경우 Patch로 분할된 Image를 Token으로 간주하고, 두 번의 MLP를 적용합니다. 논문에 제시된 그림만으로는 저자들의 의도대로 Model이 전개될 지 확신이 서지는 않았으나, Self-Attention을 MLP로 대체할 수 있고, 큰 성능의 손실 없이 연산 상의 이점을 가질 수 있다는 점이 흥미로웠습니다. 향후에 발표될 후속 논문들을 지속적으로 지켜보고 싶습니다. 좋은 발표 감사합니다.
이번 세미나는 MLP Mixer: An all-MLP Architecture for Vision이라는 논문에 대한 세미나였습니다. 우선 발표 초반에 inductive bias에 대한 자세한 설명을 해주셔서 이해가 잘되었습니다. 해당 방법론은 Channel-mixing MLP와 Token-mixing MLP를 사용하여 CNN과 self-attention을 대체하였습니다. 해당 방법론을 통해 여러 feature의 inductive bias와 generalization에 있어서의 inductive bias의 역할을 설명할 수 있다는 점에서 의미가 있는 논문입니다. Inductive bias에 대해 생소하였는데, 이러한 방법론에 대한 설명을 통해 이 개념을 알 수 있어서 유익한 세미나였습니다. 감사합니다.
오늘 세미나에서는 MLP-Mixer: An all-MLP Architecture for Vision라는 논문을 설명해 주셨습니다. 해당 논문은 Vision 도메인에서 주로 활용되는 CNN 아키텍처 대신 여러개의 Linear Layer를 쌓아올린 MLP 아키텍처를 제시하여 SOTA와 유사한 성능을 도출하였습니다. 해당 논문에서 설명하는 주요한 개념 중 하나는 inductive bias입니다. inductive bias란 일반화를 위해 미리 모델을 구조적으로 강제하는 것 입니다. MLP는 CNN 아키텍처와는 달리 구조적으로 강제하는 부분이 적기 때문에 inductive bias가 작다고 주장합니다. 또한 inductive bias가 작기 때문에 많은 데이터를 이용하여 모델을 학습시킬수록 bias 없이 데이터의 분포를 학습하므로 CNN 모델보다 성능이 더 뛰어나다고 주장합니다. 간단한 구조로 이루어진 MLP가 이미지 분류 task에서 뛰어난 성능을 갖고 있다는 점에서 매우 흥미로웠습니다. 현업에서 아키텍처를 선택할 때, inductive bias라는 개념을 함께 고려한다면 더 좋은 성능을 도출할 수 있을 것으로 예상합니다. 좋은 발표 감사합니다.
개인적으로는 inductive bias를 논문의 타당성을 주장하기 위해 가지고 온 개념이라고 이해하고 있습니다. 한때 한국의 여러 관련 커뮤니티에서 이야기가 활발했지만 역시 결론은 각자가 이해하는 바가 달랐습니다. 이러한 상황에서 inductive bias의 개념은 각자의 이해에 맡겨두고 제안하는 모델에 집중하는 것이 더 유익하지 않나 생각합니다. 지금까지는 많은 기법들이 vision -> NLP로 전이되어 왔는데 transformer의 등장으로 NLP -> vision이 되는 매우 흥미로운 경험을 하고 있는 것 같습니다. ViT에서 비전 도메인에 transformer를 사용하는 것이 충분히 의미가 있음이 밝혀졌으며 이번 세미나의 주제인 MLP-Mixer를 통해 attention 부분이 MLP로 대체될 수 있음이 밝혀졌습니다. 사실 이번 세미나에서 가장 활발하게 질문이 오갔던 부분이 MLP mixer 부분인데 저희가 attention을 대체한다는 것을 잠시 잊고 저자들의 figure에 너무 매몰되어 해석했던 것 같습니다. 곰곰히 생각해보면 해당 부분이 attention과 같게 움직이지는 않으나 충분히 합리적으로 대체할 수 있음을 알 수 있습니다. 매우 재미있는 연구라고 생각하며 이후 진행될 스터디에서도 많은 것들을 얻어 갈 수 있으면 좋겠습니다.
최근 트랜스포머가 다양한 분야에 사용되어 스케일이 점점 커지는 반면 상대적으로 관심도가 낮았던 MLP만을 사용하여 파라미터 수 대비 경쟁력있는 성능을 보인 논문이었습니다. 아이디어 제안의 흐름 상 ViT 기반 구조를 많이 차용한 것을 확인할 수 있었습니다. 개인적으로 이러한 논문은 downstream task를 해결하는 데 집중한 논문은 아니라 생각하지만, 같은 문제를 해결하기 위해 더 가벼운 모델을 제안하는 실험적인 시도라는 점에서 의미가 큰 것 같습니다. 이러한 시도들을 기반으로 모델 경량화에 대한 연구가 많이 진행될 것 같다는 생각이 듭니다. 발표 잘 들었습니다.
우선 MLP 분야의 방법론이 vision task에 적용되었다는 점이 흥미로웠습니다. 각 이미지 패치를 토큰화 하여 CNN이 아닌 다른 구조의 모델로 이미지 분류 task를 진행했다는 점이 신선했습니다. CNN은 익숙한 구조이고, 사실상 고전적인 vision task에서 작동하는 방식을 end-to-end로 필터를 자동 학습되도록 한 것이기 때문에 직관적으로 작동 원리가 이해가 됩니다. 하지만 MLP Mixer같은 경우에는 모델 구조는 이해가 가지만, 작동 원리까지는 정확하게 와닿는 느낌이 아닙니다. 해당 구조에 대해 좀 더 고민해 볼 필요가 있을 것 같습니다. 좋은 발표 감사합니다.
오늘 발표는 최근에 이슈가 된 MLP-Mixer에 대한 내용이었습니다. MLP로 시작한 딥러닝이 CNN으로 Image에 대한 feature를 추출하는 방식에서 이제는 다시 MLP로 더 잘되는 모습을 보며 유행은 돌고 돈다라는 얘기 처럼 보였지만 실제로 본 결과 CNN의 효과를 가지고 있는 MLP 방법이라는 것을 알 수 있었습니다. 최근 transformer의 연구들이 점점 발전되면서 vision에서 또한 VIT가 나오게 되었는데 이와 비슷한 입력값 형태를 통해 이미지의 patch를 NLP task에서의 token embedding 처럼 사용하여 각 token 마다의 MLP를 적용하여 weights를 공유하는 형태로 학습하였습니다. 이번 발표에서 좋았던 점은 단순히 모델의 구조에서 뿐만 아니라 inductive bias라는 내용 때문이었습니다. Inductive bias는 machine learning을 하면서 종종 볼 수 있는 개념이었는데 이번 발표에서 해당 주제에 대해 같이 논의해보고 inductive bias에 대해 알아볼 수 있어서 좋았습니다. 좋은 발표 감사합니다.
NLP 문제에서 BERT를 먼저 염두하는 것처럼 Vision에서는 CNN을 Default로 간주하는데, 최근에 Vision Transformer부터 본 세미나의 MLP-Mixer까지, 하나의 분야에서 대표되는 기법에 대하여 의문을 품고 기존에 존재하는 다른 기법을 사용하는 논문들이 많이 등장하는 것 같습니다. 이는 DAPT, TAPT와 같이 Pretrain-Finetuning을 당연시하는 것에 다른 의견을 제시하는 것과 같다고 생각합니다. MLP-Mixer는 SOTA는 아니지만 MLP와 같이 이해하기 쉽고 간단한 구조를 사용하여 Convolution과 Attention을 사용한 이미지 처리 기법에 상응하는 결과를 나타낸 모델을 말합니다. MLP-Mixer는 두 가지 Layer를 갖고 있는데, 단일 이미지 패치에 대하여 독립적으로 이루어지는 MLP, 그리고 패치들 사이의 공간적 정보를 섞는 MLP가 존재합니다. 본 세미나에선 Inductive Bias 관점에서 MLP가 다른 모델들에 비해 갖는 장점에 대한 강조가 이루어졌으며, MLP가 Attention Mechanism을 대체하는 의의에 대하여 생각해볼 수 있었습니다. 최신 논문에 대하여 빠르게 정리해주셔서 감사하며, 다음에도 깔끔한 발표 기대하겠습니다. 감사합니다.
오늘 세미나는 MLP-Mixer: An all-MLP Architecture for Vision를 주제로 진행하였습니다. 가장 중요한 키워드는 inductive bias라 생각되는데, 이 개념에 대해 잘 정리해주신 것 같습니다. 다만 저의 경우inductive bias가 어떤 개념인지 머리로는 이해가 되지만, 아직 정확히 어떤것을 의미하는지 개념이 정립되지는 못했습니다. 저 스스로 이개념을 어떻게 받아들일지 조금 더 고민해봐야 할 것 같습니다.
소개해주신 모델은 매우 흥미로웠습니다. 세미나 시간에는 지엽적으로 해당 자료를 보다보니 많은것을 놓쳤던 것 같은데, 다시 한번 살펴보는 과정을 통해서 결국 이 저자들이 하고싶은 말이 무엇인지 이해할 수 있었습니다. nlp의 관점으로만 이 모델을 바라보아서 굉장히 헷갈렸는데 해당 위치의 feature를 잘 만들어내기위해 MLP만으로도 좋은 성능을 낼 수 있다는 점이 흥미로웠습니다.
cv 논문을 쭉 팔로우업 하고있지 못하다보니 성능지표를 보는데 어려움이 있습니다. 꾸준히 다양한 논문을 읽는것이 매우 중요하다는 생각을 다시금 느끼게 되었습니다.
이번 세미나는 MLP Mixer를 주제로 진행되었습니다. 발표자분께서 발표 초반에 Computer vision의 히스토리에 대해 설명해 주시고 이번 발표의 주된 내용인 Inductive bias에 대한 개념과 이에 대한 논란 등을 정리해서 가져와 주셨으며, 같이 고민하고 의견을 공유하는 자리를 만들어주셔서 토론의 장이 만들어진 것 같았습니다. 논문의 제안 방법인 MLP Mixer는 2종류의 MLP(Channel-mixing, Token-mixing)를 통해서 CNN과 Self-Attention을 대체하고자 하였습니다. vision task에 있어서 CNN이 익숙한 구조일텐데 MLP만으로 CNN과 비슷한 효과를 내고 inductive bias를 해결하고자한 아이디어는 굉장히 신선하였습니다. 아이디어도 신선하고 성능 또한 좋으나 해당 아이디어가 어떻게 작동되는가는 완벽하게 와닿는 구조는 아니었던 것 같습니다. 그래도 생각의 폭을 넓게 가질 필요가 있다는 것을 느끼게한 발표였던 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 transformer를 사용했을 때의 inductive bias를 줄이기 위한 방법으로 제안된 MLP mixer에 대한 소개로 진행되었습니다. Inductive bias는 unseen situation에서 정확한 예측을 위해 필요한 추가적인 가정을 의미합니다. Transformer나 CNN보다는 MLP가 추가적인 가정이 덜 필요하므로 MLP가 inductive bias가 낮은 것으로 생각할 수 있습니다. MLP-mixer는 이미지를 겹치지 않는 패치들로 정의하고, 각 패치를 벡터로 변환하여 토큰처럼 취급합니다. 각 토큰들을 mixing하는 것은 transformer의 attention 매커니즘과 유사하게 빗대어 생각해볼 수 있을 것 같습니다. CNN과 transformer를 활용한 연구가 주를 이루는 상황에서 MLP 구조에 mixing 매커니즘들을 활용하여 유사한 기능을 구현하고 inductive bias를 낮추었다는 점에서 흥미로웠습니다. 좋은 발표 감사합니다.
꼭 읽어보고 싶었던 논문인데, 시간이 없다는 핑계로 미루던 차에 세미나에서 소개가 되어 굉장히 반가웠습니다. Transformer의 등장 이후로 Vision Transformer 등 도메인을 넘나들며 성능이 좋은 구조를 써보고자 하는 시도가 많아지는 것 같습니다. 세미나를 들으면서는 왜 이렇게 하지? 하고 헷갈리는 부분이 있었으나, 결국 MLP 구조로써 각 패치 간 attention으로 연결하는, 결국 attention mechanism을 사용하는 것으로 이해될 수 있을 것 같습니다. 본 논문은 기존에 우리가 알고 있던, 그러나 굳이 비전 분야에서 중요하게 쓸 필요가 있나 싶은 방법론으로 최근 대부분의 영역에서 쓰이는 방법론을 대체한다는 것을 보여준 점에서 굉장히 큰 의미를 갖는다고 생각합니다. 좋은 발표 감사합니다.
이번 세미나는 MLP Mixer에 대한 내용으로 진행되었습니다. MLP Mixer는 vision에서 거의 디폴트 구조로 사용되었던 CNN 대신, MLP를 가져와 CNN을 대체하고, self-attention의 역할까지 수행하도록 하였습니다. 2 종류의 MLP, Channel-mixing MLP와 Token-mixing MLP를 사용하는데, 전자는 하나의 image patch 안에서 채널 간 mixing을 수행하며, 후자는 이미지 patch들 간의 mixing을 수행합니다. CNN의 본질적인 bias를 해결하려했다는 점과 MLP만 사용하여 CNN에 견줄만한 성능을 냈다는 점이 흥미로웠습니다. 좋은 발표 감사합니다.
오늘 세미나는 MLP-Mixer: An all-MLP Architecture for Vision 연구에 대해 진행되었습니다. 본 연구는 특징 추출 분석에서 convolution 연산이 대세를 차지하고 있던 vision 분야에서 MLP 구조가 여전히 유효함을 보여주었습니다. 이를 위해, MLP-mixer는 기존의 CNN 및 self-attention 구조를 feature와 patch에 대한 mixing으로 대체하였습니다. 매우 오래된(?) 것처럼 느껴지는 구조인 MLP가 이제는 Transformer와 비견되는 모습은 흥미로웠습니다. 어떻게 이처럼 기본 구조인 MLP를 재발견(?)할 생각을 하게 되었는 지도, 그 방향성에도 내심 놀라면서 발표를 보게되었습니다. 더불어, 본 세미나의 초반부에 inductive bias에 대한 논의도 매우 흥미롭고 유익했습니다. 기존에는 inductive bias에 대한 생각을 깊게 하지 못했지만, 이번 논의를 통해서 더욱 관심을 갖고 생각해보게 되었습니다.