논문 선정 배경 및 이유:현재 Attention은 모델의 성능을 향상 시키는 역할과 함께 구축한 모델이 의중에 맞게 구성되었는 지를 파악하기 위해, 또는 설명력을 얻기 위하여 사용되곤 합니다. 예를 들어 Attention의 근원인 번역 task에서 하나의 언어에서 다른 언어로 번역이 완료 되었을 때, 번역된 Token이 원 문장의 어떤 Token에 Attention이 적용되었는지 파악하는 것은 이제 일반적인 분석 방법입니다.하지만 "Attention을 설명력으로 활용할 수 있다"는 실험적으로 검증되지 않았습니다. 단순히 해당 메커니즘이 사람 또는 연구자들이 느끼기에 직관적인 방식으로 이루어지기 때문에 Attention이 가리키는 방향이 모델이 중요하게 살피는 것이다 라고 인식하고 이를 통해 모델 결과의 설명으로 활용하였습니다. 저 역시 Transformer 예측 결과에 대한 Attention을 살펴보면 [CLS], [SEP] 또는 구둣점에 Attention이 가는 경우를 여러 번 목격했습니다.즉, Attention이 설명력이 과연 있을까 라는 생각을 하던 중, 위의 두 논문 중 첫번째 논문을 발견했습니다. 해당 논문은 아래와 같은 주장을 합니다.
Attention이 다른 설명력 수단 (Gradient, Leave one out)과의 상관 관계가 적다.
Attention에 Permutation을 적용하거나 Adversarial Attention을 구했을 때 다른 결과가 나와야 하지만 동일한 결과가 나타난다. 즉, Attention은 일관성이 없다.
하지만 Attention이 설명력이 없다고 하기엔 Attention의 성능 향상의 역할과 기존 연구들에서 보여주는 Attention의 결과로 봤을 때 다소 의아했습니다. 이에 다음 논문을 살펴봤으며 해당 주장은 다음과 같습니다.
Attention이 다른 설명력 수단과의 상관관계가 없다는 것은 인정한다.
하지만 Attention은 모델의 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 위의 논문에서 적용한 방식대로 쉽게 Adversarial Attention을 생성할 수 있는 존재가 아니다. 따라서 Model based Adversarial을 활용해 Perturbed Attention을 생성해야 하며, 이 때 동일한 결과를 유지하는 다른 Attention을 생성하는 것이 어렵다는 것을 밝혀, Attention이 Consistent하다고 할 수 있다.
정리하자면, 두 번째 논문도 Attention이 설명력이라는 주장을 완벽하게 한 것이 아니라 첫 번째 논문에 대한 반박으로 주장을 이어나갑니다. 따라서, 아직 Attention이 설명력이라는 완벽한 증명은 제가 탐색한 범위 내에서는 나타나지 않았으며 논쟁은 계속되고 있습니다. 이에 가장 근간이 되는 두 논문을 소개하고자 합니다.
전체 21
Hyeyeon Kim
2021-11-09 20:13
이번 세미나는 attention의 설명력에 맹목적인 자세를 비판하는 Attention is not explanation 이라는 논문과 이 논문에서 주장하는 것들을 반론하는 Attention is not not explanation이라는 논문에 대한 세미나였습니다. 우선 첫번째 논문에서 attention이 설명력이 있으려면, attention weight들이 다른 설명력 측정 수단인 feature importance와 유사해야한다는 점과, 하나의 output 에는 단일한 attention이 존재해야 하고, 같은 결과를 내는 다른 attention값이 존재하면 안된다고 주장하였습니다. 따라서 본 논문은 이 두가지를 각각 서로 다른 실험을 통해 주장하고 있습니다. 해당 논문에서 주로 배울 점은 본인이 주장하고자 하는 것을 어떤 논리 및 모델 구조로 풀어낼 것인가라고 생각이 듭니다. 두번째 논문은 attention은 성능 향상에 도움을 주며, context와 별도로 훈련이 가능하고 조작하기 힘들다라는 주장을 서로 다른 실험을 통해 주장하고 있습니다. 마지막으로 발표자 본인의 생각과, attetion을 대체하는 다른 설명력을 지닌 요소가 무엇이 있을지 말씀해주셔서 좋았습니다. 많이 신경쓰신것 같았고 배울점이 많은 세미나였습니다. 감사합니다.
Yookyung Kho
2021-11-09 20:57
이번 세미나에서는 attention 메커니즘의 설명력에 관해 두 논문("Attention is not explanation", "Attention is not not explanation")이 소개되었습니다. 두 논문 모두 Attention이 시퀀스 내 요소들의 연관성을 효과적으로 담아낼 것이라는 당연하게 받아들여져 왔던 가정에 대해 의문을 제기하며, 다양한 실험을 통해 논리를 전개해가고 있습니다. 첫번째 논문의 경우 Attention 구조가 새로 추가되면서 큰 성능 향상을 이룰 수 있었던 사실과 달리 설명력에 관해서는 검증된 것이 없으며 attention은 일관성이 없다고 주장합니다. 두번째 논문 역시 설명력에 대한 의문을 제기하지만 첫 논문에서 부정하였던 attention의 일관성 여부에 관해서는 실험을 통해 반박하고 있습니다. 첫번째 논문의 제목에서 not이라는 단어를 추가하여 두번째 논문이 발표되었다는 점에서 두 논문의 관계성과 대결 구도가 꽤나 흥미로웠습니다. 또한, 개인적으로 이전 세미나 중 CNN 모델의 texture bias에 관해 다루었던 발표를 듣고 transformer의 설명력과 관련한 연구에 대해 궁금증이 생겼었는데 금일 발표를 통해 그 궁금증을 어느 정도 해소할 수 있어서 좋았습니다. 성능이 검증된 유명 모델에 대해서는 그 영향력과 명성을 믿고 크게 의심해본 적이 없는데 이번에 소개해주신 논문들의 논리 전개 방식을 통해 연구자로서 가져야 할 비판적인 시선에 대해서도 배울 수 있었습니다. 유익한 발표 진행해주셔서 감사합니다.
Jeongseob Kim
2021-12-30 16:43
금일 세미나는 Attention is not (not) Explanation연구를 중심으로 진행되었습니다. Attention기법은 최근 연구에서 가장 많이 활발히 사용되기에, 친숙해보이기도 하지만 또 그 기능에 대해서 심도있게 이해하지 못하고 있는 것은 아닌가 하는 걱정도 하곤 했습니다. Attention에 대해 깊이 있는 세미나를 구성해주신 발표자분께 먼저 감사의 인사를 전합니다. 본 세미나의 연구는 Attention이 갖는 설명력(explanation)에 대해 깊이 있게 접근합니다. Attention을 설명력으로서 접근하는 시도는 상식적으로 생각하기에 일견 합리적일 수 있다고 생각합니다. 따라서, 이러한 접근을 개인적으로도 맞다는 생각을 쉽게 해왔습니다. 하지만, 본 연구는 attention이 설명력으로서 사용되기에는 보다 신중해야 함을 일깨워 줍니다. 여러 반례를 들며 실험적으로 그 근거를 들어주고 있습니다. Attention is not explanation연구는 Attention weight가 feature importance와 다름을 보여주며 설명력으로서 attention이 맞지 않음을 주장합니다. 이어서 Attention is not (not) Explanation연구는 이와 상반된 결과를 보여줍니다. 이 연구는 앞서 본 Attention is not Explanation연구에 대해 부분적으로 반박합니다. Feature importance와 attention weight가 다름은 인정하지만, 이를 보여주는 실험 과정에서 Adversarial Attention구성에서 degree of freedom이 너무 높았음을 지적합니다. 따라서, 본 연구는 adversarial attention구성을 보다 정확하게 다시 설정해 실험을 진행하고자 합니다. 두 연구 모두 합리적인 주장을 하고 있기에, 하나의 결론을 도출해내기엔 아직 무리가 있어 보입니다. 따라서, Attention이 설명력으로 사용되기에는 보다 신중한 접근이 요구됨을 알 수 있었습니다. 심도 깊은 세미나를 통해 Attention에 대해 보다 깊이 있게 이해할 수 있었습니다. 좋은 세미나 발표자분께 다시 한 번 감사드립니다.
Myeongsup Kim
2021-11-09 22:05
이번 세미나에서는 Attention이 설명력을 갖고 있는지 여부를 논의하는 주제에 대해서 소개해 주셨습니다. 개인적으로는 Attention은 Text가 내포하고 있는 언어학적인 특성을 반영하는 것이 아니라, 주변 문맥을 구성하는 Representation을 반영한 내적 또는 학습을 수행함으로써 미세한 문맥에 따라 변화를 주는 역할을 수행하여, Task를 수행하는 목적에 맞는 Representation을 보다 잘 생성할 수 있는 역할을 한다고 생각하여, Explanation으로 사용될 수는 없다고 생각하지만, 이와 관련된 다양한 의견에 대해 알아볼 수 있어 유익한 시간이었습니다. 또한 Attention이 설명력을 갖는지, 갖지 않는지는 누구도 명확하게 정답을 알 수 없는 주제라고 생각합니다. 이러한 주제에 대해 어떠한 형태로 논리를 구성하고 실험을 설계하여 다른 사람들을 설득할 수 있을지 두 편의 논문을 통해 배울 수 있어 좋았습니다. 발표 감사합니다.
Jungho Lee
2021-11-09 23:07
상당히 재미난 주제의 세미나 였습니다. 해당 논문의 주제로 발표자께서 예전부터 관심이 많았던 주제 인걸로 아는데, 우선 그래프 도메인 혹은 다른 방법에서의 성공 적인 적용사례가 됬으면 좋겠습니다. 첫번째 논문은 attention weight 가 실제로 상관관계가 적음을 예시로 들었는데, 다른 attention 을 적용해도 같은 결과가 나온다는 것을 이유로 들었습니다. attention 자체가 설명력이 없음을 의미하는 것이며, 과연 attention 으로 설명하는 것이 맞는가에 대한 근본적인 질문에 대한 접근 이였습니다. 개인적으로는 성능향상에는 중요하나, 이 역시 설명으로 직결되는 부분은 아님을 느낍니다. 반론의 여지로 attention 이 uniform 했는가에 대한 정보를 통해 비교해 보아야 더 정확하지 않았을까 생각하며, 이를 이어 두번째 논문이 나왔던것 같습니다.
상당히 재미있는 주제로 진행되었고, 설명변수 혹은 해석을 할때 변수제거, attention 제거법을 주로 이용하는데 해당 방법론들과의 연계성을 살펴보는것은 좋은 주제가 될 것 같습니다.
Hoyeong Kim
2021-11-11 23:23
이번 세미나에서는 Attention이 과연 설명력을 가지는가에 대해 두개의 상반된 주장을 하는 논문에 대해 소개해주셨습니다. 첫 번째 "Attention is not explanation" 논문에서는 Attention Weight가 Feature Importance와 유사하지 않으며, 하나의 Output에 대해 다수의 Attention이 존재할 여지가 있으므로 Model을 설명하는 수단이 될 수 없다고 주장하고 있습니다. 이에 대비해 두번 째 논문인 "Attention is not not explanation" 에서는 첫번째 주장에 부분적으로 반박을 하며 Attention이 성능향상에 도움이 됨을 주장합니다. 아직까지 정답이 명확하지 않은 상태에서 상반된 주장의 논문을 자세히 설명해주셔서 유익한 시간이었습니다. 좋은 발표 정말 감사드립니다.
Euisuk Chung
2021-11-04 00:52
Attention은 Transformer를 기점으로 NLP에서 BERT, GPT 등 많이 쓰이고, 최근 들어서는 Vision에서도 ViT 등에서 많이 사용되고 있습니다. Attention은 이러한 task들에 있어서 높은 모델 성능을 위해 쓰이는 것 뿐만 아니라 모델이 의중에 맞게 만들어졌는지 확인하기 위해서도 사용됩니다. 발표자 분은 이번 세미나에서 이러한 Attention에 대하여 대칭되는 주장을 하고 있는 “Attention is not explanation”과 “Attention is not not explanation” 두 논문을 다루어 주셨습니다.
[1] Attention is not explanation : 본 논문은 Attention이 모델을 설명하는 수단이 될 수 없다는 것을 아래와 같은 이유로 주장합니다. ① Attention Weights들이 다른 설명력 측정 수단(Gradient, Leave-One-Out)과의 상관 관계가 적다. ② 하나의 output에는 단일한 Attention이 존재해야 하나, Permutation Attention을 적용하거나 또는 Adversarial Attention을 생성했을 때 동일한 결과가 나타난다.
[2] Attention is not not explanation : 본 논문은 Attention이 다른 설명력 수단과의 상관관계가 없다는 것은 인정하지만, 앞의 논문과 같이 그러한 이유로 인하여 설명력으로 사용하면 안 된다고 단정지을 수 없다고 아래와 같이 주장합니다. Attention은 모델의 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 [1]의 논문에서 적용한 방식대로 쉽게 Adversarial Attention을 생성할 수 없기에 Model based Adversarial을 활용해 Perturbed Attention을 생성해야 합니다. 이 때 동일한 결과를 유지하는 다른 Attention을 생성하는 것이 어렵다는 것을 실험적으로 밝혀내 Attention이 Consistent하다고 주장하였습니다.
Attention에 관심은 많았지만 학계에서 이런 공방이 이뤄지는지 얼마전에 알았는데 이와 관련되어 설명해 주셔서 재밌게 잘 들었습니다. 감사합니다.
Subin Kim
2021-11-04 01:00
금일 세미나 주제는 attention의 설명력에 대한 것으로, attention is not explanation이랑 attention is not not explanation이라는 논문의 발표가 있었습니다. 우선, attention이 설명력이 있다고 보는 것은 target에 영향을 주는 attention 값을 비교해보는 것인데, [eos], [cls]와 같은 주요 토큰에 attention이 집중되는 양상을 보면 이는 attention이 설명력이 있다고 보기 힘듭니다. 이 배경을 바탕으로 attention은 모델을 설명하는 수단이 될 수 없다고 주장한 논문은 attention weight이 설명력 측정 수단인 feature importance와 유사해아 한다는 것과 하나의 output에는 하나의 attention이 존재해야한다 라는 가정이 성립되지 않음을 증명하며 attention의 설명력을 부정하였습니다. attention weight이 설명력이 될 수 있다고 주장한 논문에서는 첫번째 논문에서 adversarial attention 구성 부분을 반박하며, 제대로 설명력을 파악하고자 실험을 설계하였습니다. 우선 uniform distribution에 비해 attention 분포가 성능 향상을 보였으며, random seed에 의해서도 강건함을 보였습니다. 그리고 모델 성능에 영향을 주는 context를 제거하고 attention만의 영향력을 보이기 위한 실험을 진행했는데, 기본 LSTM과 LSTM embedding을 MLP로 대체한 모델 모두 성능 차이가 크지 않아 model agnostic하게 attention 자체가 의미가 있음을 보였습니다. 그리고 새롭게 adversarial distribution을 학습하는 방법론을 제안하여 첫번째 논문에서 주장한 adversarial attention이 존재하기 힘듦을 보였습니다. attention에 대해 설명력 관점에 진행한 다양한 실험과 논의 배경을 접해볼 수 있는 유익한 시간이었습니다. 좋은 발표 감사합니다.
Doyoon Kim
2021-11-04 14:52
금일 세미나는 등장 이후 최고의 활용도를 보이는 Attention을 주제로 Attention의 설명력을 부정하는 측면과 긍정하는 측면에 대해 소개되었습니다. 먼저 Attention의 설명력을 부인하는 Attention is not explanation(EMNLP, 2019)의 골자는 높은 Attention Weight의 입력값은 출력값에 큰 영향이 있다는 것입니다. 이에 두 가지 가설을 실험하였는데 첫 번째, Attention의 값을 Feature Importance로도 비교 가능하다는 점이라는 것입니다. 허나 실험을 통해 두 값의 Correlation이 낮음을 확인할 수 있었습니다. 두번째, 하나의 출력값에는 단일한 Attention이 존재해야 한다는 것입니다. 이 역시 Permutated Attention과 Adaversarial Attention을 이용한 실험을 통해 서로 다른 Attention이더라도 동일한 값을 출력할 수 있다는 것을 보여 가설이 옳지 않음을 보였습니다. 이에 해당 논문에 수직적으로 반박하는 Attention is not not explanation(NACCL, 2019)이 등장하였습니다. 저자들이 집중한 부분은 첫 번째 논문에서의 두 번째 가설이었고 제대로 된 Adversarial Attention으로 첫 번째 논문의 저자들의 실험을 반박하고자 하였습니다. 우선 이전까지 Transformer 계열 모델과 Attention에 대한 약간의 맹목적인 믿음(?)이 있었는데 이는 연구자로서 옳지 못했던 태도 였던 것 같습니다. Attention을 활용하여 여러 모델의 과제 수행 능력이 매우 향상 된 것은 사실이기에 근본적으로 Attention의 어떤 효과로 인해 퍼포먼스가 향상 되었는지 면밀히 분석한다면 금일 다루었던 질문에 대한 결론을 얻을 수 있지 않을까 생각합니다. 이에 따라 저의 의견은 Attention is not not explanation, but effects라고 할 수 있을 것 같습니다. 중요한 내용과 더불어 연구자로서의 attitude에 대한 고민을 할 수 있는 세미나를 준비해주신 발표자 분께 감사의 말씀 드립니다.
Seungwan Seo
2021-11-04 20:17
기존에 널리 사용되고 있는 방법론에 대한 새로운 해석은 언제나 즐겁고 또 결론이 어떻게 나든 꼭 필요한 것 같습니다. 금일 세미나에서도 NLP를 넘어 vision task에서도 널리 사용되는 attention mechanism을 설명력이 있는 방법론으로 볼 수 있는지에 대한 두 가지 연구를 살펴보았습니다. 두 논문에서 주장하는 바가 모두 틀린 부분은 없다는 생각이 들었습니다. 추가적으로 이러한 논문을 작성할때는 리뷰어 뿐만 아니라 일반 독자들도 납득하고 이해할 수 있는 실험을 설계하는 것이 매우 중요하다는 것을 다시금 느낄 수 있었습니다. 개인적으로는 attention을 우리가 어떤 의도로 설계했는지와 큰 상관 없이 모델이 GT label을 잘 맞추도록 매트릭스들이 업데이트 될 것입니다. 이러한 상황에서 파라미터가 매우 많은 모델들이 '적절한' 추가 정보를 얻음으로써 큰 성능 향상이 있는 것이라 생각합니다. 이에 attention 자체를 정말 언어학적으로 단어들 간의 상관관계로 해석한다는 것은 무리가 있을 것이라 생각하며, 모델 자체가 어떻게 판단하는지를 고려하는것은 상황에 따라 가능하다고 생각합니다. 재미있는 연구 소개해주셔서 감사합니다.
Jungwoo Choi
2021-11-05 01:15
금일 소개해주신 논문은 Attention is not explainable입니다. 담당했던 업무에서도 필요한 설명력에 대한 필요성이 느껴져서 모델의 설명 효과가 있는 Attention에 대하여 관심을 갖게되어 오늘의 세미나를 흥미롭게 들을 수 있었습니다. 첫번째 논문에서는 Feature Importance와의 상관관계가 없고, Attention의 Adversarial을 생성하였을 때 동일한 분포가 나오기 때문에 설명력을 나타낼 수 없다고 주장하였고, 두번째 논문에서는 Adversarial Attention을 생성하는 방법에 대한 의문을 제기하고, Attention이 일관적이라고 반박합니다. 이번 세미나를 통하여 논문에 나오는 내용을 항상 그대로 받아들이며 이해하는데 집중하였는데, 기존 논문에 대한 의문을 제시하고 이의를 제기함으로써 갖는 연구적 가치에 대하여 생각해볼 수 있었습니다. 이번 계기로 Attention에 대하여 다른 시각으로 생각해볼 수 있었던 것 같습니다. 흥미로운 세미나 만들어주셔서 감사합니다.
Kyoosung So
2021-11-07 21:39
금일 진행된 세미나에서는 Attention에 관한 의견을 재고해 볼만한 내용을 소개해주셨습니다. 우선 Attention is Not Explainable이라는 논문에서는 NLP task에 있어서 [CLS] 토큰 등 우리가 일반적으로 기대하는, 즉 모델이 어떤 예측을 했을 때 실제로 바라보는 단어, 혹은 문장 단위가 아닌 다른 부분에 어텐션이 많이 가해진다 라는 점을 들면서 어텐션의 설명력에 대한 의구심을 던지고 있습니다. 이를 확인하기 위한 실험 설계 측면에서는 Gradient, 혹인 LOO 등의 방법론으로 얻은 feature importance와의 상관성을 파악하는 것과 동일 output에 대한 어텐션의 분포를 파악하였습니다. 결과적으로는 feature importance와의 상관성이 낮게 나타나고 어텐션이 쉽게 분포 변화가 일어나면서, 저자들은 의구심을 제기한 바와 같이 어텐션 가중치가 모델의 예측에 대한 설명으로서의 가치를 갖기는 어렵다고 주장합니다. 반대되는 논문으로는 Attention is Not Not Explanation을 소개해주셨는데, 해당 논문에서는 어텐션이 성능 향상에 도움이 되고, Context와 별도로 훈련이 가능하다는 점 등을 통해 첫번째 논문에 반대되는 주장을 제기합니다. 발표를 들으면서 Attention map과 같이 비전 분야에서의 어텐션 설명력을 NLP에도 동일시하여 확인해보려는건가, 싶었는데 개인적으로는 이미지의 특성과 자연어에서 사용하는 입력 토큰의 특성 자체가 다르고 딥러닝이 shortest path를 학습하는 과정이라는 점에서 두 결과물 또한 상이하지 않을까 라는 생각이 들었습니다. 이 분야에 대해서 좀 더 흥미로운 연구가 나올 것으로 예상되고, 관련하여 followup을 해보는 것이 의미가 있을 것 같습니다. 마블 사진을 곁들인 좋은 발표 감사합니다.
Heejeong Choi
2021-11-08 16:32
금일 세미나는 "Attention is not (not) Explanation"라는 주제로 진행되었습니다. 본 발표에서는 attention이 설명력이 있는가에 대해 논의한 논문들이 소개되었습니다. 개인적으로는 attention을 설명력의 지표로 사용하면서 그 성능에 대한 의구심을 가진 적은 있지만, 이론상으로 attention이 설명력을 가질 수 있다고 생각했기 때문에 저런 의구심이 들때마다 현재 사용하고 있는 모델에서 attention의 효과가 별로 없다고 생각하고 넘어 갔었습니다. 그렇기 때문에 금일 발표 내용이 매우 흥미롭다고 생각했고, 이상치 탐지 분야를 연구하며 모델의 설명력에 많은 관심을 가지고 있었기 때문에 금일 발표가 더욱 흥미로웠습니다. 본 발표에서 소개된 두 논문은 attention이 설명력을 가지고 있는가에 대한 상반된 의견을 제시하였는데, 개인적으로는 attention is not explainable이 더 공감되는 부분이 많았습니다. 두 논문 다 논리적으로 타당한 논문이라고 생각했지만, 경험적으로 attention이 설명력이 없다고 많이 느꼈기 때문에 해당 의견에 더 공감이 갔다고 생각합니다. 좋은 발표 감사합니다.
Hyeongwon Kang
2021-11-08 17:48
이번 세미나는 Attention이 정말 설명력이 있는가를 주제로 진행되었습니다. Attention이 설명력이 없다라고 주장한 'Attention is not Explanation', Attention이 설명력이 없다곤 할 수 없다라고 주장한 'Attention is not not Explanation' 두 논문을 다뤘습니다. 첫번째 논문에서는 Gradient와 Leave on out을 사용하여 feature impotance와 attention weights과 상관관계를 확인하였고, 두 상관관계가 낮음을 확인하였습니다. 또한 하나의 output에는 단일 attention이 존재해야하지만 그렇지 않음을 증명하며 attention이 설명력이 없다고 주장하였습니다. 두번째 논문에서는 첫번째 논문에서 주장하는 방식으로 설명력을 논할 수 없다고 주장하고 있습니다. attention이 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 첫번째 논문에서 주장하는 adeversarial attention 등 조작을 통한 attention으로 확인하기 어렵다라고 주장하였습니다. 현재 많은 분야에서 attention이 많이 사용되고, 좋은 성능을 내고 있습니다. 또한, attention을 통해 설명 가능한 모델을 구축하고자 하는 연구가 많이 진행되는 만큼 이 논쟁이 요즘 핫한 주제인 것 같습니다. 연구로써뿐 아니라 여러 사람들이 의견을 내고 논쟁이 벌어지고 있는 재밌는 주제에 대해서 설명해주시고 같이 의견을 나눌 수 있는 시간이 되었던 것 같습니다. 좋은 발표 감사합니다.
Donghwa Kim
2021-11-08 18:01
이번 세미나에서는 Attention is not (not) Explanation에 관한 논문을 소개해 주셨습니다. 첫번째 논문인 Attention이 다른 설명력 수단과의 상관 관계가 적으며, Attention에 Permutation을 적용하거나 Adversarial Attention을 구했을 때 다른 결과가 나와야 하지만 동일한 결과가 나타난다는 점에서 Attention은 일관성이 없다는 내용을 주장하고 있습니다. 두번째 논문에서는 Attention이 다른 설명력 수단과의 상관관계가 없다는 것에 동의하지만 Attention은 모델의 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 위의 논문에서 적용한 방식대로 쉽게 Adversarial Attention을 생성할 수 있는 존재가 아니다 라고 주장하고 있습니다. 따라서 Model based Adversarial을 활용해 Perturbed Attention을 생성해야 하며, 이 때 동일한 결과를 유지하는 다른 Attention을 생성하는 것이 어렵다는 것을 밝혀, Attention이 Consistent하다고 할 수 있다고 주장하고 있습니다. 저는 이 첫번째 논문의 주장을 받아들이고 있습니다. 어쩌면 attention은 특정 feature의 값을 높게 다른 값은 낮게 함으로써 contrastive learning을 통한 feature의 regularization이 아닐까 개인적인 의견을 남겨 놓습니다. 좋은 발표 감사합니다.
Takyoung Kim
2021-11-08 20:09
평소 attention의 설명력에 대한 관심을 갖던 발표자분의 세미나가 진행되었습니다. 직관적으로는 attention 결과를 시각화하였을 때 우리의 직관과 맞는지 의심하는 과정입니다. 다만 [cls] 토큰을 사용하지 않는 task의 경우 loss를 계산할 때 special token 부분은 제외하는 경우도 있는데, attention의 해석을 논할 때에는 task를 크게 고려하지 않고 special token 부분의 직관적이지 않은 결과를 가지고 오는 것이 잘 와닿지는 않았습니다. 본 논문에서는 attention의 설명력을 갖기 위한 조건을 설정하였습니다. 첫 번째로는 기존 feature importance (gradient-based, leave one out) 측정 방식과 비교하여 유사한 가중치를 가져야 한다는 논리였고, 두 번째는 동일한 output을 갖는 결과에 서로다른 attention이 존재하면 안된다는 논리입니다. 두 번째 조건을 검증하는 부분은 attention의 설명력이 아니라 robustness에 대한 이야기를 하는 것 같아서 논리를 그대로 받아들이기는 어려웠습니다. 다른 연구자들도 같은 생각인지는 모르겠지만 이후 많은 반박 논문이 등장하였습니다. 아직 논의를 통해 답을 찾아가는 단계에 있는 분야라 연구자들의 반박, 재반박 과정을 흥미롭게 볼 수 있었습니다. 발표 잘 들었습니다.
Jina Kim
2021-11-08 21:11
오늘 세미나에서는 attention이 실제로 sequence 간 관계를 설명할 수 있는가에 대해 의문을 제기하는 논문을 소개해주셨습니다. 첫번째 논문에서는 gradient와 leave one out 기반의 feature importance와 attention weight의 상관관계가 낮음을 근거로 attention의 설명력에 의문을 제기하였습니다. 두번째 논문에서는 첫번째 논문의 실험으로 attention이 설명력이 없다는 결론을 내리기에는 무리가 있다고 말했는데, 그 이유로 attention은 독립적으로 계산되는 것이 아니기 때문에 첫번째 논문에서 처럼 adversarial attention을 생성할 수 없다는 점을 들었습니다. 많은 논문에서 attention을 sequence 간 관계를 표현하기 위해 사용했기에, 개인 연구를 수행할 때에도 sequence의 특정 token이 전체 sequence에 어떻게 attend하는가를 고려하여 모델을 구성하였는데 오늘 세미나를 듣고 보니 모델이 정말 제가 의도한 대로 작동하는 것인지 확인해볼 필요가 있다고 생각했습니다. 좋은 발표 감사합니다.
Yonggi Jeong
2021-11-09 01:28
이번 세미나에서는 transformer의 등장 이후 널리 사용되고 있는 attention의 설명력에 대해 다루는 두 가지 논문이 소개되었습니다. 먼저, Attention is not explanation에서는 attention의 설명력에 대해 회의적인 주장을 펼칩니다. 그 근거로 attention이 다른 설명력 수단인 gradient나 leave one out 방식과 상관관계가 적고, permutation이나 adversarial 같은 변형을 사용했을 때 일관성이 없다는 점을 지적합니다. 두번 째 논문인 Attention is not not explanation에서는 첫 번째 논문의 두 번째 근거에 대해 반론을 제시합니다. attention이 다른 요소들과 독립적이지 않기 때문에 perturbed attention을 생성할 때 model based 방식을 사용해야 한다고 말합니다. 그리고 이렇게 attention에 변형을 가하면 모델의 예측값이 달라지게 되고, 동일한 예측을 가지는 attention을 생성하기 어렵다는 것을 근거로 attention이 일관성 있다고 주장합니다. 첫 번째 논문의 근거를 모두 반박한 것은 아니지만 attention의 설명력에 대해 어느 정도의 근거를 확보했다고 보여지고, 이러한 논의와는 별개로 [CLS]토큰에 attention이 가는 몇몇 경우가 있더라도 attention은 이미 여러 task 들에서 설명력을 나타내는 지표로 사용되고 있습니다. 개인적으로 설명력이 되기 위한 조건을 너무 까다롭게 설정하지 않았나 하는 생각을 가지고 있고, 저는 아이언맨과 같은 생각입니다. 재밌는 발표 감사합니다.
Jounghee Kim
2021-11-09 16:41
금일 세미나는 "학습된 Attention이 모델의 설명력과 관련성"을 주제로 2가지 논문을 소개해 주셨습니다. 첫번쨰 논문인 "Attention is not explanation"은 Attention을 설명력을 검증하기 위하여 다양한 실험을 설계하였습니다. 해당 논문은 실험을 통해 Attention이 다른 설명력 수단과의 상관관계가 적다는 점을 확인하였습니다. 또한, Attention에 Permutation을 적용하거나 Adversarial Attention을 구했을 때 다른 결과가 나와야 하지만 동일한 결과가 나타난다는 점을 확인하면서, Attention은 일관성이 없다는 점을 지적합니다. 이 실험결과를 통해 해당 논문은 Attention은 설명력이 될 수 없다고 주장합니다. 반면 두번째 논문인 "Attention is not not explanation"에서는 좀 더 세세한 실험설계를 통해 앞선 논문의 실험에 대해 반박합니다. 해당 논문은 실험을 통해 Attention이 Uniform Attention에 비하여 성능 향상에 도움을 준다는 것을 확인하였으며, Trained MLP를 통해 구성한 Attention의 성능이 Contextualized Model의 성능과 유사하다는 것을 확인하였다. 따라서 Attention은 조작하기 힘들며 이는 Attention은 설명력이 될 수 있다고 주장합니다. Attention이 등장하고 자연스레 설명력 있는 아키텍처라고 생각하며 실험을 하였는데 오늘 세미나에서는 새로운 관점을 제시해 주는 논문을 통해 더 해당 아키텍처에 대해 더 깊게 생각해 볼 수 있는 의미있는 시간이었습니다. 좋은 발표 감사합니다.
Jaehyuk Heo
2022-01-27 21:38
이번 세미나에서는 attention score가 과연 설명력으로 나타낼 수 있는가에 대한 두 가지 연구 사례를 소개해주셨습니다. 첫번 째로 소개된 논문은 attention score는 explanation이 아니다에 대한 내용이고, 이어서 소개한 논문은 이와 상반되는 내용이었습니다. 첫 논문은 attention score는 약간의 permutation에도 같은 attention score를 나타낸 다는 점을 지적하여 attention score는 설명력이 아니다 라고 주장합니다. 반면 두 번째 단순 permutation이 아닌 모델을 기반으로 adversarial 하게 perturbation을 주어야 한다고 반문하여 실험 결과, attention score가 다르게 나타나는 점을 보여주며 attention score는 설명력으로 볼 수 있다고 주장합니다. 이전부터 설명이라는 관점에서 다양한 방법과 여러 설명력에 대한 공리를 살펴보며 개인적으로 든 생각은 아직도 설명력은 단순히 정의할 수 없고, 상황에 따라 변하는 것이라고 생각됩니다. 이번 논문에서는 attention의 일관성을 기준으로 연구한 사례이고 이러한 관점에서 실제 output과의 연관성도 sensitivity 관점에서 함께 평가했으면 좋았지 않았을까란 생각을 해보았습니다. 오늘도 좋은 내용 소개해주셔서 감사합니다.
Yunseung Lee
2021-12-02 17:00
금일 세미나는 attention이 설명력을 가지는가를 검증하는 논문들에 대한 리뷰로 진행되었습니다. 서로 상반된 의견을 제시하는 논문들에 대해 소개해주셨습니다. 먼저 첫번째 논문은 attention이 또 다른 모델 예측결과에 대한 설명방법으로 활용되는 gradient 결과와 상관성이 낮으며, adversarial attention 계산 시에 동일한 결과를 도출한다는 것을 근거로 attention이 설명력을 가지지 못함을 주장하였습니다. 이와 반대 의견으로는 두번째 논문을 소개해주셨는데, 해당 논문에서는 실험적으로 uniform attention에 비해 성능이 향상되며, attention-based MLP와 contextualized model의 성능이 유사함을 보였습니다. 또한, 첫번째 논문의 실험에서의 adverarial attention은 생성하기 매우 어려운 점을 지적하며 attention이 설명력을 가질 것이라는 흐름을 보여주었습니다. Attention 설명력에 대해 2가지 견해를 모두 공유해주셔서 해당 부분에 대해 생각해볼 수 있었고, 개인적으로는 attention이 학습과정에서 주변 토큰/픽셀 간의 관계성을 의미하는 것이기 때문에 attention이 아예 의미가 없다고 생각하지는 않습니다. 좋은 발표 감사합니다.
이번 세미나는 attention의 설명력에 맹목적인 자세를 비판하는 Attention is not explanation 이라는 논문과 이 논문에서 주장하는 것들을 반론하는 Attention is not not explanation이라는 논문에 대한 세미나였습니다. 우선 첫번째 논문에서 attention이 설명력이 있으려면, attention weight들이 다른 설명력 측정 수단인 feature importance와 유사해야한다는 점과, 하나의 output 에는 단일한 attention이 존재해야 하고, 같은 결과를 내는 다른 attention값이 존재하면 안된다고 주장하였습니다. 따라서 본 논문은 이 두가지를 각각 서로 다른 실험을 통해 주장하고 있습니다. 해당 논문에서 주로 배울 점은 본인이 주장하고자 하는 것을 어떤 논리 및 모델 구조로 풀어낼 것인가라고 생각이 듭니다. 두번째 논문은 attention은 성능 향상에 도움을 주며, context와 별도로 훈련이 가능하고 조작하기 힘들다라는 주장을 서로 다른 실험을 통해 주장하고 있습니다. 마지막으로 발표자 본인의 생각과, attetion을 대체하는 다른 설명력을 지닌 요소가 무엇이 있을지 말씀해주셔서 좋았습니다. 많이 신경쓰신것 같았고 배울점이 많은 세미나였습니다. 감사합니다.
이번 세미나에서는 attention 메커니즘의 설명력에 관해 두 논문("Attention is not explanation", "Attention is not not explanation")이 소개되었습니다. 두 논문 모두 Attention이 시퀀스 내 요소들의 연관성을 효과적으로 담아낼 것이라는 당연하게 받아들여져 왔던 가정에 대해 의문을 제기하며, 다양한 실험을 통해 논리를 전개해가고 있습니다. 첫번째 논문의 경우 Attention 구조가 새로 추가되면서 큰 성능 향상을 이룰 수 있었던 사실과 달리 설명력에 관해서는 검증된 것이 없으며 attention은 일관성이 없다고 주장합니다. 두번째 논문 역시 설명력에 대한 의문을 제기하지만 첫 논문에서 부정하였던 attention의 일관성 여부에 관해서는 실험을 통해 반박하고 있습니다. 첫번째 논문의 제목에서 not이라는 단어를 추가하여 두번째 논문이 발표되었다는 점에서 두 논문의 관계성과 대결 구도가 꽤나 흥미로웠습니다. 또한, 개인적으로 이전 세미나 중 CNN 모델의 texture bias에 관해 다루었던 발표를 듣고 transformer의 설명력과 관련한 연구에 대해 궁금증이 생겼었는데 금일 발표를 통해 그 궁금증을 어느 정도 해소할 수 있어서 좋았습니다. 성능이 검증된 유명 모델에 대해서는 그 영향력과 명성을 믿고 크게 의심해본 적이 없는데 이번에 소개해주신 논문들의 논리 전개 방식을 통해 연구자로서 가져야 할 비판적인 시선에 대해서도 배울 수 있었습니다. 유익한 발표 진행해주셔서 감사합니다.
금일 세미나는 Attention is not (not) Explanation연구를 중심으로 진행되었습니다. Attention기법은 최근 연구에서 가장 많이 활발히 사용되기에, 친숙해보이기도 하지만 또 그 기능에 대해서 심도있게 이해하지 못하고 있는 것은 아닌가 하는 걱정도 하곤 했습니다. Attention에 대해 깊이 있는 세미나를 구성해주신 발표자분께 먼저 감사의 인사를 전합니다. 본 세미나의 연구는 Attention이 갖는 설명력(explanation)에 대해 깊이 있게 접근합니다. Attention을 설명력으로서 접근하는 시도는 상식적으로 생각하기에 일견 합리적일 수 있다고 생각합니다. 따라서, 이러한 접근을 개인적으로도 맞다는 생각을 쉽게 해왔습니다. 하지만, 본 연구는 attention이 설명력으로서 사용되기에는 보다 신중해야 함을 일깨워 줍니다. 여러 반례를 들며 실험적으로 그 근거를 들어주고 있습니다. Attention is not explanation연구는 Attention weight가 feature importance와 다름을 보여주며 설명력으로서 attention이 맞지 않음을 주장합니다. 이어서 Attention is not (not) Explanation연구는 이와 상반된 결과를 보여줍니다. 이 연구는 앞서 본 Attention is not Explanation연구에 대해 부분적으로 반박합니다. Feature importance와 attention weight가 다름은 인정하지만, 이를 보여주는 실험 과정에서 Adversarial Attention구성에서 degree of freedom이 너무 높았음을 지적합니다. 따라서, 본 연구는 adversarial attention구성을 보다 정확하게 다시 설정해 실험을 진행하고자 합니다. 두 연구 모두 합리적인 주장을 하고 있기에, 하나의 결론을 도출해내기엔 아직 무리가 있어 보입니다. 따라서, Attention이 설명력으로 사용되기에는 보다 신중한 접근이 요구됨을 알 수 있었습니다. 심도 깊은 세미나를 통해 Attention에 대해 보다 깊이 있게 이해할 수 있었습니다. 좋은 세미나 발표자분께 다시 한 번 감사드립니다.
이번 세미나에서는 Attention이 설명력을 갖고 있는지 여부를 논의하는 주제에 대해서 소개해 주셨습니다. 개인적으로는 Attention은 Text가 내포하고 있는 언어학적인 특성을 반영하는 것이 아니라, 주변 문맥을 구성하는 Representation을 반영한 내적 또는 학습을 수행함으로써 미세한 문맥에 따라 변화를 주는 역할을 수행하여, Task를 수행하는 목적에 맞는 Representation을 보다 잘 생성할 수 있는 역할을 한다고 생각하여, Explanation으로 사용될 수는 없다고 생각하지만, 이와 관련된 다양한 의견에 대해 알아볼 수 있어 유익한 시간이었습니다. 또한 Attention이 설명력을 갖는지, 갖지 않는지는 누구도 명확하게 정답을 알 수 없는 주제라고 생각합니다. 이러한 주제에 대해 어떠한 형태로 논리를 구성하고 실험을 설계하여 다른 사람들을 설득할 수 있을지 두 편의 논문을 통해 배울 수 있어 좋았습니다. 발표 감사합니다.
상당히 재미난 주제의 세미나 였습니다. 해당 논문의 주제로 발표자께서 예전부터 관심이 많았던 주제 인걸로 아는데, 우선 그래프 도메인 혹은 다른 방법에서의 성공 적인 적용사례가 됬으면 좋겠습니다. 첫번째 논문은 attention weight 가 실제로 상관관계가 적음을 예시로 들었는데, 다른 attention 을 적용해도 같은 결과가 나온다는 것을 이유로 들었습니다. attention 자체가 설명력이 없음을 의미하는 것이며, 과연 attention 으로 설명하는 것이 맞는가에 대한 근본적인 질문에 대한 접근 이였습니다. 개인적으로는 성능향상에는 중요하나, 이 역시 설명으로 직결되는 부분은 아님을 느낍니다. 반론의 여지로 attention 이 uniform 했는가에 대한 정보를 통해 비교해 보아야 더 정확하지 않았을까 생각하며, 이를 이어 두번째 논문이 나왔던것 같습니다.
상당히 재미있는 주제로 진행되었고, 설명변수 혹은 해석을 할때 변수제거, attention 제거법을 주로 이용하는데 해당 방법론들과의 연계성을 살펴보는것은 좋은 주제가 될 것 같습니다.
이번 세미나에서는 Attention이 과연 설명력을 가지는가에 대해 두개의 상반된 주장을 하는 논문에 대해 소개해주셨습니다. 첫 번째 "Attention is not explanation" 논문에서는 Attention Weight가 Feature Importance와 유사하지 않으며, 하나의 Output에 대해 다수의 Attention이 존재할 여지가 있으므로 Model을 설명하는 수단이 될 수 없다고 주장하고 있습니다. 이에 대비해 두번 째 논문인 "Attention is not not explanation" 에서는 첫번째 주장에 부분적으로 반박을 하며 Attention이 성능향상에 도움이 됨을 주장합니다. 아직까지 정답이 명확하지 않은 상태에서 상반된 주장의 논문을 자세히 설명해주셔서 유익한 시간이었습니다. 좋은 발표 정말 감사드립니다.
Attention은 Transformer를 기점으로 NLP에서 BERT, GPT 등 많이 쓰이고, 최근 들어서는 Vision에서도 ViT 등에서 많이 사용되고 있습니다. Attention은 이러한 task들에 있어서 높은 모델 성능을 위해 쓰이는 것 뿐만 아니라 모델이 의중에 맞게 만들어졌는지 확인하기 위해서도 사용됩니다. 발표자 분은 이번 세미나에서 이러한 Attention에 대하여 대칭되는 주장을 하고 있는 “Attention is not explanation”과 “Attention is not not explanation” 두 논문을 다루어 주셨습니다.
[1] Attention is not explanation : 본 논문은 Attention이 모델을 설명하는 수단이 될 수 없다는 것을 아래와 같은 이유로 주장합니다. ① Attention Weights들이 다른 설명력 측정 수단(Gradient, Leave-One-Out)과의 상관 관계가 적다. ② 하나의 output에는 단일한 Attention이 존재해야 하나, Permutation Attention을 적용하거나 또는 Adversarial Attention을 생성했을 때 동일한 결과가 나타난다.
[2] Attention is not not explanation : 본 논문은 Attention이 다른 설명력 수단과의 상관관계가 없다는 것은 인정하지만, 앞의 논문과 같이 그러한 이유로 인하여 설명력으로 사용하면 안 된다고 단정지을 수 없다고 아래와 같이 주장합니다. Attention은 모델의 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 [1]의 논문에서 적용한 방식대로 쉽게 Adversarial Attention을 생성할 수 없기에 Model based Adversarial을 활용해 Perturbed Attention을 생성해야 합니다. 이 때 동일한 결과를 유지하는 다른 Attention을 생성하는 것이 어렵다는 것을 실험적으로 밝혀내 Attention이 Consistent하다고 주장하였습니다.
Attention에 관심은 많았지만 학계에서 이런 공방이 이뤄지는지 얼마전에 알았는데 이와 관련되어 설명해 주셔서 재밌게 잘 들었습니다. 감사합니다.
금일 세미나 주제는 attention의 설명력에 대한 것으로, attention is not explanation이랑 attention is not not explanation이라는 논문의 발표가 있었습니다. 우선, attention이 설명력이 있다고 보는 것은 target에 영향을 주는 attention 값을 비교해보는 것인데, [eos], [cls]와 같은 주요 토큰에 attention이 집중되는 양상을 보면 이는 attention이 설명력이 있다고 보기 힘듭니다. 이 배경을 바탕으로 attention은 모델을 설명하는 수단이 될 수 없다고 주장한 논문은 attention weight이 설명력 측정 수단인 feature importance와 유사해아 한다는 것과 하나의 output에는 하나의 attention이 존재해야한다 라는 가정이 성립되지 않음을 증명하며 attention의 설명력을 부정하였습니다. attention weight이 설명력이 될 수 있다고 주장한 논문에서는 첫번째 논문에서 adversarial attention 구성 부분을 반박하며, 제대로 설명력을 파악하고자 실험을 설계하였습니다. 우선 uniform distribution에 비해 attention 분포가 성능 향상을 보였으며, random seed에 의해서도 강건함을 보였습니다. 그리고 모델 성능에 영향을 주는 context를 제거하고 attention만의 영향력을 보이기 위한 실험을 진행했는데, 기본 LSTM과 LSTM embedding을 MLP로 대체한 모델 모두 성능 차이가 크지 않아 model agnostic하게 attention 자체가 의미가 있음을 보였습니다. 그리고 새롭게 adversarial distribution을 학습하는 방법론을 제안하여 첫번째 논문에서 주장한 adversarial attention이 존재하기 힘듦을 보였습니다. attention에 대해 설명력 관점에 진행한 다양한 실험과 논의 배경을 접해볼 수 있는 유익한 시간이었습니다. 좋은 발표 감사합니다.
금일 세미나는 등장 이후 최고의 활용도를 보이는 Attention을 주제로 Attention의 설명력을 부정하는 측면과 긍정하는 측면에 대해 소개되었습니다. 먼저 Attention의 설명력을 부인하는 Attention is not explanation(EMNLP, 2019)의 골자는 높은 Attention Weight의 입력값은 출력값에 큰 영향이 있다는 것입니다. 이에 두 가지 가설을 실험하였는데 첫 번째, Attention의 값을 Feature Importance로도 비교 가능하다는 점이라는 것입니다. 허나 실험을 통해 두 값의 Correlation이 낮음을 확인할 수 있었습니다. 두번째, 하나의 출력값에는 단일한 Attention이 존재해야 한다는 것입니다. 이 역시 Permutated Attention과 Adaversarial Attention을 이용한 실험을 통해 서로 다른 Attention이더라도 동일한 값을 출력할 수 있다는 것을 보여 가설이 옳지 않음을 보였습니다. 이에 해당 논문에 수직적으로 반박하는 Attention is not not explanation(NACCL, 2019)이 등장하였습니다. 저자들이 집중한 부분은 첫 번째 논문에서의 두 번째 가설이었고 제대로 된 Adversarial Attention으로 첫 번째 논문의 저자들의 실험을 반박하고자 하였습니다. 우선 이전까지 Transformer 계열 모델과 Attention에 대한 약간의 맹목적인 믿음(?)이 있었는데 이는 연구자로서 옳지 못했던 태도 였던 것 같습니다. Attention을 활용하여 여러 모델의 과제 수행 능력이 매우 향상 된 것은 사실이기에 근본적으로 Attention의 어떤 효과로 인해 퍼포먼스가 향상 되었는지 면밀히 분석한다면 금일 다루었던 질문에 대한 결론을 얻을 수 있지 않을까 생각합니다. 이에 따라 저의 의견은 Attention is not not explanation, but effects라고 할 수 있을 것 같습니다. 중요한 내용과 더불어 연구자로서의 attitude에 대한 고민을 할 수 있는 세미나를 준비해주신 발표자 분께 감사의 말씀 드립니다.
기존에 널리 사용되고 있는 방법론에 대한 새로운 해석은 언제나 즐겁고 또 결론이 어떻게 나든 꼭 필요한 것 같습니다. 금일 세미나에서도 NLP를 넘어 vision task에서도 널리 사용되는 attention mechanism을 설명력이 있는 방법론으로 볼 수 있는지에 대한 두 가지 연구를 살펴보았습니다. 두 논문에서 주장하는 바가 모두 틀린 부분은 없다는 생각이 들었습니다. 추가적으로 이러한 논문을 작성할때는 리뷰어 뿐만 아니라 일반 독자들도 납득하고 이해할 수 있는 실험을 설계하는 것이 매우 중요하다는 것을 다시금 느낄 수 있었습니다. 개인적으로는 attention을 우리가 어떤 의도로 설계했는지와 큰 상관 없이 모델이 GT label을 잘 맞추도록 매트릭스들이 업데이트 될 것입니다. 이러한 상황에서 파라미터가 매우 많은 모델들이 '적절한' 추가 정보를 얻음으로써 큰 성능 향상이 있는 것이라 생각합니다. 이에 attention 자체를 정말 언어학적으로 단어들 간의 상관관계로 해석한다는 것은 무리가 있을 것이라 생각하며, 모델 자체가 어떻게 판단하는지를 고려하는것은 상황에 따라 가능하다고 생각합니다. 재미있는 연구 소개해주셔서 감사합니다.
금일 소개해주신 논문은 Attention is not explainable입니다. 담당했던 업무에서도 필요한 설명력에 대한 필요성이 느껴져서 모델의 설명 효과가 있는 Attention에 대하여 관심을 갖게되어 오늘의 세미나를 흥미롭게 들을 수 있었습니다. 첫번째 논문에서는 Feature Importance와의 상관관계가 없고, Attention의 Adversarial을 생성하였을 때 동일한 분포가 나오기 때문에 설명력을 나타낼 수 없다고 주장하였고, 두번째 논문에서는 Adversarial Attention을 생성하는 방법에 대한 의문을 제기하고, Attention이 일관적이라고 반박합니다. 이번 세미나를 통하여 논문에 나오는 내용을 항상 그대로 받아들이며 이해하는데 집중하였는데, 기존 논문에 대한 의문을 제시하고 이의를 제기함으로써 갖는 연구적 가치에 대하여 생각해볼 수 있었습니다. 이번 계기로 Attention에 대하여 다른 시각으로 생각해볼 수 있었던 것 같습니다. 흥미로운 세미나 만들어주셔서 감사합니다.
금일 진행된 세미나에서는 Attention에 관한 의견을 재고해 볼만한 내용을 소개해주셨습니다. 우선 Attention is Not Explainable이라는 논문에서는 NLP task에 있어서 [CLS] 토큰 등 우리가 일반적으로 기대하는, 즉 모델이 어떤 예측을 했을 때 실제로 바라보는 단어, 혹은 문장 단위가 아닌 다른 부분에 어텐션이 많이 가해진다 라는 점을 들면서 어텐션의 설명력에 대한 의구심을 던지고 있습니다. 이를 확인하기 위한 실험 설계 측면에서는 Gradient, 혹인 LOO 등의 방법론으로 얻은 feature importance와의 상관성을 파악하는 것과 동일 output에 대한 어텐션의 분포를 파악하였습니다. 결과적으로는 feature importance와의 상관성이 낮게 나타나고 어텐션이 쉽게 분포 변화가 일어나면서, 저자들은 의구심을 제기한 바와 같이 어텐션 가중치가 모델의 예측에 대한 설명으로서의 가치를 갖기는 어렵다고 주장합니다. 반대되는 논문으로는 Attention is Not Not Explanation을 소개해주셨는데, 해당 논문에서는 어텐션이 성능 향상에 도움이 되고, Context와 별도로 훈련이 가능하다는 점 등을 통해 첫번째 논문에 반대되는 주장을 제기합니다. 발표를 들으면서 Attention map과 같이 비전 분야에서의 어텐션 설명력을 NLP에도 동일시하여 확인해보려는건가, 싶었는데 개인적으로는 이미지의 특성과 자연어에서 사용하는 입력 토큰의 특성 자체가 다르고 딥러닝이 shortest path를 학습하는 과정이라는 점에서 두 결과물 또한 상이하지 않을까 라는 생각이 들었습니다. 이 분야에 대해서 좀 더 흥미로운 연구가 나올 것으로 예상되고, 관련하여 followup을 해보는 것이 의미가 있을 것 같습니다. 마블 사진을 곁들인 좋은 발표 감사합니다.
금일 세미나는 "Attention is not (not) Explanation"라는 주제로 진행되었습니다. 본 발표에서는 attention이 설명력이 있는가에 대해 논의한 논문들이 소개되었습니다. 개인적으로는 attention을 설명력의 지표로 사용하면서 그 성능에 대한 의구심을 가진 적은 있지만, 이론상으로 attention이 설명력을 가질 수 있다고 생각했기 때문에 저런 의구심이 들때마다 현재 사용하고 있는 모델에서 attention의 효과가 별로 없다고 생각하고 넘어 갔었습니다. 그렇기 때문에 금일 발표 내용이 매우 흥미롭다고 생각했고, 이상치 탐지 분야를 연구하며 모델의 설명력에 많은 관심을 가지고 있었기 때문에 금일 발표가 더욱 흥미로웠습니다. 본 발표에서 소개된 두 논문은 attention이 설명력을 가지고 있는가에 대한 상반된 의견을 제시하였는데, 개인적으로는 attention is not explainable이 더 공감되는 부분이 많았습니다. 두 논문 다 논리적으로 타당한 논문이라고 생각했지만, 경험적으로 attention이 설명력이 없다고 많이 느꼈기 때문에 해당 의견에 더 공감이 갔다고 생각합니다. 좋은 발표 감사합니다.
이번 세미나는 Attention이 정말 설명력이 있는가를 주제로 진행되었습니다. Attention이 설명력이 없다라고 주장한 'Attention is not Explanation', Attention이 설명력이 없다곤 할 수 없다라고 주장한 'Attention is not not Explanation' 두 논문을 다뤘습니다. 첫번째 논문에서는 Gradient와 Leave on out을 사용하여 feature impotance와 attention weights과 상관관계를 확인하였고, 두 상관관계가 낮음을 확인하였습니다. 또한 하나의 output에는 단일 attention이 존재해야하지만 그렇지 않음을 증명하며 attention이 설명력이 없다고 주장하였습니다. 두번째 논문에서는 첫번째 논문에서 주장하는 방식으로 설명력을 논할 수 없다고 주장하고 있습니다. attention이 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 첫번째 논문에서 주장하는 adeversarial attention 등 조작을 통한 attention으로 확인하기 어렵다라고 주장하였습니다. 현재 많은 분야에서 attention이 많이 사용되고, 좋은 성능을 내고 있습니다. 또한, attention을 통해 설명 가능한 모델을 구축하고자 하는 연구가 많이 진행되는 만큼 이 논쟁이 요즘 핫한 주제인 것 같습니다. 연구로써뿐 아니라 여러 사람들이 의견을 내고 논쟁이 벌어지고 있는 재밌는 주제에 대해서 설명해주시고 같이 의견을 나눌 수 있는 시간이 되었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Attention is not (not) Explanation에 관한 논문을 소개해 주셨습니다. 첫번째 논문인 Attention이 다른 설명력 수단과의 상관 관계가 적으며, Attention에 Permutation을 적용하거나 Adversarial Attention을 구했을 때 다른 결과가 나와야 하지만 동일한 결과가 나타난다는 점에서 Attention은 일관성이 없다는 내용을 주장하고 있습니다. 두번째 논문에서는 Attention이 다른 설명력 수단과의 상관관계가 없다는 것에 동의하지만 Attention은 모델의 다른 요소들과 독립적으로 존재하는 것이 아니기 때문에 위의 논문에서 적용한 방식대로 쉽게 Adversarial Attention을 생성할 수 있는 존재가 아니다 라고 주장하고 있습니다. 따라서 Model based Adversarial을 활용해 Perturbed Attention을 생성해야 하며, 이 때 동일한 결과를 유지하는 다른 Attention을 생성하는 것이 어렵다는 것을 밝혀, Attention이 Consistent하다고 할 수 있다고 주장하고 있습니다. 저는 이 첫번째 논문의 주장을 받아들이고 있습니다. 어쩌면 attention은 특정 feature의 값을 높게 다른 값은 낮게 함으로써 contrastive learning을 통한 feature의 regularization이 아닐까 개인적인 의견을 남겨 놓습니다. 좋은 발표 감사합니다.
평소 attention의 설명력에 대한 관심을 갖던 발표자분의 세미나가 진행되었습니다. 직관적으로는 attention 결과를 시각화하였을 때 우리의 직관과 맞는지 의심하는 과정입니다. 다만 [cls] 토큰을 사용하지 않는 task의 경우 loss를 계산할 때 special token 부분은 제외하는 경우도 있는데, attention의 해석을 논할 때에는 task를 크게 고려하지 않고 special token 부분의 직관적이지 않은 결과를 가지고 오는 것이 잘 와닿지는 않았습니다. 본 논문에서는 attention의 설명력을 갖기 위한 조건을 설정하였습니다. 첫 번째로는 기존 feature importance (gradient-based, leave one out) 측정 방식과 비교하여 유사한 가중치를 가져야 한다는 논리였고, 두 번째는 동일한 output을 갖는 결과에 서로다른 attention이 존재하면 안된다는 논리입니다. 두 번째 조건을 검증하는 부분은 attention의 설명력이 아니라 robustness에 대한 이야기를 하는 것 같아서 논리를 그대로 받아들이기는 어려웠습니다. 다른 연구자들도 같은 생각인지는 모르겠지만 이후 많은 반박 논문이 등장하였습니다. 아직 논의를 통해 답을 찾아가는 단계에 있는 분야라 연구자들의 반박, 재반박 과정을 흥미롭게 볼 수 있었습니다. 발표 잘 들었습니다.
오늘 세미나에서는 attention이 실제로 sequence 간 관계를 설명할 수 있는가에 대해 의문을 제기하는 논문을 소개해주셨습니다. 첫번째 논문에서는 gradient와 leave one out 기반의 feature importance와 attention weight의 상관관계가 낮음을 근거로 attention의 설명력에 의문을 제기하였습니다. 두번째 논문에서는 첫번째 논문의 실험으로 attention이 설명력이 없다는 결론을 내리기에는 무리가 있다고 말했는데, 그 이유로 attention은 독립적으로 계산되는 것이 아니기 때문에 첫번째 논문에서 처럼 adversarial attention을 생성할 수 없다는 점을 들었습니다. 많은 논문에서 attention을 sequence 간 관계를 표현하기 위해 사용했기에, 개인 연구를 수행할 때에도 sequence의 특정 token이 전체 sequence에 어떻게 attend하는가를 고려하여 모델을 구성하였는데 오늘 세미나를 듣고 보니 모델이 정말 제가 의도한 대로 작동하는 것인지 확인해볼 필요가 있다고 생각했습니다. 좋은 발표 감사합니다.
이번 세미나에서는 transformer의 등장 이후 널리 사용되고 있는 attention의 설명력에 대해 다루는 두 가지 논문이 소개되었습니다. 먼저, Attention is not explanation에서는 attention의 설명력에 대해 회의적인 주장을 펼칩니다. 그 근거로 attention이 다른 설명력 수단인 gradient나 leave one out 방식과 상관관계가 적고, permutation이나 adversarial 같은 변형을 사용했을 때 일관성이 없다는 점을 지적합니다. 두번 째 논문인 Attention is not not explanation에서는 첫 번째 논문의 두 번째 근거에 대해 반론을 제시합니다. attention이 다른 요소들과 독립적이지 않기 때문에 perturbed attention을 생성할 때 model based 방식을 사용해야 한다고 말합니다. 그리고 이렇게 attention에 변형을 가하면 모델의 예측값이 달라지게 되고, 동일한 예측을 가지는 attention을 생성하기 어렵다는 것을 근거로 attention이 일관성 있다고 주장합니다. 첫 번째 논문의 근거를 모두 반박한 것은 아니지만 attention의 설명력에 대해 어느 정도의 근거를 확보했다고 보여지고, 이러한 논의와는 별개로 [CLS]토큰에 attention이 가는 몇몇 경우가 있더라도 attention은 이미 여러 task 들에서 설명력을 나타내는 지표로 사용되고 있습니다. 개인적으로 설명력이 되기 위한 조건을 너무 까다롭게 설정하지 않았나 하는 생각을 가지고 있고, 저는 아이언맨과 같은 생각입니다. 재밌는 발표 감사합니다.
금일 세미나는 "학습된 Attention이 모델의 설명력과 관련성"을 주제로 2가지 논문을 소개해 주셨습니다. 첫번쨰 논문인 "Attention is not explanation"은 Attention을 설명력을 검증하기 위하여 다양한 실험을 설계하였습니다. 해당 논문은 실험을 통해 Attention이 다른 설명력 수단과의 상관관계가 적다는 점을 확인하였습니다. 또한, Attention에 Permutation을 적용하거나 Adversarial Attention을 구했을 때 다른 결과가 나와야 하지만 동일한 결과가 나타난다는 점을 확인하면서, Attention은 일관성이 없다는 점을 지적합니다. 이 실험결과를 통해 해당 논문은 Attention은 설명력이 될 수 없다고 주장합니다. 반면 두번째 논문인 "Attention is not not explanation"에서는 좀 더 세세한 실험설계를 통해 앞선 논문의 실험에 대해 반박합니다. 해당 논문은 실험을 통해 Attention이 Uniform Attention에 비하여 성능 향상에 도움을 준다는 것을 확인하였으며, Trained MLP를 통해 구성한 Attention의 성능이 Contextualized Model의 성능과 유사하다는 것을 확인하였다. 따라서 Attention은 조작하기 힘들며 이는 Attention은 설명력이 될 수 있다고 주장합니다. Attention이 등장하고 자연스레 설명력 있는 아키텍처라고 생각하며 실험을 하였는데 오늘 세미나에서는 새로운 관점을 제시해 주는 논문을 통해 더 해당 아키텍처에 대해 더 깊게 생각해 볼 수 있는 의미있는 시간이었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 attention score가 과연 설명력으로 나타낼 수 있는가에 대한 두 가지 연구 사례를 소개해주셨습니다. 첫번 째로 소개된 논문은 attention score는 explanation이 아니다에 대한 내용이고, 이어서 소개한 논문은 이와 상반되는 내용이었습니다. 첫 논문은 attention score는 약간의 permutation에도 같은 attention score를 나타낸 다는 점을 지적하여 attention score는 설명력이 아니다 라고 주장합니다. 반면 두 번째 단순 permutation이 아닌 모델을 기반으로 adversarial 하게 perturbation을 주어야 한다고 반문하여 실험 결과, attention score가 다르게 나타나는 점을 보여주며 attention score는 설명력으로 볼 수 있다고 주장합니다. 이전부터 설명이라는 관점에서 다양한 방법과 여러 설명력에 대한 공리를 살펴보며 개인적으로 든 생각은 아직도 설명력은 단순히 정의할 수 없고, 상황에 따라 변하는 것이라고 생각됩니다. 이번 논문에서는 attention의 일관성을 기준으로 연구한 사례이고 이러한 관점에서 실제 output과의 연관성도 sensitivity 관점에서 함께 평가했으면 좋았지 않았을까란 생각을 해보았습니다. 오늘도 좋은 내용 소개해주셔서 감사합니다.
금일 세미나는 attention이 설명력을 가지는가를 검증하는 논문들에 대한 리뷰로 진행되었습니다. 서로 상반된 의견을 제시하는 논문들에 대해 소개해주셨습니다. 먼저 첫번째 논문은 attention이 또 다른 모델 예측결과에 대한 설명방법으로 활용되는 gradient 결과와 상관성이 낮으며, adversarial attention 계산 시에 동일한 결과를 도출한다는 것을 근거로 attention이 설명력을 가지지 못함을 주장하였습니다. 이와 반대 의견으로는 두번째 논문을 소개해주셨는데, 해당 논문에서는 실험적으로 uniform attention에 비해 성능이 향상되며, attention-based MLP와 contextualized model의 성능이 유사함을 보였습니다. 또한, 첫번째 논문의 실험에서의 adverarial attention은 생성하기 매우 어려운 점을 지적하며 attention이 설명력을 가질 것이라는 흐름을 보여주었습니다. Attention 설명력에 대해 2가지 견해를 모두 공유해주셔서 해당 부분에 대해 생각해볼 수 있었고, 개인적으로는 attention이 학습과정에서 주변 토큰/픽셀 간의 관계성을 의미하는 것이기 때문에 attention이 아예 의미가 없다고 생각하지는 않습니다. 좋은 발표 감사합니다.