금일 세미나는 다양한 문서 포멧에서 문서를 이해할 수 있도록 이미지와 텍스트를 함께 활용하는 LayoutLM v2를 설명해 주셨습니다. LayoutLM version2은 이전 논문인 LayoutLM가 Pre-training 과정에서 이미지와 텍스트 사이의 직접적인 연결관계를 모델링 하지 않았다는 점을 극복하기 위하여 제안되었습니다. 본 논문에서 제시하는 Pre-training Objective는 3가지 입니다. 첫번째는 Masked Visual Language Modeling으로써, 이미지 Segment 정보와 텍스트의 Token 정보를 입력으로 받아 일부를 마스킹하고 그 마스킹 된 부분에 어떤 단어를 예측하게 함으로써 학습합니다. 두번째는 Text-Image Alignment입니다. 이 방법은 Mask가 되지 않은 토큰에 해당하는 텍스트가 실제 이미지데이터에서 가려져 있는지 가려져 있지 않은지 예측함으로써 학습하는 방법론입니다. 세번째는 Text-Image Matching으로써, 텍스트와 이미지가 같은 Resource인지를 예측하는 방법론입니다. 이 세가지 방법론을 함께 활용하여 Pre-training 함으로써 본 연구는 기존 모델인 LayoutLM을 뛰어넘는 성능을 보였습니다. 개인적으로 이 논문이 더 흥미로웠던 이유는 해당 논문이 ERINIE와 접근방법이 매우 닮아있다는 생각이 들었기 때문입니다. ERINIE는 Transformer 구조를 갖고있는 BERT의 성능을 향상시키고자 Pre-training에 Entity Recognition이라는 Task를 추가하였습니다. 즉 Transformer 구조에 기존 Pre-training 방법보다 더 구체적이고 복잡한 Task를 추가하는 것이 모델의 성능을 향상시킬 수 있는 방법 중 하나라는 것을 이 논문을 통해 다시 한번 생각해볼 수 있었습니다. 좋은 발표 감사합니다.
Takyoung Kim
2021-08-20 02:12
이미지 상에서 layout이 갖춰진 상황에서 필요한 텍스트를 추출하고 적절한 값을 제시할 수 있는 layoutLM-v2에 대해 설명해주셨습니다. 이전 세미나에서 설명해주신 v1에서는 bert embedding에 bounding box에 대한 임베딩을 추가하였던 반면, v2에서는 거기에 더하여 text-image alignment, text-image matching 목적함수를 추가하였습니다. 다만 기존의 text마다 존재하는 bounding box가 아닌, 이미지 전체에 대한 box를 나누어 삽입한다는 차이가 있었습니다. Pretraining의 목적함수에서 visual feature를 late fusion하거나 또하나의 목적함수로 사용하는 방법을 고려해보아도 될 것 같은데 일단은 text feature에 대해서만 목적함수가 적용된다고 이해했습니다. Layout LM은 입력에 포함되는 임베딩이 굉장히 많은데, 그만큼 최적화에 필요한 시간이나 자원이 많이 필요하지 않을까 하는 생각도 들었습니다. 그러나 굉장히 task-specific한 목적을 갖고 구축하는 모델이기 때문에 당장은 굳이 end-to-end를 고집하거나 무조건적으로 효율적인 방법을 사용할 이유는 없을 것 같습니다. 최근에는 real world의 문제를 다루는 연구에 관심이 생겨 발표 재미있게 잘 들었습니다. 대체적으로 좋은 성능을 보이는 모델 구조에 특정 task의 attribute가 잘 어울린다고 판단된다면 생각보다 많은 task에 대해 연구거리가 생길 것 같습니다. 감사합니다.
Subin Kim
2021-08-20 11:54
이번 세미나에서는 지난 세미나에 이어서 LayoutLMv2 논문을 소개해 주셨습니다. LayoutLM과 다르게 end to end의 구조를 갖고, 이미지가 covered 인지 not covered인지 예측하는 text-image alignment과 이미지와 텍스트가 matching인지 아닌지를 예측하는 text-image matching이 추가되었습니다. 또한, position id를 가지고 attention score를 구할 때, relative positional embedding을 사용하였습니다. 이때, query에서 key의 상대 포지션과 key에서의 query로 가는 상대 포지션을 다르게 보아 PE index를 구성했습니다. 이를 기반으로 2d relative pe로의 확장은 x좌표, y좌표를 기준으로 앞의 1d relative pe를 진행하는 것을 통해 구할 수 있고, 1d relative pe와 함께 attention score 계산에 반영을 해주었습니다. 실험 결과, slot prediction에 대해서 매우 높은 성능을 보여주었고, entity recognition에서도 제안 모델이 SOTA의 성능을 보여주었습니다. 또한, ablation study를 통해 제안한 방법론의 구성요소가 모두 유의미함을 보였습니다. 개인적으로 cross-modal에 대해 최근 흥미롭게 논문을 읽어와서 더욱 재미있게 들을 수 있는 발표였습니다. 좋은 발표 감사합니다.
Hoonsang Yoon
2021-08-20 17:36
본 세미나는 지난번 세미나에서 다룬 LayoutLM의 두번째 버전으로 텍스트와 레이아웃 정보를 모두 학습하여 문서를 이해하는 모델이며, 발표자의 연구주제인 다양한 종류의 입력값이 하나의 모델에 포함되는 Multimodal learning의 예시입니다. 첫번째 버전과 다른 점은 아래와 같습니다.
1) Vision과 Text 사이의 End2End Pretraining이 사용됨
2) 인코더의 역할을 하는 Transformer의 Self attention이 Spatial-aware Self attention, 즉 1D, 2D Relative Positional Embedding을 사용
3) 이미지에 대한 처리를 Faster RCNN대신 Mask R-CNN을 사용
즉, 이전 버전에서는 text와 layout 정보만을 사용하지만, 해당 모델에서는 이미지 정보 역시 pretraining stage에 반영하며, Relative Positional Embedding으로 다른 Bounding Box들 간의 상대적 관계까지 반영하게 됩니다. 이로써 Modality가 다른 다양한 입력값들의 상호 작용이 가능해져 이미지로 나타나있는 문서 내용에 대한 이해가 가능해지게 됩니다. 발표자께서 여러 보완해야 할 부분을 제시하였는데, 여기에 더해 Relative Positional Embedding과 관련된 Relational-Aware Transformer에 대한 고려도 진행해보면 어떨가 생각합니다. 항상 좋은 발표 감사합니다.
Kyoosung So
2021-08-22 00:02
이번 세미나는 지난번 발표해 주셨던 Layout LM의 후속 방법론인 LayoutLMv2에 관하여 소개해 주셨습니다. 기존 방법론과 유사하게 이미지에서 얻게 된 feature를 토큰화하고, 동시에 이미지 내 텍스트 데이터 또한 토큰으로 사용하여 Bert 구조에 입력하게 됩니다. 다만 기존 방법론과의 큰 차이가 text-image alignment라고 할 수 있는데, 이미지에서 특정 단어(토큰)를 마스킹하고 텍스트 예측이 이를 예측하도록 합니다. Document understanding에 있어서 어떻게 글자 인식과 이미지 인식을 동일 선상에서 수행하는지 궁금했는데, 제안된 text-image alignment가 굉장히 간단하면서도 효과적인 방법론이라고 생각합니다. 추가적으로 LayoutLMv2는 relative positional encoding을 사용하여 성능을 높이는데, 이를 이용한 attention bias를 요새 나오는 vision transformer 모델들이 많이 사용하는 것 같습니다. Document understanding이 굉장히 기술 집약적인 task이면서 아직은 학습 데이터와 inference 데이터 간 간극이 작아야 하는 task인 것 같습니다. 앞으로 어떠한 모델들이 더욱 다양성 높은 데이터에서도 적용될 수 있는지 기대가 되는 분야이며, 단순한 비전 태스크를 넘어서 실제 활용될 수 있는 기술적인 요소들이 있기 때문에 굉장히 흥미롭게 듣고 있습니다. 앞으로도 재밌고 배울게 많은 발표 기대하겠습니다.
Euisuk Chung
2021-08-22 15:53
이번 세미나는 "LayoutLM v2: Multi-modal pretraining for visually-rich document understanding"에 대하여 발표해주셨습니다. 본 논문은 지난번에 소개해주셨던 LayoutLM은 pre-training 과정에서 이미지와 텍스트 사이의 직접적인 연결관계가 고려되지 않았다는 한계점 존재하였습니다. LayoutLM v2는 이러한 문제를 극복하기 위해 아래와 같이 변경해줌으로써 모델이 End2End Pretraining을 시킬 수 있도록 하였습니다.
(1) Objective Function : 기존에 사용했던 마스킹 된 일부 단어를 예측하는 Masked Visual Language Modeling 뿐만 아니라, 마스킹 되지 않은 토큰에 해당하는 단어가 실제 이미지에서 가려져 있는가를 예측하는 Text-image alignment와 단어와 이미지가 같은 출처인지를 예측하는 Text-image matching을 추가하였습니다.
(2) Self Attention : 기존에는 단순히 Text만을 고려하였지만, Text와 Vision이 둘 다 고려될 수 있도록 하였습니다.
(3) Backbone model : Faster RCNN에서 Mask RCNN으로 모델을 변경해주었습니다.
(4) Attention Bias with positional embedding : Attention bias를 1D와 2D로 상대적인(relative) 거리를 고려해서 주는 방법을 새롭게 추가하였습니다.
최근 Vision Transformer 관련 논문들에서 relative position encoding관련된 내용이 많이 나와서 어려웠는데 친절하고 자세하게 설명해주셔서 매우 유익한 시간이었습니다. 좋은 발표 감사합니다!
Seungwan Seo
2021-08-22 16:41
이미지에서 텍스트를 처리하는 LayoutLMv2에 대한 세미나였습니다. 지난번에 소개해주신 LayoutLMv1에서는 pretraining시에 이미지와 텍스트의 관계를 학습하지 못하는 단점을 가지고 있었습니다. 이러한 한계를 v2에서 해소하였으며 추가적으로 end-to-end 학습을 진행하게 됩니다. 연구실 졸업생들 중 한 명도 이미지에서 텍스트를 따온 후 기계 번역을 하는 서비스 업무를 진행하고 있는데, 발표해주신 분야가 앞으로 여러 서비스에서 활발하게 사용되지 않을까 생각합니다. 좋은 분야 소개 감사합니다.
Jungho Lee
2021-08-23 10:05
오늘 세미나는 직접 발표를 듣지는 못했으나, 발표자료와 영상을 통해 후기를 남겨봅니다. 지난번 세미나에서 포멧의 차이에 대한 내용을 다뤘었는데, 매우 흥미롭게 봤습니다. 관련된 주제로 오늘도 진행되었는데, 그중 이미지와 텍스트의 관계를 고려한 방법론 으로 생각합니다. 다른 주제들과 유사하게 최근 transfomer 의 활용도가 늘어나고 있는것 같은데, 이를 이용한 방법론의 메인이 항상 attention 과 추가되는 embedding (pe,inductive bias) 가 되는거 같습니다.
Hyeongwon Kang
2021-08-24 00:54
이번 세미나는 LayoutLMv2를 주제로 진행되었습니다. 지난번 세미나에서는 LayoutLMv1을 주제로 진행했었는데 이번 세미나는 그 후속 논문이었습니다. V1에서는 BERT와 Faster RCNN을 이용하여 문서 이미지 상의 텍스트와 레이아웃 두가지 정보를 학습해서 문서를 이해하는 모델이었는데 V2에서는 End to End pretrained 구조를 가지며 V1과 다르게 Mask RCNN을 사용하여 이미지 토큰을 랜덤하게 마스킹 한 후 텍스트에서 해당 토큰이 covered 인지 not covered인지 예측하는 text-image alignment와 이미지와 텍스트가 matching인지 아닌지를 예측하는 text-image matching을 사용하였습니다. 또한, 1D, 2D relative positional embedding을 사용하여 토큰들의 상대적인 거리를 고려하였습니다. 여러 분야를 접목한 cross-modal 연구는 대게 신선하게 와닿는 것 같으며, 실생활에 있어서 이러한 cross-modal 연구가 더 많이 진행되어야 한다고 생각하는데 이러한 내용을 세미나를 통해 들을 수 있어서 좋은 시간이 되었던 것 같습니다. 좋은 발표 감사합니다.
Yunseung Lee
2021-08-27 14:25
금일 세미나는 “LayoutLMv2: Multi-modal pretraining for visually-rich document understanding”를 주제로 진행되었습니다. 본 논문에서 제안하는 LayoutLM2 모델은 visual feature, text token, 그리고 bounding box를 활용하게 되며, LayoutLMv1과는 다르게, end-to-end의 구조를 갖고, 추가적으로 pretraining 과정에서 3가지의 목적함수를 활용합니다. 흥미로웠던 부분은 기존 version1 모델에서 추가된 내용인 text-image alignment였는데, multi-modal task에서 서로 다른 modal을 연결하는 방법을 알 수 있었습니다. Text-image alingment를 통해 직접적으로 text-visual 요소의 연결에 대해 pretrain할 수 있습니다. 모델 구조나 input에 대한 그림이 상세하여 발표 흐름을 따라가기 수월하였습니다. 좋은 발표 전달해주셔서 감사합니다.
Heejeong Choi
2021-08-29 16:28
금일 세미나는 "LayoutLMv2: Multi-modal pretraining for visually-rich document understanding"라는 주제로 진행되었습니다. 본 발표에서는 이미지 문서를 이해하기 위해 anchor box로 이루어져 있는 visual features, text tokens, bounding boxes를 함께 사용하는 LayoutLMv2가 소개되었습니다. 본 방법론에서는 pretraining 단계에서 masked Visual-language modeling, text-image alignment, text-image matching 총 3가지 목적으로 구성된 목적 함수를 사용했습니다. 개인적으로 해당 목적 함수 중 LayoutLMv1에서 추가된 text-image alignment가 흥미로웠는데, 해당 loss를 추가함으로써 이미지에서 words들이 가려져있는지 아닌지를 텍스트 token들의 contextual embeddings로 예측하는 것이 모델의 성능 향상에 도움을 준다는 것을 알 수 있었습니다. 최근에 연구를 진행하면서 하나의 모델이 발전되어 가는 아이디어와 방향에 대해 많은 관심을 가지고 있는데, 본 발표를 통해 multimodal pretraining에서 어떠한 방식으로 아이디어를 적용했을 때 모델이 발전할 수 있는지 알 수 있어 좋았습니다. 좋은 발표 감사합니다.
Myeongsup Kim
2021-08-31 19:04
금일 세미나에서는 영수증과 같은 Image 형태의 데이터에서 Text 정보를 추출하여 Task에 활용하는 LayoutLMv2에 대해 소개해 주셨습니다. LayoutLMv2는 지난번 소개해 주신 LayoutLMv1에서 Text-Image Matching과 Text-Image Alignment를 수행하고, Relative Positional Embedding을 적용하여 모델을 발전시켰습니다. Image Data의 경우 ResNet을 이용하여 Feature Vector를 형성하여 적용을 수행하며, Pre-Training 과정에서 Random하게 Image와 Text를 섞거나, Image를 Drop한 뒤, Text와 Image가 Matching되는지 여부를 [CLS] Token을 이용하여 판별합니다. 추가적으로 Image에 존재하는 Token들을 Masking한 뒤 Text Input에 존재하는 각 Token에 대해 Mask 처리된 Image가 해당 토큰을 포함하고 있는지 여부를 판별하여 Alignment를 수행합니다. 추가적으로 최근 NLP Domain에서 널리 사용되고 있는 Relative Positional Embedding을 사용하여 Attention을 수행할 때 상대적인 위치에 따라 다른 값을 부여합니다. LayoutLMv2는 비정형/반정형의 Image 데이터와 Text Data를 함께 활용할 수 있으며, 실제 서비스 환경에서 높은 가치를 가진다고 생각합니다. 좋은 논문을 소개해 주셔서 감사합니다.
Jina Kim
2021-09-03 18:20
오늘 세미나는 지난번 세미나에서 설명해주신 LayoutLM에 이어, 그 다음으로 제안된 LayoutLM v2에 대한 내용으로 진행되었습니다. LayoutLM은 두 modality(text, vision)를 모두 고려하여 문서를 이해하는 것을 목적으로 제안된 모델입니다. visual struct와 text를 동시에 분석해야 하기 때문에 unimodal model을 결합하는 등의 새로운 모델 구조를 사용해야 합니다. LayoutLM는 최종적으로 문서의 빈 slot 예측, entity recognition 등의 downstream task에 활용될 수 있습니다. BERT와 Faster R-CNN을 결합한 LayoutLM version 1은 pre-traning 단계에서 bounding box 좌표 등을 제외하고, visual feature가 고려되지 않는다는 한계를 가집니다. version 2에서는 faster R-CNN 대신 Masked R-CNN을 사용하며, text와 visual feature 모두에 attention mechanism이 적용됩니다. 문서 이미지는 patch 단위로 들어가며, bounding box의 좌표 또한, patch 상에서의 좌표가 들어갑니다. contextual embedding으로부터 cover된 text를 예측하는 task에 대해 모델을 학습하는데, 이때 outside-beginning tag format에 따라 labeling하여 이를 정답 label로 사용합니다. 이 방법은 시작하는 token에 B, outside token에 O를 label로 부여하여 outside toekn에 대한 loss는 고려하지 않게 합니다. 추가적으로 relative positional encoding을 사용하여 이전 버전보다 더 좋은 성능을 보였습니다. text와 vision 요소를 동시에 input으로 넣어 multimodality를 다루는데 이것이 잘 작동한다는 점에서 LayoutLM이 흥미로운 것 같습니다. 좋은 발표 감사합니다.
Jaehyuk Heo
2021-09-07 10:33
금일 세미나는 지난번 LayoutLM에 이어 후속 논문으로 나온 “LayoutLMv2: Multi-modal pretraining for visually-rich document understanding”을 소개해 주셨습니다. 이번 연구에서는 이전 LayoutLM과는 달리 Text와 Image를 각각 사전학습한 모델을 사용하는 것이 아닌 함께 사전학습하여 모델을 활용하는 방식은 제안합니다. 또한 loss function에 Text와 Image에 대해 text-image alignment/matching을 적용하였습니다. 본 논문에서 인상 깊은 점은 기존에 Text와 Image를 함께 활용한 multimodal task에서는 대부분 각각의 encoder를 따로 적용하기 때문에 사전학습 또한 각각 따로 진행을 하는 경우가 대부분이었는데 하나의 모델로 서로 다른 도메인의 데이터를 사전학습하기 위해 적절한 입력 구조와 손실 함수를 정의하였다는 점입니다. 본 연구에서는 이러한 모델 구조를 통해 사전학습을 진행하여 이전 연구의 실험결과 보다 큰 폭으로 성능이 향상되는 모습을 보였습니다. 이번 발표를 통해 다양한 multimodal dataset과 학습 방식에 대해 배울 수 있었습니다. 오늘도 좋은 시간 만들어 주셔서 감사드립니다. 앞으로도 좋은 발표 기대하겠습니다.
Hyeyeon Kim
2021-09-07 12:28
이번 세미나는 LayoutLMv2에 대한 세미나였습니다. 이전 세미나에서의 version 1은 bert embedding에 bounding box에 대한 임베딩을 추가하였고, 금일 진행한 세미나 version2에서는 목적함수에 text-image alignment, text-image matching 를 추가하였습니다. 현재 제가 공부하고 있는 분야인 Question answering 분야도 multimodal 정보를 활용하여 더욱 정확한 성능을 내고자 하는 추세입니다. 이렇게 pretraining 하는 단계에서도 multimodal 방식을 도입하여 정보를 더욱 풍부하게 만드는 것이 향후 QA와 같은 다양한 task에 활용가능할 것 같습니다. 현재 가장 대두되고 있는 분야에 대한 단계적인 세미나 감사드립니다.
Jeongseob Kim
2021-09-17 10:36
금일 세미나는 LayoutLMv2: Multi-modal pretraining for visually-rich document understanding 연구에 대해 진행되었습니다. 본 연구는 이미지 문서라는 multi-modal 데이터를 인식하는 방법론을 담고 있습니다. 지난 번에 발표자분께서 다뤄주셨던 LayoutLM 연구의 연장선상에서 이해할 수 있었습니다. 무엇보다도 지난 연구 모델인 LayoutLM과 본 연구 모델의 비교를 통해 차이점을 짚어주셔서 이해에 더욱 도움이 되었습니다. 본 모델은 지난번과 다르게 masked 기법과 multi modal data간 matching을 목적함수로 하는 pre-training이 적용된 모델이라는 점에서 특징을 갖습니다. 개인적으로, 본 발표에서 발표자분께서 relative positional embedding에 대해 잘 설명해주셔서, 해당 개념에 대한 이해를 높일 수 있었습니다. 이러한 transformer구조와 pre-training을 통한 문제 해결 접근법은 역시나 강하고 다양한 task에 접목될 수 있다는 점을 다시 한 번 확인할 수 있었습니다. 더불어, visual data의 patch단위 input을 활용한 transformer 구조의 활용을 보며, multi modal data의 End-to-End 모델링에 transformer의 활용가능성이 매우 높을 것이라는 점을 생각해볼 수 있었습니다. 연이은 LayoutLM연구에 대한 발표를 들으며 빈 slot 예측, NER 등 다양한 task에 접목 가능한 모델과 연구 방법에 대해 잘 이해할 수 있었습니다. 친절히 좋은 발표해주신 발표자분께 감사드립니다.
금일 세미나는 다양한 문서 포멧에서 문서를 이해할 수 있도록 이미지와 텍스트를 함께 활용하는 LayoutLM v2를 설명해 주셨습니다. LayoutLM version2은 이전 논문인 LayoutLM가 Pre-training 과정에서 이미지와 텍스트 사이의 직접적인 연결관계를 모델링 하지 않았다는 점을 극복하기 위하여 제안되었습니다. 본 논문에서 제시하는 Pre-training Objective는 3가지 입니다. 첫번째는 Masked Visual Language Modeling으로써, 이미지 Segment 정보와 텍스트의 Token 정보를 입력으로 받아 일부를 마스킹하고 그 마스킹 된 부분에 어떤 단어를 예측하게 함으로써 학습합니다. 두번째는 Text-Image Alignment입니다. 이 방법은 Mask가 되지 않은 토큰에 해당하는 텍스트가 실제 이미지데이터에서 가려져 있는지 가려져 있지 않은지 예측함으로써 학습하는 방법론입니다. 세번째는 Text-Image Matching으로써, 텍스트와 이미지가 같은 Resource인지를 예측하는 방법론입니다. 이 세가지 방법론을 함께 활용하여 Pre-training 함으로써 본 연구는 기존 모델인 LayoutLM을 뛰어넘는 성능을 보였습니다. 개인적으로 이 논문이 더 흥미로웠던 이유는 해당 논문이 ERINIE와 접근방법이 매우 닮아있다는 생각이 들었기 때문입니다. ERINIE는 Transformer 구조를 갖고있는 BERT의 성능을 향상시키고자 Pre-training에 Entity Recognition이라는 Task를 추가하였습니다. 즉 Transformer 구조에 기존 Pre-training 방법보다 더 구체적이고 복잡한 Task를 추가하는 것이 모델의 성능을 향상시킬 수 있는 방법 중 하나라는 것을 이 논문을 통해 다시 한번 생각해볼 수 있었습니다. 좋은 발표 감사합니다.
이미지 상에서 layout이 갖춰진 상황에서 필요한 텍스트를 추출하고 적절한 값을 제시할 수 있는 layoutLM-v2에 대해 설명해주셨습니다. 이전 세미나에서 설명해주신 v1에서는 bert embedding에 bounding box에 대한 임베딩을 추가하였던 반면, v2에서는 거기에 더하여 text-image alignment, text-image matching 목적함수를 추가하였습니다. 다만 기존의 text마다 존재하는 bounding box가 아닌, 이미지 전체에 대한 box를 나누어 삽입한다는 차이가 있었습니다. Pretraining의 목적함수에서 visual feature를 late fusion하거나 또하나의 목적함수로 사용하는 방법을 고려해보아도 될 것 같은데 일단은 text feature에 대해서만 목적함수가 적용된다고 이해했습니다. Layout LM은 입력에 포함되는 임베딩이 굉장히 많은데, 그만큼 최적화에 필요한 시간이나 자원이 많이 필요하지 않을까 하는 생각도 들었습니다. 그러나 굉장히 task-specific한 목적을 갖고 구축하는 모델이기 때문에 당장은 굳이 end-to-end를 고집하거나 무조건적으로 효율적인 방법을 사용할 이유는 없을 것 같습니다. 최근에는 real world의 문제를 다루는 연구에 관심이 생겨 발표 재미있게 잘 들었습니다. 대체적으로 좋은 성능을 보이는 모델 구조에 특정 task의 attribute가 잘 어울린다고 판단된다면 생각보다 많은 task에 대해 연구거리가 생길 것 같습니다. 감사합니다.
이번 세미나에서는 지난 세미나에 이어서 LayoutLMv2 논문을 소개해 주셨습니다. LayoutLM과 다르게 end to end의 구조를 갖고, 이미지가 covered 인지 not covered인지 예측하는 text-image alignment과 이미지와 텍스트가 matching인지 아닌지를 예측하는 text-image matching이 추가되었습니다. 또한, position id를 가지고 attention score를 구할 때, relative positional embedding을 사용하였습니다. 이때, query에서 key의 상대 포지션과 key에서의 query로 가는 상대 포지션을 다르게 보아 PE index를 구성했습니다. 이를 기반으로 2d relative pe로의 확장은 x좌표, y좌표를 기준으로 앞의 1d relative pe를 진행하는 것을 통해 구할 수 있고, 1d relative pe와 함께 attention score 계산에 반영을 해주었습니다. 실험 결과, slot prediction에 대해서 매우 높은 성능을 보여주었고, entity recognition에서도 제안 모델이 SOTA의 성능을 보여주었습니다. 또한, ablation study를 통해 제안한 방법론의 구성요소가 모두 유의미함을 보였습니다. 개인적으로 cross-modal에 대해 최근 흥미롭게 논문을 읽어와서 더욱 재미있게 들을 수 있는 발표였습니다. 좋은 발표 감사합니다.
본 세미나는 지난번 세미나에서 다룬 LayoutLM의 두번째 버전으로 텍스트와 레이아웃 정보를 모두 학습하여 문서를 이해하는 모델이며, 발표자의 연구주제인 다양한 종류의 입력값이 하나의 모델에 포함되는 Multimodal learning의 예시입니다. 첫번째 버전과 다른 점은 아래와 같습니다.
1) Vision과 Text 사이의 End2End Pretraining이 사용됨
2) 인코더의 역할을 하는 Transformer의 Self attention이 Spatial-aware Self attention, 즉 1D, 2D Relative Positional Embedding을 사용
3) 이미지에 대한 처리를 Faster RCNN대신 Mask R-CNN을 사용
즉, 이전 버전에서는 text와 layout 정보만을 사용하지만, 해당 모델에서는 이미지 정보 역시 pretraining stage에 반영하며, Relative Positional Embedding으로 다른 Bounding Box들 간의 상대적 관계까지 반영하게 됩니다. 이로써 Modality가 다른 다양한 입력값들의 상호 작용이 가능해져 이미지로 나타나있는 문서 내용에 대한 이해가 가능해지게 됩니다. 발표자께서 여러 보완해야 할 부분을 제시하였는데, 여기에 더해 Relative Positional Embedding과 관련된 Relational-Aware Transformer에 대한 고려도 진행해보면 어떨가 생각합니다. 항상 좋은 발표 감사합니다.
이번 세미나는 지난번 발표해 주셨던 Layout LM의 후속 방법론인 LayoutLMv2에 관하여 소개해 주셨습니다. 기존 방법론과 유사하게 이미지에서 얻게 된 feature를 토큰화하고, 동시에 이미지 내 텍스트 데이터 또한 토큰으로 사용하여 Bert 구조에 입력하게 됩니다. 다만 기존 방법론과의 큰 차이가 text-image alignment라고 할 수 있는데, 이미지에서 특정 단어(토큰)를 마스킹하고 텍스트 예측이 이를 예측하도록 합니다. Document understanding에 있어서 어떻게 글자 인식과 이미지 인식을 동일 선상에서 수행하는지 궁금했는데, 제안된 text-image alignment가 굉장히 간단하면서도 효과적인 방법론이라고 생각합니다. 추가적으로 LayoutLMv2는 relative positional encoding을 사용하여 성능을 높이는데, 이를 이용한 attention bias를 요새 나오는 vision transformer 모델들이 많이 사용하는 것 같습니다. Document understanding이 굉장히 기술 집약적인 task이면서 아직은 학습 데이터와 inference 데이터 간 간극이 작아야 하는 task인 것 같습니다. 앞으로 어떠한 모델들이 더욱 다양성 높은 데이터에서도 적용될 수 있는지 기대가 되는 분야이며, 단순한 비전 태스크를 넘어서 실제 활용될 수 있는 기술적인 요소들이 있기 때문에 굉장히 흥미롭게 듣고 있습니다. 앞으로도 재밌고 배울게 많은 발표 기대하겠습니다.
이번 세미나는 "LayoutLM v2: Multi-modal pretraining for visually-rich document understanding"에 대하여 발표해주셨습니다. 본 논문은 지난번에 소개해주셨던 LayoutLM은 pre-training 과정에서 이미지와 텍스트 사이의 직접적인 연결관계가 고려되지 않았다는 한계점 존재하였습니다. LayoutLM v2는 이러한 문제를 극복하기 위해 아래와 같이 변경해줌으로써 모델이 End2End Pretraining을 시킬 수 있도록 하였습니다.
(1) Objective Function : 기존에 사용했던 마스킹 된 일부 단어를 예측하는 Masked Visual Language Modeling 뿐만 아니라, 마스킹 되지 않은 토큰에 해당하는 단어가 실제 이미지에서 가려져 있는가를 예측하는 Text-image alignment와 단어와 이미지가 같은 출처인지를 예측하는 Text-image matching을 추가하였습니다.
(2) Self Attention : 기존에는 단순히 Text만을 고려하였지만, Text와 Vision이 둘 다 고려될 수 있도록 하였습니다.
(3) Backbone model : Faster RCNN에서 Mask RCNN으로 모델을 변경해주었습니다.
(4) Attention Bias with positional embedding : Attention bias를 1D와 2D로 상대적인(relative) 거리를 고려해서 주는 방법을 새롭게 추가하였습니다.
최근 Vision Transformer 관련 논문들에서 relative position encoding관련된 내용이 많이 나와서 어려웠는데 친절하고 자세하게 설명해주셔서 매우 유익한 시간이었습니다. 좋은 발표 감사합니다!
이미지에서 텍스트를 처리하는 LayoutLMv2에 대한 세미나였습니다. 지난번에 소개해주신 LayoutLMv1에서는 pretraining시에 이미지와 텍스트의 관계를 학습하지 못하는 단점을 가지고 있었습니다. 이러한 한계를 v2에서 해소하였으며 추가적으로 end-to-end 학습을 진행하게 됩니다. 연구실 졸업생들 중 한 명도 이미지에서 텍스트를 따온 후 기계 번역을 하는 서비스 업무를 진행하고 있는데, 발표해주신 분야가 앞으로 여러 서비스에서 활발하게 사용되지 않을까 생각합니다. 좋은 분야 소개 감사합니다.
오늘 세미나는 직접 발표를 듣지는 못했으나, 발표자료와 영상을 통해 후기를 남겨봅니다. 지난번 세미나에서 포멧의 차이에 대한 내용을 다뤘었는데, 매우 흥미롭게 봤습니다. 관련된 주제로 오늘도 진행되었는데, 그중 이미지와 텍스트의 관계를 고려한 방법론 으로 생각합니다. 다른 주제들과 유사하게 최근 transfomer 의 활용도가 늘어나고 있는것 같은데, 이를 이용한 방법론의 메인이 항상 attention 과 추가되는 embedding (pe,inductive bias) 가 되는거 같습니다.
이번 세미나는 LayoutLMv2를 주제로 진행되었습니다. 지난번 세미나에서는 LayoutLMv1을 주제로 진행했었는데 이번 세미나는 그 후속 논문이었습니다. V1에서는 BERT와 Faster RCNN을 이용하여 문서 이미지 상의 텍스트와 레이아웃 두가지 정보를 학습해서 문서를 이해하는 모델이었는데 V2에서는 End to End pretrained 구조를 가지며 V1과 다르게 Mask RCNN을 사용하여 이미지 토큰을 랜덤하게 마스킹 한 후 텍스트에서 해당 토큰이 covered 인지 not covered인지 예측하는 text-image alignment와 이미지와 텍스트가 matching인지 아닌지를 예측하는 text-image matching을 사용하였습니다. 또한, 1D, 2D relative positional embedding을 사용하여 토큰들의 상대적인 거리를 고려하였습니다. 여러 분야를 접목한 cross-modal 연구는 대게 신선하게 와닿는 것 같으며, 실생활에 있어서 이러한 cross-modal 연구가 더 많이 진행되어야 한다고 생각하는데 이러한 내용을 세미나를 통해 들을 수 있어서 좋은 시간이 되었던 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 “LayoutLMv2: Multi-modal pretraining for visually-rich document understanding”를 주제로 진행되었습니다. 본 논문에서 제안하는 LayoutLM2 모델은 visual feature, text token, 그리고 bounding box를 활용하게 되며, LayoutLMv1과는 다르게, end-to-end의 구조를 갖고, 추가적으로 pretraining 과정에서 3가지의 목적함수를 활용합니다. 흥미로웠던 부분은 기존 version1 모델에서 추가된 내용인 text-image alignment였는데, multi-modal task에서 서로 다른 modal을 연결하는 방법을 알 수 있었습니다. Text-image alingment를 통해 직접적으로 text-visual 요소의 연결에 대해 pretrain할 수 있습니다. 모델 구조나 input에 대한 그림이 상세하여 발표 흐름을 따라가기 수월하였습니다. 좋은 발표 전달해주셔서 감사합니다.
금일 세미나는 "LayoutLMv2: Multi-modal pretraining for visually-rich document understanding"라는 주제로 진행되었습니다. 본 발표에서는 이미지 문서를 이해하기 위해 anchor box로 이루어져 있는 visual features, text tokens, bounding boxes를 함께 사용하는 LayoutLMv2가 소개되었습니다. 본 방법론에서는 pretraining 단계에서 masked Visual-language modeling, text-image alignment, text-image matching 총 3가지 목적으로 구성된 목적 함수를 사용했습니다. 개인적으로 해당 목적 함수 중 LayoutLMv1에서 추가된 text-image alignment가 흥미로웠는데, 해당 loss를 추가함으로써 이미지에서 words들이 가려져있는지 아닌지를 텍스트 token들의 contextual embeddings로 예측하는 것이 모델의 성능 향상에 도움을 준다는 것을 알 수 있었습니다. 최근에 연구를 진행하면서 하나의 모델이 발전되어 가는 아이디어와 방향에 대해 많은 관심을 가지고 있는데, 본 발표를 통해 multimodal pretraining에서 어떠한 방식으로 아이디어를 적용했을 때 모델이 발전할 수 있는지 알 수 있어 좋았습니다. 좋은 발표 감사합니다.
금일 세미나에서는 영수증과 같은 Image 형태의 데이터에서 Text 정보를 추출하여 Task에 활용하는 LayoutLMv2에 대해 소개해 주셨습니다. LayoutLMv2는 지난번 소개해 주신 LayoutLMv1에서 Text-Image Matching과 Text-Image Alignment를 수행하고, Relative Positional Embedding을 적용하여 모델을 발전시켰습니다. Image Data의 경우 ResNet을 이용하여 Feature Vector를 형성하여 적용을 수행하며, Pre-Training 과정에서 Random하게 Image와 Text를 섞거나, Image를 Drop한 뒤, Text와 Image가 Matching되는지 여부를 [CLS] Token을 이용하여 판별합니다. 추가적으로 Image에 존재하는 Token들을 Masking한 뒤 Text Input에 존재하는 각 Token에 대해 Mask 처리된 Image가 해당 토큰을 포함하고 있는지 여부를 판별하여 Alignment를 수행합니다. 추가적으로 최근 NLP Domain에서 널리 사용되고 있는 Relative Positional Embedding을 사용하여 Attention을 수행할 때 상대적인 위치에 따라 다른 값을 부여합니다. LayoutLMv2는 비정형/반정형의 Image 데이터와 Text Data를 함께 활용할 수 있으며, 실제 서비스 환경에서 높은 가치를 가진다고 생각합니다. 좋은 논문을 소개해 주셔서 감사합니다.
오늘 세미나는 지난번 세미나에서 설명해주신 LayoutLM에 이어, 그 다음으로 제안된 LayoutLM v2에 대한 내용으로 진행되었습니다. LayoutLM은 두 modality(text, vision)를 모두 고려하여 문서를 이해하는 것을 목적으로 제안된 모델입니다. visual struct와 text를 동시에 분석해야 하기 때문에 unimodal model을 결합하는 등의 새로운 모델 구조를 사용해야 합니다. LayoutLM는 최종적으로 문서의 빈 slot 예측, entity recognition 등의 downstream task에 활용될 수 있습니다. BERT와 Faster R-CNN을 결합한 LayoutLM version 1은 pre-traning 단계에서 bounding box 좌표 등을 제외하고, visual feature가 고려되지 않는다는 한계를 가집니다. version 2에서는 faster R-CNN 대신 Masked R-CNN을 사용하며, text와 visual feature 모두에 attention mechanism이 적용됩니다. 문서 이미지는 patch 단위로 들어가며, bounding box의 좌표 또한, patch 상에서의 좌표가 들어갑니다. contextual embedding으로부터 cover된 text를 예측하는 task에 대해 모델을 학습하는데, 이때 outside-beginning tag format에 따라 labeling하여 이를 정답 label로 사용합니다. 이 방법은 시작하는 token에 B, outside token에 O를 label로 부여하여 outside toekn에 대한 loss는 고려하지 않게 합니다. 추가적으로 relative positional encoding을 사용하여 이전 버전보다 더 좋은 성능을 보였습니다. text와 vision 요소를 동시에 input으로 넣어 multimodality를 다루는데 이것이 잘 작동한다는 점에서 LayoutLM이 흥미로운 것 같습니다. 좋은 발표 감사합니다.
금일 세미나는 지난번 LayoutLM에 이어 후속 논문으로 나온 “LayoutLMv2: Multi-modal pretraining for visually-rich document understanding”을 소개해 주셨습니다. 이번 연구에서는 이전 LayoutLM과는 달리 Text와 Image를 각각 사전학습한 모델을 사용하는 것이 아닌 함께 사전학습하여 모델을 활용하는 방식은 제안합니다. 또한 loss function에 Text와 Image에 대해 text-image alignment/matching을 적용하였습니다. 본 논문에서 인상 깊은 점은 기존에 Text와 Image를 함께 활용한 multimodal task에서는 대부분 각각의 encoder를 따로 적용하기 때문에 사전학습 또한 각각 따로 진행을 하는 경우가 대부분이었는데 하나의 모델로 서로 다른 도메인의 데이터를 사전학습하기 위해 적절한 입력 구조와 손실 함수를 정의하였다는 점입니다. 본 연구에서는 이러한 모델 구조를 통해 사전학습을 진행하여 이전 연구의 실험결과 보다 큰 폭으로 성능이 향상되는 모습을 보였습니다. 이번 발표를 통해 다양한 multimodal dataset과 학습 방식에 대해 배울 수 있었습니다. 오늘도 좋은 시간 만들어 주셔서 감사드립니다. 앞으로도 좋은 발표 기대하겠습니다.
이번 세미나는 LayoutLMv2에 대한 세미나였습니다. 이전 세미나에서의 version 1은 bert embedding에 bounding box에 대한 임베딩을 추가하였고, 금일 진행한 세미나 version2에서는 목적함수에 text-image alignment, text-image matching 를 추가하였습니다. 현재 제가 공부하고 있는 분야인 Question answering 분야도 multimodal 정보를 활용하여 더욱 정확한 성능을 내고자 하는 추세입니다. 이렇게 pretraining 하는 단계에서도 multimodal 방식을 도입하여 정보를 더욱 풍부하게 만드는 것이 향후 QA와 같은 다양한 task에 활용가능할 것 같습니다. 현재 가장 대두되고 있는 분야에 대한 단계적인 세미나 감사드립니다.
금일 세미나는 LayoutLMv2: Multi-modal pretraining for visually-rich document understanding 연구에 대해 진행되었습니다. 본 연구는 이미지 문서라는 multi-modal 데이터를 인식하는 방법론을 담고 있습니다. 지난 번에 발표자분께서 다뤄주셨던 LayoutLM 연구의 연장선상에서 이해할 수 있었습니다. 무엇보다도 지난 연구 모델인 LayoutLM과 본 연구 모델의 비교를 통해 차이점을 짚어주셔서 이해에 더욱 도움이 되었습니다. 본 모델은 지난번과 다르게 masked 기법과 multi modal data간 matching을 목적함수로 하는 pre-training이 적용된 모델이라는 점에서 특징을 갖습니다. 개인적으로, 본 발표에서 발표자분께서 relative positional embedding에 대해 잘 설명해주셔서, 해당 개념에 대한 이해를 높일 수 있었습니다. 이러한 transformer구조와 pre-training을 통한 문제 해결 접근법은 역시나 강하고 다양한 task에 접목될 수 있다는 점을 다시 한 번 확인할 수 있었습니다. 더불어, visual data의 patch단위 input을 활용한 transformer 구조의 활용을 보며, multi modal data의 End-to-End 모델링에 transformer의 활용가능성이 매우 높을 것이라는 점을 생각해볼 수 있었습니다. 연이은 LayoutLM연구에 대한 발표를 들으며 빈 slot 예측, NER 등 다양한 task에 접목 가능한 모델과 연구 방법에 대해 잘 이해할 수 있었습니다. 친절히 좋은 발표해주신 발표자분께 감사드립니다.