[Paper Review] LayoutLM from V1 to V3

Paper Review
작성자
Suzie Oh
작성일
2023-05-15 06:13
조회
4565
논문 리스트
  1. LayoutLM: Pre-training of Text and Layout for Document Image Understanding
    1. 논문 링크: https://arxiv.org/pdf/1912.13318.pdf
    2. Code: https://github.com/microsoft/unilm/blob/master/layoutlm/README.md
    3. Venue: KDD 2020
  2. LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding
    1. 논문 링크: https://arxiv.org/pdf/2205.12682.pdf
    2. Code: https://github.com/microsoft/unilm/blob/master/layoutlmv2/README.md
    3. Venue: ACL 2021
  3. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
    1. 논문 링크 : https://arxiv.org/pdf/2204.08387.pdf
    2. Code : https://github.com/microsoft/unilm/blob/master/layoutlmv3/README.md
    3. Venue : Proceedings of the 30th ACM International Conference on Multimedia 2022
Overview
    • LayoutLM
      • 사전학습 과정에서 텍스트 뿐만 아니라 문서가 가지는 레이아웃 정보도 반영한 첫 번째 모델
      • 각 단어의 bounding box 위치/크기 정보를 이용해 모델의 입력 임베딩에 레이아웃 정보를 추가
    • LayoutLM V2
      • 사전학습 과정에서 텍스트 정보와 레이아웃 정보, 시각 정보까지 함께 학습
      • 텍스트와 이미지를 함께 입력으로 받으므로 텍스트와 이미지 간에 alignment를 학습할 수 있는 2가지 사전 학습을 추가 (Text-Image Alignment, Text-Image Matching)
    • LayoutLM V3
      • 이미지에 대한 임베딩을 구하기 위해 Pre-trained CNN이나 Faster-RCNN을 사용하지 않은 첫 멀티모달 모델
      • Patch-projection Feature Extractor 방법론 중 하나인 ViT를 이용해 이미지 패치 단위로 임베딩을 구함
      • 텍스트 부분은 MLM, 이미지 부분에 대해선 각기 다른 사전학습 방식을 사용했던 이전 연구들과 달리 텍스트 부분에 대해서도(MLM), 이미지 부분에 대해서도(MIM) 마스킹 사전학습 방식으로 학습 진행
      • text-centric Document AI 데이터셋뿐만 아니라 image-centric Document AI 데이터셋에 대해서도 좋은 성능을 보임
  • 발표 자료: 하단 첨부
  • 발표 영상: 업로드 예정
전체 22

  • 2023-05-24 23:21

    이번 세미나에서는 LayoutLM from V1 to V3을 주제로 총 3개의 논문을 소개해 주셨습니다. 시각적 정보와 텍스트 정보를 모두 다루기 위해 multi-modal framework가 필요하다고 생각되었고, 이를 모두 다루기 위한 프레임워크를 제안하고 있습니다. 우선 각 논문들을 다루기에 앞서 background에서 여러가지 데이터셋과 테스크에 대한 설명을 진행해주셔서 이해에 많은 도움이 되었습니다. 3가지 모델의 차이는 크게 입력 임베딩의 구성 방식과 사전학습 방식에 있다고 할 수 있습니다. LayoutLM V1은 텍스트와 layout 정보를 모두 반영한 모델이라고 할 수 있으며,이는 table-specific pre-training과 유사하다고 할 수 있습니다. 사전학습 방식으로는 언어적인 맥락과 2D 정보를 모두 활용하여 예측을 수행하는 masked visual-language model (MVLM)을 이용하고 있습니다. 또한 문서 단위의 representation을 학습하기 위해 Multi-label document classification을 이용하고 있습니다. 다음으로 LayoutLM V2는 텍스트, layout 정보, 시각적 정보를 모두 함께 학습하는 모델이라고 할 수 있으며, 텍스트와 이미지간의 alignment를 학습할 수 있는 새로운 사전학습 테스크를 추가한 모델이라고 할 수 있습니다. 기존의 LayoutLM V2와 비교하자면, layout 임베딩을 concat하여 구한 후, word/position/token type 임베딩과 합쳤다고 할 수 있습니다. text-image alignment task에서는 이미지의 특정 토큰을 랜덤하게 마스킹하고 텍스트에서 해당 토큰이 이미지에서 가려져 있는지를 예측하는 사전학습 방식을 이용하고 있습니다. 마지막으로 LayoutLM V3는 pre-train된 CNN과 Faster-RCNN을 이용하지 않은 첫번째 멀티모달 모델이라고 할 수 있으며, Masked Image Modeling (MIM) 테스크를 이용하고 있습니다. 이미지와 텍스트를 모두 이용하는 태스크들이 많이 나오고 있는데 관련하여 연구의 흐름을 계속 follow up하는 것이 중요할 것이라고 생각했습니다. 논문이 3개임에도 불구하고 차이점을 위주로 깔끔하게 설명해주셔서 발표의 흐름이 전반적으로 잘 들어왔던 것 같습니다. 좋은 발표 감사합니다!


  • 2023-07-17 08:12

    금일 세미나는 "LayoutLM from V1 to V3"라는 주제로 진행되었습니다. 본 발표에서는 Scanned Image나 PDF 형태의 Business Document로부터 필요한 정보를 추출하는 Visually-rich Document Understanding을 수행하기 위해 Text, Visual, Layout 정보를 다양하게 다루는 Multi-Modal Framework가 소개되었습니다. 총 세 개의 모델이 소개되었는데 개인적으로 모델이 발전함에 따라 Input Embedding 구성이 변화되는 점이 흥미로웠습니다. 먼저 LayoutLM V1에서 Layout 정보를 반영하기 위해 특정 Text가 Document 내에서 가지는 상대적인 위치를 사용한 점이 직관적이었습니다. V2에서는 image embedding도 함께 추가한 점과 V3에서는 Faster RCNN을 사용하지 않기 위해 Patch Embedding을 사용한 점이 특징적이었습니다. Input embedding 구성과 사전 학습 방식을 기준으로 세 가지 모델을 비교하여 볼 수 있도록 발표가 구성되어 있어서 이해하기 좋았습니다. 좋은 발표 감사합니다.


  • 2023-05-27 20:23

    이번 세미나에서는 LayoutLM v1부터 v3까지 다루었습니다. LayoutLM v1은 pre-training 과정에서 text 정보와 layout 정보를 모두 반영한 첫 번째 모델로 layout information을 통해 text의 위치 정보를 학습하고 visual information을 통해 text의 semantic information을 학습합니다. 사전학습 task는 BERT와 유사하게 input에 masking을 하여 mask 부분에 대해 예측하도록 하는 MVLM입니다. LayoutLM v2는 text와 image의 정보를 align할 수 있도록 image embedding을 추가합니다. 사전학습 task 중 MVLM은 layoutlm v1과 같은 방식으로 진행되고 text 부분에 대해서만 수행되고 Fine-grained Cross-modality Alignment Task/Coarse-grained Cross-modality Alignment Task를 통해 이미지와 텍스트의 대응 관계를 학습합니다. LayoutLM v3는 BPE 토크나이징을 하고 Segment-level Layout Position으로 2d position embedding을 구하는 것을 제외하고는 거의 유사합니다. 또한 사전학습 방식으로 Word-Patch Alignment (WPA)를 수행합니다. 이번 발표를 통해 LayoutLM 분야에 대해 잘 알게 되었고, 발표자료에 시각 자료가 많아서 이해가 잘 되었던 것 같습니다. 좋은 발표 감사합니다.


  • 2023-05-28 15:14

    이번 세미나에서는 LayoutLM from V1 to V3라는 주제로 세미나를 진행해 주셨습니다. 스캔된 이미지나 PDF와 같은 형태의 문서로부터 특정 정보를 추출하는 공통적인 Task를 위한 방법론으로 LayoutLM V1부터 V3이 제안되었습니다. V1부터 V3까지 핵심적인 차이는 Input Embedding 구성 방법과 Pretrain 방법이었습니다. LayoutLM V1은 Pretrain 과정에서 Text 정보와 Layout 정보를 모두 반영한 첫 번째 모델로, Position, Token Type Embedding 뿐만 아니라 이미지의 Layout에 대한 정보도 반영하기 위해 Left Position, h position Embedding 등 총 9개의 Embedding의 합으로 Input Embedding을 구성했습니다. LayoutLM V2에서는 Pretrain 과정에서 Text와 Image 간 Alignment를 학습할 수 있는 Task를 추가하여 Text 정보, Layout 정보에 더해 Visual 정보까지 함께 반영했습니다. 그리고 Input Embedding은 LayoutLM V1에서는 Embedding의 단순합을 사용한 반면, V2에서는 Layout Embedding을 Concat해서 Spatial Position에 대한 Embedding을 구한 후, Word, Position, Token Type Embedding과 더해주는 방식을 취했습니다. 가장 최근에 나온 V3에서는 Visual Feature를 구하는 과정에서 이전 V1, V2와 달리 Pre-trained CNN이나 Faster-RCNN을 사용하지 않고, Unified Text & Image Masking Objective를 사용하여 Text와 Image에 대한 Representation을 학습합니다. BEiT 구조를 활용해 텍스트와 이미지라는 서로 다른 모달리티를 같은 Vector Space 상에 표현했습니다. 멀티 모달과 관련해 최근 몇 편의 논문을 읽어보았는데 이번 세미나에서도 Text와 Image라는 멀티 모달과 관련된 방법론을 소개해 주셔서 흥미롭게 들을 수 있었습니다. 데이터셋부터 V1, V2까지 LayoutLM V3를 이해하기 위해 필요한 배경 지식을 자세히 설명해주셔서 이해에 많은 도움이 되었습니다. 좋은 발표 감사드립니다.


  • 2023-05-28 21:25

    이번 세미나에서는 LayoutLM from V1 to V3라는 주제로 세미나를 진행했습니다. LayoutLM은 텍스트, 시각, 레이아웃 정보를 모두 다루는 멀티모달 프레임워크를 사용한 논문입니다. 이를 통해 다양한 문서로부터 필요한 정보를 추출하는 Visually-rich Document Understanding task에 대해 다루었습니다. LayoutLM V1에서는 문서의 텍스트와 레이아웃 정보를 2D 위치 임베딩을 통해 학습하는 초창기 모델을 제안했습니다. 또한, 이미지는 Faster R-CNN을 활용하여 정보를 추출하고, 이를 Masked Visual-Language Model에 적용하였습니다. LayoutLM V2는 기존 텍스트와 레이아웃 정보에 시각 정보를 추가하여 다루었고, text와 image를 align하는 추가적인 task를 도입했습니다. 흥미로운 점은, 이미지에서의 정보 유출을 방지하기 위해 masking된 토큰에 대응되는 이미지 영역도 masking 처리한 점입니다. 최근에 제안된 LayoutLM V3는 기존 CNN 대신 모두 masking pretraining을 통해 text와 image를 동시에 학습하는 새로운 프레임워크를 제안했습니다. 이를 통해 더욱 효율적인 학습이 가능하게 되었습니다. 이렇게 LayoutLM의 다양한 버전을 통해 어떻게 문서로부터 풍부한 정보를 추출하는지, 그리고 그 방법이 어떻게 발전해왔는지에 대해 세밀하게 이해할 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-05-28 23:44

    이번 세미나에서는 LayoutLM from V1 to V3 라는 주제를 바탕으로 총 3개의 논문을 소개해주셨습니다. 해당 논문들에서 진행하는 Task는 Visually-rich Document Understanding으로, Scanned Image나 PDF 형태의 Business Document로부터 필요한 정보를 추출하는 Task입니다. 단순히 OCR 등을 통해서 얻은 Text 정보만 활용할 경우, Document가 가지는 Visual 및 Layout 정보를 간과할 수 있기 때문에 Text, Visual, Layout 정보를 모두 다루는 Multi-modal Framework가 필요합니다. 먼저, 해당 논문에서 제시하는 LayoutLM V1은 Table-specific Pre-training과 유사하게 사전학습 단계에서 Text 정보와 Layout 정보를 모두 반영한 첫 번째 모델이라고 할 수 있습니다. 또한, 추가적으로 구할 수 있는 2D position Embedding과 Visual Information을 활용하여 기존 방법보다 더 풍부한 Semantic Representation을 학습하고 있었습니다. LayoutLM V2는 사전학습 과정에서 V1의 Text정보와 Layout 정보에 더불어서 Visual 정보까지 포함하여 학습하며, Text와 Image 사이의 Alignment를 학습할 수 있는 새로운 사전학습 Task인 Fine-grained Cross-modality Alignment Task를 추가하고 있었습니다. 마지막으로 V3에서는 Unified Text & Image Masking Objective를 통하여 Text, Image Representation을 학습하고 있었으며, 또한 Masking Pre-trained 방법론에서 각 모달간 Alignment를 학습하기 위하여 Word-Patch Alignment를 통하여 Pre-train을 진행하고 있었습니다. 처음 접해보는 Task임에도 불구하고, 발표자분이 발표 자료 구성을 잘 해주셨으며, 장표도 깔끔하고 여러 예시를 들어주셨기에 이해가 수월했습니다. 좋은 발표 정말 감사드립니다.


  • 2023-05-29 14:06

    이번 세미나는 LayoutLM from V1 to V3를 주제로 진행되었습니다. Document AI는 scanned image 또는 pdf 형태의 business document에서 필요한 정보를 추출하는 task입니다. Document에서 정보를 추출하기 위해서 text, visual, layout 정보를 모두 다뤄야 하는 multimodal task라고 할 수 있습니다. 본 세미나에서는 이를 위한 LayoutLM 모델의 V1부터 V3까지 연구의 발전을 다루고 있습니다. 우선 V1은 text 정보와 layout 정보를 사전학습 과정에 모두 반영한 첫 번째 모델입니다. layout information과 text의 상대적인 위치에 대한 정보를 주기 위해 2d position embedding을 추가하였으며 BERT와 동일하게 masking하여 학습을 진행합니다. V2는 모든 임베딩을 더했던 V1과 다르게 layout embedding에 대해서 concat하여 구하고 word, position, token embedding과 더한다는 차이점이 있으며, masking하여 학습하는 부분은 V1과 동일하나 이미지에서 특정 토큰을 랜덤하게 masking하고 텍스트에서 해당 토큰이 가려져 있는지 예측하는 task가 추가되었습니다. V3에서는 이전 방법론들과 다르게 image를 위한 backbone 모델이 없으며 ViT 모델을 차용하고 word-patch alignment 방법을 통해서 text와 image patch간의 alignment를 학습하는 방식을 사용하였습니다. 한 task에 대해서 방법론이 어떻게 발전되가는지 흐름에 맞춰 설명해주셔서 재밌게 들을 수 있었습니다. 좋은 발표 감사합니다.


  • 2023-05-29 17:33

    이번 세미나에선 LayoutLM from V1 to V3 을 주제로 레이아웃이 있는 문서 데이터의 사전 학습 연구들에 대해 소개되었습니다. LayoutLM 에서 사전 학습에 사용하는 데이터는 텍스트 뿐만 아니라 이미지를 포함한 여러 레이아웃 정보를 포함하고 있고 이를 학습에 반영하는 방식에 따라 v1~v3로 연구가 발전되어 왔습니다. 먼저 LayoutLM 은 사전학습 과정에 레이아웃 정보를 반영한 첫 연구이며 유의미한 레이아웃 정보를 추출하기 위해 Faster R-CNN을 사용합니다. 이후 v2에선 text-image alignment, text-image matching 의 pretext task가 추가로 사용하여 end-to-end 학습이 가능한 구조를 제안합니다. 마지막으로 v3에선 이미지 데이터를 위한 사전 학습 방식으로 masked image modeling 방식을 사용하고, 이 구조에선 이미지 정보를 추출하기 위한 backbone이 구분되지 않는다는 점이 가장 큰 차이점이라 생각됩니다. 텍스트 이외의 이미지 정보를 사전 학습에 사용한 연구는 대표적으로 CLIP 있는데, LayoutLM V3에선 contrastive learning 형태가 아니라 MLM과 MIM task를 사용한 점이 각 도메인에서 제안된 최신 연구들을 잘 반영하였다는 생각이 들었습니다. 항상 많은 내용을 세미나 중에 압축적으로 잘 정리해주셔서 유익한 세미나 시간이 되는 것 같습니다. 좋은 발표 감사합니다.


  • 2023-05-29 18:18

    본 세미나는 오수지 발표자님께서 "LayoutLM from V1 to V3"라는 주제를 바탕으로 진행되었습니다. 해당 주제는 MultiModal task에서, Scanned Image나 PDF 형태의 데이터에서 필요한 정보를 추출하는 것이 핵심입니다. 기존 단순히 텍스트 정보만 활용하면 document가 가지는 visual & layout 정보를 간과하게 되는데, text와 visual, layerout 정보를 모두 다루는 multi-modal framework가 필요하다는 것을 강조하고 있습니다. 이를 위해선 Input Embedding을 어떻게 구성하는지, 어떤 사전학습 방식을 사용하는지가 가장 중요하며 LayoutLM V1 모델은 사전학습 과정에서 Text와 Layout 정보를 모두 반영한 모델입니다. 또한 특정 text의 document 내에서 상대적인 위치를 포착하고 2D position embedding을 통해 text의 상대적인 위치에 대한 정보를 학습하는 것을 큰 기여점으로 삼고 있습니다. 후에 나온 LayoutLM V2는 text와 layout정보, visual 정보까지 함께 학습하는 것을 기여점으로 삼고 있고, layoutLM V3은 Visual feature를 구하기 위해 Pre-trained CNN/Faster-RCN을 사용하지 않은 모델입니다. 해당 모델들을 보면서, MLM과 MIM(Maksed Image modling)을 동시에 사용하여 text와 image에 대한 정보를 학습하는 것이 중요하고 image에 대한 backbone을 attention이 반영던 모델로 사용하는 것이 중요하다고 느꼈습니다. 따라서 현재 Multi-modal이 AI분야에서 트렌드로 떠오르고 있는데 text와 image에 대한 representation을 함께 뽑아 사용하는 본 주제가 많은 도움이 되었습니다. 또한 앞으로 어떤 방향으로 나아가야 할지 마지막에 간략하게 정리해주셔서 이해하기 쉬웠습니다. 좋은 세미나 준비해주셔서 감사합니다.


  • 2023-05-29 19:21

    본 세미나에서는 LayoutLM from V1 to V3에 대한 리뷰를 진행하였습니다. 해당 모델들은 Document AI task를 위해 제안된 모델들로 Text와 layout 정보를 모두 반영하는 멀티모달 task에 대한 모델들입니다. LayoutLM V1의 경우 text와 layout 정보를 모두 반영한 최초의 구조였습니다. 해당 구조를 통해 Image 정보가 성능향상에 큰 기여를 한다는 부분을 실험적으로 입증하였습니다. V2의 경우 Text 정보와 Layout 정보에 더불어 visual 정보까지 학습하는 구조가 제안되었습니다. Text-Image alignment를 학습할 수 있는 사전학습 task가 추가되었습니다. V3의 경우 visual feature를 구하기 위해 기존에 사용했던 Pre-trained CNN/Faster-RCNN을 사용하지 않았다는 차이점이 있습니다. Unified Text & Image Masking Objective를 통해 Text, Image Representation 학습하였습니다. 본 세미나를 통해 처음 접해본 분야인 Document AI의 흐름을 알 수 있었습니다. 3개의 논문을 세미나에서 모두 다뤄주어서 내용이 상당히 풍부하다고 느꼈습니다. 좋은 발표 감사합니다.


  • 2023-05-29 21:51

    금일 세미나는 Layout LM 모델의 세가지 연속된 논문을 중심으로 Document AI를 주제로 진행되었습니다. Document AI란 이미지 형태로 주어지는 문서에서 기존의 Table QA처럼 테이블 데이터에 대한 태스크를 해결하는 모델을 의미합니다. 이미지를 입력으로 하기 때문에, TableQA보다 훨씬 복잡한 태스크가 되어, 모델 구조 역시 보다 다양한 요소를 반영하고 있습니다. 실제로 모델의 입력 이미지를 OCR이나 PDF Parser를 통해 전처리하고, Faster R-CNN과 같은 이미지 인식 모델을 이용하여 이미지 임베딩을 산출해 이용하는 등의 복잡한 전처리 및 Multi Modality를 반영하려는 노력이 보였습니다. 또한, TableQA처럼 다양한 Granuality를 임베딩에 반영하거나, Pretrain Task에서 이미지를 마스킹하고 텍스트로 복원하는 등의 Multi Modality를 Table 형식과 함께 고려하는 노력 역시 흥미로웠습니다. 하지만 결국 V3에 이르러 ViT 구조를 차용하면서, 단순히 Image Patch와 Text Token 간 Alignment를 일치시키는 방식의 학습으로 전환되면서 상당히 단순화되는 흐름이 보였습니다. Transformer 구조가 매우 느슨한 Inductive Bias를 가지고 있어서 다양한 Modality나 Task로 확장이 용이한 것이 최근 다양한 분야의 공통된 흐름인 것 같은데, 이를 매우 극명하게 보여주는 일련의 연구흐름이었다고 생각합니다. 좋은 발표 감사드립니다.


  • 2023-05-29 23:13

    금일 세미나는 문서에서 필요한 정보를 추출하는 Document AI를 위한 방법론 LayoutLM v1~v3를 주제로 진행되었습니다. Document AI라는 대주제 하에 3개의 연속된 논문을 소개해주셔서 연구 흐름을 따라가는데 수월했습니다. 우선 첫번째 논문인 LayoutLM은 언어모델을 사전학습하는 과정에서 텍스트와 더불어 문서의 레이아웃 정보를 반영하고자, 각 단어의 bounding box의 위치와 크기 정보를 이용하여 입력 임베딩에 레이아웃 정보를 추가하였습니다. 이어지는 2번째 연구 LayoutLM v2는 텍스트와 레이아웃에 이어 시각 정보를 함께 학습하는 multi-modal 프레임워크를 제안하였습니다. 텍스트와 이미지 간 alignment를 위해 text-image alignment와 text-image matching 사전학습을 수행하였습니다. 마지막으로 LayoutLM v3은 이미지 임베딩을 ViT를 활용하여 패치 단위로 산출하는 방식을 제안하였습니다. 텍스트와 이미지 모두 각각 MLM과 MIM을 기반으로 마스킹 사전학습을 수행한 점에서 보다 더 나은 alignment를 도모하였고, text-centric, image-centric document AI에서 모두 좋은 성능을 기록하였습니다. 발표를 들으며 Document aI가 현업 측면에서 유용한 연구 주제일 것이라는 생각이 들었습니다. 유익한 세미나 진행해주셔서 감사합니다.


  • 2023-05-29 23:22

    이번 세미나에서는 LayoutLM의 발전에 대해 소개해주셨습니다. 크게 3가지 연구를 소개해주셨으며, 각각이 어떠한 차별점을 갖는 가를 중점으로 발표가 진행되었습니다. 3가지 LayoutLM은 1) Input embedding의 구성 방식이 어떻게 다른가 2) 사전 학습은 어떠한 방식으로 이루어졌는가 2가지의 차이를 보입니다. LayoutLM V1은 input에 text와 layout 정보를 함께 활용했다면, V2는 여기에 visual information도 함께 사용합니다. V1은 text token embedding과 layout embedding을 단순 add하는 방식이라면, V2는 layout embedding은 concatenate하고 이후 word/position/token type embedding을 add하게 됩니다. V3의 경우에는 앞선 모델과 2가지 차이점을 가집니다. 기존 모델은 wordpiece tokenizer를 사용한 반면, V3는 Byte-pair Encoding을 적용합니다. 또한, 기존 V1과 V2는 각 text 별로 다른 위치 정보를 갖는 word-level layout position을 적용하였다면, V3는 다른 text여도 같은 segment라면 같은 위치 정보를 갖는 segment-level layout position을 사용합니다. V1과 달리 V2에서는 image, text embedding end to end 학습이 가능해졌으며, V2와 달리 V3에서는 image model 필요없이 patch 단위의 학습 및 사전 학습이 가능해졌습니다. 전반적인 layoutLM의 발전 과정과 각 모델의 개선점을 비교하며 알아볼 수 있어서 좋았습니다. 좋은 발표 준비해주셔서 감사드립니다.


  • 2023-05-30 00:39

    이번 세미나는 발표자 분의 연구 주제인 Document AI에 대해서 다루어졌습니다. 이는 곧 우리가 쉽게 접하는 스캔되는 혹은 pdf 파일로부터 정보들을 추출하는 방법론에 대한 연구입니다. 일반적인 자연어처리에서 document라 불리는 것과의 차이는 단순한 text 정보를 넘어서 Visual, 그리고 Layout 등의 정보를 처리할 수 있어야하는 점입니다. 이에 이번 세미나에서 대표적인 방법론인 LayoutLM의 발전 과정이 차례대로 소개되었습니다. LayoutLM 알고리즘의 핵심은 아무래도 이미지 처리 방법론 중 물체 탐지(object detection) 과 같이 텍스트 정보를 이차원의 정보와 함께 찾아내는 것일 겁니다. 이에 따라 우리가 실제로 다루는 문서 파일의 종류가 정말 다양하기 때문에 발표자 분께서도 말씀하신 여러가지 학습용 데이터셋의 종류도 함께 중요한 연구분야라고 할 수 있습니다. 한편, LayoutLM 은 현재 세 번째 버젼까지 등장하였고, 이에 대해 소개되었는데 Visual feature를 구하는 과정에서 사전 학습된 CNN 및 물체탐지를 위한 Faster-RCNN을 사용하지 않은 점이 큰 특징입니다. 즉, ViT를 활용함으로써 Patch objection을 수행한 점이 큰 개선 부분입니다. 아이디어와 실용성 측면에서 높이 평가받을 수 있는 연구 분야지만 실제 구현함에 있어 어렵지 않을까 하는 생각을 늘 갖게 되는 주제입니다. 발표 감사합니다.


  • 2023-05-30 16:00

    이번 세미나에서는 2020년 부터 2022년에 걸쳐 제안된 LayoutLM 모델의 세가지 버젼에 대해 설명해 주셨습니다. 기본적으로 LayoutLM은 모델의 이름에서 유추가 가능하듯이 문서의 내용인 text 뿐만 아니라 해당하는 문서가 가지는 Layout을 함께 반영하고자 하는 방법론으로 최근 많은 관심을 가지고 있는 Document Ai에 적용 하는 방법론 입니다. 각 버젼의 특징만을 정리하면 첫 LayoutLM의 경우는 각 단어의 bounding box 위치/크기 정보를 이용해 모델의 입력 임베딩에 레이아웃 정보를 추가한 것이고, V2는 시각 정보까지 함께 학습하기 위해 Text-Image alignment 학습을 사전에 수행합니다. 마지막으로 V3는 이미지에 대한 임베딩을 구하기 위해 ViT를 이용해 이미지 패치 단위로 임베딩을 구했다는 특징이 있습니다. 비정형의 정보를 분석하는 방법으로서 발전의 과정이 상당히 납득이 가능했으며, 각 방법론의 motivation을 발표자께서 잘 짚어 주셔서 연구의 흐름을 따라가기 좋았습니다. 방법론의 모듈 하나하나가 고도화되어 가는 것을 보니, 저도 하나의 큰 task를 잡고 지속적으로 발전시켜나가는 연구를 하고싶단 생각을 하게 됩니다. 좋은 발표 감사합니다.


  • 2023-05-30 18:37

    이번 세미나는 LayoutLM이라는 방법론에 대해 다루어주셨습니다. 해당 방법론은 문서로부터 필요한 정보를 추출하는 것을 목적으로 하는데, 문서에 존재하는 text뿐만 아니라 figure 등의 이미지 정보 또한 고려하는 것이 특징입니다. 해당 task의 경우 문서에 존재하는 모든 정보를 추출할 수 있다는 점에서 매우 실용적이라고 생각하였고, 그만큼 어떤 방식으로 학습이 진행되는지 궁금하였습니다. 가장 발전된 버전인 LayoutLM v3에서는 이미지와 텍스트를 각각 임베딩하기 위해 multimodal transformer 구조를 사용하였는데, v1과 v2 대비 task 목적에 가장 부합하는 구조를 제안한 점이 흥미로웠습니다. 최근 multi-modal 관련한 구조가 많이 연구되고 있는데, 이번 세미나를 통해 양질의 multi-modal representation learning을 위한 구조를 설계하는데 어떤 것들을 고려해야하는지 알 수 있어 좋았습니다. 좋은 발표 감사드립니다.


  • 2023-06-01 16:51

    개인적으로 LayoutLM 연구에 대해서 INPUT 으로 어떻게 활용하는지가 궁금했는데, 해당내용들을 잘 정리해서 발표해주었던 것 같습니다. 특히 모델 V3 내용은 개선점에 대한 아이디어를 잘 반영한 내용이였는데, 세미나에서 흐름을 잘 따라가는것이 중요함을 느꼇습니다. 우선 ViT 를 사용함에따라 Pretrain cnn, faster RCNN 을 사용하지 않는 방법론이며 모델 파라메터감소, Region annotation 이 필요없는 점이 인상깊었습니다. 특히 BEiT 논문을 소개들었을때 이미지 토크나이징을 통해서 어떤 곳에 적용할 수 있을까 궁금했는데, 이미지를 text 와 결합하는 해당 분야에서 사용되는것이 연구의 흐름이 비슷하다고 생각해서 좋았습니다.


  • 2023-05-15 11:52

    해당 세미나 시간에는 Visually-rich Document Understanding task와 관련하여 Layout Language Model V1 부터 V3 논문에 대해서 다루어 보았습니다. VrDU는 실생활에서 접할 수 있는 차트와 표 그리고 이미지로 구성된 다양한 문서로부터 필요한 정보를 추출하는 task로 Text, Visual 그리고 Layout 정보를 모두 다루기 때문에 Multi-modal Framework가 요구됩니다. Layout Model의 초창기 모델인 Layout LM V1에서는 text 정보와 layout 정보를 모두 반영한 초창기 모델로 2d position embedding을 통해 text의 상대적인 위치에 대한 정보를 학습하였으며, 이미지의 경우 Faster-RCNN을 활용한 representation을 Masked Visual-Language Model에 함께 적용하여 언어적인 맥락과 2d 위치정보를 모두 활용하는 모델을 제안하였습니다. 후속연구로 진행된 layout LM V2 에서는 기존 text 정보와 layout 정보에 추가적으로 visual 정보를 함께 학습하는 framework를 제안하였으며, 기존 masking 사전학습과 더불어 text와 image를 alignment하는 task를 추가하였습니다. 이 과정에서 기존 MVLM학습과정에서 masking 된 token을 유추하는 과정에서 image로부터의 leakage를 방지하기위해 masking 된 token에 대응되는 문서 이미지 영역 역시 사전에 masking 진행하는 점이 흥미로웠습니다. 이를 통해 랜덤으로 masking 된 token이 실제 해당 이미지에서 masking이 되었는지를 유추하는 text-image alignment와 주어진 image와 text가 동일 문서에 해당하는 지를 유추하는 text-image matching을 통해 사전학습을 수행하게 됩니다. 가장 최근에 제안된 Layout LM V3에서는 기존 사전 학습된 CNN을 활용했던 V2와 달리 text와 image를 모두 masking pretraining을 통해 동시에 학습하는 framework를 제안하였습니다. 이과정을 통해 기존 이미지 patch 단위의 feature extractor가 요구되지 않기에 연산효율성 측면에서 많은 이점을 가지게 됩니다. 이는 최근 transformer를 이미지에 적용한 VIT에서 제안된 방법론으로부터 patch embedding을 활용하였기에 기능해졌습니다. MLM과 MIM으로부터 추출된 representation을 상기 layout LM V2 의 그것과 동일하게 alignment하는 과정을 통해서 최종적으로 사전학습을 수행하게 됩니다. ViT에서 제안된 MIM 학습을 기존 Layout LM을 빠르게 적용하여 멀티모달 마스킹 사전학습을 수행한 V3 연구와 같이, 최신 연구로부터 다른 연구주제에서도 이를 개선할 수 있는 점을 빠르게 catch하고 적용하기 위해서는 지속적으로 논문들을 읽고 이를 어떻게 활용할 수 있을지 계속적으로 고민하는 자세가 필요할 것 같습니다. 좋은 세미나 시간을 만들어 준 발표자에게 감사의 인사 전합니다.


  • 2023-05-17 10:54

    오늘 세미나는 LayoutLM from V1부터 V3 논문에 대해 발표를 진행해주셨습니다. LayeroutLM은 차트나 표 등의 문서 이미지에서 정보를 추출하는 task를 다루는 논문입니다. VrDU는 문서의 텍스트뿐만 아니라, visual, layout에 대한 정보를 모두 다루는 프레임 워크를 사용합니다. 따라서, LayoutLM V1의 경우, text input embedding에 2d Position embedding에 대한 정보를 추가하여 text의 상대적인 위치까지 같이 학습시킵니다. 이때 Position에 대한 정보는 각 텍스트 별로 주어진 바운딩 박스 좌표를 이용합니다. 이미지와 텍스트 정보를 모두 활용하기 위해 Masked Visual-Language Model이라는 사전학습을 사용합니다. 여기에, Faster R-CNN을 활용하여 원본 이미지의 feature extraction을 수행하여 텍스트와 이미지에 대한 풍부한 정보를 모두 취합하여 downstream task를 수행하게 됩니다. LayerLM V2는, text, layout 정보에 visual 정보를 추가로 활용한 프레임워크입니다. 또한, 텍스트와 이미지를 align하기 위한 새로운 사전 학습 task Fine-grained Cross-modality Alignment Task)를 추가하였습니다. 추가적으로, MVLM에서 Data leakage를 방지하기 위해 masking된 토큰에 해당하는 이미지 segment 역시 masking을 해주었습니다. LayoutLM V3은 이전 모델 대비 토크나이징 방식과 2D position embedding 처리 방식에서만 차이가 있습니다. 또한, ViT 방식으로 이미지의 패치를 나눈 뒤 걱 패치별로 embedding을 도출하는 방식으로 사전학습이 수행됩니다. V1에서 V3까지 다다르기까지. 프레임워크의 세밀한 부분을 개선하여 유의미한 성능 향상을 거둔 점이 인상 깊습니다. 또한, 멀티모달 방식의 모델에 대해 알아 볼 수 있었던 점이 너무 좋았습니다. 좋은 발표 감사합니다.


  • 2023-05-22 15:00

    해당 세미나에서는 Visually-rich Document Understanding에 관한 모델인 LayoutLM v1부터 v3까지 발표되었습니다. v1에서는 텍스트와 레이아웃을 기반으로 한 representation을 구성하여 문서 이해 성능을 향상시켰습니다. 특히, 레이아웃에 대한 임베딩 구성 방법이 흥미로웠습니다. v2부터는 이미지 임베딩을 직접 사용하여 멀티모달 구성을 도입했습니다. 그리고 v3에서는 이미지 임베딩을 ViT(Vision Transformer)를 사용하여 추출하고 활용했습니다. 또한, v1부터 v3까지 학습 방법이 발전하고 있는 것을 확인할 수 있습니다. 초기에는 마스크된 언어 모델링을 기반으로 학습했으며, v2에서는 텍스트와 이미지 간의 alignment을 위해 동일 문서로부터 나온 이미지와 텍스트를 분류 태스크로 학습시켰습니다. 마지막으로, v3에서는 BEiT와 Unified Text & Image Masking Objective를 활용하여 텍스트와 이미지의 representation을 학습했습니다. 각 버전의 모델은 연구 시기에 최신 연구 결과를 활용하여 발전시킨 점이 인상적입니다. LayoutLM 연구진이 빠르게 최신 연구를 적용하고 있다는 점이 느껴졌습니다. Visually-rich Document Understanding 태스크 자체가 생소하지만 흥미로웠으며, 최근에는 멀티모달 접근 방식을 사용한 논문들이 테이블 기계 독해(Table MRC) 및 차트 요약(Chart Summarization) 등에 대해 발표되고 있다고 알고 있습니다. LayoutLM도 해당 태스크에서 좋은 성능을 보여주는지 궁금합니다. 좋은 발표에 감사드립니다.


  • 2023-05-24 01:09

    - 이번 세미나에서는 문서로 부터 필요한 정보를 추출하는 Task인 Visually-rich Document Understanding task를 다루는 논문, LayoutLM에 대해 다뤄주셨습니다. 문서는 문서 내에 존재하는 Txt 뿐만 아니라 레이아웃, Figure 등 문서 고유의 정보들이 존재하는데 이러한 정보들을 Txt들과 같이 사전 학습에 사용한 첫 논문이 LayoutLM입니다. V1 부터 V3까지 3번에 걸처 논문이 공개 되었으며, 각 논문들은 Input embedding을 어떻게 구성하는지, 어떤 사전학습 방식을 사용하는지에 차이가 있습니다. LayoutLM V1은 Input document image로 부터 txt들을 추출하여 이를 Input embedding으로 사용하고 이미지 요소는 Fc layer에 통과한 뒤 LayLM embedding과 합쳐져 사용 됩니다. V2의 경우 이미지를 window로 분할한 뒤 Visual encoder로 부터 얻어진 embedding을 Txt embedding과 함께 Input으로 사용합니다. 그리고 마지막 V3의 경우 이미지를 patch 단위로 분할한 뒤 linear embedding 하여 Txt 와 함께 input embedding으로 사용 됩니다.
    - V1부터 V3까지 변화되는 양상이 VNP(Vision-NLP Pretraining)이 발전되는 것과 비슷하다 라는 생각이 들었습니다. 다만 CLIP 이나 ALBEF와 같은 방법론들을 보면 Image와 Txt 파트 각각 Encoder를 둔 뒤 fusion 시키는 방식을 사용하지만 LayoutLM의 경우 이미지와 텍스트를 각각 임베딩 한 다음 하나의 multimodal transformer 사용하는 점이 차이나 보였으며, 이미지 중심의 multimodal과 txt 중심의 multimodal 의 차이인가? 하는 생각도 들었습니다.
    - V1부터 V3까지 관련 배경 지식까지 함께 잘 설명 해주셔서 쉽게 이해가 되었습니다. 좋은 발표 감사합니다.


  • 2023-05-24 13:44

    이번 세미나 시간에는 LayoutLM 연구에 대하여 소개해주셨습니다. 이전 졸업하신 김동화 선배의 세미나 내용이 후속 연구가 진행되어 이어서 발표된 내용이라 어떻게 연구가 발전되었는지 살펴볼 수 있었던 좋은 시간이었습니다. LayoutLM V1에 이어서 V2까지 입력에 대한 구조적인 변화가 많았었는데 V3에서는 김동화 박사 선배님의 언급대로 BEiT를 사용하여 pretraining 과정을 거치는 점이 신기했습니다. 이번 세미나에서 재밌게 보았던 점은 multi-modal에 대한 학습 방법을 어떻게 구성하였는지에 대한 내용이었습니다. 처음 LayoutLM V1에서는 R-CNN 계열을 같이 활용하였다면 이후 V3에서는 추가적인 모듈 없이 BEiT 구조만으로 서로 다른 두 개의 데이터가 같은 공간에 잘 반영되도록 하였습니다. 최근 Transformer를 활용하여 multi-modality를 반영하는 구조와 방법이 다양한데 그 중 한 가지 사례로 살펴볼 수 있었던 좋은 시간이었습니다. 좋은 발표 감사합니다.


전체 505
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10529
관리자 2020.03.12 0 10529
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 9135
관리자 2020.03.12 0 9135
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10243
관리자 2020.03.12 0 10243
502
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (2)
Jinwoo Park | 2025.05.16 | 추천 0 | 조회 28
Jinwoo Park 2025.05.16 0 28
501
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (3)
Hun Im | 2025.05.15 | 추천 0 | 조회 41
Hun Im 2025.05.15 0 41
500
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (11)
Junyeong Son | 2025.05.08 | 추천 0 | 조회 137
Junyeong Son 2025.05.08 0 137
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (15)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 160
Doyoon Kim 2025.05.01 0 160
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (18)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 283
Sunghun Lim 2025.04.24 0 283
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 201
Suyeon Shin 2025.04.21 0 201
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 216
Woongchan Nam 2025.04.16 0 216
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 428
Kiyoon Jeong 2025.04.16 0 428
494
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 447
Hyeongwon Kang 2025.04.09 0 447
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 432
Jaehyuk Heo 2025.04.02 0 432

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호