본 세미나에서는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding이라는 논문을 소개해주셨습니다. 해당 논문은 이미지와 텍스트를 모두 사용하는 multimodal task로 이미지 안에 있는 텍스트를 추출한 뒤 해당 텍스트에서 유의미한 정보를 추출하는 방법을 소개합니다. 이를 위해 layout과 이미지 정보를 함께 활용하는데 BERT와 Faster R-CNN을 이용합니다. CV와 NLP 두 가지에서 정교한 engineering이 들어간 논문이라는 생각이 들었습니다. 좋은 논문을 소개해주셔서 감사합니다. 발표 잘 들었습니다.
Euisuk Chung
2021-07-12 15:18
이번 세미나에서 다룬 논문은 LayoutLM: Pre-training of Text and Layout for Document Image Understanding입니다. 먼저 본격적인 연구 목적인 Document Image Understanding을 이번에 처음 알게 되었는데요. 문서 이미지를 위해 text만을 이용하는 것이 아닌 텍스트와 문서의 레이아웃을 학습에 사용하는 조인트 모델링을 수행하는 테스크입니다. 실 예시로 논문 스캔 이미지를 보여주셨는데 만약에 여기서 더 나아가서 논문 뿐만이 아니라 UI/UX 또는 기타 광고 같은 데에도 적용시킬 수 있는 흥미로운 테스크라는 생각이 들었습니다. 하지만 이러한 테스크는 문서의 포맷이 다양하거나, 화질이 낮거나, 구조가 많이 다를 경우 어렵다는 문제점을 안고 있습니다. LayoutLM은 BERT+Faster R-CNN으로, 먼저 BERT의 input으로는 word embedding(문맥정보) + position embedding(시계열정보) + segment embedding(문장 단위 정보)들을 받게 되며, 이때의 position embedding은 2d position embedding으로 상대적 공간 위치를 반영하게 됩니다. 이를 통해 나오게 된 LayoutLM Embedding과Faster RCNN에서 나오게 된 Embedding인 Image Embedding을 활용하는 구조입니다. 차근차근 스텝 바이 스텝으로 자세하게 설명해주셔서 잘 이해가 되었습니다. 좋은 발표 감사합니다.
Heejeong Choi
2021-07-13 17:37
금일 세미나는 "LayoutLM: Pre-training of Text and Layout for Document Image Understanding"라는 주제로 진행되었습니다. 본 발표에서는 이미지 안에 있는 텍스트를 추출하고 해당 텍스트에서 유의미한 정보를 추출하는 방법론이 소개되었습니다. 세미나에서 텍스트와 레이아웃 두가지 정보를 학습해서 문서 자체를 이해하는 방법론은 처음 접했고, 레이아웃을 학습에 사용한 점에 흥미로워 관심을 가지고 발표를 청취하였습니다. 발표에서 해당 방법론을 활용할 수 있는 3개의 downsteam task도 소개되었는데, 그 중 Slot prediction for a receipt에 대한 부분이 가장 인상 깊었습니다. 해당 task에 대한 부분을 보며, 최근에 수행하고 있는 바코드와 텍스트로 이상치를 탐지하는 프로젝트에서도 LayoutLM을 활용할 수 있지 않을까하는 생각이 들었습니다. 좋은 발표 감사합니다.
Jungho Lee
2021-08-15 17:08
금일 세미나에서는 상당히 흥미로운 주제의 발표였습니다. 처음에 직관적인 요점을 잘 보여준 장표가 인상적이였습니다. 다양한 문서의 이미지에서도 충분히 의미있는 요소가 있고, 문서의 스캔이미지를 통해서도 text를 이해하는데 중요한점이 있다는 것입니다. transformer 에 내포하고자 하는 데이터를 input 으로 활용해 도출해 내고자하는 문제를 해결한 대표적인 논문으로 생각합니다. 사실 이런 흐름은 다른 도메인에서도 transformer를 어떻게 효율적이며, 효과적으로 구성할 수 있을 까에 대한 연구가 이루어 지고있기 때문에, 합리적이다 라고 생각합니다. 또한, transformer 의 강력함에 있어서, 의도하고자 하는 것을 어떻게 잘 사용할 것인가를 잘 생각해야 한다고 생각합니다. 본 논문에서는 공간적위치, 시간적정보를 함께 반영할 수 있는 임베딩을 사용하였고, 이를 뽑아낼 수 있는 방법에는 기존의 방식들을 함께 차용했습니다. 사실 상당히 재미난 주제였고, 예전부터 궁금했는데 이런 연구가 이루어지고있단 사실이 현실적인 부분을 요구받았을 때 어떻게 해결해야할 지에대한 방향인것 같습니다.
Kyoungchan Park
2021-07-17 17:45
이번 세미나는 Layout-LM이라는 다소 생소한 주제에 다루었습니다. Layout-LM은 문서를 하나의 이미지로서 이해하기 위해 문서의 text와 layout을 동시에 고려하는 방법론이었습니다. 만약 문서를 그 문서에 대한 이미지만으로 파악할 수 있다면 정보 검색 및 접근성에 있어서 큰 효용가치가 있을 것이라고 생각이 되었지만, 문서는 다양한 형태의 구조로 구성이 되어 있기 때문에 매우 어려운 작업이 될 것이라 생각했습니다. 따라서 해당 문제를 어떻게 해결해야 될까에 대해서 굉장히 어려운 문제라고 생각했는데, 이번 세미나를 통해 그 궁금증을 해결할 수 있었습니다. 이번 세미나에서 소개해주신 방법론에서는 문서의 구조 즉 layout을 잘 반영하기 위해 BERT 모델에 layout 정보와 Fast RCNN을 통한 이미지 정보를 함께 사용하여 그 문제를 완화하였습니다. 앞으로 어떻게 해당 분야의 연구가 발전할지 기대가 되게 하는 발표였습니다. 좋은 발표 감사합니다.
Hyeyeon Kim
2021-08-16 01:27
이번 세미나는 이미지안에 있는 텍스트를 추출하고, 그 텍스트에서 entity와 slot을 추출하는 방법론인 LayoutLM에 대한 세미나였습니다. 이 방법론은 상대적 위치에 대한 2d position을 self-attention based transformer로 학습시키는 구조입니다. 그리고 faster R-CNN을 도입하여 이미지 임베딩을 합니다. 그리고 Downsteam task는 대표적으로 Entity link prediction, Slot prediction for a receipt, Document image classification가 있습니다. 발표 후반부에 데이터 전처리에 대한 자세한 설명을 해주셔서 이해가 잘되었고, 더욱 흥미가 가는 발표였습니다. 텍스트와 이미지 이 두 분야를 아우르는 흥미로는 주제에 대한 발표 감사합니다.
Takyoung Kim
2021-06-22 19:01
본 논문에서 설명하는 이미지-텍스트 정보 추출 task는 너무나 자연스럽게도 2-stage로 진행되겠다는 생각을 하는데, 그런 의미에서 두 task를 한 번에 pretraining하는 본 방법론이 신선한 충격으로 다가왔습니다. 또한 이미지에서 다양한 텍스트 형태를 고려하여 텍스트를 인식하거나 bounding box를 휴리스틱하게 조정하는 것을 보고, 이미지 인식과 관련된 task에서는 엔지니어링 역량이 굉장히 중요하겠다는 생각도 들었습니다. 방법론에서는 input 구성이 가장 중요한 것 같은데 본 논문에서는 기존 BERT 임베딩에 bounding box에 대한 위치벡터를 추가하고, 추가로 detect된 이미지 feature에 대한 벡터까지 input으로 활용하였습니다. 굉장히 실험적인 시도이기 때문에 성능 자체보다는 가능성에 더 흥미가 갔습니다. 실제 샘플로 튜토리얼까지 진행해주셔서 재미있게 흐름을 따라갔습니다. 발표 감사합니다.
Hyungseok Kim
2021-06-22 22:27
본 세미나시간에는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 논문을 주제로 다루어 보았습니다. 실생활에 존재하는 문서를 이해하는데 있어서, 기존의 연구들의 대대수는 단순히 텍스트만을 이해하는 단계에 머물러 있었습니다. 하지만 문서에는 텍스트 뿐만 아니라 다양한 이미지가 존재하기에 텍스트와 이미지를 함께 이해할 필요가 있습니다. 해당 연구는 문서를 텍스트와 더불어 이미지 Layout을 함께 고려한 joint modeling 기법을 제안하고 있습니다. 해당 연구에서 제안하는 Layout LM은 단순히 텍스트기반의 pre-train 모델이 아닌 text, Layout의 joint pre-training을 통해 텍스트와 레이아웃 정보를 통해 문서를 이해하고자 하였습니다. 구체적으로, Layout-LM은 pre-train과정에서 크게 3가지[ Token간의 관계를 설명하는 BERT embedding, 문서안에서의 Token의 위치를 설명하는 2D position embedding(x,y,width,height), 그리고 문서안에서의 Token 이미지를 설명하는 Image embedding] 임베딩 학습구조를 병행하여 학습을 수행하게 됩니다. 해당 연구에서는 제안하는 모델의 목적에 맞게 테이블을 포함한 형식의 문서나 영수증, 그리고 이미지를 포함하는 문서들을 통해 그 성능을 검증하고자 하였습니다. 개인적으로는 과거 드라마 가운데 "스타트-업"이라는 드라마가 떠올랐습니다. 극중 주인공들이 개발한 "눈길"이라는 서비스는 눈이 불편한 할머니가 영수증을 처리하는데 큰 힘이 되었습니다. 드라마 속 착한 기술들이 우리가 연구하고 배워나가는 과정에서 점점 현실에 가까이 적용될 수 있음에 많은 동기부여를 받을 수 있었습니다. 논문의 이해를 위해 친절하게 튜토리얼까지 수행하면서 좋은 연구를 소개해준 발표자에게 감사의 인사 전합니다.
Myeongsup Kim
2021-06-23 22:02
오늘 세미나에서는 Image 안에 존재하는 Text로부터 유의미한 정보를 추출하는 LayoutLM에 대해 소개해 주셨습니다. 이미지에 Text가 존재하는 경우는 영수증과 같이 구조 정보가 유지되어야 하는 경우들이 많은 것 같습니다. LayoutLM에서는 위치 정보에 관한 추가적인 Embedding을 적용한 뒤 Pre-training을 수행하고 이후 다양한 Downstream Task를 수행합니다. 수행하고자 하는 Task 자체가 매우 실용적이라는 느낌을 받았으며, Language Model을 사용하여 구조를 갖는 Text를 처리할 수 있다는 것이 매우 신선하게 느껴졌습니다. 해당 분야가 발전하게 되면, 표 안에 있는 정보를 활용해야 하는 Question Answering과 같은 Task도 수행할 수 있을 것으로 기대됩니다. 좋은 발표 감사합니다.
Hoonsang Yoon
2021-06-24 21:13
금일 세미나는 발표자의 연구 주제인 Multimodal에 관련한 논문으로, PDF 문서에 대하여 '시각적'으로 Layout을 학습하고, 해당하는 Text를 이해하는 Multimodal BERT 훈련에 대한 발표였습니다. Pretraining Model들이 NLP에서 많이 사용되지만, Text-level에서만 사용이 되었고 Layout이나 Style에 대한 정보는 사용되지 않았기에 이를 통합하여 (PDF 처리 > 텍스트 이해)의 절차를 하나로 통합한 연구라고 할 수 있습니다. 이를 위하여 스캔된 PDF에 대하여 Token Embedding, Layout embedding (위치 좌표), Image embedding을 모두 활용하여 BERT를 Pretrain하며, 이로써 단일한 문서가 아닌 다양한 종류의 문서 (영수증 등)에 대하여 구조를 이해해, 정보의 위치를 파악하여 원하는 값을 Return할 수 있습니다. 금일도 BERT의 또다른 활용법에 대하여 배웠으며, 다양한 정보에 대한 연구자의 정의가 문제 해결에 큰 도움이 됨을 깨달았습니다. 항상 흥미로운 발표 감사합니다!
Jaehyuk Heo
2021-06-26 19:45
금일 세미나는 MultiModal task 중 이미지와 텍스트를 모두 활용하여 문제를 푸는 내용으로 “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”이라는 논문에 대해서 소개해 주셨습니다. 본 논문에서는 일정 양식이 정해져있는 텍스트의 이미지로부터 Layout을 찾고 텍스트를 파악하여 목표를 정답을 찾아가는 방법에 대해 언급합니다. 본 논문에서 사용하는 방법은 BERT를 기반으로 하는 모델인데 인상깊은 점은 이미지의 특징인 x,y 축에 대한 정보를 입력값으로 함께 포함하여 학습한다는 점이었습니다. Faster R-CNN을 기반으로 이미지 내에서 필요한 부분의 Layout에 대한 (x0, y0), (x1, y1)을 찾고 이를 입력값에 position embedding으로 사용하여 BERT를 학습하였는데 이때 MVLM(Masked Visual-Language Model) Loss를 통해 pretrain 하였습니다. Computer Vision에서의 연구와 NLP 분야에서의 연구 내용을 바탕으로 둘이 함께 잘 활용하여 문제를 해결하는 점이 인상깊었습니다. 현재 NLP나 Vision에 대해 개별적으로 문제를 푸는 것만 많이 접했는데 정해져있는 Benchmark에 대한 문제 해결이 아닌 현업에서 주어지는 문제를 풀기위해서는 이와 같은 다양한 방법의 적절한 활용이 중요하다고 생각됩니다. 좋은 발표 감사합니다.
Yukyung Lee
2021-07-27 00:18
오늘 세미나는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 을 주제로 진행되었습니다. 항상 세미나를 진행해주시는 모든 분야에 대해 선행 지식부터 꼼꼼히 짚어주셔서 놓치지않고 집중 할 수 있는 것 같습니다. 오늘도 많이 배웠습니다 🙂
소개해주신 논문에서 Layout이라는 정보를 활용한것이 매우 재미있었습니다. 상대적인 위치 또한 좋은 정보로서 가치가 있고, Visual information을 다루는 부분이 합리적이었습니다. 또한 position embedding을 다루기위해 실제 좌표 값을 넣는것도 재미있었습니다. pretraining 방법도 매우 독특했는데, 위치와, context를 잘 반영해서 학습할 수 있는 방법론이라는 생각이 들었습니다. 새로운 모델을 설계할때 가정들이 흥미롭고 합리적인데, 이런 아이디어가 나온 근거들도 논문에서 다루어주면 연구 설계시 도움이 될것같다는 생각을 하게되었습니다.
Text와 layout을 모두 고려할 경우 성능이 높아지는 결과를 보였는데, 이 또한 재미있었습니다. 원하는 task를 풀기위해 기존 모델의 structure를 수정하고, 새로운 학습 방법을 제안하는 것을 보며 기존 좋은 모델만 사용하려 했던 모습을 반성하게되었습니다.
좋은 논문 소개해주셔서 감사합니다 !
Seungwan Seo
2021-06-27 20:09
vision과 nlp를 모두 활용하는 multi modality를 통한 task 해결에 관한 논문이었습니다. 우선 bounding box, task label, 추출된 text가 모두 존재하는 데이터셋이 있다는 사실이 놀라웠습니다. 이러한 데이터를 구성하기 위해 얼마나 많은 노력이 필요한지 시간이 지날수록 더 알게 되는 것 같습니다. 멀티 모달을 사용하는 경우 대부분의 경우에서 미세하게나마 성능이 오르는 것을 확인할 수 있었습니다. 성능 향상이 매우 중요한 도메인에서는 멀티 모달을 사용하면 좋을 것 같으며 그렇지 않은 경우에는 resource cost와 향상하는 성능 차이를 잘 고려해서 상황에 맞게 단일 모달과 멀티 모달을 선택해서 사용하면 좋을 것 같습니다. 추후에 시간을 고려하는 survey paper도 나오면 재밌을것 같습니다.
Jounghee Kim
2021-06-28 00:22
이번 세미나에서는 문서안에 있는 Text 뿐만아니라 Layout을 함께 다뤄 문서해석의 정확도를 높인 LayoutLM:Pre-training of Text and Layout for Document Image Understanding 논문을 소개해 주셨습니다. 해당 논문은 문서의 포맷이 너무 다양하기 때문에 구조적으로 문서를 파악하지 않으면 문서의 내용을 정확하게 인식하는 것이 어렵다는 문제점을 해결하기위해 연구되었습니다. 이를 해결하기 위하여 LayoutLM 논문에서는 Layout과 이미지의 정보를 BERT와 함께 활용하는 방법을 제안합니다. 해당 논문은 Layout 정보를 BERT에 추가하기 위해서 X, y 좌표와 width, height 정보를 BERT의 Position Encoding에 포함시킵니다. 또한 iamge정보를 함께 활용하기 위하여 Faster R-CNN을 통해 추출한 Image Embedding을 BERT로 부터 도출한 Embedding에 더해줍니다. 이러한 방식은 기존 Text만을 활용한 것 보다 더 정확하게 정보의 위치를 추출할 수 있습니다. 재미있는 논문을 예제와 함께 소개해 주셔서 이해하기 수월했습니다. 감사합니다.
Subin Kim
2021-06-28 00:28
금일 세미나에서 다룬 논문은 Pre-training of Text and Layout for Document Image Understanding 입니다. 이 논문은 어느 정도의 일정한 포멧을 가지고 있는 문서 이미지 데이터를 이해하는 데에 텍스트만이 아닌 layout을 함께 고려한 joint 모델링을 목적으로 합니다. 여권이나 논문, 영수증 등의 문서는 특정 포멧에 따라 정해진 위치에 특정 내용의 텍스트가 적혀야 하는데, 이러한 상대적 공간 위치의 embedding을 BERT의 세 가지 embedding vector와 함께 사용하여 Pretraining을 수행하고, 다양한 downstream task에 응용하였습니다. BERT를 텍스트에만 한정하여 생각을 해왔었는데, 이렇게 텍스트를 담은 이미지에서 이미지의 Layout 정보를 함께 사용하여 문제를 풀고자 했던 아이디어가 신선했습니다. 더 나아가 발표자분께서 튜토리얼 진행을 통해 실제 모델에 사용되는 input이 어떻게 구성이 되는지, output이 어떻게 구성이 되는지를 구체적인 예시로 보여주셔서 더 흥미롭게 발표를 따라갈 수 있었습니다. 좋은 발표 감사합니다.
Yunseung Lee
2021-06-28 15:12
금일 세미나는 이미지 내 텍스트를 추출하고, 텍스내에서의 entity, slot을 추출하는 LayoutLM에 대한 소개로 진행되었습니다. 먼저 문서 이미지 내 텍스트 인식은 문서포맷이 다양하고 문서의 구조가 달라진다는 점에서 문제가 존재합니다. 이러한 배경에서 논문에서 제안하는 방법론은 BERT와 Faster-RCNN을 결합하여 텍스트와 레이아웃 두 가지 정보를 학습해서 문서를 이해하는 모델을 제안하였습니다. 특히 문서 layout에 대한 정보를 포함하기 위해 2D position embedding과 image embedding을 BERT input embedding과 함께 추가적으로 활용하게 됩니다. OCR 관련된 연구라서 흥미롭게 들었고, faster-rcnn을 통해 추출한 정보를 BERT의 embedding으로 활용했다는 점에서 참신하다고 느꼈습니다. 좋은 발표 감사합니다.
Kyoosung So
2021-06-28 20:45
OCR 주제는 다뤄진 적이 거의 없는 것으로 알기 때문에 굉장히 흥미롭고 신선한 세미나였습니다. OCR이 단순히 글자를 이미지에서 인식하는 task로 대충 알고 있었으나, 실제 문서 OCR 등에서 적용되는 데에는 굉장히 복잡한 과정이 포함된다는 것을 배웠습니다. 우선 논문은 Faster-RCNN을 이용한 이미지 임베딩과 BERT를 이용한 text 임베딩을 함께 이용하여 문서의 어떤 곳에 어떠한 정보가 있는지 Information Extraction 관점에서 접근하게 됩니다. Multi-modal은 들을 수록 흥미로운데, 기회가 된다면 논문을 직접 이해하면서 text 임베딩과 image 임베딩이 어떻게 상호작용을 하면서 OCR task를 수행하게 되는지 좀 더 자세히 알아보고 싶습니다. 흥미로웠던 점은 글자 간의 간격을 알아내는 데 있어서 이미지의 전체 길이를 나누는, 약간은 투박하고 심플한 방식을 이용한다는 점입니다. 그럼에도 해당 방식이 잘 작동한다는 것이 재밌었고 동시에 앞으로 프로젝트를 진행하는 데 있어서 참고할만한 많은 것을 배운 시간이었습니다. 언제나 좋은 발표 감사합니다.
Jina Kim
2021-06-30 12:00
오늘 세미나는 document image understanding을 위해 제안된 layoutLM에 대한 내용으로 진행되었습니다. 제가 생각하기로는 일단 문서 이미지를 인식한 후 인식된 문서 text 자체를 분석하는 방향으로 진행할 것 같았는데, LayoutLM은 text뿐만 아니라 문서 이미지에서 중요한 요소인 layout을 고려했다는 점에서 매우 참신하게 느껴졌습니다. LayoutLM은 text와 layout을 결합한 pretraining을 진행합니다. 단어와 위치, segment embedding을 더하여 사용하는 것은 기존 BERT와 같지만, position embedding을 x, y 좌표, width, height 정보를 반영한다는 점에서 layout을 고려할 수 있게 됩니다. 이렇게 학습한 layoutLM은 영수증, 논문, 보고서 등의 다양한 layout을 가지는 문서 정보를 처리할 수 있게 되었습니다. 매우 유용하게 활용될 수 있는 task라고 생각되고, BERT가 정말 강력한 모델임을 또 한번 느꼈습니다. 좋은 발표 감사합니다.
Jeongseob Kim
2021-06-30 21:02
본 세미나는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 연구에 대해 진행되었습니다. 본 연구는 문서에서 텍스트 데이터와 이미지 데이터 layout을 함께 학습하는 multi-modal 방법론에 관해 진행되었습니다. 기존 pre-training 모델들은 NLP 문제들에 대해 매우 좋은 성능을 내어왔습니다. 하지만, 실제 텍스트 데이터가 주를 이루는 문서 데이터들은 사실은 데이터의 layout이나 style정보가 이해하는 데 꽤나 중요한 경우가 많습니다. 본 연구는 이러한 점에 주목하고, 문서 내에 존재하는 image(시각적) 데이터를 이해하기 위한 text와 layout을 함께 pre-training시키는 모델을 제안합니다. 해당 모델(Layout LM)은 이처럼 위치정보(x,y 좌표)와 같은 layout 정보까지 포함해 embedding해 pre-training을 진행합니다. 이후 downstream-task를 수행하게 됩니다. 개인적으로, vision과 자연어 데이터는 별도로 학습, 추론하는 것으로 생각하고, multi-modal의 접근을 떠올리지는 못했습니다. 평소 multi-modal 방법론에 막연한 어려움을 느끼고 있었는 데, 본 발표를 통해 조금이나마 그 막연함을 벗을 수 있었습니다. 좋은 발표 감사합니다.
Hyeongwon Kang
2021-07-07 02:54
이번 세미나에서는 텍스트와 문서의 레이아웃 두가지 정보를 학습해서 문서를 이해하는 Layout LM을 주제로 진행되었습니다. Layout LM은 문서 이미지 이해에 다양한 포맷, 문서 구조의 변화등을 해결하고자 하였습니다. Layout LM은 BERT와 Faster R-CNN을 사용합니다. BERT는 input으로 word, position, segment 이 세가지 embedding을 사용을 하는데 본 논문에서는 Document Layout information을 2D position embedding으로 사용하여 상대적 공간 위치를 반영하였습니다. 그 후에 Pre-training을 수행하고 다양한 Downstream Task를 수행하였습니다. 평상시에 스마트폰으로 문서 스캔 및 PDF OCR을 진행할 때 텍스트와 문서의 레이아웃을 잘 구별하지 못해서 답답하였고, 비정형 데이터 분석 수업에서 다른 조의 프로젝트에서 문서의 레이아웃 때문에 결국 수작업으로 텍스트 데이터를 생성하는 것을 보고 이런 연구가 진행되고 있지는 않을까? 궁금했었는데 발표자분께서 다뤄주셔서 궁금증을 해결할 수 있었습니다. 좋은 발표 감사합니다.
본 세미나에서는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding이라는 논문을 소개해주셨습니다. 해당 논문은 이미지와 텍스트를 모두 사용하는 multimodal task로 이미지 안에 있는 텍스트를 추출한 뒤 해당 텍스트에서 유의미한 정보를 추출하는 방법을 소개합니다. 이를 위해 layout과 이미지 정보를 함께 활용하는데 BERT와 Faster R-CNN을 이용합니다. CV와 NLP 두 가지에서 정교한 engineering이 들어간 논문이라는 생각이 들었습니다. 좋은 논문을 소개해주셔서 감사합니다. 발표 잘 들었습니다.
이번 세미나에서 다룬 논문은 LayoutLM: Pre-training of Text and Layout for Document Image Understanding입니다. 먼저 본격적인 연구 목적인 Document Image Understanding을 이번에 처음 알게 되었는데요. 문서 이미지를 위해 text만을 이용하는 것이 아닌 텍스트와 문서의 레이아웃을 학습에 사용하는 조인트 모델링을 수행하는 테스크입니다. 실 예시로 논문 스캔 이미지를 보여주셨는데 만약에 여기서 더 나아가서 논문 뿐만이 아니라 UI/UX 또는 기타 광고 같은 데에도 적용시킬 수 있는 흥미로운 테스크라는 생각이 들었습니다. 하지만 이러한 테스크는 문서의 포맷이 다양하거나, 화질이 낮거나, 구조가 많이 다를 경우 어렵다는 문제점을 안고 있습니다. LayoutLM은 BERT+Faster R-CNN으로, 먼저 BERT의 input으로는 word embedding(문맥정보) + position embedding(시계열정보) + segment embedding(문장 단위 정보)들을 받게 되며, 이때의 position embedding은 2d position embedding으로 상대적 공간 위치를 반영하게 됩니다. 이를 통해 나오게 된 LayoutLM Embedding과Faster RCNN에서 나오게 된 Embedding인 Image Embedding을 활용하는 구조입니다. 차근차근 스텝 바이 스텝으로 자세하게 설명해주셔서 잘 이해가 되었습니다. 좋은 발표 감사합니다.
금일 세미나는 "LayoutLM: Pre-training of Text and Layout for Document Image Understanding"라는 주제로 진행되었습니다. 본 발표에서는 이미지 안에 있는 텍스트를 추출하고 해당 텍스트에서 유의미한 정보를 추출하는 방법론이 소개되었습니다. 세미나에서 텍스트와 레이아웃 두가지 정보를 학습해서 문서 자체를 이해하는 방법론은 처음 접했고, 레이아웃을 학습에 사용한 점에 흥미로워 관심을 가지고 발표를 청취하였습니다. 발표에서 해당 방법론을 활용할 수 있는 3개의 downsteam task도 소개되었는데, 그 중 Slot prediction for a receipt에 대한 부분이 가장 인상 깊었습니다. 해당 task에 대한 부분을 보며, 최근에 수행하고 있는 바코드와 텍스트로 이상치를 탐지하는 프로젝트에서도 LayoutLM을 활용할 수 있지 않을까하는 생각이 들었습니다. 좋은 발표 감사합니다.
금일 세미나에서는 상당히 흥미로운 주제의 발표였습니다. 처음에 직관적인 요점을 잘 보여준 장표가 인상적이였습니다. 다양한 문서의 이미지에서도 충분히 의미있는 요소가 있고, 문서의 스캔이미지를 통해서도 text를 이해하는데 중요한점이 있다는 것입니다. transformer 에 내포하고자 하는 데이터를 input 으로 활용해 도출해 내고자하는 문제를 해결한 대표적인 논문으로 생각합니다. 사실 이런 흐름은 다른 도메인에서도 transformer를 어떻게 효율적이며, 효과적으로 구성할 수 있을 까에 대한 연구가 이루어 지고있기 때문에, 합리적이다 라고 생각합니다. 또한, transformer 의 강력함에 있어서, 의도하고자 하는 것을 어떻게 잘 사용할 것인가를 잘 생각해야 한다고 생각합니다. 본 논문에서는 공간적위치, 시간적정보를 함께 반영할 수 있는 임베딩을 사용하였고, 이를 뽑아낼 수 있는 방법에는 기존의 방식들을 함께 차용했습니다. 사실 상당히 재미난 주제였고, 예전부터 궁금했는데 이런 연구가 이루어지고있단 사실이 현실적인 부분을 요구받았을 때 어떻게 해결해야할 지에대한 방향인것 같습니다.
이번 세미나는 Layout-LM이라는 다소 생소한 주제에 다루었습니다. Layout-LM은 문서를 하나의 이미지로서 이해하기 위해 문서의 text와 layout을 동시에 고려하는 방법론이었습니다. 만약 문서를 그 문서에 대한 이미지만으로 파악할 수 있다면 정보 검색 및 접근성에 있어서 큰 효용가치가 있을 것이라고 생각이 되었지만, 문서는 다양한 형태의 구조로 구성이 되어 있기 때문에 매우 어려운 작업이 될 것이라 생각했습니다. 따라서 해당 문제를 어떻게 해결해야 될까에 대해서 굉장히 어려운 문제라고 생각했는데, 이번 세미나를 통해 그 궁금증을 해결할 수 있었습니다. 이번 세미나에서 소개해주신 방법론에서는 문서의 구조 즉 layout을 잘 반영하기 위해 BERT 모델에 layout 정보와 Fast RCNN을 통한 이미지 정보를 함께 사용하여 그 문제를 완화하였습니다. 앞으로 어떻게 해당 분야의 연구가 발전할지 기대가 되게 하는 발표였습니다. 좋은 발표 감사합니다.
이번 세미나는 이미지안에 있는 텍스트를 추출하고, 그 텍스트에서 entity와 slot을 추출하는 방법론인 LayoutLM에 대한 세미나였습니다. 이 방법론은 상대적 위치에 대한 2d position을 self-attention based transformer로 학습시키는 구조입니다. 그리고 faster R-CNN을 도입하여 이미지 임베딩을 합니다. 그리고 Downsteam task는 대표적으로 Entity link prediction, Slot prediction for a receipt, Document image classification가 있습니다. 발표 후반부에 데이터 전처리에 대한 자세한 설명을 해주셔서 이해가 잘되었고, 더욱 흥미가 가는 발표였습니다. 텍스트와 이미지 이 두 분야를 아우르는 흥미로는 주제에 대한 발표 감사합니다.
본 논문에서 설명하는 이미지-텍스트 정보 추출 task는 너무나 자연스럽게도 2-stage로 진행되겠다는 생각을 하는데, 그런 의미에서 두 task를 한 번에 pretraining하는 본 방법론이 신선한 충격으로 다가왔습니다. 또한 이미지에서 다양한 텍스트 형태를 고려하여 텍스트를 인식하거나 bounding box를 휴리스틱하게 조정하는 것을 보고, 이미지 인식과 관련된 task에서는 엔지니어링 역량이 굉장히 중요하겠다는 생각도 들었습니다. 방법론에서는 input 구성이 가장 중요한 것 같은데 본 논문에서는 기존 BERT 임베딩에 bounding box에 대한 위치벡터를 추가하고, 추가로 detect된 이미지 feature에 대한 벡터까지 input으로 활용하였습니다. 굉장히 실험적인 시도이기 때문에 성능 자체보다는 가능성에 더 흥미가 갔습니다. 실제 샘플로 튜토리얼까지 진행해주셔서 재미있게 흐름을 따라갔습니다. 발표 감사합니다.
본 세미나시간에는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 논문을 주제로 다루어 보았습니다. 실생활에 존재하는 문서를 이해하는데 있어서, 기존의 연구들의 대대수는 단순히 텍스트만을 이해하는 단계에 머물러 있었습니다. 하지만 문서에는 텍스트 뿐만 아니라 다양한 이미지가 존재하기에 텍스트와 이미지를 함께 이해할 필요가 있습니다. 해당 연구는 문서를 텍스트와 더불어 이미지 Layout을 함께 고려한 joint modeling 기법을 제안하고 있습니다. 해당 연구에서 제안하는 Layout LM은 단순히 텍스트기반의 pre-train 모델이 아닌 text, Layout의 joint pre-training을 통해 텍스트와 레이아웃 정보를 통해 문서를 이해하고자 하였습니다. 구체적으로, Layout-LM은 pre-train과정에서 크게 3가지[ Token간의 관계를 설명하는 BERT embedding, 문서안에서의 Token의 위치를 설명하는 2D position embedding(x,y,width,height), 그리고 문서안에서의 Token 이미지를 설명하는 Image embedding] 임베딩 학습구조를 병행하여 학습을 수행하게 됩니다. 해당 연구에서는 제안하는 모델의 목적에 맞게 테이블을 포함한 형식의 문서나 영수증, 그리고 이미지를 포함하는 문서들을 통해 그 성능을 검증하고자 하였습니다. 개인적으로는 과거 드라마 가운데 "스타트-업"이라는 드라마가 떠올랐습니다. 극중 주인공들이 개발한 "눈길"이라는 서비스는 눈이 불편한 할머니가 영수증을 처리하는데 큰 힘이 되었습니다. 드라마 속 착한 기술들이 우리가 연구하고 배워나가는 과정에서 점점 현실에 가까이 적용될 수 있음에 많은 동기부여를 받을 수 있었습니다. 논문의 이해를 위해 친절하게 튜토리얼까지 수행하면서 좋은 연구를 소개해준 발표자에게 감사의 인사 전합니다.
오늘 세미나에서는 Image 안에 존재하는 Text로부터 유의미한 정보를 추출하는 LayoutLM에 대해 소개해 주셨습니다. 이미지에 Text가 존재하는 경우는 영수증과 같이 구조 정보가 유지되어야 하는 경우들이 많은 것 같습니다. LayoutLM에서는 위치 정보에 관한 추가적인 Embedding을 적용한 뒤 Pre-training을 수행하고 이후 다양한 Downstream Task를 수행합니다. 수행하고자 하는 Task 자체가 매우 실용적이라는 느낌을 받았으며, Language Model을 사용하여 구조를 갖는 Text를 처리할 수 있다는 것이 매우 신선하게 느껴졌습니다. 해당 분야가 발전하게 되면, 표 안에 있는 정보를 활용해야 하는 Question Answering과 같은 Task도 수행할 수 있을 것으로 기대됩니다. 좋은 발표 감사합니다.
금일 세미나는 발표자의 연구 주제인 Multimodal에 관련한 논문으로, PDF 문서에 대하여 '시각적'으로 Layout을 학습하고, 해당하는 Text를 이해하는 Multimodal BERT 훈련에 대한 발표였습니다. Pretraining Model들이 NLP에서 많이 사용되지만, Text-level에서만 사용이 되었고 Layout이나 Style에 대한 정보는 사용되지 않았기에 이를 통합하여 (PDF 처리 > 텍스트 이해)의 절차를 하나로 통합한 연구라고 할 수 있습니다. 이를 위하여 스캔된 PDF에 대하여 Token Embedding, Layout embedding (위치 좌표), Image embedding을 모두 활용하여 BERT를 Pretrain하며, 이로써 단일한 문서가 아닌 다양한 종류의 문서 (영수증 등)에 대하여 구조를 이해해, 정보의 위치를 파악하여 원하는 값을 Return할 수 있습니다. 금일도 BERT의 또다른 활용법에 대하여 배웠으며, 다양한 정보에 대한 연구자의 정의가 문제 해결에 큰 도움이 됨을 깨달았습니다. 항상 흥미로운 발표 감사합니다!
금일 세미나는 MultiModal task 중 이미지와 텍스트를 모두 활용하여 문제를 푸는 내용으로 “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”이라는 논문에 대해서 소개해 주셨습니다. 본 논문에서는 일정 양식이 정해져있는 텍스트의 이미지로부터 Layout을 찾고 텍스트를 파악하여 목표를 정답을 찾아가는 방법에 대해 언급합니다. 본 논문에서 사용하는 방법은 BERT를 기반으로 하는 모델인데 인상깊은 점은 이미지의 특징인 x,y 축에 대한 정보를 입력값으로 함께 포함하여 학습한다는 점이었습니다. Faster R-CNN을 기반으로 이미지 내에서 필요한 부분의 Layout에 대한 (x0, y0), (x1, y1)을 찾고 이를 입력값에 position embedding으로 사용하여 BERT를 학습하였는데 이때 MVLM(Masked Visual-Language Model) Loss를 통해 pretrain 하였습니다. Computer Vision에서의 연구와 NLP 분야에서의 연구 내용을 바탕으로 둘이 함께 잘 활용하여 문제를 해결하는 점이 인상깊었습니다. 현재 NLP나 Vision에 대해 개별적으로 문제를 푸는 것만 많이 접했는데 정해져있는 Benchmark에 대한 문제 해결이 아닌 현업에서 주어지는 문제를 풀기위해서는 이와 같은 다양한 방법의 적절한 활용이 중요하다고 생각됩니다. 좋은 발표 감사합니다.
오늘 세미나는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 을 주제로 진행되었습니다. 항상 세미나를 진행해주시는 모든 분야에 대해 선행 지식부터 꼼꼼히 짚어주셔서 놓치지않고 집중 할 수 있는 것 같습니다. 오늘도 많이 배웠습니다 🙂
소개해주신 논문에서 Layout이라는 정보를 활용한것이 매우 재미있었습니다. 상대적인 위치 또한 좋은 정보로서 가치가 있고, Visual information을 다루는 부분이 합리적이었습니다. 또한 position embedding을 다루기위해 실제 좌표 값을 넣는것도 재미있었습니다. pretraining 방법도 매우 독특했는데, 위치와, context를 잘 반영해서 학습할 수 있는 방법론이라는 생각이 들었습니다. 새로운 모델을 설계할때 가정들이 흥미롭고 합리적인데, 이런 아이디어가 나온 근거들도 논문에서 다루어주면 연구 설계시 도움이 될것같다는 생각을 하게되었습니다.
Text와 layout을 모두 고려할 경우 성능이 높아지는 결과를 보였는데, 이 또한 재미있었습니다. 원하는 task를 풀기위해 기존 모델의 structure를 수정하고, 새로운 학습 방법을 제안하는 것을 보며 기존 좋은 모델만 사용하려 했던 모습을 반성하게되었습니다.
좋은 논문 소개해주셔서 감사합니다 !
vision과 nlp를 모두 활용하는 multi modality를 통한 task 해결에 관한 논문이었습니다. 우선 bounding box, task label, 추출된 text가 모두 존재하는 데이터셋이 있다는 사실이 놀라웠습니다. 이러한 데이터를 구성하기 위해 얼마나 많은 노력이 필요한지 시간이 지날수록 더 알게 되는 것 같습니다. 멀티 모달을 사용하는 경우 대부분의 경우에서 미세하게나마 성능이 오르는 것을 확인할 수 있었습니다. 성능 향상이 매우 중요한 도메인에서는 멀티 모달을 사용하면 좋을 것 같으며 그렇지 않은 경우에는 resource cost와 향상하는 성능 차이를 잘 고려해서 상황에 맞게 단일 모달과 멀티 모달을 선택해서 사용하면 좋을 것 같습니다. 추후에 시간을 고려하는 survey paper도 나오면 재밌을것 같습니다.
이번 세미나에서는 문서안에 있는 Text 뿐만아니라 Layout을 함께 다뤄 문서해석의 정확도를 높인 LayoutLM:Pre-training of Text and Layout for Document Image Understanding 논문을 소개해 주셨습니다. 해당 논문은 문서의 포맷이 너무 다양하기 때문에 구조적으로 문서를 파악하지 않으면 문서의 내용을 정확하게 인식하는 것이 어렵다는 문제점을 해결하기위해 연구되었습니다. 이를 해결하기 위하여 LayoutLM 논문에서는 Layout과 이미지의 정보를 BERT와 함께 활용하는 방법을 제안합니다. 해당 논문은 Layout 정보를 BERT에 추가하기 위해서 X, y 좌표와 width, height 정보를 BERT의 Position Encoding에 포함시킵니다. 또한 iamge정보를 함께 활용하기 위하여 Faster R-CNN을 통해 추출한 Image Embedding을 BERT로 부터 도출한 Embedding에 더해줍니다. 이러한 방식은 기존 Text만을 활용한 것 보다 더 정확하게 정보의 위치를 추출할 수 있습니다. 재미있는 논문을 예제와 함께 소개해 주셔서 이해하기 수월했습니다. 감사합니다.
금일 세미나에서 다룬 논문은 Pre-training of Text and Layout for Document Image Understanding 입니다. 이 논문은 어느 정도의 일정한 포멧을 가지고 있는 문서 이미지 데이터를 이해하는 데에 텍스트만이 아닌 layout을 함께 고려한 joint 모델링을 목적으로 합니다. 여권이나 논문, 영수증 등의 문서는 특정 포멧에 따라 정해진 위치에 특정 내용의 텍스트가 적혀야 하는데, 이러한 상대적 공간 위치의 embedding을 BERT의 세 가지 embedding vector와 함께 사용하여 Pretraining을 수행하고, 다양한 downstream task에 응용하였습니다. BERT를 텍스트에만 한정하여 생각을 해왔었는데, 이렇게 텍스트를 담은 이미지에서 이미지의 Layout 정보를 함께 사용하여 문제를 풀고자 했던 아이디어가 신선했습니다. 더 나아가 발표자분께서 튜토리얼 진행을 통해 실제 모델에 사용되는 input이 어떻게 구성이 되는지, output이 어떻게 구성이 되는지를 구체적인 예시로 보여주셔서 더 흥미롭게 발표를 따라갈 수 있었습니다. 좋은 발표 감사합니다.
금일 세미나는 이미지 내 텍스트를 추출하고, 텍스내에서의 entity, slot을 추출하는 LayoutLM에 대한 소개로 진행되었습니다. 먼저 문서 이미지 내 텍스트 인식은 문서포맷이 다양하고 문서의 구조가 달라진다는 점에서 문제가 존재합니다. 이러한 배경에서 논문에서 제안하는 방법론은 BERT와 Faster-RCNN을 결합하여 텍스트와 레이아웃 두 가지 정보를 학습해서 문서를 이해하는 모델을 제안하였습니다. 특히 문서 layout에 대한 정보를 포함하기 위해 2D position embedding과 image embedding을 BERT input embedding과 함께 추가적으로 활용하게 됩니다. OCR 관련된 연구라서 흥미롭게 들었고, faster-rcnn을 통해 추출한 정보를 BERT의 embedding으로 활용했다는 점에서 참신하다고 느꼈습니다. 좋은 발표 감사합니다.
OCR 주제는 다뤄진 적이 거의 없는 것으로 알기 때문에 굉장히 흥미롭고 신선한 세미나였습니다. OCR이 단순히 글자를 이미지에서 인식하는 task로 대충 알고 있었으나, 실제 문서 OCR 등에서 적용되는 데에는 굉장히 복잡한 과정이 포함된다는 것을 배웠습니다. 우선 논문은 Faster-RCNN을 이용한 이미지 임베딩과 BERT를 이용한 text 임베딩을 함께 이용하여 문서의 어떤 곳에 어떠한 정보가 있는지 Information Extraction 관점에서 접근하게 됩니다. Multi-modal은 들을 수록 흥미로운데, 기회가 된다면 논문을 직접 이해하면서 text 임베딩과 image 임베딩이 어떻게 상호작용을 하면서 OCR task를 수행하게 되는지 좀 더 자세히 알아보고 싶습니다. 흥미로웠던 점은 글자 간의 간격을 알아내는 데 있어서 이미지의 전체 길이를 나누는, 약간은 투박하고 심플한 방식을 이용한다는 점입니다. 그럼에도 해당 방식이 잘 작동한다는 것이 재밌었고 동시에 앞으로 프로젝트를 진행하는 데 있어서 참고할만한 많은 것을 배운 시간이었습니다. 언제나 좋은 발표 감사합니다.
오늘 세미나는 document image understanding을 위해 제안된 layoutLM에 대한 내용으로 진행되었습니다. 제가 생각하기로는 일단 문서 이미지를 인식한 후 인식된 문서 text 자체를 분석하는 방향으로 진행할 것 같았는데, LayoutLM은 text뿐만 아니라 문서 이미지에서 중요한 요소인 layout을 고려했다는 점에서 매우 참신하게 느껴졌습니다. LayoutLM은 text와 layout을 결합한 pretraining을 진행합니다. 단어와 위치, segment embedding을 더하여 사용하는 것은 기존 BERT와 같지만, position embedding을 x, y 좌표, width, height 정보를 반영한다는 점에서 layout을 고려할 수 있게 됩니다. 이렇게 학습한 layoutLM은 영수증, 논문, 보고서 등의 다양한 layout을 가지는 문서 정보를 처리할 수 있게 되었습니다. 매우 유용하게 활용될 수 있는 task라고 생각되고, BERT가 정말 강력한 모델임을 또 한번 느꼈습니다. 좋은 발표 감사합니다.
본 세미나는 LayoutLM: Pre-training of Text and Layout for Document Image Understanding 연구에 대해 진행되었습니다. 본 연구는 문서에서 텍스트 데이터와 이미지 데이터 layout을 함께 학습하는 multi-modal 방법론에 관해 진행되었습니다. 기존 pre-training 모델들은 NLP 문제들에 대해 매우 좋은 성능을 내어왔습니다. 하지만, 실제 텍스트 데이터가 주를 이루는 문서 데이터들은 사실은 데이터의 layout이나 style정보가 이해하는 데 꽤나 중요한 경우가 많습니다. 본 연구는 이러한 점에 주목하고, 문서 내에 존재하는 image(시각적) 데이터를 이해하기 위한 text와 layout을 함께 pre-training시키는 모델을 제안합니다. 해당 모델(Layout LM)은 이처럼 위치정보(x,y 좌표)와 같은 layout 정보까지 포함해 embedding해 pre-training을 진행합니다. 이후 downstream-task를 수행하게 됩니다. 개인적으로, vision과 자연어 데이터는 별도로 학습, 추론하는 것으로 생각하고, multi-modal의 접근을 떠올리지는 못했습니다. 평소 multi-modal 방법론에 막연한 어려움을 느끼고 있었는 데, 본 발표를 통해 조금이나마 그 막연함을 벗을 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 텍스트와 문서의 레이아웃 두가지 정보를 학습해서 문서를 이해하는 Layout LM을 주제로 진행되었습니다. Layout LM은 문서 이미지 이해에 다양한 포맷, 문서 구조의 변화등을 해결하고자 하였습니다. Layout LM은 BERT와 Faster R-CNN을 사용합니다. BERT는 input으로 word, position, segment 이 세가지 embedding을 사용을 하는데 본 논문에서는 Document Layout information을 2D position embedding으로 사용하여 상대적 공간 위치를 반영하였습니다. 그 후에 Pre-training을 수행하고 다양한 Downstream Task를 수행하였습니다. 평상시에 스마트폰으로 문서 스캔 및 PDF OCR을 진행할 때 텍스트와 문서의 레이아웃을 잘 구별하지 못해서 답답하였고, 비정형 데이터 분석 수업에서 다른 조의 프로젝트에서 문서의 레이아웃 때문에 결국 수작업으로 텍스트 데이터를 생성하는 것을 보고 이런 연구가 진행되고 있지는 않을까? 궁금했었는데 발표자분께서 다뤄주셔서 궁금증을 해결할 수 있었습니다. 좋은 발표 감사합니다.