Seminar

BOARD

[Paper Review] Can Large Language Models Understand Structured Table Data?

Paper Review

작성자

Suzie Oh

작성일

2023-12-13 09:15

조회

2907

논문 리스트

GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study (WSDM 2024)
- 논문 링크: https://arxiv.org/pdf/2305.13062.pdf
- 인용 수 : 2 (23.11.07 semantic scholar 기준)
Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs (TRL @ NeurIPS 2023)
- 논문 링크: https://arxiv.org/pdf/2310.10358.pdf
- 인용 수 : 0 (23.11.07 google scholar 기준)

Overview

- GPT4Table
  - LLM의 table 구조 이해 능력을 평가하기 위한 SUC Benchmark 제안
  - 표를 표현할 수 있는 5가지 format과 다양한 option에 대한 LLM의 성능 확인
- LLMs in table tasks
  - LLM의 table 이해 능력을 평가하기 위한 8가지 task 제안 및 표를 표현할 수 있는 8가지 format에 대한 LLM의 성능 확인
  - table에 대한 현실 세계의 noise를 반영한 8가지 noise를 추가했을 때 format별 LLM의 성능 변화 확인
발표 자료: 하단 첨부

전체 22

Jungho Lee

2024-01-10 16:21

해당 세미나에서는 그간 오수지 석사과정이 계속해서 진행해오던 table data 에 대한 주제로 진행되었습니다. 관련 주제로 세미나를 진행하면서 많은 논문들을 다룬것을 확인 할 수 있었고, 연구의 흐름에서도 어떤점이 문제이며, 해결하고자 했던 내용들에 대한 정리가 잘 되어있었습니다. GPT4Table 에서 LLM 이 기본적인 구조 이해 능력은 갖추고 있지만, 쉬운 TASK 에 대해서도 완벽하지 않고, 입력형태를 잘 조합해야 Table 이해 능력이 올라감을 알 수 있었습니다. LLM in table tasks 에서는 table 이해 능력을 평가하기 위한 8가지 task 제안 및 포멧을 이용하여 평가를 수행하였습니다. 연구실에서 생소했던 분야이나 현업에서는 많은 필요성을 느끼는 분야중 하나라고 생각하는데, 연구주제로 잡아 지금까지 해온 연구의 결과를 보니 발표자의 노력이 보이는 발표였습니다. 감사합니다.
Yukyung Lee

2024-01-15 23:15

Language model의 Table structure understanding 능력은 점점 더 중요한 연구 주제가 되어가는 것 같습니다. 이는 연구로도 다소 어려운 과제이지만, 현실에서 유용한 기술 중 하나이므로 연구와 산업의 니즈를 모두 가진 task라 생각됩니다. 기존의 방법론들은 Table을 json 형태로 바꾸어 이해하거나, structure의 특징들을 이해하기 위해 column, row의 embedding을 추가하는 방식을 선택했습니다. 소개해주신 논문들은 LLM을 사용하고 있으나 기존연구의 틀을 완전히 벗어나지는 않았다고 생각됩니다. 가장 최신 연구들은 program-aid reasoning 방법을 채택하여 성능을 개선하고 있습니다. 이는 table 구조를 sql로 programming하여 답변을 찾아내고 있으며 추론 능력을 크게 향상시켰습니다. 이러한 측면에서 보았을 때, 과연 어떤 방법을 채택하는것이 1) 정답을 잘 추론해내는지 2) 테이블을 정확히 이해하는지 분석하는것이 정말 중요해질 것이라 생각됩니다.
SeungHun Han

2023-12-23 15:32

오늘 세미나에서는 대규모 언어 모델이 구조화된 테이블 데이터 이해 능력에 대한 주제로 진행되었습니다. 첫 번째 논문인 'GPT4Table'은 table을 LLM이 처리할 수 있는 형태로 변환한 뒤, table에 대한 이해도를 향상시키기 위한 task를 수행합니다. Task의 예시론 table과 특정 value를 입력으로 주었을 때, table 내에서 value에 해당하는 cell의 인덱스 예측하는 Cell Lookup과 table과 특정 index를 입력으로 주었을 때, table 내에서 특정 index에 해당하는 cell의 value를 예측하는 reverse lookup이 있습니다. 논문에서 수행한 주 실험으론 테이블이 저장된 포맷에 따른 성능 변화를 비롯하여 사전학습을 수행하는 task에 따른 성능 변화 역시도 관측하였습니다. 입력 형태에 따라 언어 모델의 테이블 이해 능력에 큰 차이가 있음을 보여주었고, 여전히 발전의 여지가 많이 남아 있음을 확인할 수 있었습니다. 두 번째 논문인 "LLMs in table tasks" 역시 LLM의 table 이해 능력을 평가하는 내용을 다루었으며, 입력 형태에 따라 매우 큰 성능 변화가 발생함을 확인할 수 있었습니다. 따라서, 여전히 LLM을 기반으로 table을 다루는 task에선 포맷과 parsing이 지대한 영향을 끼치는 것으로 결론 지을 수 있습니다. LLM의 NLU 역량이 비약적으로 증가함에 따라 이제는 "정형" 데이터로의 확장 흐름을 볼 수 있어서 흥미로웠습니다. 좋은 발표 감사합니다.
Woojun Lee

2023-12-26 10:15

이번 세미나에선 LLM의 Tabular Data 이해와 관련된 두가지 논문을 소개해주셨습니다. 첫 번째 논문인 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study 에선 LLM (GPT4)의 Tabular Data 이해도를 확인하기 위해 Table Partition, Table Size Detection, Hierachy Detection, Cell Lookup 등과 같은 5가지 Task 를 통해 확인하였습니다. 또한 tabular data의 입력형태의 따른 LLM의 성능변화 또한 측정하여 학습 데이터에 포함되어 있는 HTML, XML, JSON 형태의 인풋이 우수한 성능 보임을 확인했습니다. 두번째 논문인 Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs 에서 또한 LLM의 Table 이해능력 검증을 위하여 Datatype Lookup test, Column Lookup Test 와 같은 8가지 test를 제안 및 진행하였고 이 과정에서 실제 상황에서 생길 수 있는 다양한 Table 데이터의 Noise (Spatial Invariance, Header의 변형, 기타 Table의 format에서 생기는 오류)를 적용하여 모델의 성능 변화 또한 측정하였습니다. 평소 발표자분이 관심있었던 분야에 대해서, 최신 LLM 들이 어떻게 이를 이해하고, 부족한 부분이 무엇인지 잘 확인할 수 있었던 시간이였고, 졸업 이후에도 해당 분야 연구를 잘 수행해 나가길 기대합니다. 좋은 발표 감사합니다.
SangMin Lee

2023-12-26 11:28

본 세미나는 오수지 발표자님께서 "Can Large Language Models Understand Structured Table Data?"라는 주제로, 2개의 논문을 소개해주셨습니다. 첫 번째 논문인 GPT4Table은 Table을 LLM이 관리할 수 있는 형식으로 변환하고, 다양한 작업을 통해 LLM의 이해도를 테스트하는 데 중점을 두었으며, Table 형식에 따라 성능이 크게 달라진다는 점을 강조했습니다. 특히 Markup language 형태로 구성했을 때, 성능이 높아졌는데 이는 LLM의 학습 데이터셋이 대량의 웹 데이터를 포함하고 있기 때문이라는 점이 흥미로웠습니다. 두 번째 논문인 LLMs in table tasks에서는 테이블의 형태를 변화시키면서 noise를 주었을 때 성능이 어떻게 달라지는지 비교하는 논문이었습니다. 특히 column에 sequential bias를 주입하는 noise를 주었을 때와, table을 transpose하는 noise는 큰 성능 하락을 보였고 이는 noise를 가진 table을 LLM이 자체적으로 이해하길 바라는 것보다, table 데이터를 사전에 잘 처리하는 것이 더 중요하다는 해석이 있었습니다. 요약하자면 table 데이터는 형태와 noise에 따라 민감하게 반응하며, 사전학습된 데이터의 유형에 따라 더 성능이 좋게 나오는 형태가 있다는 것이 흥미로웠고 이 점을 해결하는 것이 향후 연구과제가 될 것 같습니다. 좋은 발표 준비해주셔서 감사합니다.
Hun Im

2023-12-26 12:23

이번 세미나에서는 LLM 모델을 이용해 table 데이터를 다루고자 하는 2 연구에 대해 다뤄주셨습니다. 두 논문의 경우 다른 논문이지만 공통되는 하나의 골자를 갖고 있는데, 기존 table 데이터와 관련된 연구 또는 논문들은 대규모의 table 데이터를 이용해 table에 특화된 사전학습을 진행했지만 두 논문에서는 LLM이 이미 가지고 있는 지식을 활용하고자 합니다. 첫번째 논문인 GPT4Table의 경우 table 데이터를 LLM에 맞추고자 한 연구로 보여집니다. LLM이 table을 이해할 수 있도록 5가지 format과 다양한 option을 제안하고 있다고 생각되며, 이러한 table 구조 이해 능력을 평가하기 위해 SUC Benchmark를 제안하고 있습니다. ‘LLMs in table tasks’ 의 경우 정제된 benchmark table data가 아닌 현실에 가까운 table data에 대한 연구로 보여집니다. table에 대한 현실 세계의 noise를 반영한 8개의 noise를 추가했을 때 format 별 LLM의 성능 변화를 확인하고 있습니다. LLM이 발전함에 따라 개별적인 모델로 이루어지던 Task가 이제는 전처리만 Task별로 따로 하고 LLM으로 통합되는 것은 아닌가 하는 생각이 들었던 논문이었습니다. 졸업 전 마지막 발표까지 고생하셨습니다. 좋은 발표 감사합니다.
Seonggye Lee

2023-12-26 13:58

본 세미나는 Can Large Language Models Understand Structured Table Data? 라는 주제로 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study, Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs 에 대한 논문에 대한 리뷰를 진행하였습니다. GPT4Table의 경우 LLM의 table 구조 이해 능력을 평가하기 위한 SUC Benchmark 제안하였으며, 표를 표현할 수 있는 5가지 format과 다양한 option에 대한 LLM의 성능 확인하였습니다. LLMs in table tasks의 경우 LLM의 table 이해 능력을 평가하기 위한 8가지 task 제안 및 표를 표현할 수 있는 8가지 format에 대한 LLM의 성능 확인하였으며, table에 대한 현실 세계의 noise를 반영한 8가지 noise를 추가했을 때 format별 LLM의 성능 변화를 확인하였습니다. 최근 LLM을 통해 다양한 과업에 대한 해결을 수행하는 연구가 자주 등장하고 있는데 이러한 추세를 잘 반영한 연구라는 생각이 들었습니다. 마지막 세미나 고생하셨습니다!
JoongHoon Kim

2023-12-26 14:20

이번 세미나에서는 LLM의 table 데이터 이해 능력을 다루는 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study과 Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs 라는 두 가지 논문을 다루었습니다. 기존 table 데이터 관련된 task에서는 table 데이터에 특화된 언어 모델을 학습하기 위한 방법을 제안했다면 오늘 세미나에서는 최근 발전하고 있는 LLM의 지식을 활용하여 table 데이터 이해 능력을 탐구한 방법론들을 다루었습니다. 먼저 GPT4Table은 LLM이 table 데이터를 잘 이해하기 위한 효과적인 입력 형태를 탐색하고 general한 LLM의 structural understanding capability를 확인하였습니다. LLM이 table 데이터를 이해하는 기본적인 능력은 갖추고 있지만 table 특화 모델에 비해서는 부족하고 입력 형태를 효과적으로 설계함으로써 table 이해 능력을 향상시킬 수 있다는 것을 보였습니다. 두 번째 논문에서는 table 이해 능력을 평가하기 위한 8가지 task를 제안하고 8가지 format을 통해 평가를 수행하였습니다. Table 데이터에 대한 noise를 반영함으로써 LLM의 특성을 보여주었습니다. Table 데이터에 대한 현 LLM의 능력을 어느정도 파악할 수 있는 좋은 시간이었던 것 같습니다. 좋은 발표 감사합니다!
Sunwoo Kim

2023-12-26 15:45

이번 세미나에서는 “Can Large Language Models Understand Structured Table Data?” 을 주제로 진행되었습니다. 본 발표에 앞서 background 부분에서 2차원의 구조를 모델이 어떻게 학습할 수 있을지 상세히 설명해주셔서 이해에 많은 도움이 되었습니다. 첫번째 논문에서는 GPT4Table을 소개하고 있으며, LLM의 table 구조 이해 능력을 평가하기 위한 SUC Benchmark를 제안하고 있습니다. 그리고 표를 표현할 수 있는 5가지 형태와 다양한 옵션에 대한 LLM의 성능을 확인하였습니다. 두번째 논문은 LLMs in table tasks를 주제로 진행되었으며, LLM의 table 이해 능력을 평가하기 위한 8가지 task를 제안하였고, 표를 표현할 수 있는 8가지 형태에 대한 LLM의 성능을 확인하였습니다. 본 세미나 발표를 통해 다양한 과업 및 형태에 대해 어떻게 다룰 수 있는지 정리할 수 있는 좋은 시간이 되었던 것 같습니다. 또한 지속적으로 table에 관심을 갖고 다루어 주셔서 발표의 흐름이 잘 이어졌던 것 같습니다. 좋은 발표 감사합니다!
Jinwoo Park

2023-12-26 16:00

금일 세미나는 Can Large Language Models Understand Structured Table Data?라는 주제를 바탕으로 진행되었습니다. 세미나의 발표자분께서는 지속적으로 Tabular data를 다루는 방법론을 제안해주고 있으며, 해당 발표에서는 Large Language Model을 통하여 Tabular data를 다루고자 하는 방법론에 관한 논문들을 제시해주었습니다. 첫 번째 논문인 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study에서는 LLM에서의 Table 이해 능력을 평가하기 위한 5가지 Task를 제안하며, 5가지 Format을 이용해서 이를 평가하고 있습니다. 또한, 두 번째 논문인 Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs에서는 LLM의 Table 이해 능력을 평가하기 위한 8가지의 Task를 제안하며, 이후 8가지 Format을 이용하여 평가를 수행하고 있습니다. 결론적으로, Table 형태의 데이터를 LLM에 Input으로써 사용하여 Representation을 얻기 위해서는 학습에 자주 보았던 데이터 형태일 것으로 예상되는 DataFrame이 가장 좋은 성능을 보임과, 다양한 Task의 실험 결과 현 LLM은 아직 Table의 구조적 표현에서의 작은 변화에도 취약함을 확인할 수 있었습니다. LLM이 가지는 내부적인 Knowledge를 이용하고자 다양한 분야에서 이를 활용하고 있는데, Tabular 형태에도 이용되는 과정을 자세하게 확인할 수 있었습니다. 좋은 발표 정말 감사드립니다.
Kyoungchan Park

2023-12-27 11:11

이번 세미나는 Can Large Language Models Understand Structured Table Data?라는 주제로 2가지 논문에 대해 소개해주셨습니다. LLM이 과연 table data를 이해하고 처리할 수 있는지에 대한 것을 확인한 논문이였는데 결론적으로 LLM은 table data에 대한 이해 및 처리 능력을 갖고 있지만, 높은 성능을 달성하기 위해서는 전처리 과정이 중요하다는 것을 알 수 있었습니다. 또한 table 데이터의 구조적 변화 등에 취약한 모습을 보였는데 이는 향후 좋은 연구 주제가 될 수 있을 것 같습니다. 자체 내용과는 별개로 오늘 소개해주신 논문에서는 LLM의 table data 이해 능력을 평가하기 위해 여러가지 task를 제안했는데, 자신들이 던진 질문을 이와 같은 방식으로 논리적으로 풀어나간 과정이 인상 깊었습니다. 좋은 발표 감사드립니다.
Kiyoon Jeong

2023-12-27 13:28

이번 세미나에서는 LLM의 table 데이터 이해 능력에 대한 두 가지 논문을 소개해주셨습니다. 첫 번째 논문인 GPT4Table은 LLM의 table 구조 이해 능력을 평가하기 위한 SUC Benchmark를 제안하고 있으며, 표를 표현할 수 있는 5가지 형태와 다양한 옵션에 대한 LLM의 성능을 확인하였습니다. 두 번째 논문은 LLMs in table tasks를 주제로 진행되었으며, LLM의 table 이해 능력을 평가하기 위한 8가지 task를 제안하였고, 표를 표현할 수 있는 8가지 형태에 대한 LLM의 성능을 확인하였습니다. 두 논문 모두 LLM이 table 데이터를 이해할 수 있는 기본적인 능력은 갖추고 있지만, table 특화 모델에 비해서는 부족하기 때문에 이를 효과적으로 설계함으로써 table 이해 능력을 향상시킬 수 있다는 것입니다. 발표자님께서는 두 논문의 내용을 잘 정리하여 발표해주셨고, table 데이터에 대한 LLM의 이해 능력에 대한 흥미로운 결과들을 소개해주셨습니다. 좋은 발표 감사드립니다.
Jaehee Kim

2023-12-27 13:42

금일 세미나는 Large Language Model들의 Tabular Data 이해 능력을 평가한 두가지 논문을 중심으로 진행되었습니다. 기존 Table Understanding 연구들이 BERT 및 GPT-1,2 크기의 모델에 Tabular Data를 이해하도록 학습하기 위해 복잡한 flatten, pretrain 시 태스크 설계, 추론 방식 등에 대한 고민을 하였다면, LLM이 활발히 활용되기 시작하면서 Tabular Data에 대해서도 단순히 Text-to-Text로 활용할 수 있지 않을까? 하는 궁금증에 대한 답변이 될 수 있을 것 같습니다. 첫번째 논문인 "GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study"의 경우 LLM에 적합한 Tabular Input Format에 대한 Pilot Study로서 연구되었고,그 결과 CoT와 비슷하게 모델이 테이블에 대한 정보를 생성하고 이를 바탕으로 실제 Downstream Task를 수행하는 것이 효과적임을 보이고 있습니다. 두번째 논문인 "Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs"에서는 실제 테이블 데이터에서 발생할 수 있는 여러가지 Noise 상황에 대해서 LLM이 강건하게 반응할 수 있는지 확인한 논문이었습니다. 실험 결과 Table에 대한 단순한 Column Name 변경 및 교환만으로도 성능 저하가 극심히 발생하는 것을 확인할 수 있었으며, LLM에 단순히 Table을 입력하는 것이 해결책이 아니라는 점을 다시 한번 상기할 수 있었습니다. LLM이 활발히 활용되면서 LLM을 단순하게 사용만 해도 모든 문제가 해결될 수 있다는 인식이 다소 퍼져있는 것 같지만, 실제 다양한 활용 방법에 대한 연구들에서 살펴보면, 아직은 여전히 많은 고려 사항이 반영되어야 하고, 모델 입력 및 prompting 과정에 대한 깊은 이해가 필요한 것 같습니다. 감사합니다.
SeongHee Hong

2023-12-27 14:37

이번 세미나에서는 LLM이 대표적인 Structured Data인 Tabular Data를 어느 정도 이해하고 있는가를 주제로 두 편의 논문을 소개해주셨습니다. 첫 번째로 소개해주신 논문에서는 1) LLM이 이미 Tabular Data에 대해 어느 정도 이해를 하고 있는가와 2) LLM의 Tabular Data 이해 능력을 향상시키기 위한 입력 형태는 무엇인가라는 Research Question을 다루었습니다. 1)에 대한 분석을 위해 Table의 행/열 개수 예측, Merge된 Cell의 Index 예측을 비롯한 7가지 Task에 대한 실험을 수행했습니다. 또한 CSV, JSON, Xlsx 등 다양한 포맷 중 어떤 포맷이 LLM의 성능에 영향을 미치는지 실험하였습니다. 실험 결과 열과 행에 따른 성능 차이 등이 존재했으며 특정 Cell 값을 예측하는 것과 같은 일종의 Extractive Task에서조차 아직 성능의 개선 여지가 많음을 확인할 수 있었습니다. 두 번째 논문에서는 첫 번째 논문과 유사하게 LLM의 Tabular Data 이해 능력을 평가하기 위한 Task를 제안 및 포맷에 따른 성능 변화를 실험했고, Column명이 비식별화되어 있는 상황 등 Noise를 반영해 현실 세계의 상황을 반영한 실험을 수행했습니다. Noise에 대한 예시 및 기존 Tabular 관련 연구에서 사용되는 벤치 마크에도 존재하는지를 발표자 분의 경험을 예시를 들어주셔서 이해에 많은 도움이 되었습니다. 졸업을 앞둔 마지막 발표까지 좋은 발표 감사합니다. 수고 많으셨습니다.
Minjeong Ma

2023-12-27 17:43

이번 세미나에서는 대규모 언어 모델들이 구조화된 테이블 데이터를 어떻게 이해하는지에 초점을 맞춘 두 가지 논문을 리뷰해 주셨습니다. 첫 번째 논문인 "GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study"는 GPT-4와 같은 대규모 언어 모델이 테이블 데이터를 어떻게 처리하고 이해하는지에 대해 탐구합니다. 이 논문에서는 테이블을 언어 모델이 처리할 수 있는 형식으로 변환하고, 이를 통해 모델의 테이블 이해 능력을 증진시키는 다양한 작업을 수행합니다. 특히, Cell Lookup과 Reverse Lookup과 같은 작업을 통해 모델의 성능을 측정합니다. 또한, 테이블 저장 포맷이 모델 성능에 미치는 영향과 다양한 사전 학습 태스크의 영향을 관찰합니다. 이를 통해 언어 모델이 테이블 데이터를 이해하는 데 있어서 입력 형태가 큰 영향을 미칠 수 있음을 알게 되었습니다. 두 번째 논문인 "Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs"는 또한 언어 모델의 테이블 이해 능력을 평가합니다. 이 논문은 테이블의 형태를 변화시키고 여러 가지 잡음을 추가하여 이러한 변화가 모델 성능에 어떻게 영향을 미치는지 살펴봅니다. 특히, 테이블을 전치시키거나, 열에 순차적인 편향을 주입하는 등의 잡음이 모델의 성능에 큰 하락을 일으키는 것을 관찰합니다. 이를 통해 잡음이 포함된 테이블 데이터를 언어 모델이 자체적으로 이해하기보다는, 사전에 잘 처리하는 것이 중요하다는 것을 알게 되었습니다. 이 두 논문은 대규모 언어 모델이 구조화된 테이블 데이터를 이해하는 데 있어서 형태와 잡음에 민감하게 반응하며, 테이블 데이터의 처리와 이해를 위한 사전 학습된 데이터의 형태가 중요하다는 것을 알게 되었던 유익한 시간이었습니다. 좋은 발표 감사드립니다.
Woongchan Nam

2023-12-27 20:21

금일 세미나에서는 LLM의 table data를 대상으로 이해 능력을 평가하기 위한 task를 제안하고 다양한 format으로 실험을 진행한 ‘GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study’ 이라는 논문과, 동일한 주제로 8가지 task를 제안하고 noise를 추가한 format까지 실험을 진행한 ‘Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs’라는 두 가지의 논문을 다뤄주셨습니다. 첫 번째 논문 GPT4Table에서는 Table Partition, Table Size Detection, Hierarchy detection 등 5가지 task와 더불어 JSON, XML, HTML 등 다양한 format으로 비교실험을 진행하는 SUC Benchmark를 제시하고 있으며 table의 구조와 관련된 추가적인 지식을 prompt와 output을 함께 입력으로 구성하여 최종 답변을 생성하는 Self-Augmented Prompting 또한 함께 제시하고 있습니다. 두 번째 논문에서는 첫 번째 논문 GPT4Table보다 더 다양하게 DFLoader나 Comma separating 등 입력 format을 추가하였고 random하게 row나 column의 순서를 섞거나 column을 merging하는 등 noise를 가한 뒤 실험 결과를 함께 보이고 있습니다. 두 논문의 실험 결과를 통합해보았을 때 아직 LLM이 table에 대한 구조적 이해능력이 부족하며 특히 row에 대한 이해능력이 column에 대한 이해능력보다 더 높은 것을 알 수 있었습니다. 개인적으로는 아직 LLM이나 어떤 모델이 table 구조에 대한 완벽한 이해는 불가능하며 현실 세계의 noise에 또한 취약한 것 같아 이에 대한 연구로 해당 분야를 연구 중이신 발표자분의 향후 연구 또한 기대가 되었던 것 같습니다. 좋은 발표 감사드립니다!
Doyoon Kim

2023-12-27 21:55

이번 세미나는 거대 언어 모델(Large Language Model, LLM)을 활용하여 테이블 형식의 데이터를 다룸에 있어 원하는 과업을 수행하기 위해 효과적으로 데이터를 입력하는 방식에 관한 연구에 대해서 살펴보았습니다. 이제는 어떠한 형식의 데이터든 LLM에 입력하여 원하는 질문에 대한 답을 얻을 수 있는 상황이기에 표로 구성된 데이터 또한 충분히 입력 값이 될 수 있습니다. 다만 이차원으로 구성된 표를 어떻게 입력할지가 관건인데, 그 중에서도 표의 구조를 반영하는 것이 핵심일 것입니다. 이에 첫 연구로 소개해주신 GPT4Table은 테이블 크기 확인(table size detection)부터 Column&Row Retrieval 등의 표의 구조를 LLM이 잘 파악하고 있는 지를 확인하는 과업을 진행하였습니다. 결과적으로 아직은 LLM 또한 표의 구조를 확실하게 파악하고 있지는 않다는 실험 결과를 확인할 수 있었습니다. 이어서 소개해주신 다른 연구에서는 표 데이터를 어떤 형태(가령, pd.DataFrame, json, HTML 등)으로 입력하는 것이 표 구조 확인에 효과적인지를 self-supervised structural tasks를 통해서 확인하였습니다. 그랬을 때 pd.DataFrame과 json을 활용했을 때 전반적으로 성능이 좋았습니다. 한편, 좀 더 현실성을 반영한다면, 궁극적으로 테이블 데이터를 다룰 수 있으려면 이미지로부터 테이블을 추출해내고 이를 분석할 수 있어야 하는 것이 아닐까 싶습니다. 즉, 우리는 보통 표를 텍스트 보다는 하나의 이미지처럼 인식하곤 합니다. 어쩌면 OCR의 개념과 유사하게 이미지로부터 표를 추출하는 연구가 선행되면 실생활에 더 활용될 수 있지 않을까 싶습니다. 재미있는 발표 감사합니다.
Hyeongwon Kang

2023-12-27 22:42

이번 세미나는 Can Large Language Models Understand Structured Table Data?를 주제로 진행되었으며, GPT4Table과 LLMs in table tasks라는 두가지 논문에 대해서 발표해주셨습니다. 첫번째 논문인 GPT4Table은 LLM이 table을 얼마나 이해하는지 확인하기 위해 table의 크기 예측, merged cell 인덱스 예측 등 5가지 task들을 통해 table을 통한 어떤 분석의 결과가 아니라 실제 table이 어떻게 생겼는지 이해하고 있는지, 다양한 형태의 input을 주었을 때 어떤 형태가 가장 table에 대해 잘 이해하는지 평가하였습니다. 두번째 논문인 LLMs in table tasks에서도 table 포맷을 변경하거나, 노이즈를 주거나 하는 방식으로 table 이해 능력을 평가하였습니다. 단순히 table을 통해 답을 내리는 연구가 아니라 본질적으로 table의 구조를 이해하는지, 다룰 수 있는지에 대한 궁금증을 해결하는 연구들이어서 신박하다라는 생각을 하였고 table 뿐 아니라 다른 데이터, task들에 대해서 단순히 모델을 적용하고 성능을 확인하는 것이 아니라 모델이 데이터를 이해하고 답을 내리는지 확인할 필요가 있다고 생각하였습니다. 좋은 발표 감사합니다.
Gunho No

2023-12-27 22:52

이번 세미나는 발표자의 석사과정 마지막 발표로, 역시나 지금까지와 동일하게 Table data에 대한 연구를 소개해 주셨습니다. 지금까지는 table을 이해하기 위한 별도의 모델 구조를 만들고 별개의 학습을 수행하는 모델들을 소개해 주셨던 것과는 다르게, 이번에는 사전 학습된 LLM을 활용해 table 구조를 이해하고자 하였습니다. 논문은 크게 두 가지로 GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study (WSDM 2024), Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs (TRL @ NeurIPS 2023) 였으며, 두 연구 모두 LLM을 table에 어떻게 적용할 수 있는지에 대한 시도를 주제로 합니다. 발표자께서 각 논문이 다루는 다양한 LLM table framework와 input 형태들을 소개해 주셔서, 현재 어떤 흐름으로 연구가 수행되고 있는지 동향을 파악할 수 있었습니다. 정말 다양한 세부 분야에 LLM이 적용되고 있습니다. 막연하게는 LLM의 능력이 어디까지인가 놀라게 되지만, 한편으로는 확실한 한계도 발견되는 것 같습니다. 이러한 한계는 자연어 이해라는 세부 목표를 가진 LLM을 다른 task를 위한 기반으로 하기 때문에 발생하고 있는 것으로 막연한 추측이 됩니다. 이후에는 보다 보편적인 추론 능력을 지닌 base model에 다양한 세부 task를 빠르게 적응시키는 연구가 중요할 것 같습니다. 좋은 발표 감사합니다.
Saeran Park

2023-12-27 23:00

이번 세미나는 “LLM(Large Language Model)이 얼마나 테이블 테이터를 이해하는 가”에 대해 분석한 논문 2개를 소개해주셨습니다. GPT4Table은 structured data에 대한 이해를 파악하기 위해 벤치마크 데이터셋을 제안하며 실험적 분석을 하였습니다. SUC 벤치마크는 LLM이 table을 잘 이해하기 위해 어떤 입력 설계가 효율적인가, LLM이 이미 가지고 있는 구조 이해 능력이 어느정도인가를 평가하기 위해 만들어졌습니다. table은 다양한 format(e.g. json, html,..)으로 저장될 수 있으며, 이를 평가요소로 삼는 첫 시도였습니다. GPT4Table을 통해 LLM이 구조 이해 능력은 있지만, 쉬운 task에 대해서도 완벽하지 않으며 prompt engineering을 통해서 성능 향상의 가능성이 있다는 것을 볼 수 있었습니다. 다음 논문은 table에 Noise를 주었을 때 model이 table에 대한 이해가 있는가를 판단하는 방법을 제안하였습니다. 현재 LLM은 format에 대해 robust하지 않다는 것을 통해 앞선 논문에서 언급된 format에 따른 성능 평가의 중요성 또한 확인할 수 있었습니다. 모델과 잘맞는 format을 확인하고 다른 format을 가진 경우 잘맞는 포맷으로 변환 후 사용하면 효과적일 것이라는 생각이 들었습니다. noise는 task에 따라 성능 하락이 다르지만 sequential bias를 주입하는 경우 큰 성능 하락이 있었습니다. LLM 분석 논문은 대부분 context에 대한 이해를 하고 있는가에 대해서 많이 이루어졌습니다. SAT, 수능 문제 풀이에 대한 GPT의 해결 가능정도에 대해 들어본 적이 있습니다. 하지만, table에 대해서는 얼마나 이해하고 분석이 가능한지에 대해서는 아직 확인 된 것이 없었는데 이번 세미나를 통해 structural data에 대한 이해를 고민해볼 수 있는 기회가 되었습니다. structural data에 대한 이해를 통해 어떤 문제를 해결할 수 있는가까지 고민이 필요할 거같습니다. context에 대한 이해 평가는 모든 text 문제에 상속되는 것이기에 중요한 문제이지만, structured data에 대한 이해를 통해 무엇을 얻을 수 있는가에 대한 생각이 필요한 시점입니다. 좋은 발표 감사합니다.
Jiyoon Lee

2023-12-27 23:28

이번 세미나에서는 "Can Large Language Models Understand Structured Table Data?"라는 주제로 "GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study"와 "Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs" 2가지 논문에 대해 소개해주셨습니다. 기존에 LLM에게 table을 입력해주는 방식인 json 형태가 과연 가장 효과적인 방법인가에 대한 의문으로, 이를 대규모의 table 데이터를 통해 table specific pretrain을 수행하는 아이디어와 LLM의 내재적인 지식을 활용하는 아이디어로 해결합니다. GPT4Table 논문에서는 5가지의 새로운 task를 통해 LLM이 table을 어느 정도로 이해하는가에 대한 이해 능력을 평가하고자 하며, 5가지 format을 이용하여 평가를 수행합니다. LLMs in table tasks에서는 동일하게 task를 제안하나 총 8가지로 조금 더 다양한 과업을 제안하고 있으며, 8가지의 format으로 평가를 수행하게 됩니다. 처음 발표자님의 세미나를 들었을 때에도 table과 관련한 소개를 해주셨는데, 마지막 세미나까지 쭉 이어서 하나의 흐름을 이야기해주셔서 정말 좋았던 것 같습니다. 그동안 수고 많으셨습니다. 좋은 발표 감사드립니다.
Hyungseok Kim

2023-12-29 17:10

해당 세미나 시간에는 오수지 석사과정이 “Can Large Language Models Understand Structured Table Data?” 란 주제로 LLM을 통해서 structured table data 이해 능력을 다룬 두 논문을 소개했습니다. 첫 번째 논문인 'GPT4Table'은 LLM이 효과적인 입력 형태를 통해 테이블 데이터를 이해하는 능력을 확인하고, 다양한 과제를 통해 성능을 평가했습니다. 입력 형태에 따라 언어 모델의 테이블 이해 능력에 큰 차이가 있음을 보여주었으며, 여전히 발전의 여지가 있다는 결과를 제시했습니다. 구체적으로 해당 논문에서는 LLMs의 구조적 이해 능력을 평가하기 위한 벤치마크를 설계하여 해결하고자 하였으며, cell lookup, row retrieval, size detection과 같은 독특한 task들이 흥미로웠습니다. 또한, LLMs의 내부 지식을 활용한 자가증강(self-augmentation)을 제안하였으며, 이러한 구조적 프롬프팅 방법은 적절한 입력 선택과 결합될 때 다양한 테이블 작업에서 LLM 성능을 향상을 확인할 수 있었습니다. 두번째 논문인 ‘LLMs in table tasks’ 에서는 self-supervised 방식으로 테이블 구조를 이해하는 작업들을 생성하고 (예: 특정 셀 또는 행으로 이동, 테이블 전치), 여덟 가지 형식을 사용할 때 성능 차이를 평가했습니다. 해당 연구에서는 adversarial input에서 영감을 받아 여덟 가지 형태의 noise operation을 제안하였으며 이를통해서 LLM 성능의 영향력을 확인하였습니다. 개인적으로는 구조화된 테이블 데이터를 다루는데 있어서 LLM의 다양한 접근을 파악할 수 있었던 뜻깊은 세미나였으며, LLM을 기반으로 하는 테이블 처리 작업에서 입력 형태와 구조형태가 중요하다고 생각하였습니다.

« [Paper Review] PrimeNet: Pre-training for Irregular Multivariate Time Series

[ Paper Review ] Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning »

목록보기

전체 501

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10294	관리자	2020.03.12	0	10294
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 8909	관리자	2020.03.12	0	8909
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10019	관리자	2020.03.12	0	10019
498	[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (1) Sunghun Lim \| 2025.04.24 \| 추천 0 \| 조회 29	Sunghun Lim	2025.04.24	0	29
497	[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3) Suyeon Shin \| 2025.04.21 \| 추천 0 \| 조회 50	Suyeon Shin	2025.04.21	0	50
496	[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7) Woongchan Nam \| 2025.04.16 \| 추천 0 \| 조회 114	Woongchan Nam	2025.04.16	0	114
495	[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9) Kiyoon Jeong \| 2025.04.16 \| 추천 0 \| 조회 208	Kiyoon Jeong	2025.04.16	0	208
494	[Paper Review] Reasoning over Time Series with LLMs (13) Hyeongwon Kang \| 2025.04.09 \| 추천 0 \| 조회 285	Hyeongwon Kang	2025.04.09	0	285
493	[Paper Review] Accurate predictions on small data with a tabular foundation model (16) Jaehyuk Heo \| 2025.04.02 \| 추천 0 \| 조회 281	Jaehyuk Heo	2025.04.02	0	281
492	[Paper Review] Reasoning and Reinforcement Learning for LLM (15) Jaehee Kim \| 2025.04.02 \| 추천 0 \| 조회 273	Jaehee Kim	2025.04.02	0	273
491	[Paper Review] LLM based Recommender Systems : EAGER-LLM (19) Jungho Lee \| 2025.04.02 \| 추천 0 \| 조회 252	Jungho Lee	2025.04.02	0	252
490	[Paper Review] Data-driven discovery of coordinates and governing equations (18) Hankyeol Kim \| 2025.03.25 \| 추천 0 \| 조회 245	Hankyeol Kim	2025.03.25	0	245
489	[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15) Sieon Park \| 2025.03.19 \| 추천 0 \| 조회 354	Sieon Park	2025.03.19	0	354

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호