Seminar

BOARD

[Paper Review] DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction

Paper Review

작성자

Saeran Park

작성일

2024-01-30 19:35

조회

2361

[Paper Review] DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction

논문 제목: DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction
논문 링크: 바로가기
세미나 Overview
LLM-based Text-to-SQL 방법론에 대해 살펴본 후, DIN-SQL에 대한 방법에 대해 자세한 소개를 하였습니다. 현재 SPIDER leaderboard에서 상위권은 LLM-based method가 차지하고 있습니다. 그 중 zero-shot 방법론인 C3와 In-Context Learning 방법에서 example selection에 question, query similarity, masked question similarity, DAIL selection 방법을 소개합니다.
DIN-SQL은 text-to-SQL을 subtask로 분할하여 4단계의 stage를 거쳐 question에 대한 최종 SQL을 생성합니다. Schema Linking, Classificatoin & Decomposition, SQL Generation, Self-correction의 과정을 통해 query의 difficulty level에 따라 다르게 접근하여 SQL을 생성하도록 합니다. 각 단계는 10개의 Chain-of-Thought 형태의 examples를 통해 in-context learning으로 수행됩니다. 해당 방법을 제안하였을 때 SPIDER leaderborad에서 SOTA를 달성했습니다.
발표 자료 : 하단 첨부
발표 영상 : ">바로가기

전체 11

Hyeongwon Kang

2024-02-12 12:48

이번 세미나에서는 “DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction”주제로 진행되었습니다. 본 논문은 자연어 텍스트를 입력받아 적절한 SQL 쿼리를 생성하는 Text-to-SQL Task를 다룹니다. DIN-SQL은 Schema Linking, Classification & Decomposition, SQL Generation, Self-Correction의 네 단계로 구성된 프레임워크를 제안하였습니다. Schema Linking 단계에서는 자연어 질의와 데이터베이스 내의 컬럼과 값을 연결하고, Classification & Decomposition 단계에서는 쿼리를 난이도에 따라 분류하고 복잡한 쿼리는 하위 질문으로 분해합니다. SQL Generation 단계에서는 분류된 난이도에 따라 효율적인 쿼리를 생성하며, Self-Correction 단계에서는 생성된 쿼리의 오류를 수정합니다. Self-Correction 단계가 특히 인상적이었으며, 다양한 분야의 문제 해결에도 유용하게 적용될 수 있을 것으로 보입니다. 발표 자료가 상세하고 이해하기 쉽게 구성되어 많은 영감을 받았습니다. 좋은 발표 감사합니다.
SangMin Lee

2024-01-30 21:46

본 세미나는 박새란 발표자님께서 "DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction"이라는 논문을 바탕으로 진행해주셨습니다. 해당 논문에서 다루는 task는 Text-to-SQL이라고 하는 Query를 SQL 질의문으로 변환해주는 것입니다. 특히 LLM이 등장하면서 Zero-shot 기반의 방법론 및 다양한 Prompt 방법론들이 등장하였습니다. DIN-SQL의 핵심은 결국 여러 step을 구성하여, 앞 step의 Error를 Analysis 후 보완하는 것이라고 생각하였습니다. 특히 SQL문은 어떤 Table을 가져와야 할지, group by를 어떻게 할 지 조금이라고 SQL 질의문이 틀리면 완전히 다른 결과물이 생성되는 문제점이 있습니다. 흥미로웠던 부분은 Self-correction이라는 부분인데 앞서 생성된 코드에서 틀린 부분이나 중복을 수정하는 파트입니다. 어떤 부분이 틀린지 이미 GPT-4가 알고있다면, 처음 생성할 때부터 이 문제점을 반영하여 Prompt를 구성하면 어떨까? 생각해보기도 하였습니다. 또한 Inference를 여러번 거치는 것이, 과연 산업에서 사용 가능할까?에 대해서도 의문이 들었고, 한 번에 Prompt나 아니면 학습을 통해 해당 문제점을 해결해볼 수 있지 않을까도 생각하였습니다. 본 Task가 LLM을 만나고 여러 논문이 나오는 것을 보았을 때, 연구 방향이 무궁무진하게 뻗어나갈 수 있다고 생각했습니다. 좋은 발표 준비해주셔서 감사합니다.
Jaehee Kim

2024-02-06 12:14

금일 세미나는 Text-to-SQL 분야에서 LLM의 In-context learning을 최대한 활용한 방법론인 DIN-SQL을 중심으로 진행되었습니다. text-to-sql 특성 상 기존의 CoT 방식처럼 LLM은 table schema 파악, sql 문의 구성 단계 설계, 실제 sql 문 작성 등의 단계를 구분하여 생각할 수 있습니다. 이를 해당 논문에선느 데이터 종류에 따라 난이도를 구분하고, 어려운 문제에 대해서는 단계 별 분리하여 작성하도록 하는 전략을 취하고 있습니다. 또한, 기존의 QA 나 Reasoning task와 달리, SQL 작성은 자연어가 아니기 때문에, 자연어와 SQL 문 사이의 간극을 매울 수 있는 psedo code를 icl로 삽입하고 있습니다. 이러한 태스크 특성에 맞는 prompting 전략을 통해 기존 연구들보다 더 높은 성능을 달성하고 있으며, 특히 복잡한 쿼리에 대해 매우 뛰어난 성능을 차지하고 있습니다. 하지만 근본적으로 SQL의 첫 단계라 할 수 있는 Schema Linking이 가장 큰 오류 케이스를 여전히 차지하고 있다는 점에서 향후 연구로서 해결해야 할 주제가 남아있는 것으로 보입니다. 좋은 발표 감사합니다.
SeongHee Hong

2024-02-06 13:37

이번 세미나에서는 “DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction”이라는 연구에 대해 소개해 주셨습니다. 본 세미나에서는 자연어 텍스트를 언어 모델의 입력으로 넣었을 때 언어 모델은 주어진 DB로부터 알맞은 데이터를 추출하는 SQL Query를 생성하는 Text-to-SQL Task를 다루고 있습니다. 학부에서 데이터 베이스 시스템 및 이론이라는 강의를 들으며 SQL을 처음 접해보았습니다. 처음에는 단순히 테이블에서 원하는 셀 값을 가져오는 정도는 쉬운 일이라 생각했지만, 본 발표에서도 언급하다시피 여러 개의 Table간의 데이터를 연결해서 사용해야 하거나 함께 사용해야 하는 등 생각보다 SQL문을 작성하는 것은 난이도가 높았습니다. 많은 기업들이 자체 DB를 활용하고 소프트웨어 직무 외의 사원들도 이용할 수 있도록 하지만 SQL문을 작성하기 위해 최근 다양한 Task들에서 LLM의 도움을 받는 것은 꽤나 타당하다 생각이 듭니다. DIN-SQL은 사전 분석 결과를 바탕으로 Schema Linking -> Classification & Decomposition -> SQL Generation -> Self-Correction이라는 네 Step으로 이루어진 일종의 LLM Prompting 프레임워크입니다. 참신하다고 느껴진 것은 자연어 질의와 SQL Query 간의 간극을 줄이기 위해 일종의 수도 코드에 해당하는 Intermediate Representation을 Prompt에 사용하는 점이었습니다. 현업자들의 데이터 접근성을 향상시키기 위해 필요한 Task라고 생각이 들지만 아직까지는 Prompting만을 이용하는만큼 추후 새로운 모델이 개발되면 또 다시 모델 별로 최적의 Prompt Style을 구성해야 한다는 점에서 노고가 필요한 방법론이지 않을까라는 생각이 들었습니다. Task 자체에 대한 자세한 예시를 곁들인 좋은 발표 감사합니다.
Hun Im

2024-02-07 10:35

이번 세미나에서는 LLM 기반으로 입력된 Text를 사용자가 원하는 SQL Query 문으로 생성해주는 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 에 대해 다뤄주셨습니다. 본 논문에서 제안하는 방법은 Text-to-SQL 중에서 few-shot 세팅의 방법론으로, few-shot세팅은 in-context learning 과 fint-tuning 방법론들 보다 낮은 성능을 보여줍니다. 우선 기존의 few-shot 세팅에서 어떤 문제가 있는지 분석을 진행했고 생성된 query가 nested query에서 잘못된 결과를 구하거나, set operation을 잘못하거나 혹은 SQL 자체에 맞지 않는 query를 생성하는 등의 문제가 있다고 결론을 내렸습니다. 이러한 문제들을 보완하고 극복하기 위한 프레임워크를 본 논문에서 제안하고 있습니다. 프레임워크는 4개의 step으로 구성되어 있으며 각 step은 앞서 결론 내린 문제들을 하나씩 극복하기 위한 요소로 보여집니다. 기존 방법론의 문제점을 실험을 통해 찾고 이를 타겟팅한 방법론을 제안하고 있는 점이 인상깊었습니다. 좋은 발표 감사합니다!
Jinwoo Park

2024-02-08 14:23

금일 세미나는 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 논문을 바탕으로 진행되었습니다. 해당 논문에서는 Text-to-SQL이라는 Task를 다루고 있는데, 이는 자연어 질의를 입력함으로써, Database에 가장 널리 사용되는 적합한 SQL 문을 생성하는 Task 입니다. 해당 논문에서는 먼저 Few-shot Error Analysis를 진행하여, 해당 결과를 보완하고자 해당 Task를 Schema Linking, Classification & Decomposition, SQL generation, Self-correction 단계의 Framework를 제안하고 있습니다. 먼저 Shema Linking 단계의 목적은 자연어 질의와 연결되는 Database 내의 Column과 Value를 찾는 것을 목적으로, SQL에서 잘못된 Table이나 Column을 찾는 문제를 해결하고자 제안된 부분입니다. 다음 단계인 Classification & Decomposition에서는 Query의 종류를 나누어 어려움의 정도에 따라 다르게 접근하기 위함이며, 이때 가장 어려운 Nested로 Classification이 진행되었을 경우, Decomposition에서는 하위 질문을 생성하여 작은 문제로 분해하여 풀 수 있도록 유도하고 있습니다. SQL Generation 단계에서는 이전 Classification에서 분류된 난이도(Easy, non-nested, nested)에 따라 생성 방법을 달리 진행함으로써, 효율적이고 효과적인 Generation을 진행하고 있습니다. 마지막 단계인 Self-correction에서는 놓치거나 중복되는 코드를 수정하고 있었습니다. 개인적으로 Self-correction 단계가 인상적으로 다가왔고, 효과적임을 증명할 수 있다면 다른 분야나 Task에도 충분히 사용할 수 있는 방법이라는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.
Minjeong Ma

2024-02-11 18:08

이번 세미나에서는 텍스트를 SQL 쿼리로 변환하는 방법론에 대해서 제시한 "DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction" 논문에 대해 발표해 주셨습니다. 텍스트를 SQL 쿼리로 변환하는 과정에서 발생할 수 있는 오류를 최소화하고자, 해당 방법론에서 Self-correction 기능이 도입된 점이 무척 흥미로웠습니다. 이러한 접근 방식은 기존의 단일 단계 변환 프로세스에서 발생할 수 있는 다양한 오류를 효과적으로 해결할 수 있는 잠재력을 가지고 있음을 보여줍니다. 또한, 복잡한 SQL 쿼리 생성 과정을 여러 단계로 분해하여 접근한다는 아이디어가 매우 인상깊었습니다. 특히 Self-correction은 생성된 SQL 쿼리에서의 오류를 식별하고 수정함으로써 모델의 정확성을 높이는 동시에, 잠재적으로 사용자의 입력에 대한 모델의 이해도를 향상시켰습니다. 이는 사용자가 원하는 데이터를 보다 정확하게 추출하는 데 큰 도움이 될 것으로 보입니다. 그러나 Self-correction 과정이나 여러 단계를 거치는 복잡성이 실시간 처리 속도에 영향을 줄 수 있으며, 이는 특히 대규모 데이터베이스를 다루는 상황에서 중요한 고려사항이 될 것이라고 생각합니다. 그리고 모델이 각 단계에서 요구하는 정확한 입력 정보를 얼마나 잘 이해하고 처리할 수 있는지에 대한 질문도 중요하다고 생각되었습니다. 복잡한 문제를 해결하기 위해 문제를 분해하고 각 단계에서 특정한 접근 방법을 적용하는 전략의 중요성을 알 수 있었습니다. 이러한 접근 방식은 단순히 Text-to-SQL 변환뿐만 아니라, 다양한 분야에서의 문제 해결 과정에도 유용하게 적용될 수 있을 것으로 보입니다. 좋은 발표 감사드립니다.
JoongHoon Kim

2024-02-13 11:04

이번 세미나에서는 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction라는 논문을 다루었습니다. 해당 논문에서는 자연어 형태의 질문을 SQL query로 변환하는 text-to-sql task를 다룹니다. DIN-SQL은 LLM에 효과적인 prompt를 구성하기 위해 task를 여러 단계로 분해합니다. 해당 방법론은 Schema Linking, Classification & Decomposition, SQL Generation, Self-correction으로 구성되어 있습니다. 실험은 Spider와 BIRD라는 데이터셋에 대해 수행되었으며 LLM의 뛰어난 능력과 제안 방법론의 효과성을 확인할 수 있었습니다. 하지만 모델별로 적합한 prompt를 찾아야한다는 점에서 실용적으로 사용되기 위해서는 이러한 한계점을 극복해야할 것 같다는 생각이 들었습니다. 좋은 발표 감사합니다.
Woongchan Nam

2024-02-13 12:31

금일 세미나는 'DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction'라는 논문을 다뤄주셨습니다. 해당 논문에서는 Text를 SQL Query로 변환하는 Text-to-SQL task를 다루고 있습니다. 해당 논문에서 소개하는 DIN-SQL의 경우 LLM을 활용하여 사전 분석 결과를 바탕으로 1) Schema Linking, 2) Classification & Decomposition, 3) SQL Generation 4) Self-Correction 단계로 이루어져 있으며 복잡한 Query를 하위 문제로 decomposition하여 해결하고자 제안하고 있습니다. 1) 첫 번째로는 자연어 질의와 연결되는 DB의 column과 value를 찾고, 2) Query의 종류를 Classification하여 복잡하고 어려운 경우 하위 질문을 생성한 뒤 작은 문제로 Decomposition한 뒤, 3) 자연어와 SQL 사이의 Gap이 발생하는 Mismatch를 보완하고자 SQL Query의 데이터 구조를 Intermediate Representation을 준 뒤, 4) 놓치거나 중복되는 코드를 수정하여 최종적으로 마무리가 되어집니다. 발표자분께서도 언급하셨지만 여러 Table을 Join해야하는 복잡하고 어려운 상황 속에서 LLM을 활용한 좋은 참신한 아이디어이지 않았나 생각이 들었고 2) Classification & Decomposition의 경우 난이도를 Classification 그리고 Decomposition하는 아이디어 또한 많은 영감을 받았던 것 같습니다. 처음 접한 분야를 구체적인 예시로 잘 이해할 수 있었고 정말 재미있게 들었던 것 같습니다. 좋은 발표 감사합니다!
Doyoon Kim

2024-02-13 22:57

이번 세미나는 연구실 내 꽤나 오랜만에 등장한 Text-to-SQL을 주제로 다루어졌습니다. Text-to-SQL은 이름에서도 알 수 있듯이 원하는 내용을 텍스트(text)로 입력하면 SQL 문구가 작성되는 과업을 의미합니다. 거대언어모델(Large Language Model, LLM)이 등장한 이 시점에서 Text-to-SQL 과업 또한 당연히 LLM으로 수행되어 오고 있습니다. 금일 소개해주신 방법론인 DIN-SQL은 In-Context Learning을 적용한 방법론입니다. Prompt를 활용함에 있어 Schema Linking, Clf&Decomposition, SQL Generation 등의 방식이 혼합된 10개의 chain-of-thought 형태의 샘플을 이용하여 LLM에 입력하게 됩니다. Few-shot Error Analysis를 통해 이를 가능하게 할 수 있었는데, 결과적으로 문제에 대한 원인 분석과 그에 대한 대안을 잘 설정하며 이를 In-Context-Learning으로 소화한 것이 인상깊습니다. 흥미로운 주제 준비해주셔서 감사합니다.
Kyoungchan Park

2024-02-15 23:07

이번 세미나에서는 'DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction'라는 논문을 소개해주셨습니다. SQL query를 text로부터 생성하는 task를 해결하기 위한 방법론을 제안한 논문으로 역시나 LLM을 활용하여 해당 문제를 해결하고자 하였습니다. 여러 단계로 나누어 복잡한 sql query를 해결하는 전략 자체가 타당하다고 생각되었고, 모델에 dependent하게 prompt를 구성해야 한다는 한계점은 존재하지만, 오히려 이런 복잡한 과업에 있어서는 올바른 접근법이 아닌가라는 생각이 들었습니다. 현재 실험에 사용하고 있는 데이터셋의 경우에는 현업 관점에서는 아직도 단순한 dataset으로 보이는데도 불구하고 shceama linking에서 많은 오류가 발생하는 것을 보면, 개선될 여지가 많은 분야라고 생각이들고, 실용성이 높은 task인 만큼 추후 어떻게 더 발전할지 기대가 되었습니다. 좋은 발표 감사드립니다.

« [Paper Review] Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection

[Paper Review] Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation »

목록보기

전체 513

번호	제목	작성자	작성일	추천	조회
공지사항	Paper Reviews 2019 Q3 관리자 \| 2020.03.12 \| 추천 0 \| 조회 11128	관리자	2020.03.12	0	11128
공지사항	Paper Reviews 2019 Q2 관리자 \| 2020.03.12 \| 추천 0 \| 조회 9762	관리자	2020.03.12	0	9762
공지사항	Paper Reviews 2019 Q1 관리자 \| 2020.03.12 \| 추천 0 \| 조회 10849	관리자	2020.03.12	0	10849
510	[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (5) Jaewon Cheon \| 2025.06.27 \| 추천 0 \| 조회 63	Jaewon Cheon	2025.06.27	0	63
509	[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16) Minjeong Ma \| 2025.06.07 \| 추천 0 \| 조회 246	Minjeong Ma	2025.06.07	0	246
508	[Rehearsal] 석사학위 논문심사 - 마민정 (19) Minjeong Ma \| 2025.06.02 \| 추천 0 \| 조회 36	Minjeong Ma	2025.06.02	0	36
507	[Rehearsal] 석사학위 논문심사 - 정기윤 (20) Kiyoon Jeong \| 2025.06.02 \| 추천 0 \| 조회 33	Kiyoon Jeong	2025.06.02	0	33
506	[Rehearsal] 석사학위 논문심사 - 남웅찬 (19) Woongchan Nam \| 2025.06.02 \| 추천 0 \| 조회 33	Woongchan Nam	2025.06.02	0	33
505	[Rehearsal] 석사학위 논문심사 - 이상민 (21) SangMin Lee \| 2025.06.02 \| 추천 0 \| 조회 34	SangMin Lee	2025.06.02	0	34
504	[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14) Siyul Sung \| 2025.05.31 \| 추천 0 \| 조회 330	Siyul Sung	2025.05.31	0	330
503	[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16) Woojun Lee \| 2025.05.20 \| 추천 0 \| 조회 319	Woojun Lee	2025.05.20	0	319
502	[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16) Jinwoo Park \| 2025.05.16 \| 추천 0 \| 조회 290	Jinwoo Park	2025.05.16	0	290
501	[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18) Hun Im \| 2025.05.15 \| 추천 0 \| 조회 282	Hun Im	2025.05.15	0	282

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

강필성 교수 (pilsung_kang@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호
대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호