[Paper Review] Text-to-SQL

작성자
Hoonsang Yoon
작성일
2021-05-18 18:08
조회
6430
1. Topic
  • Semantic Parsing의 일종인 Text-to-SQL은 자연어 질의를 SQL Query문으로 변환해주는 Task입니다. 본 세미나에선 Text-to-SQL의 개념과 데이터셋 그리고 대표 모델을 살펴보겠습니다.
  • 세미나는 두 번으로 나뉘어, WikiSQL과 SPIDER Dataset에 대한 설명을 진행하며 WikiSQL에서는 SQLova, HydraNet / SPIDER에서는 RAT-SQL / BRIDGE를 설명하겠습니다.
2. Overview

1주차
  • WikiSQL은 Single Table에 다한 Multiple Question을 담은 데이터셋으로서 SELECT / WHERE 정도의 간단한 SQL를 정답으로 갖고 있습니다.
  • 해당하는 모델들은 SQLova, HydraNet은 공통적으로 Encoder를 BERT로 사용하고 있으며 Decoder로 Classification Subtask를 진행하여 SELECT, WHERE에 어떤 Column이 오고 어떤 Aggregator를 활용하는지 분류합니다.
2주차
  • SPIDER는 Multi Table에 대한 Multiple Question을 담은 데이터셋으로서 SELECT / WHERE만을 다루었던 WikiSQL에 비해 HAVING, GROUP BY등과 같은 다양한 Clause를 담고 있습니다. SPIDER Dataset은 Multi Table이기에 Schema의 Question과의 관계, 그리고 내부 관계를 파악해야 하며 이를 위하여 Schema Linking, Encoding이 적용되며 SemQL과 같은 Decoder를 활용합니다.
  • RAT SQL은 Relation Aware Transformer의 준말로서 Self Attention에 Question-Schema Contextualized Graph에서 추출한 Relation을 포함하여, Schema 정보를 Encoding에 반영하며 SemQL로 Decoding을 진행합니다.
  • BRIDGE는 Schema의 Table / Column Name 뿐 아니라 Value를 Encoding에 포함하여 Schema Linking을 달성하며, PointerGenerator Network를 Decoder로 활용합니다.
3. 발표자료 및 발표영상
  • 발표 자료: 첨부파일 참고
  • 발표 영상:
    • WikiSQL:
    • SPIDER:
4. 참고 문헌
  • SQLova: A Comprehensive Exploration on WikiSQL with Table-Aware Word Contextualization
  • HydraNet: Hybrid Ranking Network for Text-to-SQL
  • RAT-SQL: RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers (ACL 2019)
  • BRIDGE: Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic Parsing (EMNLP 2020)
전체 20

  • 2021-07-11 19:35

    Text-to-SQL에 대한 세미나를 진행해주셨습니다. 2주간의 세미나를 통해 기초적인 내용부터 최근 모델까지 상세하게 알려주셔서 쉽게 이해할 수 있었습니다. 해당 주제로 수업 프로젝트를 진행하는 것을 옆에서 지켜보았는데 매우 재미있으면서도 challenging한 주제라고 생각됩니다. 앞으로 관련 주제에서 좋은 연구 결과를 얻으실 수 있을 거라고 생각합니다. 항상 많은 것을 배우고 있습니다. 좋은 발표를 진행해주셔서 감사합니다.


  • 2021-07-11 22:28

    이번 세미나는 2번에 걸쳐 Text-to-SQL(Text2SQL)을 주제로 진행되었습니다. Text2SQL은 이름에서도 알 수 있다시피 relational database에 대한 자연어 질문을 SQL질의로 변경해주는 task입니다.

    Text2SQL을 위한 대표 데이터셋으로는 WikiSQL 데이터셋과 SPIDER 데이터셋이 있는데 후자가 더 복잡한 SQL query를 포함한 데이터셋입니다. 전자의 경우 Single Table - Multiple Question으로, 후자의 경우 Multiple Table - Multiple Question으로 구성되어 있습니다. 발표자 분께서는 각각의 데이터셋에 적용된 모델들을 소개해주셨는데요, WikiSQL의 경우는, Seq2SQL(2017), SQLNet(2017), SQLova(2019), HydraNet(2020), 그리고, SPIDER의 경우 RAT-SQL(2019)과 BRIDGE(2020)을 소개해주셨습니다. 하나의 세미나에서 이렇게나 많은 논문을 다뤄주시다니 존경스럽습니다.

    (1) Seq2SQL과 SQLNet은 LSTM/Bi-LSTM을 이용하여 인코딩을 수행하고, classification과 Pointer Network를 이용하여 디코딩을 수행하게 됩니다.
    (2) SQLova과 HydraNet은 자연어 질의를 언어모델을 통해 인코딩을 수행하고, 이를 SQL 문법에 맞게 변환해주는 Natural Language-to-SQL layer를 통해 디코딩을 수행해줍니다. 좀 더 들어가서 SQLova는 최초로 언어모델을 인코더로서 활용하였고, 이를 활용하여 Question과 column을 encoding을 한 후, query를 순차적으로 하나씩 예측하게 됩니다. HydraNet은 BERT의 [CLS] 토큰을 활용하여 column을 하나씩 ranking을 매겨 SQL Query문의 Slot들을 채워나갑니다.
    (3) RAT-SQL와 BRIDGE에 사용된 SPIDER 데이터셋은 Multi Table이기에 Schema의 Question과의 관계, 그리고 내부 관계를 파악해야 하며 이를 위하여 Schema Linking, Encoding이 적용되며 SemQL과 같은 Decoder를 활용합니다. RAT SQL은 Self Attention에 Question-Schema Contextualized Graph에서 추출한 관계을 포함하여, Schema 정보를 Encoding에 반영하며 SemQL로 Decoding을 진행합니다. BRIDGE는 Schema의 Table과 Column Name 뿐 아니라 Value를 Encoding에 포함하여 Schema Linking을 달성하며, PointerGenerator Network를 Decoder로 활용합니다.

    슬라이드 하나하나 마다 노력의 흔적이 보이는 좋은 발표였습니다. 수고하셨습니다!


  • 2021-08-15 16:45

    text 를 sql 로 변환하는 주제의 세미나가 진행되었습니다. 사실 sql를 학부때 데이터베이스를 공부하면서 느낀점이 있습니다. 매번 교수님께서 퀴즈로 복잡한 sql 문을 출제 하셨는데, 무언가 암기해서 한다는게 한계가 있다고 생각했습니다. 컴퓨터가 받아들이는 논리적인 언어로 생각하고, 정말 문법처럼(언어처럼) 이해해야 응용을 할 때 작성할 수 있었습니다. 그러한 관점에서 sql 또한 그 문장에서 언어학적 의미를 가진다고 생각합니다. text 에서도 우리가 가진 의미적, 구조적 문장을 잘 표현해야하고, 잘 나타내야할 sql도 위 두 의미적문장을 잘 구성해야합니다. 즉 상당히 어려운 task 입니다. 두가지의 의미를 잘 보존해야하는 task 에서 연결다리 역할을 하는 방식을 설명해 주었고, 이 분야 외에도 이런 접근은 다른 도메인에서도 충분히 필요하다고 생각됩니다. 감사합니다.


  • 2021-05-31 13:30

    금일 세미나는 SQL을 생성하는 자연어 기술인 TEXT SQL과 관련된 배경 및 논문을 설명해 주셨습니다. Text SQL 목적은 테이블 안에 있는 정보를 이해하고 자연어 질의에 따라 SQL 언어로 텍스트를 출력하는 것입니다. SQL은 명확한 문법과 구조를 갖고 있기 때문에 모델을 활용하여 SQL을 생성하는 방법은 Classification모델과 Generation 모델로 나뉩니다. Classfication 모델은 각 부분에 어떤 테이블과 컬럼을 선택할지를 분류하는 형태의 모델입니다. 대표모델은 BERT를 활용한 SQLova등이 있습니다. Generation 모델은 질문과 테이블 정보를 받고 그에 따른 SQL을 생성하는 모델입니다. 대표적으로는 자연어 생성 모델입니다. 굉장히 흥미있는 주제이며 활용도도 매우 높다고 생각합니다. 특히 TABLE이 많은 현업에서 해당 시스템이 적용되면 프로그래밍 생산성을 소폭 상승시킬 수 있을 것으로 기대됩니다. 다만 해당 주제와 관련하여 대개 논문들이 BERT에 의존하고 있어 점점 모델이 무거워 지고 있는 것 같습니다. 이 떄문에 성능을 향상시키는 방향으로 고민을 한다면 필연적으로 많은 컴퓨팅 파워가 필요해 보이며, 오랜 시간 연구를 해야 할 가능성이 높습니다. 만약 해당 분야로 논문을 작성할 계획이시라면 경량화 쪽으로 뱡향을 살펴보는 건 어떨까 라고 생각합니다. 좋은 발표와 좋은 자료 감사합니다.


  • 2021-06-10 13:55

    2번의 걸친 세미나를 통해 Text2SQL의 전반적인 연구 흐름을 살펴볼 수 있었습니다. 혼자 공부하고자 한다면 오래 걸릴 수 있는 일인데 해당 세미나를 통해 공부한다면 훨씬 수월하게 접근할 수 있어 이 분야에 관심있는 사람들이 듣게 된다면 큰 도움이 될 수 있는 세미나라고 생각됩니다. 개인적인 생각으로 Text2SQL은 활용도가 높은 만큼 난이도 있는 연구 분야라고 생각되는데 앞으로 어떤 방식으로 성능을 개선시킬지 기대가 됩니다.


  • 2021-06-17 22:42

    해당 세미나 시간에는 장장 두번에 세미나 시간을 통해 Text-To-SQL이라는 주제로 2개의 논문을 다루어 보았습니다. 세미나의 주제에서도 명시적으로 확인 할 수 있듯이 해당 task는 자연어 형태의 질의문을 관계형 데이터베이스의 질의문 유형인 SQL의 형태로 변환해주는 것을 그 목적으로 하고 있습니다. 계속해서 NLP 혹은 음성처리에서의 변환은 다루어 보았지만, 자연어의 질의를 또 다른 형식의 인터페이스 형태인 SQL형태로 변환한다는 점에서 개인적으로 매우 흥미로운 task라고 생각하였습니다. 최근에 두각을 나타내는 연구인 만큼 대표적인 방법론 2개를 각각 세미나 1시간 씩 2시간씩 다룬 만큼 해당 세미나에서는 이론적인 배경과 데이터셋 그리고 방법론까지 매우 친절하게 잘 설명해주었습니다. 개인적으로는 해당하는 방법론에 대한 프레임워크에 대한 구조적인 이해와 학습과정은 발표자께서 친절하게 설명해주어 개념적으로는 이해를 할 수는 있었지만, 실제 데이터에 대한 입력과 아웃풋의 예시를 직접적 다루지 못한 유형이다 보니 이해한 부분에 대한 확신은 다소 부족하였습니다. 그럼에도 불구하고 처음접하는 입장에서 무리없이 이해할 만큼의 친절한 세미나준비자료는 칭찬드리고 싶습니다. 특히나 많은 양의 내용을 전달하는 만큼 준비하는 시간도 매우 많았을것 같아 너무나 감사한 마음 전하고 싶습니다.


  • 2021-08-16 01:10

    이번 세미나는 1. 배경 설명, 방법론의 트렌드 설명, 첫번째 모델 (WikiSQL)에 대한 첫번째 세미나, 그리고 2. 두번째 모델(SPIDER)에 대한 두번째 세미나로 나뉘어 진행되었습니다. 우선 초반에 Cross-Domain Text2SQL에 대한 개념 설명과 Text2SQL의 필요성에 대해 설명해주셔서 발표 전체의 흐름을 잘 파악할 수 있었습니다. WikiSQL은 대표적으로 SQLova, HydraNet모델이 있고, SPIDER은 RAT-SQL, BRIDGE가 존재합니다. BERT의 encoder를 사용하여 classification 등의 layer를 추가하여 예측을 수행하는 SQLova, HydraNet과 Self Attention에 Question-Schema Contextualized Graph를 사용하는 RAT-SQL에 대해 자세한 설명을 해주셨습니다. 많은 내용이었을텐데 이렇게 한번에 정리해주셔서 감사합니다. 흥미로운 분야에 대한 세미나 잘들었습니다.


  • 2021-06-20 00:00

    이번 세미나에서는 자연어를 특정한 구조를 가진 관계형 데이터베이스에 적용되는 Query로 변환하는 모델들을 주제로 진행되었습니다. 우선적으로 해당 주제의 경우 Searching에 활용되는 것으로 알고 있으며, 추가적으로 Database와 Query에 익숙하지 않은 사람들에게 많은 도움을 줄 수 있을 것이라는 생각이 들었습니다. 소개된 논문들은 대체적으로 단일 Table에 대해 특정한 조건을 만족하는 데이터를 선별하는 Query를 생성하는 것으로 보입니다. 데이터셋의 부재로 인해 한동안 발전이 더디었던 분야임을 감안하여, 현재는 초기 단계인 것으로 생각되고, 향후에는 다수의 Table을 사용하는 Query의 생성, Table 구조를 자연어로 지정할 수 있는 Query의 생성 등 다양한 수요가 발생할 것으로 예상되고, 그 만큼 발전 가능성이 매우 높은 분야라는 생각이 들었습니다. 앞으로 어떤 연구가 진행될지 지켜보고 싶은 분야입니다. 좋은 발표 감사합니다.


  • 2021-06-24 16:35

    오늘 발표는 Text-to-SQL 에 대한 발전 방향과 현재 연구 수준에 대해서 전반적인 흐름을 알 수 있는 시간이었습니다. 발표자와 함께 프로젝트를 진행하며 공부해왔기 때문에 비교적 내용에 대해 더 잘 이해할 수 있었습니다. 데이터베이스에 접근하기 위해 사용되는 SQL을 다루기위해서는 전문적인 지식이 많이 필요하지만 최근들어 일반 사용자들의 데이터분석을 위한 수요가 높아져서 직접 DB에 접근하고자 하는 니즈가 늘어나고 있습니다. 따라서 비전문가을 위한 접근성을 낮추기 위한 연구로서 사용자의 질문을 기반으로 DB의 schema와 함께 semantic parsing을 통해 SQL을 생성해 내는 것이 Text-to-SQL의 취지입니다. 현재까지 개발된 모델들은 BERT가 나온 시점 이후로 대부분 Encoder에 BERT 기반의 embedding 모델이 사용되고 모델 마다 가장 큰 차이점은 Decoder 부분입니다. 주로 HydraNet이나 SQLova와 같은 sub-task 형태의 각 SQL 구성 요소마다 classification으로 푸는 문제가 있고 Bridge와 같이 generation 을 통해 SQL 자체를 생성해내는 문제가 있습니다. 현재 수준에서 WikiSQL과 같은 비교적 단순한 SQL, 하나의 테이블만 사용하고 하나의 Select문과 Aggregation 또한 일부만 사용하는 경우에는 잘되고 있지만 SPIDER와 같이 여러 테이블의 schema를 함께 고려하는 문제는 아직까지 좋은 성능이라고 보기에는 어렵습니다. 따라서 더 많은 연구가 필요한 주제라고 생각되고 앞으로 방향성에 대해서 생각해볼때 단지 SQL만 생성하는 것이 아닌 Execution Time도 함께 고려할 수 있는 방법과 DST와 같이 주어진 질문에 대해서 도메인과 이전 대화의 흐름을 파악하여 사용하자 원하는 SQL을 이어서 생성할 수 있는 연구를 해볼 예정입니다. 좋은 발표 감사드리면 함께 프로젝트하면서 준비하며 많이 배웠습니다. 앞으로도 좋은 발표 기대하겠습니다.


  • 2021-07-26 19:36

    오늘 세미나는 Text-to-SQL을 주제로 진행되었습니다. 해당 분야에 대해 처음 접하게 되었는데 실제로 매우 실용성이 높은 분야라 생각하게 되었습니다. 문제를 풀어나가는 과정이 Dialogue state tracking과 유사하기때문에 더 관심이 갔습니다. RAT 모델의 접근은 매우 흥미로운 방법입니다.

    물론 여기서 말하는 Relation은 SQL의 특성이 많이 반영되었지만 충분히 다양한 분야에서 사용 될 수 있는 방법이 아닐까 생각하였습니다. 궁극적으로 DST나 Text to SQL이나 slot에 해당하는 정보를 '잘' 뽑아내는것이 중요한 task라 이해됩니다. 오늘 소개해주신 모델들에서는 Relation을 중점적으로 말해주셨지만, Relation이 실제 모델의 성능에 도움이 된다는 가정을 어떻게 세우느냐에 따라 성능에 큰 영향을 줄것이라 생각합니다.

    아직까지는 몇가지 insight가 필요한 분야이지만 재미있게 들을 수 있었습니다. 감사합니다.


  • 2021-06-26 21:39

    연구실에서 처음 등장한 세미나 주제여서 신선하기도 했지만 한편으로는 어렵다고도 느껴진 시간이었습니다. Text-to-SQL은 마케팅 현업 관점에서 굉장히 이용 소지나 가치가 충분한 방법론이기 때문에 윤훈상 석사과정께서 해당 분야에 충분한 노력을 기울이신다면 좋은 결과를 얻어낼 것이라 생각하고 가능하면 스타트업도 설립할 수 있지 않나 생각해봤습니다. 방법론 자체는 크게 질의에 따라 어느 곳에서 정보를 가져올 지 선택하는 classification과 가져온 테이블 정보를 바탕으로 실제 질의문(SQL)를 생성하는 generation 단계로 나뉘는데, 역시나 언어 이해에 좋은 BerT 기반 구조가 좋은 성능을 내는 것 같습니다. 다만 애초에 구조화가 굉장히 강력하게 되어 있는 SQL의 특성상, 언어모델 기반의 분류-생성도 중요하지만 실제 적용에는 rule을 어떻게 끼워넣느냐가 굉장히 중요할 것이라는 생각도 들었습니다. 앞으로도 관련한 연구 좋은 성과 기대하겠으며 좋은 발표 감사합니다.


  • 2021-06-27 00:37

    이번 세미나는 두번에 걸쳐서 자연어 질의를 SQL 쿼리문으로 변환해주는 Text2SQL에 대해서 진행되었습니다. Single Table에 대한 간단한 SQL를 다루고 있는 WikiSQL 데이터셋으로 대표적인 모델 SQLova, HydraNet을 소개해주셨고, Multi Table을 가지고 WikiSQL보다 어려운 SQL문을 다루고 있는 SPIDER 데이터셋을 다룬 BRIDGE 모델에 대해 소개해주셨습니다. 같이 비정형데이터 분석 수업을 들으면서 팀프로젝트로 낯설고 어려운 task를 진행하기 위해 여러 논문들을 찾으면서 많은 고생과 공부를 한 것을 알고 있습니다. 발표자와 그 팀원들 노력 덕분에 Text2SQL의 전반적인 연구 흐름에 대해서 알게된 좋은 시간이었던 것 같습니다. 감사합니다!!


  • 2021-05-20 10:22

    이번세미나는 TextSQL에 관련된 내용을 진행해주셨습니다. 자연어 질의를 주면 Text형태의 SQL 문법을 가진 결과물을 산출하는 목적을 가지고 있었습니다. [CLS] Q [SEP] HEAD1, HEAD2 ... 의 데이터 구성을 보였고, SQL 문법상에 발생 가능한 조건들을 (e.g. min, max을 선택할 확률) 고려를 한다는점에서 생각보다 전문가 도메인이 많이 필요하다는것과 from [value]의 텍스트를 구성하기 위해서 value의 start token과 end token의 범위의 label을 다 가져야 한다는 단점이 있는것 같습니다. 하지만 [CLS]를 도메인별로 구성하는점에서 인상깊은 제안구조 였습니다. decoder layer와 shallow layer의 구조는 문제의 답을 찾는데 더 쉬운 구조이기때문에 더 좋은 성능을 가졌던것 같습니다. 해당 labeled dataset의 개수에 모델구조와 연관이 있을 것으로 추측됩니다. RAT(Relation Aware Transformer) SQL은 스키마정보를 encoder에 반영하여 decoding generation으로 결과를 예측하게 됩니다. BRIDGE모델의 경우는 picklist (가능한 text들의 조합)을 input representation을 추가해 모델의 입력을 구성합니다. decoder의 경우는 seq2seq모델의 구조로 point generator(vocab dists + atten dists)를 사용하였습니다. 2주간의 세미나는 보고 느낀점은 단순한 SQL 구조의 WIKISQL 부터 복잡한 구조의 SPIDER까지 TextSQL에 대한 연구가 활발히 이뤄지는것 같습니다. 관련모델들이 발전함에 따라서 classification, decoding prediction으로 연구동향이 발전하는것을 알 수 있었습니다. 좋은 발표감사합니다.


  • 2021-05-20 17:02

    지난 시간에 이어 진행된 금일 세미나 주제는 Text to SQL입니다. Text to SQL을 위한 대표 데이터셋으로는 WikiSQL과 SPIDER가 있는데 SPIDER가 보다 복잡한 SQL query를 포함한 데이터셋입니다. WikiSQL 모델로는 먼저 LSTM 기반의 encoder와 classification/pointer network를 decoder로 활용한 Seq2SQL 과 SQLNet이 있었습니다. 그리고 BERT와 같은 언어모델을 최초로 사용하여 Qeustion과 column을 encoding을 한 후, query를 순차적으로 하나씩 예측하는 SQLova 모델, BERT의 CLS 토큰을 활용하여 column을 하나씩 ranking을 매겨 query문을 채워나가는 HydraNET이 있었습니다. SPIDER 모델로는 자연어 질의와 schema의 관계를 잘 반영하도록 schema linking/encoding을 embedding하는 것을 제안한 Global GNN과, 이와 비슷하지만 중간에 SemQL 단계를 거치는 IRNet이 있었습니다. 또한, RAT-SQL이라는 모델이 있는데, 이는 앞의 Global GNN, IRNet의 한계점을 보완한 것으로, encoder에서 relational aware transformer를 사용하여 attention을 통해 구해진 relational information(question과 schema의 관계, column과 relation 간의 관계 등)을 반영하게 됩니다. decoder에서는 얻어진 relation 정보를 기반으로 LSTM 구조에 입각하여 query문을 생성하게 됩니다. BRIDGE 모델은 question, database schema와 더불어 column value를 함께 사용한 것으로, decoder로는 pointer generator를 사용하였습니다. 이 모델은 현재 타 모델 대비 가장 우수한 성능을 보이고 있습니다. 어렵고 많은 내용을 꼼꼼하게 준비하고 정리하시느라 정말 고생 많으셨을 것 같습니다. 저에게는 SQL이 다소 생소한 분야였지만 text2SQL의 개괄적인 내용에 대해 들어볼 수 있어서 유익한 시간이었습니다. 두 시간에 걸친 세미나 유익하게 잘 들었습니다!


  • 2021-05-20 18:00

    실무 입장에서 어떻게 사용될 지 사실 감이 잘 오지 않았는데 실무자 교육에 활용될 여지가 생각보다 많아 보였습니다. 고정된 출력인 SELECT, WHERE 등의 구문에 들 어갈 값을 예측하는 subtask로부터 시작해서 BERT 기반의 방법론으로 넘어가는 흐름을 잘 보여주셔서 이해하기가 쉬웠습니다. Shallow layer에서 임베딩의 일부만 사용하는 이슈에 대해서는 저 역시 서승완 박사과정의 의견처럼 loss에 의해 의도하는 방향으로 분포가 강제된다고는 생각하지만, 그것만으로는 해당 방법을 사용한 이유를 유추하기는 힘들었습니다. 두 번의 연속적인 세미나로 많은 논문을 소개하는 것이 굉장히 부담되었을텐데 각 논문의 특징을 상세하게 설명해주셔서 많은 도움이 되었습니다. 감사합니다.


  • 2021-05-20 22:01

    처음 접하는 Text2SQL 분야의 세미나였습니다. 처음에는 분야가 생소해서 연구 성과를 어떤 방식으로 활용하는지 감을 잡기가 어려웠습니다. 하지만 두 번에 걸쳐 진행해주신 세미나를 보면서 예전부터 존재했던 연구 분야이며 지속적으로 발전하는 분야임을 알 수 있었습니다. 데이터셋에 대한 설명이 있어서 처음 보는 입장에서도 테스크를 이해하기 쉬웠습니다. 또한 쉬운 데이터를 위한 가벼운 모델부터 어려운 데이터를 위한 복잡한 모델까지 흐름을 짚어주셔서 좋았습니다. 두 번의 세미나를 통해 처음 접하는 분야를 알기 쉽게 소개해주셔서 많은 도움이 되었습니다.


  • 2021-06-28 20:59

    금일 세미나는 text-to-sql을 주제로 진행되었습니다. Text2SQL은 relational database에 대한 자연어 질문을 SQL질의로 변경해주는 task입니다. SQLova의 경우, 자연어 질문을 BERT를 활용하여 인코딩하고, SQL 문법에 맞게 decoding 하는 방식으로 진행됩니다. SELECT 절의 경우에는 aggregator에 대한 학습이 진행되고, WHERE절에서는 number, operator, column 명에 대한 학습이 이루어지게 됩니다. 이후 HydraNet은 BERT의 [CLS] 토큰을 활용하여 SQL Query 문의 slot을 채워나가는 방식으로 자연어를 변환합니다. Spider모델은 기존 SQLova와 HydraNet과 달리 다중 테이블에 대한 query 문 생성이 가능하고, 보다 복잡한 HAVING, GROUPBY, JOIN를 고려한 query를 만들 수 있습니다. 이를 위해 encoder에서 schema encoding과 schema linking을 적용하였고, decoder에서는 pointer-generator를 활용한 것이 특징입니다. 특히 발표를 들으면서 Text2SQL evaluation metric인 Logical Form Accuracy와 Execution Accuracy도 소개해주셨는데, 처음 접해보는 metric 이라 흥미로웠습니다. 유익한 발표 감사합니다.


  • 2021-06-29 16:56

    이번 세미나는 text를 sql문으로 번역하는 task를 위한 대표 모델들에 대한 내용으로 진행되었습니다. WikiSQL dataset은 single table에 대한 multiple question을 담고 있는데 이를 위한 모델로는 SQLova, HydraNet이 제안되었습니다. 이들은 BERT의 encoder를 사용하여 embedding하여 decoder로 classification task로 변환하여 task를 수행합니다. SPIDER는 WikiSQL보다 어려운 dataset으로, multi table에 대해 multiple quesion을 담고 있으면서 더 어려운 sql문을 포함하고 있습니다. 이 task를 해결하기 위해 RAT SQL, BRIDGE 모델이 제안되었습니다. 전자는 self-attention을 사용하여 relation을 추출하고, 후자는 pointergenerator의 decoder를 사용합니다. 생소한 task였는데, 두 번에 걸쳐 매우 자세히 설명해주셔서 재미있게 들을 수 있었습니다. 발표 감사합니다.


  • 2021-06-30 21:01

    본 세미나는 주어진 text데이터를 SQL query문으로 변환하는 다양한 방법론에 대해 진행되었습니다. 본 세미나에서 다룬, Test-to-SQL 주제는 여전히 많은 연구가 이루어지고 있고, 리더보드 또한 현재 진행형으로 갱신되는 중입니다. 더욱이, Semantic-parsing 범주 안에서, 다양한 NLP기법들이 활용되고 있습니다. 발표자께서 소개해주셨듯, 해당 분야의 방법론들은 크게 WikiSQL, SPIDER라는 2가지 데이터셋을 기반으로 연구되고 있습니다. 최근에는 어느정도 ‘도장깨기’에 성공한 WikiSQL을 넘어, 보다 복잡한 query문을 학습할 수 있는 고난도의 task를 제공하는 SPIDER데이터셋에 기반한 연구들이 많이 진행되고 있습니다. task가 어려워진 만큼, 이를 학습하는 모델 또한 복잡해지고 있습니다. 연구 초반의 모델들은 주로 BERT계열의 encoder를 기반으로 classifier, additional layer를 추가해 SQL Query문의 각 요소들(Operator, SELECT Column number 등)을 예측하도록 하는 방식을 취했습니다. HydraNet이나 SQLova 등의 모델이 이에 해당할 것입니다. 최근에는 schema정보와 주어진 자연어 질문 간 관계를 학습하기 위해, Self Attention에 Question-Schema Contextualized Graph를 바탕으로 하는 RAT-SQL등의 모델도 활용되고 있습니다. SPIDER 데이터셋 기반으로는 아직 많은 발전이 필요한 분야이지만, 그에 맞게 성능 향상 또한 많이 이루어지고 있다고 생각합니다. 앞으로도 관련한 많은 연구들이 기대되는 분야입니다. 어려운 내용들을 담느라 고생하셨을 것 같습니다. 좋은 발표 감사드립니다.


  • 2021-07-07 18:25

    금일 세미나는 "Text-to-SQL"라는 주제로 진행되었습니다. 본 발표에서는 Text-to-SQL의 개념과 데이터셋 그리고 대표 모델이 소개되었습니다. 연구실에서 처음으로 Text-to-SQL과 관련된 세미나가 진행되었는데 WikiSQL과 SPIDER Dataset에 대해 설명해주시고, WikiSQL 관련 모델 SQLova, HydraNet과 SPIDER 관련 모델 RAT-SQL, BRIDGE를 설명해주셔서 해당 주제에 대한 흐름을 한 번에 살펴볼 수 있어 좋은 세미나였습니다. 개인적으로 Text-to-SQL 분야에 대해 처음 접하여 세미나를 이해하는데 어려움이 있었는데, 발표자 분께서 쉽게 설명해주셔서 이해하는데 많은 도움이 되었습니다. 그리고 해당 분야가 굉장히 실생활과 관련되어 있다는 생각이 들어 빠르게 발전한다면 많은 사람들의 편의에 직접적으로 긍정적인 영향을 줄 수 있는 분야라는 생각이 되어 발전이 기대 되었습니다. 좋은 발표 감사합니다.


전체 502
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 10351
관리자 2020.03.12 0 10351
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 8966
관리자 2020.03.12 0 8966
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 10070
관리자 2020.03.12 0 10070
499
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (1)
Doyoon Kim | 2025.05.01 | 추천 0 | 조회 27
Doyoon Kim 2025.05.01 0 27
498
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (12)
Sunghun Lim | 2025.04.24 | 추천 0 | 조회 123
Sunghun Lim 2025.04.24 0 123
497
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (12)
Suyeon Shin | 2025.04.21 | 추천 0 | 조회 116
Suyeon Shin 2025.04.21 0 116
496
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (14)
Woongchan Nam | 2025.04.16 | 추천 0 | 조회 159
Woongchan Nam 2025.04.16 0 159
495
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (16)
Kiyoon Jeong | 2025.04.16 | 추천 0 | 조회 296
Kiyoon Jeong 2025.04.16 0 296
494
[Paper Review] Reasoning over Time Series with LLMs (15)
Hyeongwon Kang | 2025.04.09 | 추천 0 | 조회 333
Hyeongwon Kang 2025.04.09 0 333
493
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo | 2025.04.02 | 추천 0 | 조회 323
Jaehyuk Heo 2025.04.02 0 323
492
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim | 2025.04.02 | 추천 0 | 조회 325
Jaehee Kim 2025.04.02 0 325
491
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee | 2025.04.02 | 추천 0 | 조회 273
Jungho Lee 2025.04.02 0 273
490
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim | 2025.03.25 | 추천 0 | 조회 253
Hankyeol Kim 2025.03.25 0 253

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호