번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10683
|
관리자 | 2020.03.12 | 0 | 10683 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9303
|
관리자 | 2020.03.12 | 0 | 9303 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10402
|
관리자 | 2020.03.12 | 0 | 10402 |
509 |
New [Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models?
Minjeong Ma
|
13:38
|
추천 0
|
조회 4
|
Minjeong Ma | 13:38 | 0 | 4 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 32
|
Woongchan Nam | 2025.06.02 | 0 | 32 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (5)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 93
|
Siyul Sung | 2025.05.31 | 0 | 93 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (14)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 197
|
Woojun Lee | 2025.05.20 | 0 | 197 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 176
|
Jinwoo Park | 2025.05.16 | 0 | 176 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 166
|
Hun Im | 2025.05.15 | 0 | 166 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 302
|
Junyeong Son | 2025.05.08 | 0 | 302 |
해당 세미나 시간에는 다소 생소한 주제가 될 수 있는 Dataless Text classification을 다루어 보았습니다. 여기서 Dataless란? 말그대로 데이터가 존재하지 않는다는 의미가 아닌 paired label이 존재하지 않는 것을 의미하며, Dataless text classification은 text 혹은 document에 대한 label이 존재하지 않는 상황에서 이를 분류하고자 하는 task이며, 일반적으로 비지도학습 방식으로 진행된다고 합니다. 따라서, 기존 label을 대체하는 seed words와 같은 label description을 활용하는 방식을 주로 활용한다고 합니다. 이러한 Dataless text classification의 초반에는 확률 기반의 방법론들이 활용되었는데, 대표적으로는 Topic modeling을 활용한 연구가 첫번째 소개 논문인 “Dataless Text Classification with Description LDA” 입니다. 개인적으로는 Topic modeling을 다양한 프로젝트 및 개인연구로 진행해왔기에 친숙하고 반가웠지만, 그 한계가 명확하기에 해당 연구들의 단점들이 가늠이 되었습니다. Topic Modeling의 경우, corpus 처리부터 Topic의 수, 학습 파라미터 셋팅 등 사용자가 manually하게 진행하는 프로세스가 매우 많기에 그 한계점은 명확하다고 생각하였습니다. 특히, dataless text classification에서 매우 중요한 description word를 선정하는 과정에서 유저의 bias가 개입되는 것이 매우 큰 한계점이라고 생각됩니다. 뒤이어 소개한 “ULR: Unsupervised Label Refinement” 에서는 RoBERTa 기반의 representation을 k-means 클러스터링을 통해 정제하고 각각의 centroid를 업데이트를 통해 예측을 수행하였습니다. Dataless text classification을 수행하는 과정에서 label description을 평가 데이터에서는 제공을 하겠지만, 실제로 다른 도메인에서 이 label description을 선정한 과정에서 유저의 개입을 최소화하는 방법이 어떤게 있을까 하는 고민이 들었습니다. 마지막으로 재미있는 연구분야를 소개해준 발표자에게 감사의 인사 전하면서 후기를 마칩니다.
금일 세미나는 "Dataless Text Classification"라는 주제로 진행되었습니다. 본 발표에서는 비지도학습 방식으로 text와 label의 정보를 비교하여 가장 연관성이 높은 label로 text를 분류하는 Dataless Text Classification 방법론이 소개 되었습니다. Topic Modeling 기반과 Representation 기반의 방법론이 소개되었는데 개인적으로는 클러스터링을 기반으로 label의 representation을 잘 정제한 ULR 방법론이 흥미로웠습니다. 세부적으로 ULR은 K-means 클러스터링 이용하여 label representation 정제하였는데 One-hot vector로 centroids 초기화한 후 JS Divergence 값이 가장 작은 centroid로 할당하는 간단한 과정을 통해 text-label 매칭을 수행하였습니다. 오랜만에 전통적인 방식을 활용하여 현실 세계의 특정한 문제를 푸는 논문을 접하게 되어 좋았습니다. 좋은 발표 감사합니다.
오늘 세미나는 Dataless Text Classification를 주제로 진행되었습니다. Datakess는 Paired된 Label이 없는 데이터 셋을 의미하며, 본 세미나에서 소개된 방법론들은 Labeled data로 학습을 한 뒤, 학습시 보지 못한 label이 주어졌을 때에도 잘 분류할 수 있도록 합니다. 첫번째 논문인 “Dataless Text Classification with Description LDA”은 probabilistic 기반의 방법론을 제안합니다. 구체적으로, LDA를 활용하여 의도적으로 생성한 document와 기존의 document의 topic modeling을 수행합니다. 해당 연구는 Dataless setting에서 LDA를 적용한 첫 방법론이며, LDA를 활용한 후속 연구가 이후 꾸준히 제안되었습니다. 두번째 논문 “ULR: Unsupervised Label Refinement”에서는 representation 기반의 방법론을 제안합니다. 해당 방법론은 LM을 활용하여 representation을 획득한 후, 이들을 k-means clustering을 활용하여 다시 분류하는 구조를 갖습니다. 첫 번째 논문의 방법론은 LDA을 활용한 확률기반 dataless classification을 제안하며, 두 번째 모델은 LM을 기반으로 도출한 representation을 활용하는 점에서 큰 차이가 있습니다. 처음 접하는 내용임에도 자세한 설명 덕분에 잘 이해할 수 있었습니다. 좋은 발표 감사합니다.
본 세미나는 김도윤 발표자님의 "Dataless Text Classification"이라는 주제로 진행되었습니다. 해당 task는 text-label간 paired data가 없을 때를 가정한 task로, label 정보에 대한 quality가 매우 중요하다는 것이 핵심입니다. Representation-based method가 해당 task에 가장 적합한 방법이라고 생각하였는데, k-means clustering을 이용하여 label representation을 정제하고 변화에 따른 robustness을 강조했다고 생각합니다.비록 기존 LDA기반 방법론들이 연구되어 왔으나, representation이라는 것은 결국 문장의 semantic한 정보도 반영하기 때문에 해당 방법론이 더 중요하다고 생각하였습니다. 그리고 해당 세미나를 들으면서 Label description이라는 개념을 처음 들었는데, 해당 방법에 대해 흥미로움을 느꼈습니다. 사실상 기존엔 label name, keywords 등으로 존재하여 연계되어 활용한 점은 많았으나 실제로 어떻게 적용되는지 파악할 수 있어 좋았습니다. 마지막으로 실제 data를 보았을 때 label이 꼭 pair하게 부착되어 있는 점은 없기 때문에 매우 실용적인 task라고 생각되고, 다양한 방법론들에 대해 소개하고 해당 방법론들을 비교하여 설명해주셔서 이해하기 쉬웠습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 Dataless Text Classification을 주제로 총 2편의 논문을 소개해 주셨습니다. 본 논문들에서 다루고 있는 Dataless text classification는 비지도 학습 방식으로 진행하는데, document의 의미와 label의 의미를 비교하는 방식으로 이루어지고 있습니다. 우선 확률을 기반으로 하는 방법론들에서는 의도적으로 생성한 documents와 함께 기존 문서들의 토픽 모델링을 진행하자는 아이디어로 진행되고 있습니다. 이에 해당되는 모델 중 하나인 DescLDA는 라벨의 설명으로부터 생성한 임의의 문서로부터 얻어지는 latent topic으로 기존 문서를 분류하고 있습니다. 다음으로 semantic (또는 representation)에 기반한 방법론들에서는 클러스터링을 기반으로 라벨의 표현을 잘 정제하고자 하고 있습니다. 이에 해당되는 모델인 ULR에서는 라벨의 representation을 정제하고, 라벨의 이름과 representation을 label description으로 활용하는 dataless text classification 방법론을 이용하고 있습니다. 실험 부분에서는 Robustness와 관련된 실험을 다루어 주셨는데 다른 라벨들을 선택함에 따라 나타나는 성능 차이에 대한 실험 결과를 보이고 있었습니다. 본 발표자료와 함께 개인적인 견해도 함께 언급해 주셔서 해당 부분을 한번 더 생각해 볼 수 있었습니다. 또한 본격적으로 각 방법론들을 설명하기에 앞서 다양한 예시를 들어주셔서 이해하는데 많은 도움이 되었습니다. 결론적으로 위와 같은 모델들에서는 k-means clustering 기반의 dataclass text classification 전용 테크닉을 이용하고 있는 모습을 확인할 수 있었습니다. 좋은 발표 감사합니다!
이번 세미나에서는 Dataless Text Classification 를 주제로 진행되었습니다. 우선 생소한 개념에 대해서 상세하게 설명을 해 주어서 무리없이 잘 따라갈 수 있었고, 조금은 오래된 논문이지만 두가지 방식을 설명해주었습니다. LDA 를 사용하는 DescLDA 는 토픽모델링 기반 방법론으로 DATALESS 에 LDA 를 적용한 첫 사례입니다. 해당 방법론 자체가 시기상으로 LDA를 많이 사용하고, 관련연구가 많이 진행되었던 터라 처음으로 적용되었지 않았을까 생각합니다. Label description 으로 생성한 임의의 document 로 부터 얻어지는 토픽으로 문서를 분류하고자하는 방법론이며, 클러스터링 기반 방법론은 REPRESENTATION 의 유사성을 이용하는 방법으로 정리될 수 있었습니다. 쉬운 아이디어지만 좋은 연구결과의 예를 잘 보여준것 같습니다. 감사합니다.
- 이번 세미나에서는 Dataless Text classification과 관련하여 “Dataless text classification with descriptive lda” 와 “Unsupervised Label Refinement Improves Dataless Text Classification’에 대해 다뤄주셨습니다. 처음 Dataless라는 단어를 들었을 때 데이터 없이 학습을 하는 방식이라 생각 했지만, Dataless의 정의는 Text와 pair 된 라벨이 없다는 것을 의미합니다. 비지도 학습으로 분류를 수행하는 것과 유사하며, 소개해주신 두 논문은 이러한 기반에서 text classification을 수행하고, 성능을 향상시키기 위한 방법을 제안하고 있습니다. DescLDA는 LDA를 이용하여 카테고리와 관련된 latent topic을 학습합니다. 두번째 논문에서는 성능을 향상시키기 위해 unsupervised label refinement라는 방법을 제안하며, 문서와 카테고리의 의미적 유사도를 축정하여 문서를 분류합니다.
- 분류라는 익숙한 Task와는 달리 굉장히 낯선 Dataless라는 개념 때문에 상당히 낯설었던 세미나이지 않았나 싶습니다. 다만 real-world application에 있어서 굉장히 다양한 상황이 있을 것이고, 그러한 상황에 대응하기 위한 하나의 갈래가 아닌가 싶었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Dataless Text Classification을 주제를 다루었습니다. Dataless Text Classification은 labeling이 되어 있지 않은 학습 데이터에 대해 label에 대한 정보가 주어졌을 때 label을 부여하여 classification task를 수행하는 Task라고 정의할 수 있습니다. 첫 번째로 다루었던 Dataless Text Classification with Descriptive LDA라는 논문에서는 LDA를 기반으로 한 topic modeling 방식으로 dataless text classfication을 수행합니다. Category 뿐만 아니라 label 및 descriptive words로 label에 대해 설명하고 topic modeling을 수행한 것이 핵심적인 내용이었습니다. 두 번째로 다루었던 Unsupervised Label Refinement Improves Dataless Text Classification이라는 논문은 text의 semantic information을 기반으로 클러스터링을 통해 label을 부여합니다. LLM 기반의 encoder를 사용하여 text representation을 계산하고 k-means clustering을 수행하여 해당 task의 성능을 높였습니다. 이번 세미나에서 Dataless Text Classification에 대해 처음 접하게 되었는데, zero-shot classification과의 차이를 설명해주셔서 명확하게 이해할 수 있었습니다. 다만 개인적으로 이 task에 대해서 현재 LLM이 충분히 수행할 수 있을 것으로 생각되어 어떤 방향의 연구가 더 이루어질 수 있을 지 의문이 생겼던 것 같습니다. 항상 좋은 발표 감사합니다.
이번 세미나는 Dataless Text Classification이라는 주제를 바탕으로 진행되었습니다. 먼저 Dataless라는 말의 정의는 Text나 Document가 주어졌을 때 해당 데이터와 연결된 Label이 없는, 즉 Paired data가 존재하지 않는 상황을 의미하여, Unsupervised-Learning 방식으로 진행하는 Task입니다. 이러한 Dataless Text classification에는 주어진 Label 정보가 없기에, Data 내의 Label에 대한 정보(Label description)의 Quality 정보가 매우 중요하다고 볼 수 있겠습니다. 이러한 Dataless text classification에는 크게 두 가지의 접근 방법이 있는데, 먼저 Dataless Text Classification with Descriptive LDA 논문에서 다루는 Probabilistic-based method입니다. 해당 방법에서는 Label 정보가 반영된 Latent topic을 찾아내는 Topic Model을 구성하는 것으로 목표로 하는데, LDA를 Describing device(DD)와 일반적인 LDA (standard LDA) 두 가지 LDA로 구성하게 됩니다. 먼저 Describing device에서는 Label description을 이용하여 의도적으로 생성한 문서인 Descriptive Documents로부터 Dirichlet prior를 추정하며, 추정된 Dirichlet prior는 이후 Standard LDA와 공유하여 Test document에 대한 Topic Modeling 진행 시 활용하게 됩니다. 이후 추출되는 Latent topics의 Label aware를 이용하여 문서 내 Topic의 분포를 통하여 Label을 할당하고 있습니다. 다음으로, Unsupervised Label Refinement Improves Dataless Text Classification 논문에서 제시하는 Semantic-based method에서는 Unsupervised Label Refinement라는 방법을 통하여 Label의 이름과 Representation을 Label description으로 활용하는 Dataless Text classification 테크닉을 제시하고 있습니다. 이때 Label representation을 Refinement하는 과정에서 K-means clustering을 이용하여 Robustness를 키운다는 것이 해당 방법의 강점이라고 볼 수 있겠습니다. Dataless라는 생소한 개념을 다루어 주셨지만 해당 개념의 정의부터 시작하여 각 방법론들을 자세하게 다루어 주셔서 이해에 큰 무리가 없었던 것 같고, 새로운 개념도 알게 되어 매우 유익하게 다가왔습니다. 좋은 발표 정말 감사드립니다.
이번 세미나는 Dataless Text Classification을 주제로 진행되었습니다. 이번 세미나에서는, 확률적 방법론과 의미론적 방법론을 중심으로 하는 두 가지 주요 접근 방식에 대해 설명해주셨습니다. DescLDA는 확률적 방법론을 사용하여, 임의로 생성된 설명서를 통해 잠재적인 주제를 이용하여 기존 문서를 분류합니다. 반면에 ULR은 의미론적 방법론을 이용하여, 라벨의 표현을 정제하고, 라벨의 이름과 표현을 라벨 설명으로 사용하여 분류를 수행합니다. 이러한 두 가지 접근 방식은 Dataless Text Classification의 중요한 특성을 보여줍니다. 이를 통해 기존의 지도학습 방식에서 벗어나, 라벨 데이터가 부족한 상황에서도 유용한 분류 모델을 구축할 수 있음을 확인할 수 있습니다. Dataless Text Classification 분야를 이번 세미나를 통해 처음 접하게 되었는데, 발표자 분의 자세한 설명을 통해 새로운 개념의 이해에 큰 도움이 되었습니다. 좋은 발표 감사합니다.
본 세미나에서는 Dataless text classification 이라는 주제의 내용을 다뤘습니다. Dataless란 data 자체가 존재하지 않는 환경을 의미하는 것은 아니고, paired label이 존재하지 않는 환경을 의미합니다. 이러한 dataless text classification을 위해 probabilistic-based method가 도입되었습니다. LDA 기반의 방법론들이 제안되었고 본 세미나에서는 다뤘던 Dataless text classification with descriptive LDA가 대표적인 사례입니다. 그 이후에는 semantic-based method가 제안되었습니다. 클러스터링을 기반으로 라벨의 표현을 잘 정제해보자는 목표로 아이디어가 도입됐으며, 대표적인 연구로는 본 세미나에서 리뷰한 unsupervised label refinement improves dataless text classification 이라는 연구가 있습니다. 해당 ㅇ녀구에서는 K-means clustering을 이용하여 label representation을 정제하였고, label description의 변화에 따른 robustness를 강조하였습니다. 본 세미나를 통해 Dataless text classification이라는 task를 처음으로 접해보았습니다. 어려운 내용이었지만 꼼꼼하게 흐름을 리뷰해 주셔서 이해하는데 큰 어려움이 없었습니다. 좋은 발표 감사합니다.
이번 세미나에선 Dataless Text Classification를 주제로 두 가지 논문이 소개되었습니다. Dataless 라는 표현이 생소했지만, unsupervised setting 이나 zero-shot text classification 과는 다르게 label name, keyword 등을 활용한다는 점에서 차이가 있다고 이해하였습니다. 이에 대한 연구로 Descriptive LDA를 사용하는 방식과 클러스터링 기반의 label refinement 방식이 소개되었는데, 클러스터링 기반 방식은 이미지 도메인에서 그룹 기반 self-supervised learning 방식과 유사하다 생각되었습니다. K-means clustering을 사용한다는 점은 DeepCluster와 유사하고, dual encoder 구성시 동일한 형태의 encoder를 사용하여 category vector, document vector를 추출하는 형태는 simsiam과 유사한 구조라 생각되었습니다. Task는 생소하였지만 label이 제한적인 상황에서 데이터의 representation을 잘 학습하는 것이 핵심이라는 점에서 semi, self-supervised learning 연구들과도 접근 방식이 유사한 것으로 생각됩니다. LDA에 대한 개념부터 최근 연구들에 대한 접근 방식까지 잘 정리해주신 것 같습니다. 좋은 세미나 발표 감사합니다.
이번 세미나는 Dataless Text Classification를 주제로 진행되었습니다. Dataless Text Classification란 paired된 label이 없는 데이터셋에 대해서도 잘 분류할 수 있도록 하는 과업입니다. 해당 과업에 대해서 두가지 논문을 소개해주셨습니다. 첫번째 논문은 “Dataless Text Classification with Description LDA”로 Descriptive LDA(DescLDA)를 기반으로 하고 있습니다. DescLDA는 일반적인 LDA에 Describing device라는 것이 추가되는데 Describing device는 의도적으로 문서를 생성하여 LDA의 Dirichlet prior를 추정하는 역할을 합니다. 추정된 prior를 일반적인 LDA와 공유하여 topic modeling을 수행합니다. 두번째 논문인 “ULR: Unsupervised Label Refinement”는 K-means clustering을 기반으로 fine-tuning된 LM의 representation을 다시 분류하는 구조를 사용하여 dataless text classificaiton을 수행하며 representation을 활용하는 과업이면 범용적으로 사용할 수 있다는 장점이 있습니다. 새로운 연구 분야에 대해서 접할 수 있어 좋았으며, 두 논문을 통해서 어떤 연구가 진행되고 있는지 알 수 있었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Dataless Text Classification라는 생소한 연구 분야에 대해 다루었습니다. 해당 과업은 text에 해당하는 paired label이 존재하지 않는 상황에서 분류를 하는 것을 목적으로 합니다. 결국 unsupervised 환경에서 어떻게 모델을 학습하여 분류를 수행할 것인지에 대한 방법론을 제안하는데, 이번 세미나에서는 2종류의 방법론에 대해 다루어주셨습니다. 첫 번째 소개해주신 방법론은 확률 기반 방법론으로 LDA를 통해 topic modeling을 수행한 후 label 정보를 추출하여 분류 과업을 수행합니다. 두 번째 방법론은 semantic 기반의 방법론으로 k-means clustering을 활용한 부분이 인상 깊었는데, clustering을 통해 정제된 label representation을 확보하여 모델의 robustness를 향상시켰습니다. 해당 기법은 비단 dataless text classification뿐만 아니라 다른 label 정보가 부재한 과업에 응용할 수 있겠다는 생각을 하였습니다. 좋은 발표 감사드립니다.
금일 세미나는 레이블에 대한 정보만 주어져 있는 상황에서 완전한 비지도 학습 방법으로 텍스트 분류 태스크를 수행하는 "Dataless Text Classification"를 중심으로 이루어졌습니다. 기존의 Semi-supervsied learning이나 Topic Modeling과 다른 점이라 한다면, 각 레이블에 대한 정보인 Description은 주어지지만, 어떤 데이터가 해당 클래스에 속하는지에 대한 Annotation은 없다는 점입니다. 전통적으로 LDA와 같은 방법론을 중심으로 이루어져 왔으나, 최근 딥러닝 기반 언어 모델들이 발전하게 되면서, Label에 대한 정보와 Text Embedding을 동일 공간에서 다루게 되었습니다. 이때, ULR과 같이 Centroid를 이용한 방법론들은 Semi Supervised Learning에서 흔히 보이는 Prototype을 이용하는 접근법과 매우 유사해보였습니다. 텍스트 분류 태스크가 가장 간단한 구조를 가지고 있지만, 오히려 실제 세계에 적용하기 위해서는 더욱 다양한 제약들이 존재하고, 이를 해결하기 위한 다양한 접근법들이 존재하는 것 같습니다. 이전에 전혀 몰랐던 내용이었음에도, 차근차근 설명해주셔서 쉽게 이해할 수 있었습니다. 좋은 발표 감사합니다.
해당 세미나에서는 ‘Dataless Text Classification’에 대해 다루어 주셨습니다. 라벨링이 된 데이터가 부족한 상황에서 새로운 데이터가 들어왔을 때 classification을 하기 위한 방법론들에 대해 배울 수 있었습니다. 라벨링 된 데이터 대신 라벨에 대한 정보가 주어져야하며 그에 대한 퀄리티가 굉장히 중요한 방법입니다. probabilistic-based method는 label과 description을 이용하여 document를 만들어서 test docuemnt와 함께 토픽모델링에 활용하는 방식입니다. document를 만드는 방식은 co-occurrence를 구하고 category에 많은 영향을 주는 descriptive word에 대해 반복 나열하는 방식이었습니다. 해당 방법은 소수의 학습데이터가 있을 때, overfitting될 위험이 있기에 처음보는 패턴의 document를 분류해야하는 경우 LDA기반으로 분류가 가능하기에 해당 문제점을 완화할 수 있습니다. 하지만, 해당 방법이 확률적으로 접근하는 것이기에 꽤 manual한 방식이라는 생각이 들었습니다. generative model을 활용하여 document를 생성하는 방식으로 접근할 수 있겠다는 생각이 들었습니다. zero-shot기반의 text generation을 한다면, variance를 높일 수 있고 overfitting의 문제를 완화할 수 있다는 생각이 들었지만 배보다 배꼽이 커질 수 있습니다. semantic-based method는 K-means 클러스터링을 통해 label representation을 더 정교하게 한 방법입니다. 이 전의 방법은 label description에 sensitive하지만 해당 방법은 그에 대해 보완이 되는 방법입니다. 좋은 발표 감사합니다.
이번 세미나는 "Dataless Text Classification"에 대해 소개해주셨습니다. Dataless라는 것은 paired data가 부족한 상황을 일컫는 것으로, Dataless Text Classification은 Weakly-supervised Text Classification에 포함됩니다. Weakly와 zero-shot은 언뜻 들으면 비슷한 느낌이나, weakly는 데이터가 부족한 상황에서, 예측하고자 하는 값을 더 정확히 예측하기 위해 부가정보를 활용하는 것이고, zero-shot은 적은 데이터로 학습을 일부만 진행하고, 이후 새로운 데이터에 대해 잘 분류하고자 하는 것입니다. Dataless text classification은 probabilistic-based method와 representation-based method 두 가지 갈래로 나뉩니다. Probabilistic-based는 생성한 doc과 기존 doc에 대해 topic modeling을 진행하는 것이고, representation-based는 클러스터링을 기반으로 라벨의 표현을 정제하는 것입니다. 발표에 대해 교수님께서 말씀해주셨던 것처럼, chatGPT의 발전에 따른 NLP의 다양한 분야들의 큰 연구적 가치에 대해 생각해볼 수 있었던 것 같습니다. 처음 접해보는 분야였음에도 체계적으로 설명해주셔서 잘 이해해볼 수 있었습니다. 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나에서는 Dataless Text Classfication이라는 주제로 진행되었습니다. Dataless는 Text 혹은 Document에 대한 Label 쌍을 이루는 데이터가 없는 상황을 의미합니다. 확률 기반의 방법론과 Semantic 기반의 방법론을 각각 소개해주셨습니다. 확률 기반의 방법론으로 소개해주신 Dataless Text Classfication with Descriptive LDA 논문에서는 의도적으로 생성한 Documents와 함께 기존의 Documents의 Topic Modeling을 진행하는 DescLDA 방법론을 제안했습니다. Dataless Text Classification 방법론 중 많이 연구되는 LDA 기반 방법론들의 시작점이라는 것에서 의의가 있지만 꽤나 중요한 부분인 Descriptive Documents에서 단어 순서에 대한 명확한 설명이 기재되어 있지 않다는 점은 개인적으로 아쉽게 느껴졌습니다. Semantic 기반의 방법론으로 소개해주신 Unsupervised Label Refinement Improves Dataless Text Classficiation 연구에서는 K-Means Clustering을 이용해 Label Representation을 Refine해주는 방법론을 제안했습니다. Dataless Text Classification이라는 Task에 대한 소개부터 중요한 시작점이 된 확률 기반 방법론부터 Semantic 기반 방법론도 함께 소개해주셔서 해당 Task에 대한 흐름을 이해하는 데 많은 도움이 되었습니다. 처음 접하는 내용이지만 발표자 분의 자세하고 친절한 설명 덕분에 많은 도움을 받았습니다. 좋은 발표 감사합니다.
이번 세미나는 Dataless Text Classification이란 주제로 두 편의 논문으로 진행되었습니다. Dataless Text Classification이란 레이블링된 데이터는 없지만 레이블에 대한 정보가 주어진 상황에서 문서를 분류하는 과업으로, 라벨에 대한 설명이 해당 과업을 푸는데 핵심 정보가 됩니다. 첫 번째로 소개해주신 논문은 Dataless Text Classification 과업을 해결하기 위해 LDA를 적용한 논문으로 라벨에 대한 설명으로 생성한 임의의 문서로부터 얻을 수 있는 latent topic으로 문서를 분류하는 방법을 제시했으며, 두 번째 논문은 비교적 최근 논문으로 K-means 클러스터링을 이용해서 레이블의 representation을 정교화하는 방법을 제시했습니다. Dataless Text Classification은 처음 들어보는 분야임에도 잘 정리해서 발표해주신 덕분에 해당 분야에서 어떠한 연구 흐름이 있어왔는지 파악할 수 있었던 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Dataless Text Classification을 주제로 두 논문을 시간 순서에 따라 소개해 주셨습니다. 기본적으로 Dataless Text Classification 이라는 task 자체를 처음 들어보기도 했으며, 일반적으로 많이 연구되는 few shot, zero shot 연구와 어떤점이 다른지를 이해할 수 있도록 노력했습니다. 이해한 바로는 기존의 task들은 데이터가 아주 적더라고 기본적으로 text와 label이 서로 짝이 지어져있으며, test 시에도 그 정보를 토대로 평가하게 됩니다만, Dataless Text Classification의 경우에는 이러한 정보가 전혀 없이 label의 이름 자체에 대한 정보 등을 직접 활용하여 pseduo label을 만들고, 그를 활용해 다시 분류를 수행합니다. semi supervised와 유사한 설정이라 생각이 되며, label 정보가 없이 단순히 저장되어 있는 과거의 데이터를 활용할 때 사용할 수 있을 것으로 생각이 됩니다. 좋은 발표 감사합니다.
이번 세미나에서는 Dataless text classification을 주제로 한 논문 2개를 소개해주셨습니다. 발표자분께서 일전에 진행하셨던 Weakly-supervised text classification과 이어지는 주제로 연구실 세미나에서는 다뤄진 적이 없지만, 연구 배경이나 방법론이 매우 흥미로웠습니다. 문서를 분류하는 모델을 학습하기 위해서는 기본적으로 text-label 쌍이 필요하고, 이때 충분한 labeled 데이터가 없을 경우 unlabeled 데이터를 활용한 semi-supervised learning을 떠올리는 것이 일반적입니다. 그와 다르게 weakly-supervised learning에서 label 정보가 없는 unlabeled 데이터를 대상으로 비지도학습을 수행합니다. text의 정보와 label 정보를 비교하여 연관성이 높은 text-label 쌍을 맞추는 식으로 분류를 수행합니다. 대표적으로 토픽모델링 기반과 representation 기반 방법론들이 연구되어 왔으며, 금일 두 방법론의 논문을 하나씩 소개해주셨습니다. 첫번째 논문 Dataless text classification with descriptive lda의 경우 dataless text classification 분야에서 최초로 LDA를 적용하였으며, 두번째 논문 Unsupervised Label Refinement Improves Dataless Text Classification은 클러스터링을 기반으로 label의 representation을 정제하여 분류를 수행하였습니다. 라벨링된 데이터가 부족한 상황은 현실 세계에서 주요한 이슈이기에 본 주제가 더욱 와닿았던 것 같습니다. 유익한 세미나 진행해주셔서 감사합니다.
이번 세미나는 Dataless Text Classification이라는 주제로 두 가지 논문에 대하여 소개해주셨습니다. 여기서 Dataless는 zeroshot 과 같이 finetuning을 수행하지 않는 모델의 성능을 의미하는 것이 아닌 label이 없는 데이터를 말합니다. 논문에서는 label이 없는 데이터를 모델 학습에 활용하기 위해 unlabeled 데이터를 대상으로 비지도 학습을 수행합니다. text 정보와 label 정보를 서로 비교하며 연관성이 높은 text-label 쌍을 상으로 분류합니다. 단어만 보면 익숙하지 않았지만 오랜만에 LDA를 활용한 DescLDA와 같은 방법을 알게 되어 새로웠습니다. 좋은 논문 소개 감사합니다.