번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10287
|
관리자 | 2020.03.12 | 0 | 10287 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 8901
|
관리자 | 2020.03.12 | 0 | 8901 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10015
|
관리자 | 2020.03.12 | 0 | 10015 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 18
|
Sunghun Lim | 2025.04.24 | 0 | 18 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (3)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 41
|
Suyeon Shin | 2025.04.21 | 0 | 41 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (7)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 107
|
Woongchan Nam | 2025.04.16 | 0 | 107 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (9)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 199
|
Kiyoon Jeong | 2025.04.16 | 0 | 199 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (13)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 281
|
Hyeongwon Kang | 2025.04.09 | 0 | 281 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (16)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 271
|
Jaehyuk Heo | 2025.04.02 | 0 | 271 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (15)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 268
|
Jaehee Kim | 2025.04.02 | 0 | 268 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (19)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 251
|
Jungho Lee | 2025.04.02 | 0 | 251 |
490 |
[Paper Review] Data-driven discovery of coordinates and governing equations (18)
Hankyeol Kim
|
2025.03.25
|
추천 0
|
조회 242
|
Hankyeol Kim | 2025.03.25 | 0 | 242 |
489 |
[Paper Review] DUET: Dual Clustering Enhanced Multivariate Time Series Forecasting (15)
Sieon Park
|
2025.03.19
|
추천 0
|
조회 352
|
Sieon Park | 2025.03.19 | 0 | 352 |
금일 세미나는 "Active Learning Helps Pretrained Models Learn the Intended Task"라는 주제로 진행되었습니다. 본 발표에서는 사전학습 모델을 active learning에 적용할 때 나타나는 장점이 소개되었습니다. 세부적으로 사전학습 모델이 task ambiguity를 해결할 수 있다는 것을 active learning을 통해 확인하였고, 특히 task ambiguity 상황에서 active learning이 사전 학습 모델의 sampling에 도움이 된다는 것을 확인하였습니다. 오늘 소개된 논문은 방법론을 제안하는 논문들과 다르게 다양한 실험을 통해 active learning이 사전 학습 모델에 도움이 된다는 것을 실험적으로 검증하였는데 그 중 uncertainty sampling과 random sampling의 성능을 비교한 실험이 흥미로웠습니다. 해당 실험에서는 uncertainty sampling이 더 적은 데이터로 random sampling 보다 좋은 성능을 도출한다는 결과를 통해 active learning이 사전 학습 모델의 sampling에 효과적임을 확인하였습니다. 오랜만에 실험에 집중한 논문을 접할 수 있어서 좋았습니다. 좋은 발표 감사합니다.
금일 세미나 시간에는 허재혁 석박통합과정이 Active Learning과 관련하여 “Active Learning Helps Pretrained Models Learn the Intended Task” 논문을 주제로 다루어 보았습니다. 개인적으로 세미나이전의 Active Learning에 대한 저의 이해는 과거 처음 semi-supervised learning에 대해서 알아 갈 때 간접적으로 접하였으며, ‘label이 존재하지 않는 데이터에 대해서 적절한 annotator의 개입을 통해서 label정보를 얻어가며, 점진적으로 model의 성능을 개선시킨다.’라는 개념으로 받아들이고 있었습니다. 금번 세미나를 통해서 보다 더 정확히 그 개념을 확인할 수 있었으며, 적절한 annotator의 개입을 위한 다양한 전략이 존재합니다. 이는 크게 Uncertainty-based, Representative/Diversity-based, 그리고 Hybrid/combined strategy로 분류 가능합니다. Uncertainty-based 전략은 수행하고자 하는 model의 불확실성을 기준으로 선택하며, 불확실성의 기준으로는 대표적으로 least confidence, margin sampling, entropy 방법론들이 존재합니다. 다음으로 Representative/Diversity-based의 경우, VAAL, Core-set 과 같은 방법론을 활용하여 데이터의 분포 혹은 다양성을 고려하여 annotation을 위한 query를 수행하게 되며, 이때 label정보가 아닌 label정보를 가지는지 여부를 가지고만 수행하는 특징을 가집니다. 이러한 Active Learning은 annotation cost, cold-start problem 그리고 small dataset으로 인한 Spurious correlation과 같은 단점을 가지고 있습니다. 여기서 pretrained model을 활용한다면 마지막 Spurious correlation을 어느정도 억제 가능하다고 해당 논문에서는 주장하고 있습니다. 실제로 학습결과 사전학습 모델을 사용하는 경우 spurious correlation 영향을 사전학습을 사용하지 않는 경우 보다 덜 받는 것으로 확인되었으며, object와 background가 일치하지 않는 상황에서도 강건한 성능을 확인할 수 있었습니다. 해당 세미나를 들으면서 개인적으로 active learning 세션을 진행하면서 small 데이터셋에 대한 문제를 해결하기 위해 초반 도입부에는 데이터 분포를 잘 반영가능한 Representative/Diversity-based 로 annotation을 수행하고, 이후 어느정도 적층된 labeled data set을 통해 안정된 모델 성능을 보장하는 시점부터는 모델의 uncertainty를 기준으로 annotation query를 정의하는 전략도 유의미한 결과를 보여줄 수 있을 거 같다는 생각을 해보았습니다. 이번 세미나를 통해서 active learning에 대한 이해를 확고히 할 수 있었고, 이는 친절하게 background 내용을 잘 준비해준 발표자 덕분이라고 생각합니다. 감사합니다.
해당 세미나는 허재혁 발표자님께서 "Active Learning Helps Pretrained Models Learn the Intended Task"이라는 논문을 바탕으로 진행되었습니다. 본 논문은 Active learning Task에 Pre-trained model을 적용하면 어떤 이점이 있을지 보이고, 특히 pre-trained model을 사용하지 않는 경우 잘못된 방향으로 sampling 될 수 있는 문제점과 task ambiguity를 해결할 수 있음을 큰 기여점으로 꼽고 있습니다. 특히 지금까지 pre-trained model이 사용되지 않았던 점을 Query sampling 결과가 pre-trained model과 independent하기 때문에 사용하지 않는다는 해석이 흥미로웠습니다. 실제 제가 최근에 읽었던 PT4AL이라는 paper에서도 self-supervised pretext task를 활용하여 pre-trained 비슷하게 학습을 미리 시켜 성능을 크게 개선했던 contribution이 있었습니다. 따라서 pre-trained model이 결국에는 많은 양의 데이터로 data의 분포를 미리 학습시켜, 추후에 active learning의 annotation 후보로 sampling될 초기 data의 정확성을 높인다고 생각하였습니다. 이 점을 "Cold start problem"이라고도 부르는데, Pre-trained이라는 기법 자체가 이 초기 label의 문제점을 해결해준다는 해석도 해보았습니다. 따라서 실무나 현업에서는 적은 data를 바탕으로, 매우 적은 단위의 annotation을 진행해 나가야 하기 때문에 이 문제점을 해결하는 pre-trained 기법이 크리티컬하다고도 생각했습니다. 마지막으로 Active learning의 개념과 지금까지의 기법들, 특히 바라보아야 할 특징들에 대해 자세하게 설명해주셔서 해당 세미나를 효과적으로 들을 수 있었습니다. 흥미로운 task여서 앞으로 기회가 된다면, 연구로도 연계해보고 싶고 이 Active learning을 NLP의 labeling에도 적용해보면 어떨까 생각해보는 시간이 되었습니다. 좋은 세미나 준비해주셔서 감사합니다.
이번 세미나는 'Active Learning Helps Pretrained Models Learn the Intended Task ' 논문에 대해 소개해주셨습니다. 본 논문에서는 fine-grain된 이미지 이상치를 탐지하기 위한 two-stage coarse-to-fine framework을 제안합니다. Active Learning은 unlabeled data 중에서 어떤 데이터에 대해 labeling을 해야 모델 성능이 좋아질지 결정하는 과정입니다. 이때, uncertainty based sampling과 분포를 고려한 sampling (VAAL과 Core-set)을 통해 annotate할 instance를 선정하게 됩니다. 이렇게 sampling을 통해 Annotator이 labeling을 하였을 때 모델 성능 향상에 가장 큰 기여를 할 수 있는 instance를 탐색하게 됩니다. Active Learning는 한정된 자원을 가장 효율적으로 사용하기 위한 연구와도 같습니다. 본 논문은 Active learning에 pre-trained model을 사용하였을 때 기존 방법론 대비 어느정도의 성능 향상이 있는지 실험하였습니다. 특히, 사전학습 모델을 사용했을 때 이전보다 spurious correlation에 대한 강건하도록 모델을 학습할 수 있었습니다. 시계열을 연구하는 입장에선 항상 labeled data가 부족한 점이 큰 제약으로 꼽히는데, Active learning이 이를 일부 보완할 수 있지 않을까 생각하게 되었습니다. 좋은 발표 감사합니다!
이번 세미나에서는 Active Learning Helps Pretrained Models Learn the Intended Task라는 논문을 다루었습니다. 논문의 내용을 다루기 전에 다소 생소한 개념인 active learning에 대한 개념을 background에서 다루었습니다. Active learning은 데이터 annotation에 비용이 발생하는 경우에 더 효율적으로 데이터를 선택하여 annotation을 수행하려는 목적을 가진 방법론입니다. Active learning에서 가장 중요한 개념인 query sampling은 데이터를 어떤 방식으로 선택하는지에 따라 크게 Uncertainty-based, Representation-based, Hybrid sampling 등으로 분류될 수 있습니다. 본 세미나에서 다룬 논문은 active learning을 할 때 사전학습 모델을 사용하는 것이 도움이 된다는 것을 보이고 있습니다. Active learning에 사전학습 모델을 사용하면 task ambiguity를 해결할 수 있고, 이 상황에서 사전학습 모델을 사용하지 않는 경우에는 sampling이 잘못된 방향으로 수행될 수 있음을 실험적으로 증명했습니다. Active learning이 저한테는 처음 접하는 개념이었는데 발표자분께서 개념 정리를 깔끔하게 잘 해주셔서 내용을 따라가는데 큰 무리가 없이 쉽게 이해할 수 있었습니다. 항상 좋은 발표 감사합니다.
이번 세미나는 Active learning을 주제로 진행되었습니다. Active learning의 궁극적인 목표는 task에 적합한, 즉 문제를해결에 중요한 정보를 제공할 수 있는 샘플(instance)를 찾아내는 것입니다. 모든 데이터를 하나씩 찾는 것이 아닌 필요한 데이터에 대해 annotation을 진행하는 것입니다. 대표적인 유형 중 query sampling의 경우는 불확실성의 지표들(Least confidence, Entropy, Margin Confidence 등)을 이용하여 불확실성이 가장 낮은 샘플을 선택합니다. 더불어 데이터의 분포 또는 다양성을 기반으로 샘플링을 하는 방법도 존재합니다. 이러한 컨셉의 active learning을 pre-trained deeplearning 모델에 적용하기 위해서는 어떻게하면 좋을지에 대한 연구를 소개 해주셨습니다. 학습용 데이터와 검증용 데이터의 context가 다른 경우에 대해서 query sampling을 적용했을 때의 결과를 비교하는 실험이었습니다. Context가 다르다는 것은 이미지 데이터에서 Treeperson 데이터셋을 예로 들면, 학습용 데이터에서 사람이 존재하는 사진의 배경의 대부분은 빌딩이지만, 검증용 데이터셋에서는 배경이 빌딩과 숲이 동일한 비율로 존재할 때를 의미합니다. 즉, Imbalance 한 상황이라고도 볼 수 있는데, 이러한 경우에 active learning을 적용했을 때 성능이 향상 된 것을 확인할 수 있었습니다. 세미나를 들으며, active learning과 semi-supervised가 함께 적용되면 어떨까하는 생각이 들었습니다. 의미 있는 데이터 샘플을 annotation을 한 뒤 해당 샘플들을 바탕으로 semi-supervised learning 이 진행된다면 더욱 효과적이지 않을까 생각합니다. Active learning에 대해서 궁금해 했었는데, 좋은 예시들과 함께 잘 설명해주셔서 감사합니다.
이번 세미나에서는 Active Learning 분야의 실험 논문인 “Active Learning Helps Pretrained Models Learn the Intended Task”에 대해 진행해주셨습니다. 해당 논문은 Active Learning에서 사전학습 모델을 적용하였을 때 어떤 이점을 가질 수 있는지 보이는 연구로, task ambiguity를 해결할 수 있음을 active learning을 통해 보여주고 있습니다. 데이터 수가 적은 상황에서는 모델의 학습이 원하는 방향으로 될 것이라 기대하기 어려우며, 사전 학습 모델을 일종의 가이드 처럼 사용함으로써 원하는 방향으로 학습하기 기대하며, 이를 Active learning 학습을 통해 해당 문제가 해결됨을 실험적으로 보여주고 있습니다. 해당 논문에서는 새를 분류하는 WaterBird 데이터셋과 사람의 유무를 분류하는 Treeperson 데이터셋을 통해 실험을 진행하였으며, 실험 결과를 통해 사전학습 모델을 사용하는 경우 waterbirds와 landbirds 간 embedding이 linear하게 구분됨을 확인할 수 있었습니다. 사전학습 모델은 다른 Task에서는 이미 광범위하게 사용되고 있는데 아직 Active learning에서는 사용되지 않고 있다는 점이 의아하며, 한편으로는 사전 학습 웨이트의 힘 없이 라벨링 대상을 선정하기 위한 세팅은 아닐까 하는 생각도 들며, 혹은 Active Learning은 딥러닝 이전부터 오랫 동안 이어져 왔기 때문에 일종의 관습은 아닐까 하는 생각도 들었습니다. 결과적으로 사전학습 웨이트를 사용하는 것이 더 나은 Active Learning 결과를 보여준 다는 것을 확인할 수 있는 기회였습니다. 좋은 발표 감사합니다.
이번 세미나에서는 "Active Learning Helps Pretrained Models Learn the Intended Task"라는 논문을 다루었습니다. 이 연구는 Active Learning에 사전학습된 모델을 어떻게 적용할 수 있는지, 그리고 이러한 접근이 어떤 이점을 가져올 수 있는지에 대해 깊이 있게 다루었습니다. 특히, 해당 연구는 데이터 부족이나 task ambiguity 같은 문제를 효과적으로 해결할 수 있는 방법으로 Active Learning을 제시하고 있습니다. 이 세미나에서 사용된 실험적인 접근법들이 특히 인상적이었습니다. WaterBird와 TreePerson 데이터셋을 사용하여 진행된 실험은 Active Learning을 통해 사전학습된 모델의 이점을 적극적으로 활용할 수 있음을 잘 보여주었습니다. 사전학습된 모델이 Active Learning의 성능을 향상시킬 수 있음을 확인할 수 있었습니다. 세미나를 들으면서 사전학습 모델이 Active Learning에 통합되어 사용되지 않는 것이 신기하게 느껴졌습니다. 사전학습된 모델의 가중치를 활용함으로써, Active Learning의 효율성과 성능이 어떻게 향상될 수 있는지에 대한 고찰이 많이 이루어져야 할 것 같습니다. 이번 세미나를 통해 Active Learning의 다양한 응용과 그 가능성을 탐구하는 데 큰 도움이 되었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 Active Learning Helps Pretrained Models Learn the Intended Task 논문을 소개해 주셨습니다. 우선 active learning은 모델 성능 향상을 위해 적절한 데이터를 선택하는 것을 목적으로 하고 있으며, 필요한 데이터에 대해서만 annotation을 수행하고자 하고 있습니다. 위 논문에서는 사전학습 모델을 사용하지 않을 시 잘못된 방향으로 샘플링을 할 수 있다고 언급하고 있습니다. active learning 시나리오는 크게 membership query synthesis, stream-based selective sampling, pool-based sampling으로 나누어 볼 수 있습니다. uncertainty based sampling은 말그대로 데이터에 대한 모델의 불확실성을 기준으로 선택하는 방법입니다. 다음으로 query sampling에서는 불확실성을 기준으로 선택하는 방법, 데이터의 분포를 고려하는 샘플링 방법 등이 존재합니다. 대표적인 예시로 coreset이 있는데, 이때 NP-Hard를 적용하여 문제를 해결하게 됩니다. 다음과 같이 최적화를 적용하는 방법론을 다루어 주셨는데 딥러닝에 적용을 시도했다는 부분이 새롭게 다가왔던 것 같습니다. 사전학습 모델을 active learning에 적용할 시 어떤 상황이 발생할 수 있는지 다루어 주셨는데, 그중 하나는 테스크가 명확하지 않은 상황)에서 잘못된 방향으로 샘플링 할 수 있다는 점입니다. 발표자료에 넣어주신 이미지 예시가 인상적이었고, 쉽게 잘 풀어 설명해 주신 것 같습니다. 실험 장표에서는 사전 학습 모델을 이용할 시 사용하지 않는 경우에 비해 spurious correlation보다 object에 많은 영향을 받는 점을 확인할 수 있었습니다. 아직 cold start 문제 등은 더 연구가 필요한 부분이라고 생각되었습니다. 발표자분의 견해를 포함하여 많은 인사이트를 전달해주셔서 추후에 active learning을 주제로 연구를 진행하거나 할 때 많은 도움이 될 것 같습니다. 좋은 발표 감사합니다!
이번 세미나 시간에서는 active learning과 관련된 전반적인 내용과 사전학습 모델의 효과에 대해 다룬 "Active Learning Helps Pretrained Models Learn the Intended Task"라는 논문을 다루어주셨습니다. Active learning은 결국 query sample을 선택하는 방식이 핵심인데, 해당 논문에서는 사전학습 모델을 사용하는 것이 효과적이라고 주장하였습니다. 그 이유는 task ambiguity와 같은 문제를 완화할 수 있기 때문이라고 주장하는데 특히 초기 라벨링된 데이터가 부족한 상황에서 더욱 효과적임을 보였습니다. 기본적으로 query sample을 선택하는 방식이 uncertainty에 기반하는데 이 때, 사전 학습 모델을 사용한다면 초기 query에 대한 uncertainty estimation의 질이 올라가 사전 학습 모델이 효과적일 수 있다고 생각했는데, task ambiguity 관점에서도 효과적이다 라는 주장과 그에 따른 실험 결과가 인상 깊었습니다. 마지막으로 사전 학습 모델을 사용함에 있어서 사전 학습 데이터셋과 target dataset의 분포가 크게 다르다면 오히려 역효과가 발생할 수 있을 것 같다는 생각을 하였고, 이에 따라 사전 학습 모델을 무턱대고 사용하는 것이 아니라 적절하게 사용하는 것이 중요하겠다라는 생각을 하였습니다.
이번 세미나는 Active Learning Helps Pretrained Models Learn the Intended Task를 주제로 진행되었습니다. active learning은 모델 성능 향상을 위해 적절한 데이터를 선택하는 것으로 필요 데이터에만 annotation하는 방법입니다. active learning 시나리오는 크게 세가지로 새로운 쿼리를 생성하여 레이블링하는 membership query synthesis, 단일 인스턴스 단위로 레이블링을 수행할지 않을지 결정하는 stream-based selective sampling, unlabeled instances pool에서 레이블링을 수행할 인스턴스를 선택하는 방법입니다. Query sampling의 경우 크게 uncertainty, representative/diversity, hybrid/combinde 방법으로 나뉠 수 있습니다. 본 논문에서는 uncertainty와 diversity를 합한 방법을 사용하고 있으며 pretrained model을 활용하였다라는 특징이 있습니다. 가장 큰 특징이 pretrained model을 active learning에 사용했다라는 점이 되며 이를 통해 어떤 이점을 가질 수 있는지 실험적으로 확인하였습니다. 우선 이미지의 background에 대한 영향을 덜 받아 물체에 대한 query sampling이 가능했으며 minority class와 object에 영향을 많이 받아 성능이 향상 되었음을 보였습니다. 또한, task ambiguty, imbalance한 상황에서도 robust함을 보였습니다. active learning에 대해서 자세하게 알아보는 시간이 되었으며, pretrained model의 영향에 대해서 다시 한번 생각해보는 시간이 되었습니다. 좋은 발표 감사합니다.
이번 세미나는 ‘active learning을 사전학습 모델에 적용하면 어떤 이점을 가질 수 있는가’에 대해 진행되었습니다. active learning에서는 query sampling이 먼저 진행됩닏. query를 선정하는 기준으로는 uncertainty와 density가 있습니다. uncertainty를 판단하는 기준으로 least confidence, margin sampling, entropy가 있고 density를 기반으로 query를 샘플링하는 방법은 VAAL과 Core-set이 있습니다. active learning의 한계점으로 annotation을 매번 요청해야한다는 점이 있습니다. 이는 uncertainty와 density-based sampling을 진행하여 annotation이 필요한 데이터를 줄일 수 있습니다. initial dataset구성이 cold start problem을 발생시킨다는 문제점이 있습니다. 해당 문제점은 k-center algorithm, self-supervised learning을 통해서 보완이 가능합니다. 마지막으로는 작은 데이터셋으로 인해 spurious correlation이 발생한다는 것입니다. 해당 문제점은 pre-trained model을 통해서 보완이 가능합니다. 또한 task ambiguity를 해결할 수 있습니다. active learning은 현 시점에서 현실적인 문제를 잘 해결하고 있다고 느껴졌습니다. 앞으로 3년 뒤에는 annotator가 필요없을 정도로 모델이 굉장히 발전하여 이러한 고민을 하지 않게 될수도 있지만, 현 시점에서 문제를 해결해야한다면 active learning을 적용하여 충분히 해결할 수 있을 것으로 보입니다. 좋은 발표 감사합니다.
금일 세미나는 "Active Learning Helps Pretrained Models Learn the Intended Task" 논문을 중심으로 Active Learning의 개괄적 흐름을 다루는 시간이었습니다. Active Learning이란 모델과 인간이 함께 동작하는 Human-in-the-loop의 일종으로 모델이 예측한 데이터 중 불확실성이 높은 데이터에 대해 인간이 추가적으로 label을 부여하는 과정을 반복하여 모델의 정확도를 높이면서도 Annotation Cost를 효과적으로 통제할 수 있는 방법론입니다. 이때, 불확실성을 측정하는 방식이 매우 중요한데, 모델의 예측된 logit 값을 이용하거나, 엔트로피를 이용하여 측정할 수 있습니다. 또한, Active Learning 적용 시나리오가 데이터가 부족할 수 있기 때문에, Pretrained Model을 통해 이러한 한계점을 해결할 수 있다고 주장할 수 있습니다. 실제로 Pretrained Model과 Uncertainty Sampling을 모두 도입할 경우 높은 성능을 도달할 수 있는 것을 실험을 통해 보여주고 있습니다. 이를 위한 실험 구성이 직관적이었으나, 데이터 구축 과정에서 여러가지 Context 정보에 대한 고려가 부족한 점은 아쉽다고 느꼈습니다. 산업공학도로서 결국 실제 산업 현장의 문제점과 어려움을 직접 극복할 수 있는 방법론을 연구하는 것은 언제나 흥미롭다고 생각합니다. 이러한 관점에서 Semi-Supervised Learning보다 적극적으로 도메인 지식을 활용할 수 있는 Active Learning은 실제로 활용 방안이 다양하고, 연구 주제로도 매우 다양한 시도가 가능한 것으로 보이는 매력적인 분야인 것 같습니다. 좋은 발표 감사드립니다.
본 세미나에서는 Active Learning Helps Pretrained Models Learn the Intended Task 이라는 주제의 논문에 대한 리뷰를 진행하였습니다. Active learning이란 모델 성능 향상을 위해 적절한 데이터를 선택하는 방법론을 의미합니다. 모델의 학습에 도움이 되는 데이터에 대한 annotation만을 진행하여 효율적인 방법으로 데이터 구축을 할 수 있다는 장점이 있습니다. 본 세미나의 논문에서는 데이터 수가 적은 상황에서 모델이 잘못된 방향으로 학습 될 수 있다는 문제점을 제시하였고, 이를 사전학습 모델과 active learning으로 해결하였습니다. 즉 task ambiguity를 해결하기 위해 사전학습 모델, active learning을 적용하였습니다. 이를 실험을 통해 수치적으로도 입증을 하였고, t-SNE를 통해 시각적으로도 보여준 점이 인상적이었습니다. 본 세미나를 통해 Active learning이 무엇인지 구체적으로 알 수 있었고, 효율적으로 필요한 데이터를 구축한다는 부분이 산업공학과의 특성과 잘 맞는 부분이라는 생각이 들었습니다. 현재 진행하고 있는 프로젝트를 통해 active learning에 대한 좋은 연구 결과가 나오길 기대합니다. 좋은 발표 감사합니다!
본 세미나에서는 Active Learning Helps Pretrained Models Learn the Intended Task 주제의 논문을 통해 진행되었습니다. 데이터 수가 적은 상황에서 원하는 방향으로 모델이 학습하기 어렵고, 이를 active learning 을 통해 해결하고자 함이였습니다. 개인적으로 active learning 이라는 것이 무엇인지 좀 더 구체적으로 알 수 있었고, 왜 semi-supervised 의 기존 방법론들과 다른것인가를 알게되었습니다. 특히, 데이터셋을 실제로 보여주면서 해당하는 dataset 의 경우 왜 active learning 이 필요한지를 좀 더 직관적으로 파악할 수 있었습니다. 사전 학습 모델이 task ambiguity 를 해결할 수 있음을 active learning 을 통해서 확인하였고, 사전학습 모델을 사용하지 않는 경우 잘못된 방향으로 sampling 이 수행될 수 있음을 보여주었습니다. 앞으로 진행될 산학과제에서도 좋은 결과있길 바랍니다.
이번 세미나는 "Active Learning Helps Pretrained Models Learn the Intended Task"에 대해 소개해주셨습니다. 해당 논문은 사전 학습 모델을 active learning에 적용하였을 때 어떠한 이점을 가질 수 있는가에 대한 연구였습니다. Active learning이란 일부만 annotation되어 있는 데이터를 활용하여 학습을 수행하는 방법으로, Membership query synthesis, Stream-based selective sampling, Pool-based sampling 3가지 시나리오를 가집니다. 일부 labeled 되어 있는 데이터로만 학습을 진행하므로, 처음에는 semi-supervised와 같은 것인가 생각하였으나, 발표자분께서 해당 차이점에 대해 설명해주시어 그 차이를 이해해볼 수 있었습니다. Semi-supervised learning은 일부 sudo label을 가진 데이터로 모델을 학습시키고, 이 모델을 활용하여 나머지 unlabeled data에 대해 labeling을 진행하는 것으로, 모델이 매우 우수할 때 좋은 결과를 얻을 수 있게 됩니다. 반면, Active learning은 실제 annotator들이 labeling을 진행한다는 차이점을 가지며, label에 매우 민감한 특정 도메인의 경우 active learning이 더욱 효과적일 수 있습니다. Active learning이라는 새로운 연구 분야에 대해 함께 지식을 나누고 이해해볼 수 있는 시간이었던 것 같습니다. 좋은 발표 준비해주셔서 감사드립니다.
이번 세미나에서는 Active Learning Helps Pretrained Models Learn the Intended Task라는 연구에 대해 소개해주셨습니다. 해당 연구는 Task Ambiguity 또는 Data Imbalance 상황에서 사전 학습 모델을 Active Learning에 사용할 때의 효과성을 보였습니다. Active Learning이란 모든 데이터에 대한 Annotation을 수행하는 것이 아니라 특정 데이터에 대해서만 Annotation을 수행해 Training Data로 이용하여 모델을 Train하고 다시 또 특정 데이터에 대한 Annotation을 수행하는 과정을 반복해 모델의 성능을 향상시키는 학습 방법론입니다. 현실적인 상황에서는 각종 Benchmark 데이터셋과 달리 데이터에 예측하고자 하는 Label이 완벽히 Annotation 되어있는 경우는 드물 것입니다. 모델 학습을 위해 수작업이 필요하긴 하지만 다양한 Sampling 방법이 연구되어 불확실성 기반 또는 Representation 기반 Sampling 등을 통해 Active Learning 자체의 단점을 완화시키는 방향으로 연구되어 왔다는 점이 흥미로웠습니다. 헬스케어 등 Pseudo Label을 사용하기 어려운 분야에서 더욱 유의미한 방법론일 것이라 생각되어 흥미롭게 들을 수 있었습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 최근 많은 관심을 받고 있는 Active Learning의 전반적인 소개와 함께 Active Learning Helps Pretrained Models Learn the Intended Task (NeurIPS 2022) 논문을 소개해 주셨습니다. 최근 Active Learning이 인기를 얻는 것을 보며 스스로도 당장 현업에 사용하기에 최적화된 학습의 방식이라는 생각을 해왔으며, 활용도에 비해 아직은 연구가 부족하여 범용성이 부족하다고 생각해 왔습니다. 이번에 주제로 소개 시켜주신 논문은 Pre-trained model에 active learning을 활용하는 것으로 기본적으로 sampling을 기반으로 하는 active learning의 경우 사전학습 모델과 함께 사용하는 것을 통해 sampling error로 인한 문제가 상당 부분 해결될 수 있다고 이야기 합니다. 기존의 active learning의 경우 데이터의 수가 부족하면 모델이 바람직하게 학습되기가 어려운데, 여기서 사전 학습된 모델이 가이드의 역할을 수행하여 올바른 학습의 방향으로 유도한다는 것입니다. 논문에서는 이를 task ambiguity를 해결하는 것이라고 표현하였으며 ablation을 통해 사전학습 모델이 없이는 잘못된 sampling이 발생한다는 것을 보여주었습니다. Active learning의 일련의 과정과 본 논문에서 목표로하는 정말로 필요한 data에 대해서만 labeling을 한다는 개념 자체가 효율을 추구하는 산업공학의 정신과 잘 맞다고 생각이 들었습니다. 이번 세미나로 부터 이어지는 연구를 통해 Active learning 프로젝트에서 좋은 성과를 얻기를 기대합니다.
이번 세미나는 데이터 수가 적은 상황에서의 Task Ambiguity 문제를 사전모델을 활용한 Active Learning 학습을 통해 해결하는 Active Learning Helps Pretrained Models Learn the Intended Task 논문으로 진행되었습니다. Active Learning이란 모델 성능 향상을 위해 적절한 데이터를 선택하는 것이 목적으로, 소수의 데이터만 잘 선택해서 annotation을 수행해도 좋은 성능의 모델을 구성할 수 있음을 보일 수 있다는 것을 전제로 합니다. 이전에 외부 대회를 진행하며 너무 경향이 다른 데이터는 학습 전에 데이터에서 제거했던 과정과 Active Learning이 하고자 하는 바가 비슷하다는 생각이 들었습니다. Active Learning에서의 핵심은 annotation할 데이터로 어떤 데이터를 선택할지인데 Uncertainty-based sampling, Representation-based sampling으로 나눠볼 수 있습니다. 전자는 Least Confidence, Margin Sampling, Entropy 등 데이터의 모델에 대한 불확실성을 기준으로 선택하는 방법이고, 후자는 데이터의 분포나 다양성을 고려하는 방법으로, 세미나를 들으면서 데이터의 불확실성과 분포를 모두 고려하는 방법론도 있는지 궁금했습니다. 해당 세미나를 통해 Active Learning을 처음 접했는데 데이터셋이 재밌으면서 여러모로 실용적인 task인 것 같습니다. 좋은 발표 감사합니다!
이번 세미나에선 Active Learning Helps Pretrained Models Learn the Intended Task 라는 논문이 소개되었습니다. 딥러닝 모델 학습에는 일반적으로 레이블이 있는 데이터가 사용되고, 이러한 데이터셋의 구성은 도메인 지식이 필요한 과업의 경우 비용과 시간적인 측면에서 여러 어려움에 직면합니다. Active Learning은 데이터의 레이블링이 불가피한 상황에서 모델의 성능 향상에 좀 더 직접적인 영향을 줄 수 있는 데이터를 샘플링하여 레이블링하는 작업을 반복하는 과업을 말하고, 딥러닝을 활용한 active learning에선 unlabeled set에서 labeling할 데이터를 pool 단위로 샘플링하는 pool-based sampling 방식을 주로 활용하고 있습니다. 샘플링 방식은 크게 uncertainty-based, representative/diversity-based, hybrid/combind 방식으로 나눠지는데 소개된 논문에선 uncertainty와 diversity를 융합한 방법을 사용하며 사전 학습 모델을 활용하면 초기에 잘못된 샘플링을 방지할 수 있음을 실험적으로 보여줍니다. 레이블 데이터를 활용한다는 점에서 결국 지도학습을 수행하는 것임에도 사전 학습 모델이 샘플링 측면에서 활용될 수 있음을 보여줬다는 점이 차별점인 것 같습니다. Active Learning이라는 task에 대해서 잘 정리할 수 있었던 세미나였습니다. 좋은 발표 감사합니다.
이번 세미나는 Active Learning Helps Pretrained Models Learn the Intended Task 논문을 바탕으로 하여 진행되었습니다. Active Learning이란 소수의 Labeled data와 Unlabeled data가 존재할 때, 모델 성능 향상을 위하여 Unlabeld data에서 적절한 data만을 선택한 후, 선택된 데이터에 대해서만 사람이 Annotation을 진행하여 성능을 높이는 것을 목적으로 하는 방법론이라고 볼 수 있겠습니다. 이러한 Active learning의 방법론으로는 다양한 방법이 존재하지만, 최근 DL의 발전으로 인하여 가장 많이 사용되는 것은 Unlabeled instances pool에서 label을 수행할 instance를 선택하는 Pool-based Sampling으로, 데이터에 대한 모델의 Uncertainty나 데이터의 다양성을 고려하여 Sampling하는 방법을 이용하는 것이 최근 Trend라고 볼 수 있겠습니다. 해당 논문에서 제시하는 모델의 가장 큰 특징은 데이터셋이 작은 특정 시나리오에서 발생할 수 있는 Spurious correlation 문제나 Data imbalance 문제를 Pre-trained model을 통하여 해결하였다는 것이었습니다. 해당 논문에서는 이러한 부분에 대하여 실험적으로 잘 증명하고, 성능의 증가와 함께 Robustness 및 Spurious correlation 문제 해결을 보여주고 있었습니다. 처음 해당 방법론을 보았을 땐 Semi-supervised learning과 큰 차이가 있나라는 생각이 들었지만, 오히려 Annotation이 중요하거나 Labeling이 민감할 수 있는 특정 시나리오에서는 Active Learning이 큰 도움이 될 것 같다는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.
이번 세미나는 active learning을 주제로 하여, Active Learning Helps Pretrained Models Learn the Intended Task 논문을 소개해주셨습니다. 라벨링된 데이터가 부족한 상황을 풀어가는 방식에 관해서는 준지도학습 만을 알고 있었는데, 이번 세미나를 통해 평소 접하지 못했던 active learning 관련 개념과 연구 흐름을 살펴볼 수 있어 유익한 시간이었습니다. active learning은 데이터 annotation을 위해 적절한 데이터를 선택하기 위한 방법론입니다. 크게 새로운 쿼리를 생성하여 라벨링을 수행하는 membership query synthesis, 단일 객체 단위로 라벨링 수행 여부를 결정하는 stream-based selective sampling, unlabeled 데이터 풀에서 라벨링 대상 객체를 선택하는 pool-based sampling으로 나뉘어 연구가 진행되어 왔습니다. 소개해주신 논문의 경우, 사전학습 모델을 active learning에 적용하여 task ambiguity를 해결한 의의를 가집니다. 또한, 사전학습 모델을 사용하지 않은 경우 샘플링이 잘못된 방향으로 진행될 수 있음을 보였습니다. 현업 관점에서 active learning은 상당히 의미 있는 주제이기에 앞으로도 지속해서 관심을 가지고 연구 동향을 파악해야겠다는 생각을 하게 되었습니다. 유익한 세미나 진행해주셔서 감사합니다.