번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11032
|
관리자 | 2020.03.12 | 0 | 11032 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9677
|
관리자 | 2020.03.12 | 0 | 9677 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10762
|
관리자 | 2020.03.12 | 0 | 10762 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (15)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 198
|
Minjeong Ma | 2025.06.07 | 0 | 198 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (13)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 287
|
Siyul Sung | 2025.05.31 | 0 | 287 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 290
|
Woojun Lee | 2025.05.20 | 0 | 290 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 275
|
Jinwoo Park | 2025.05.16 | 0 | 275 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 253
|
Hun Im | 2025.05.15 | 0 | 253 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (18)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 426
|
Junyeong Son | 2025.05.08 | 0 | 426 |
이번 세미나에서는 Multi-GPU 환경에서의 CLIP 학습에서 새로운 Loss 연산 방법인 DisCo Loss를 제안한 “DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training”라는 논문에 대한 발표를 중심으로 진행되었습니다. 본 논문에서 제안하는 Distributed Contrastive Loss, 즉 DisCo Loss는 Multi-GPU 환경에서의 기존 CLIP Loss를 분해하여 불필요한 연산을 제거합니다. 조금 더 자세하게는 학습에 사용되는 각 GPU들이 Intra-GPU Gradient만을 계산하도록 하고, 이를 통해 GPU 각각 독립적인 Backward 및 Forward 연산을 수행하여 독립적인 Gradient와 Loss를 산출하도록 합니다. 결론적으로 기존 CLIP의 메모리 사용량을 DisCo-CLIP은 1/N배로 감소시킵니다. CLIP의 학습에서 Batch 크기가 커질수록 효과가 좋기 때문에, 이를 위해 Multi-GPU를 사용하는 환경에서 각 GPU의 연산량을 감소시킴으로써 이를 가능하게한 점이 인상깊었습니다. 좋은 발표해주셔서 감사합니다.
금일 세미나는 분산학습 상황에서 CLIP과 같은 contrastive learning을 효율적으로 진행할 수 있는 loss 연산 및 역전파 방식을 제안한 “DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training”을 중심으로 진행되었습니다. CLIP과 같이 In-Batch negatives를 활용하여 InfoNCE Loss를 계산하는 경우 타 GPU 및 노드에서 representation을 gather하고 Cross Entropy loss를 계산하는 것이 필수적입니다. 하지만 본 연구는 실제 representation 단에서 가지는 gradient를 수식적으로 분해하여, GPU 별로 중복되는 연산을 줄이고, 각 GPU에서 계산된 representation 별 gradient를 직접 공유하는 방식으로 연산 속도 및 메모리 사용량을 줄이고 있습니다. Vision Language Domain이 특히 큰 batch size가 효율적인만큼, 큰 자원을 이용할 수 있는 분산학습에서 효율적인 연산 구조를 제안한 것이 인상적이었습니다. 하지만 SigLip과 같이 각 GPU 별 공유해야 하는 정보가 제한될 수 있는 상황이 오히려 더 적은 메모리 사용량과 적은 시간 소모를 보일 수 있겠다는 생각이 들어, 이와 관련된 비교도 향후에 살펴볼 수 있는 연구가 있으면 좋을 것 같습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 대규모 데이터와 모델을 효율적으로 학습하기 위한 새로운 손실 함수인 DisCo Loss를 제안하며, 기존 CLIP 학습의 한계를 극복하고자 한 “DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training” 논문에 대해서 발표해 주셨습니다. 해당 연구는 Multi-GPU 환경에서 메모리 사용을 최적화하여 더 큰 배치 크기를 구현할 수 있는 방법론을 제안하였습니다. 기존 CLIP Loss를 분해하여 불필요한 연산을 제거하고, 각 GPU가 독립적으로 계산한 후 All-Reduce를 통해 결과를 통합하는 방식을 통해 메모리 사용량을 크게 줄였습니다. 이를 통해 동일한 GPU 자원에서 더 큰 배치 크기를 활용할 수 있게 되어, 성능 향상과 학습 시간 단축이라는 두 마리 토끼를 잡았습니다. 논문에서 제안한 방법론은 실험을 통해 기존 CLIP과 거의 동일한 성능을 유지하면서도, 메모리 사용량을 줄이고 학습 효율성을 높였음을 보여주어 실용적인 가치를 높였습니다. 그러나, 이 방법론이 실험적으로 다양한 평가 지표에서 검증되지 않은 점은 다소 아쉬웠습니다. 하지만 대규모 Vision-Language Model 학습에서의 자원 최적화와 성능 개선에 중요한 기여를 했다고 생각합니다. Multi-GPU와 DP, DDP에 대해서 자세히 알 수 있어서 유익한 시간이었고, 발표자 분이 예시 장표도 잘 구성해 발표해 주셔서 이해하기 수월했습니다. 좋은 발표 감사합니다.
이번 세미나에서는 "DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training"에 대해 소개해주셨습니다. 해당 연구는 cLIP 모델의 훈련 과정에서 발생하는 메모리 효율성 문제를 해결하기 위한 새로운 방법을 제안하고 있습니다. 기존 CLIP 모델 훈련은 대규모 배치 크기가 필요해 메모리 사용량이 많았는데, 이를 개선하기 위해 연구진은 DisCo-CLIP(Distributed Contrastive CLIP)이라는 새로운 분산 대조 손실 함수를 제안했습니다. DisCo-CLIP의 핵심 아이디어는 전체 배치를 여러 작은 서브 배치로 나누어 처리하고, 서브 배치 간 그래디언트 통신을 통해 전체 배치 효과를 유지하는 것입니다. 이를 통해 메모리 효율성을 향상시키고 학습 안정성을 개선했습니다. 해당 연구는 CLIP과 같은 대규모 멀티모달 모델의 훈련 효율성을 크게 개선했다는 점에서 중요합니다. 메모리 사용량을 줄이면서도 성능을 유지하거나 개선했다는 점이 특히 인상적입니다. 향후 연구 방향으로는 다른 대조학습 기반 모델에 DisCo-CLIP 기법을 적용해 보는 것, 다양한 도메인 특화 태스크에서 DisCo-CLIP의 효과를 분석해 보는 것 등을 고려해 볼 수 있겠습니다. 좋은 발표 감사합니다.
이번 세미나는 Contrastive Learning으로 CLIP 모델을 훈련시킬 때, 큰 Batch로 만들어지는 Matrix를 분산학습 상황에서도 모사할 수 있도록 하는 방법론을 제시한 논문인 “DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training”을 중심으로 진행되었습니다. 일반적인 딥러닝 모델을 훈련하는 것에 대비하여, CLIP과 같이 Contrastive Learning을 사용하는 모델을 훈련할 때는, Softmax의 분모를 계산하기 위한 추가적인 Reducing이 필요하며, 이 과정에서 미분 그래프가 이어져있어야 훈련이 가능합니다. 그렇기 때문에 Multi-gpu 상황에서는 Reducing을 진행하기 위한 추가적인 메모리를 필요로 하게 되고, DisCo-CLIP은 이런 상황에 GPU Usage를 더 효율적으로 하는 방법론을 제시하는 논문이라고 이해할 수 있습니다. 자세하게는, 큰 Batch-size로 만들어지는 Attention Matrix를 Block화 하여 각 GPU가 수행해야 하는 InfoNCE Loss를 계산해보았을 때, 크게 미분 시 0이되는 연산과 다른 GPU에서도 동일하게 수행되는 연산 2가지를 줄이는 것으로 이를 달성하고자 합니다. InfoNCE Loss의 수학적 분해로 Trade-off 없는 Efficiency를 추구했다는 점이 가장 인상적이었으며, Multi-GPU에 국한되지 않는 일반화된 방법론까지도 발전될 수 있다면 좋겠다는 생각을 하였습니다. 좋은 논문 소개해주셔서 감사합니다.
이번 세미나에서는 "DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training" 논문이 소개되었습니다. 이 논문은 CLIP 모델의 대규모 훈련 과정에서 발생하는 메모리 사용 문제를 해결하기 위해 새로운 손실 함수인 DisCo Loss(Distributed Contrastive Loss)를 제안합니다. 기존 CLIP 학습 방식에서는 InfoNCE Loss를 계산하기 위해 모든 GPU에서 데이터의 전체 배치를 모아야 하며, 이는 메모리 사용량이 매우 높은 문제를 야기합니다. DisCo-CLIP은 이러한 문제를 해결하기 위해 각 GPU가 자체적으로 계산할 수 있는 DisCo Loss를 사용하여 불필요한 연산을 줄이고, 메모리 효율성을 크게 개선합니다. 이 논문의 핵심 아이디어는 모든 GPU가 독립적으로 Intra-GPU Gradient만을 계산하고, 그 결과를 통합하는 방식으로, 전체 배치를 작은 서브 배치로 나누어 처리하고 각 서브 배치 간에 필요한 최소한의 통신만을 통해 연산을 최적화하는 것입니다. 이로써 메모리 사용량을 1/N으로 감소시키며, 큰 배치 크기를 요구하는 CLIP 학습에서 더욱 효율적인 자원 활용이 가능하게 됩니다. 실험 결과는 기존 CLIP과 유사한 성능을 유지하면서도 메모리 사용량을 크게 줄이고 학습 시간을 단축하는 데 성공했음을 보여주었습니다. 이러한 방식은 대규모 멀티모달 모델 학습에서 자원을 보다 효율적으로 활용할 수 있는 중요한 기여를 했습니다. 특히, DisCo-CLIP의 개념은 다른 대조학습 기반 모델에도 적용할 수 있는 가능성을 보여주었으며, 다양한 도메인에서 그 효과를 더 검증해 볼 필요가 있음을 느꼈습니다. 이번 발표를 통해 대규모 데이터 학습에서 메모리 효율성과 성능을 모두 잡을 수 있는 새로운 접근 방식을 배울 수 있어 유익한 시간이었습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 “DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training” 논문이 소개되었습니다. 이 논문은 CLIP 모델의 대규모 학습 과정에서 발생하는 메모리 과부하 문제를 해결하기 위해 DisCo Loss라는 효율적인 분산 대조 손실 함수를 제안합니다. 기존 방식에서는 InfoNCE Loss 계산을 위해 모든 GPU에서 전체 배치를 수집하고 연산을 수행해야 했지만, DisCo-CLIP은 각 GPU가 자체적으로 계산할 수 있는 방식으로 손실을 재구성해 불필요한 메모리 사용과 중복 연산을 줄였습니다. 이를 위해 대규모 배치를 서브 배치로 나누고, 필요한 최소한의 정보만 GPU 간 통신을 통해 공유하면서도 최종적으로 Cross-GPU Loss 계산이 가능하도록 설계되었습니다. 이러한 방식은 메모리 사용량을 크게 줄이고 학습 속도를 개선하면서도 기존 CLIP 성능과 유사한 결과를 유지했습니다. 대규모 멀티모달 학습에서 메모리와 성능의 균형을 잡는 새로운 접근법으로 주목받을 수 있을 것 같으며, 향후 다양한 대조 학습 모델에 적용 가능성을 검토해볼 가치가 있다고 느꼈습니다. 발표를 통해 새로운 자원 효율적 학습 전략을 배울 수 있어 유익한 시간이었습니다. 감사합니다!
이번 세미나에서는 "DisCo-CLIP: A Distributed Contrastive Loss for Memory Efficient CLIP Training" 논문이 소개되었습니다. 이 연구는 Multi-GPU 환경에서 CLIP 학습을 효율적으로 수행할 수 있도록, 기존 CLIP Loss를 분해하여 불필요한 연산을 줄이는 DisCo Loss를 제안했습니다. DisCo Loss는 각 GPU가 독립적으로 Gradient와 Loss를 계산하도록 하여 메모리 사용량을 기존 CLIP의 1/N배로 줄이면서도, 큰 Batch 크기에서 효과적인 학습을 가능하게 했습니다. 이 접근은 특히 분산학습 환경에서 CLIP과 같은 대규모 모델을 효율적으로 학습할 수 있는 방법을 제시한 점에서 인상 깊었으며, 향후 비교 연구가 필요할 것으로 보였습니다. 좋은 발표 감사합니다.