번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 10483
|
관리자 | 2020.03.12 | 0 | 10483 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9093
|
관리자 | 2020.03.12 | 0 | 9093 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10208
|
관리자 | 2020.03.12 | 0 | 10208 |
500 |
[Paper Review] AA-CLIP: Enhancing Zero-Shot Anomaly Detection via Anomaly-Aware CLIP (1)
Junyeong Son
|
2025.05.08
|
추천 0
|
조회 35
|
Junyeong Son | 2025.05.08 | 0 | 35 |
499 |
[Paper Review]SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation (7)
Doyoon Kim
|
2025.05.01
|
추천 0
|
조회 113
|
Doyoon Kim | 2025.05.01 | 0 | 113 |
498 |
[Paper Review] TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables (17)
Sunghun Lim
|
2025.04.24
|
추천 0
|
조회 219
|
Sunghun Lim | 2025.04.24 | 0 | 219 |
497 |
[Paper Review] Imputation-based Time-Series Anomaly Detection with Conditional Weight-Incremental Diffusion Models (17)
Suyeon Shin
|
2025.04.21
|
추천 0
|
조회 165
|
Suyeon Shin | 2025.04.21 | 0 | 165 |
496 |
[Paper Review] Revisiting Multimodal Fusion for 3D Anomaly Detection from an Architectural Perspective (15)
Woongchan Nam
|
2025.04.16
|
추천 0
|
조회 193
|
Woongchan Nam | 2025.04.16 | 0 | 193 |
495 |
[Paper Review] Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding (17)
Kiyoon Jeong
|
2025.04.16
|
추천 0
|
조회 375
|
Kiyoon Jeong | 2025.04.16 | 0 | 375 |
494 |
[Paper Review] Reasoning over Time Series with LLMs (16)
Hyeongwon Kang
|
2025.04.09
|
추천 0
|
조회 388
|
Hyeongwon Kang | 2025.04.09 | 0 | 388 |
493 |
[Paper Review] Accurate predictions on small data with a tabular foundation model (17)
Jaehyuk Heo
|
2025.04.02
|
추천 0
|
조회 389
|
Jaehyuk Heo | 2025.04.02 | 0 | 389 |
492 |
[Paper Review] Reasoning and Reinforcement Learning for LLM (16)
Jaehee Kim
|
2025.04.02
|
추천 0
|
조회 379
|
Jaehee Kim | 2025.04.02 | 0 | 379 |
491 |
[Paper Review] LLM based Recommender Systems : EAGER-LLM (20)
Jungho Lee
|
2025.04.02
|
추천 0
|
조회 312
|
Jungho Lee | 2025.04.02 | 0 | 312 |
이번 세미나는 CYCLIP: Cyclic Contrastive Language-Image Pretraining 논문에 대하여 소개해주셨습니다. 해당 방법론은 CLIP 학습 시 contrastive learning 방법이 이미지와 텍스트 두 feature space를 같은 공간에서 매칭될 수 있도록 학습하지만 같은 클래스에 대한 이미지 또는 텍스트 간 같은 공간에 존재하지 않을 수 있는 geometrical inconsistency 문제에 대하여 다루었습니다. 따라서 이를 위해 학습 시 consistency term 두 가지를 추가하여 해당 문제를 다루었습니다. 다만 실험 결과에서 아쉬웠던 점은 모델 성능 자체의 향상은 존재하지만 alignment와 uniformity 실험에서 두 loss term을 추가한 CyCLIP 보다 기존 CLIP이 더 좋았다는 점에서 의아했습니다. 성능 향상은 잘 이루어졌지만 가정한 내용과 실험의 결과가 상반되어 아쉬움이 있습니다. 그러나 contrastive learning에서 geometrical inconsistency와 같은 문제점과 negetive sampling 에 대한 문제점을 알 수 있었던 좋은 시간이었습니다. 좋은 발표 감사합니다.
금일 세미나는 대표적인 VLM인 CLIP의 Representation Space 상의 문제점을 해결하고자 한 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"을 중심으로 진행되었습니다. 기존 CLIP의 경우 Image-Text Representation 간에만 손실함수가 계산되면서 실제 Image 및 Text representation 의 공간이 가져야 하는 특성들에 대해 집중하지 못한 측면이 있습니다. 본 연구는 이에 맞추어 Cross-Modal/In-Modal Consistency를 유지할 수 있도록 두 손실함수를 제안함으로서 Uniformity를 높이고자 시도했습니다. 실제 문제 정의 및 해결 방안이 매우 직관적이고 기존 사전학습 언어모델의 Representation에서도 비슷한 문제를 해결했기 때문에 결과에 많은 기대를 가지고 있었습니다. 하지만 실제 성능에 있어서는 일관된 결과물이 보이지 않고, 특히 단순 CLIP이 uniformity와 alignment 측면에서 더 나은 모습을 보이면서 실제 두 손실함수의 역할이 다소 모호해진 측면이 있는 것 같습니다. 하지만 Vision-Language에서 representation space에 대해 생각해볼 수 있는 좋은 기회였던 것 같습니다. 자세한 발표 감사드립니다.
본 세미나는 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"이라는 논문을 중심으로 진행되었습니다. 해당 논문은 Contrastive learning에서 negative pair 간 거리를 명시적으로 설정한 연구입니다. Image-Text pair에 대해 2가지 consistency term을 학습에 도입한 것이 큰 차이점입니다. 첫 번째 term인 Cross-Modal Consistency는 Image-Text 간의 유사도가 같아지도록 학습하는 것이고, In-Modal Consistency는 Image-Image 사이와 Text-Text 사이의 유사도가 같아지도록 학습하는 것입니다. 최종적으로 두 loss term을 학습에 사용함으로써, aligned feature space의 geometrical consistency를 향상 시킵니다. 흥미로웠던 점은 VLM Contrastive learning에서 Image-Text 쌍 거리를 제한하는 첫 연구라는 것입니다. 특히 Contrastive learning에서는 Hard Negative가 중요하기에, Hard Negative를 더 활용하는 점도 고안해본다면 기존 연구를 발전시킬 수 있다고 생각하였습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 CLIP 모델의 구조적인 한계를 극복하기 위해 새로운 접근법을 제시한 CYCLIP: Cyclic Contrastive Language-Image Pretraining 논문에 대해 발표해 주셨습니다. 해당 논문은 기존 Contrastive Learning 방식에서 발생하는 Geometrical Inconsistency 문제를 집중적으로 다루며, 특히 이미지와 텍스트 간의 관계를 더욱 정밀하게 조정할 수 있는 방법론을 도입합니다. 여기서 제안된 Cross-Modal Consistency와 In-Modal Consistency라는 두 가지 Consistency Term은 이미지-텍스트 쌍 및 동일 모달리티 내 요소들 간의 거리를 일정하게 유지하도록 강제함으로써, 더 일관된 학습 결과를 도출하고자 합니다. 다만, Alignment와 Uniformity 측면에서 이러한 Consistency Term이 가져온 영향을 면밀히 분석한 결과, 두 조건이 모두 만족되지 않았다는 점에서 연구의 한계가 드러납니다. 그럼에도 이미지와 텍스트 간의 Geometrical Consistency를 보다 체계적으로 측정하고 이를 향상시킬 수 있는 구체적인 방법론을 제시했다는 점에서 큰 기여를 했다고 생각합니다. 이는 Vision-language 모델의 Robustness와 Effectiveness를 향상시킬 수 있는 중요한 발판을 마련했으며 앞으로도 발전 가능성이 높은 연구라고 판단됩니다. 좋은 발표 감사합니다.
이번 세미나에서는 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"이라는 논문에 대한 소개를 중심으로 진행되었습니다. CYCLIP은 기존 Contrastive Learning에서 명시적 기준 없이 학습하는 방식을 문제 삼아 이를 해결하고자 합니다. negative 샘플 간 거리를 "멀어지게"라는 기준은 구체적이지 않기 때문에 이를 해결하기 위해 두가지 Consistency를 제안합니다. 먼저 Cross-Modal Consistency를 통해 이미지와 텍스트 간 유사도를 일정하게 유지하도록 하였고, In-Modal Consistency를 통해 같은 모달리티 내에서 유사도를 일정하게 유지하도록 하였습니다. 이러한 두 가지 Consistency를 도입한 결과 기존 CLIP 대비 성능 향상을 이루기도 했지만, 모델의 일관성을 향상 시켰다는 점에서 해당 방법이 더욱 효과적임을 체감할 수 있었습니다. 다만, 기존 CLIP이 명시적인 거리 기준 없이 가까워지고 멀어지는 학습을 수행하면서 의미적인 유사도를 자연스럽게 담아낼 수 있었다고 생각합니다. 그렇기 때문에 모달리티 내에서 유사도를 제한하는 In-Modal Consistency가 모든 설정에서 긍정적인 영향을 미치는 것이 아니었다는 연구의 한계가 드러났다고 생각합니다. 그럼에도 Contrastive Learning에서 강건성을 향상 시키기 위해 Geometrical Consistency를 활용했다는 점이 인상 깊었습니다. 해당 내용을 잘 이해할 수 있도록 Contrastive Learning의 문제를 해결한다는 동일한 목적을 가지는 Hard Negative 등 배경지식에 대해 자세히 설명해주셔서 더욱 흥미롭게 들을 수 있었습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나는 "CYCLIP: Cyclic Contrastive Language-Image Pretraining" 논문을 중심으로 진행되었습니다. 이미지와 텍스트 간, 그리고 동일 모달리티 내에서의 일관성을 유지하기 위한 두 가지 새로운 손실 함수의 제안했습니다. 이를 통해 모델의 Uniformity를 향상시키려는 시도에도 불구하고 실제 성능에서는 예상과 다르게 일관된 결과를 보여주지 못하는 점을 한계로 꼽을 수 있을 것 같습니다. Vision-Language 모델의 Representation Space를 다루는 데 있어 새로운 관점과 접근 방식을 배울 수 있어 좋았습니다. 좋은 발표 감사합니다.
금일 세미나에서는 'CYCLIP: Cyclic Contrastive Language-Image Pretraining' 이라는 논문을 소개해 주셨습니다. 해당 논문에서는 Contrastive Learning 환경에서 Negative pair들과는 멀어지게끔 유도한다라는 세팅 자체가 모호하다라는 점을 언급하고 있습니다. 먼저 Feature space 상에서 Geometric Consistency를 판단하기 위해 이미지 기준 label과 텍스트 기준 label이 같은지 일치여부 확률을 계산하는 Consistency Score를 제안하며 Image Feature와 Text feature간의 align 정도를 정량화하고 있습니다. 이후 Geometric Inconsistency를 방지하기 위해 Image-Text pair 두 개에 대하여 두 Negative Image-Text pair 사이의 유사도가 같게끔(Cross-Modal Consistency), 두 image 사이, 두 text 사이의 유사도가 같게끔(In-Modal Consistency) Loss를 구성하여 Geometric Inconsistency를 방지하고자 제안하고 있습니다. 해당 논문을 보면서 실험 결과로 각각의 loss가 본 논문의 의도대로 clean하게 보이진 않았지만, 'Negative Pair는 멀어지게끔 학습한다'라는 개념보다 '두 Negative Image-Text pair 사이의 유사도가 같아지게끔 학습한다'로 명확하게 목표를 설정하였다는 점이 흥미로웠습니다. 좋은 발표 정말 감사드립니다!
이번 세미나에서는 기존 Contrastive Learning에 더하여, Similarity값이 가져야 하는 Inductive Bias를 설정하는 것으로 더 좋은 Embedding을 추출하고자 하고자 했던 연구를 다루는 논문인 'CYCLIP: Cyclic Contrastive Language-Image Pretraining'를 중심으로 진행되었습니다. 기존 Contrastive Learning은 특정한 기준점 없이 Positive Pair의 유사도를 높이는 것(+자연스럽게 확보된 Negatives들에 대해서는 낮추는 것)만 학습하기 때문에, 샘플링된 Negatives들의 질 혹은 Batch Size에 그 성능이 의존하는 경향이 있습니다. 이를 해결하고자, Image-Text Contrastive Learning의 상황에서 Feature간 Geometric Consistency가 유지되어야 하는 경우들을 제시합니다. 이 경우는, 우선 동일한 Negative Pair의 경우, 두 모달리티 사이의 다름 정도(즉, 유사도)가 같도록, 또 동일한 모달리티 내의 i, j간의 거리 또한 Image와 Text Feature들 사이에서 동일하게 계산되는 경우를 뜻합니다. 즉, 단순한 Positive Pair간의 유사도 극대화뿐만 아니라, 모달리티 사이 내지는 모달리티 내에서, 극대화가 아닌 거리 유지 정도까지도 Feature Space를 학습할 때 고려하게끔 손실 함수를 구성하여, 저자들이 원하는 방향으로 Embedding Model을 학습시킬 수 있었음을 보여줍니다. 다만, 이러한 Inductive Bias가 정말로 도입되어도 좋은 Bias인지에 대한 논리가 좀 더 포함되어있으면 좋겠다는 생각을 했으며, Computation Cost 또한 크게 증가할 것으로 생각이 되는데, 이에 따른 Trade-Off는 어떻게 처리할지가 궁금해지는 연구였다고 생각이 됩니다. 재미있는 논문 차근차근 잘 설명해주셔서 감사합니다!
이번 세미나에서는 CYCLIP: Cyclic Contrastive Language-Image Pretraining이라는 방법론을 다루었습니다. 해당 논문은 기존 contrastive learning의 학습 방식은 negative sample과의 거리를 기준점이 없이 멀어지게만 학습시키기 때문에 geometrical inconsistency가 발생한다는 문제점을 지적합니다. 이를 해결하기 위해 Cross-Modal Consistency와 In-Modal Consistency loss를 제안합니다. 실험에서도 높은 성능 향상 폭을 보이며 방법론의 효과성을 입증합니다. contrastive learning의 새로운 접근 방식을 배울 수 있어서 좋았던 것 같습니다. 좋은 발표 감사합니다!
이번 세미나에서는 “CYCLIP: Cyclic Contrastive Language-Image Pretraining”이라는 연구를 중심으로 소개해 주셨습니다. 해당 연구에서는 Image-Text Pair를 이용한 Contrastive Learning 시에 단순히 Positive Pair 간 거리는 최소화하도록, Negative Pair 간 거리는 최대화하도록 하는 방식은 최적이 아님을 지적하고 있습니다. 한 배치 내에 수백 개의 Negative Sample 들이 사용됨에 따라, 별다른 제약 없이 최소화 및 최대화를 하다보니 Embedding Space 상에서 원래 의도한 바와 달리 Image가 다른 Class에 해당하는 Text Embedding과 가까워지는 등의 문제게 발생할 수 있습니다. 해당 연구에서는 해당 문제를 Geometrical Inconsistency라 칭하며 리를 해결하기 위한 두 개의 Consistency Loss Term을 제안했습니다. 두 Negative Image-Text Pair 사이의 유사도가 같아야 하고 (“Cross-Modal Consistency), 두 Image 사이, 두 Text 사이의 유사도가 같아야 함 (“In-Modal Consistency”)을 나타내는 Term을 Contrastive Learning 과정에 추가했습니다. 그간, Retrieval 관련 방법론 및 Contrastive Learning 관련 방법론을 보며 Positive 간 거리 최소화, Negative와는 거리 최대화를 해야한다는 것에 대해 이러한 문제가 발생할 수 있음을 생각해본 적이 없었는데 이번 세미나를 통해 인지할 수 있었습니다. 흥미로운 연구를 다룬 발표 감사합니다.
이번 세미나에서는 기존 Contrastive Learning이 Positive Pair끼리는 가까워지고, Negative Pair 간에는 멀어져야한다는 조건 외에 구체적인 제약 조건 없이 Feature Space 상에 위치한다는 한계점을 개선시키기 위해 Contrastive Learning에서 Negative Pair 간의 거리를 명시적으로 설정한 연구인 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"이라는 논문에 대한 발표를 중심으로 진행되었습니다. 해당 논문에서는 Image-Text Pair에 대해 Image-Text 간의 유사도가 같아지도록 학습하는 Cross-Modal Consistency와 같은 Modality(Image-Image, Text-Text) 내에서는 유사도를 일정하게 유지하도록하는 In-Modal Consistency 두가지를 학습에 반영하여 모델의 Uniformity를 향상시켰습니다. 논문이 가지는 의도의 경우에는 현재 Contrastive Learning을 기반으로 학습을 진행하는 다양한 Vision-Language Model들이 공통적으로 가지는 문제점이라는 생각이 들었으며, 제시하는 방법론 또한 합당한 방향이라는 생각이 들었는데 결론적으로 실험 파트에서 아쉬운 부분이 많았습니다. 본 논문에서 제시한 두 가지의 Term이 결론적으로 모든 Task에서 일관적인 성능 향상을 보이지 못했고, 실제로 CLIP 모델과의 비교에서도 제시한 가설에 부합하는 결과를 이끌어내지 못했습니다. 그러나 해당 논문이 추구하는 방향성 자체는 앞으로 충분히 고민해봐야할 문제임에는 틀림이 없기 때문에 해당 논문을 기반으로 더 개선된 연구 방법들이 나올 수 있을 것이라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
이번 세미나는 CYCLIP: Cyclic Contrastive Language-Image Pretraining를 주제로 진행되었습니다. VLM에서의 contrastive learning task를 다루고 있습니다. contrastive learning을 통해 이미지와 텍스트를 같은 space에 매칭될 수 있도록 합니다. 본 논문에서 저자들은 동일한 클래스의 이미지와 텍스트들이 feature 상에서 가까이 분포할 것이라는 보장이 없다는 점을 ‘geometrical inconsistency’라고 정의하고 있습니다. 해당 문제를 해결하기 위해 geometrical consistency를 측정할 수 있는 consistency score와 같은 modal끼리의 consistency, cross modal에서의 consistency를 고려하는 두가지 consistency loss term을 제안하였습니다. 서로 다른 modal에서의 contrastive learning 연구라는 점이 흥미로웠습니다. 좋은 발표 감사합니다.
이번 세미나에서는 CYCLIP: Cyclic Contrastive Language-Image Pretraining논문에 대해 진행되었습니다. 본 논문은 기존의 CLIP 모델이 이미지와 텍스트 간의 치성을 맞추는 데 있어서 겪는 문제점, 특히 geometric inconsistency를 해결하고자 새로운 접근 방식을 제시합니다. 이를 위해, 두 가지 consistency term을 도입하여 cross-modal 및 in-modal 일관성을 강화하였습니다. 그러나 실험 결과는 이론적인 기대와 다소 달랐으며, 특히 기존의 CLIP 모델과 비교했을 때, uniformity와 alignment 측면에서 CYCLIP이 예상만큼의 성능 향상을 보이지 않았다는 점이 지적되었습니다. 이러한 결과에도 불구하고, 이번 세미나는 contrastive learning에서의 geometric inconsistency 문제와 이를 해결하기 위한 접근법에 대해 심도 있는 논의가 이루어진 유익한 시간이었습니다. 매우 흥미로운 내용과 논의로 좋은 발표였습니다. 감사합니다.
금일 세미나는 CYCLIP: Cyclic Contrastive Language-Image Pretraining 논문을 바탕으로 진행되었습니다. 해당 논문에서 다루고 있는 Traning object는 contrastive learning으로, 이미 self-supervised learning 분야에서 많이 사용되고 있는 방법입니다. 이때, 해당 논문에서는 특히 Hard Negative sampling에 중점을 두고 있습니다. Hard Negative sample은 Positive sample이 아니나, Anchor와 유사한 특징을 가지는 샘플을 의미하며, Contrastive learning의 성능은 이러한 Hard Negative sample에 크게 의존합니다. In-batch negative를 예시로 들었을 때, 배치 내에 확연하게 구분되는 Easy negative sample들이 많다면 이미 잘 구분되는 것들을 더 멀어지게 한다는 비효율성을 발생시키며, 모델이 확연하게 구분되는 특징이나 패턴에 Overfitting되어서 generalization이 잘 발생하지 않게 합니다. 이에 Hard Negative sample의 역할이 중요하다고 말할 수 있습니다. 이때 제안 방법론인 CYCLIP에서는 Positive pair와 Negative pair 사이의 거리를 명시적으로 제한하고 있습니다. 이를 진행하고자 Image feature space와 Text feature space사이의 Geometrical Consistency의 정도를 계산하는 방법 제안하며, Geometrical Inconsistency를 해소할 수 있도록 하는 2 가지의 Loss term을 추가적으로 제안합니다. Representation space 상에서의 Contrastive learning에 대해 더 자세하게 생각해 볼 수 있는 좋은 시간이었습니다. 유익한 세미나 정말 감사드립니다.
이번 세미나에서 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"으로 진행해주셨습니다. 해당연구는 기존의 Contrastive Learning 모델들이 겪고 있는 Geometrical Inconsistency 문제에 대한 깊은 통찰을 제공하며, Cross-Modal Consistency와 In-Modal Consistency라는 두 가지 새로운 Consistency Term을 통해 문제를 해결하고자 하는 새로운 접근 방식을 제안합니다. 이러한 접근은 이미지와 텍스트 간의 더 나은 정합성을 추구하며, 결과적으로 모델의 Robustness와 Effectiveness를 증진시킬 수 있습니다. 특히, Cross-Modal Consistency는 이미지와 텍스트 간의 유사도를 균일하게 유지하려는 시도에서 큰 의미를 지니며, In-Modal Consistency는 같은 모달리티 내의 요소들 간의 일관성을 강조하여 학습 과정에서의 Stability를 강조합니다. 이번 세미나를 통해 Contrastive Learning의 기존 문제점과 그 해결 방안에 대해 보다 깊이 있게 이해할 수 있게 되었습니다. 좋은 발표 감사합니다.
이번 세미나에서는 "CYCLIP: Cyclic Contrastive Language-Image Pretraining"에 대해 소개해주셨습니다. 이는 contrastive learning 중에 발생하게 되는 geometrical consistency 문제점에 집중하여 이를 해결하고자 새로운 방법론을 제안한 연구였습니다. geometrical consistency란 contrastive learning을 수행하면서 이미지와 text 간의 거리가 가깝고 멀어지게 되는데, 그때 모든 pair 간의 거리를 계산하게 되면서 실제 두 pair간의 관계성이 가깝고 먼 위치적 관계성과 다르게 나타나는 경우가 다수 발생하는 것을 말합니다. 이런 경우 새로운 이미지가 입력되면 관련된 representation과 상대적으로 가깝지 않게 위치할 가능성이 존재하게 되고 이 부분이 핵심 문제 요소라고 할 수 있습니다. 이러한 geometrical consistency는 consistency score를 계산하여 파악할 수 있습니다. 이미지 라벨과 텍스트 라벨을 비교하고 이것이 다른 경우 두 representation 간의 synchrony가 부족한 것으로 판단하는 원리입니다. 논문에서 제안하는 방법은 CyCLIP으로, [이미지A - 텍스트A], [이미지B - 텍스트B]가 있고 두 image-text pair가 negative라면 두 가지의 consistency를 측정하여 판단하는 것입니다. Cross-Model consistency는 두 negative image-text pair 사이의 유사도가 같아야 한다는 것으로, sim(이미지A, 텍스트B) == sim(이미지B, 텍스트A)를 의미하게 되고, In-Model consistency는 두 image 사이, 두 text 사이의 유사도가 같아야 한다는 것으로, sim(이미지A, 이미지B) == sim(텍스트A, 텍스트B)를 의미합니다. 좋은 발표 감사드립니다.
이번 세미나에서는 "CYCLIP: Cyclic Contrastive Language-Image Pretraining" 논문을 소개해주셨습니다. 이 논문은 기존 대조적 학습 방법들이 명확한 기준 없이 학습하는 문제점을 개선하기 위해 제안되었습니다. 이를 위해 CYCLIP은 Cross-Modal Consistency와 In-Modal Consistency라는 두 가지 일관성을 도입하여, 이미지와 텍스트 간의 유사성을 유지하고 동일 모달리티 내에서의 일관성도 강화하였습니다. 이 방법은 CLIP의 성능을 뛰어넘는 결과를 보였으며, 모델의 일관성 또한 향상시켰습니다. 또한, 기존의 CLIP 모델이 의미적 유사도를 포착하면서 직관적으로 학습할 수 있는 장점을 지니고 있음에도 불구하고, 특정 상황에서는 모달리티 간 유사도를 제한하는 것이 부정적인 영향을 끼칠 수 있다는 한계도 확인되었습니다. 이러한 점을 감안하여 발표자는 Contrastive Learning의 문제점을 명확히 짚어주며, Hard Negative와 같은 개념을 통해 접근하는 방식을 자세히 설명해주었습니다. 좋은 발표 감사합니다.