번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11128
|
관리자 | 2020.03.12 | 0 | 11128 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 9762
|
관리자 | 2020.03.12 | 0 | 9762 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 10849
|
관리자 | 2020.03.12 | 0 | 10849 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (5)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 64
|
Jaewon Cheon | 2025.06.27 | 0 | 64 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 248
|
Minjeong Ma | 2025.06.07 | 0 | 248 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 36
|
Minjeong Ma | 2025.06.02 | 0 | 36 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 33
|
Kiyoon Jeong | 2025.06.02 | 0 | 33 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 34
|
SangMin Lee | 2025.06.02 | 0 | 34 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 330
|
Siyul Sung | 2025.05.31 | 0 | 330 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 319
|
Woojun Lee | 2025.05.20 | 0 | 319 |
502 |
[Paper Review] Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation (16)
Jinwoo Park
|
2025.05.16
|
추천 0
|
조회 290
|
Jinwoo Park | 2025.05.16 | 0 | 290 |
501 |
[Paper Review] SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning (18)
Hun Im
|
2025.05.15
|
추천 0
|
조회 282
|
Hun Im | 2025.05.15 | 0 | 282 |
이번 세미나는 Pair로 구성되는 이미지-텍스트 쌍에 대한 학습 없이 Caption을 생성하는 Unsupervised Image Captioning을 수행하기 위해 Relational Distant Supervision을 제안하여 이미지와 텍스트 간에 가지는 Semantic Gap을 완화시키는 “Relational Distant Supervision for Image Captioning without Image-Text Pairs”라는 논문에 대한 발표를 중심으로 진행되었습니다. Unsupervised Image Captioning 분야에서 가장 핵심은 이미지에서 추출한 객체와 텍스트의 관계를 연결해주는 다리 역할을 어떻게 수행할 것인지에 대한 부분입니다. 해당 논문에선 이를 위해서 외부 코퍼스를 통해 Relational Distant Supervision 학습 데이터를 구축하고, Predicate Embedding과 Reconstructed Image Feature에 대한 GT 간 MSE Loss를 통해 학습하는 과정을 거칩니다. 이후 추론된 관계를 문장, 즉 Pseudo Image-Sentence Pair를 구축한 후 Image Captionig 모델을 통해 디코딩합니다. 모든 Unsupervised 기반 Task들이 그러하듯이, 정답 Label이 없는 상황에서 학습을 구성하고 이를 통해 Task를 수행하는 과정이 매우 어려운데 Unsupervised Image Captioning 또한 매우 어려운 난이도의 Task라는 생각이 들었고, 이를 잘 해결하기 위해 노력한 연구라는 생각이 들었습니다. 좋은 발표 해주셔서 감사합니다.
본 세미나는 대규모의 이미지-문장 데이터에 대한 의존성을 완화하는 Unsupervised Image Captioning을 위한 Relational Distant Supervision을 제시한 논문을 중심으로 진행되었습니다. 특히 외부 Sentence Corpus에서 추출한 지식을 이미지에 전달함으로써 Semantic Gap이 적은 Pseudo 이미지-문장 쌍을 구축했다라는 점이 가장 큰 기여점이라고 생각합니다. 다만, 객체 간의 관계를 반영하는 것이 술어 뿐만이 아니라 또 다른 단어가 될수도 있기 때문에 단어 간의 관계를 다른 단어로 표현하는 방법은 없나? 라고 생각이 들었습니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs”라는 논문을 중심으로, 대규모 이미지-문장 데이터 없이도 Unsupervised Image Captioning을 수행하기 위해 Relational Distant Supervision을 활용한 연구에 대해 소개해주셨습니다. 해당 연구는 이미지와 텍스트 간의 Semantic Gap을 줄이고, 외부 코퍼스에서 지식을 추출해 Pseudo 이미지-문장 쌍을 생성하는 방식이 주요 기여점으로 보였습니다. 특히 객체 간 관계를 반영하는 술어 기반의 학습 과정과 이를 통해 구축된 학습 데이터가 흥미로웠습니다. 다만, 술어 외의 다른 표현 방식을 활용해 관계를 나타낼 가능성에 대해 고민해볼 여지도 있어 보입니다. 좋은 발표 감사합니다.
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs"이라는 논문에 대한 소개를 중심으로 진행되었습니다. 본 논문은 Unsupervised Image Captioning 분야에서 이미지-텍스트 쌍의 의존도를 줄이고, Relational Distant Supervision을 통해 이미지와 텍스트 사이의 Semantic Gap을 완화하는 새로운 방법론을 제안합니다. Relationship Learning Module은 이미지에서 객체 관계를 추론하며, 텍스트 코퍼스에서 얻은 관계 지식을 활용하여 이미지와 텍스트를 연결합니다. Relationship-to-Sentence Module은 추론된 객체 관계를 기반으로 문장을 생성하여 Pseudo Image-Sentence Pair를 구성합니다. 마지막으로 Image Captioning Module은 생성된 쌍을 학습 데이터로 활용하여 캡션을 생성합니다. 이번 연구는 Unsupervised Task의 난이도를 극복하고, Distant Supervision을 효과적으로 활용한 접근법을 보여주었습니다. 앞으로 더 다양한 텍스트 코퍼스와 이미지 데이터셋을 활용한다면, 이미지와 텍스트 간의 상호작용을 더욱 정밀하게 이해하는 데 기여할 수 있을 것이라 생각합니다. 좋은 발표 준비해주셔서 감사합니다.
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs" 논문을 중심으로, 이미지-텍스트 쌍 없이도 효과적인 이미지 캡션 생성을 가능하게 하는 Relational Distant Supervision 방법론에 대해 발표해주셨습니다. 제안된 방법론은 외부 코퍼스를 활용하여 Relation기반의 Relational Distant Supervision 학습 데이터를 구축하고, Predicate Embedding과 재구성된 이미지 특징(Reconstructed Image Feature) 간의 MSE 손실을 통해 모델을 학습하는 과정을 제안하고 있습니다. 이를 통해 이미지와 텍스트 간의 Semantic Gap을 줄이고, 추론된 관계를 바탕으로 Pseudo Image-Sentence Pair를 생성하여 최종적으로 이미지 캡션을 디코딩합니다. 이러한 접근 방식은 Unsupervised 환경에서도 높은 품질의 캡션 생성을 가능하게 하여, 이미지-텍스트 쌍에 대한 의존성을 효과적으로 감소시키는 점이 매우 인상적이었습니다. 실제 사용자에게 Caption을 제공하는 Application 관점에서 보았을 때, 포괄적인 Predicate보다 구체적이고 직접적인 Predicate가 더욱 필요한 상황에서는 해당 연구의 필요성이 더욱 강한 느낌으로 다가왔었고 Evaluation 등 해결해야 할 부분들이 많은 연구 분야라고 생각이 들었던 것 같습니다. 좋은 발표 준비해 주셔서 감사합니다.
금일 세미나는 Unsupervised manner로 text와 image 정보를 학습하는 방법론을 제안한 “Relational Distant Supervision for Image Captioning without Image-Text Pairs”을 중심으로 진행되었습니다. 이미지와 문장 정보가 align된 데이터를 이용하여 모델을 학습하는 것은 vision-language multi modal 분야에서 매우 활발히 사용되는 학습 방식입니다. 하지만 실제로 고품질의 aligned 데이터를 확보하는 것은 매우 어려운 작업일 수 밖에 없습니다. 이에 대해 해당 논문에서는 entity 기반의 비지도 학습 방식의 데이터 정제 및 학습을 제안하고 있습니다. 구체적으로 이미지 내 객체와 연관된 단어들을 활용한 문장을 align합니다. 또한, 향후 학습 과정에서도 이미지와 텍스트 간의 semantic 정보를 보존할 수 있도록 entity 간의 relationship 정보에 대한 mse loss와 reconstructed image에 대한 mse loss를 모두 사용하고 학습하게 됩니다. 제안된 문제 상황에 대해서는 매우 공감하는 바이지만, 해결 과정에서 정말 align되지 않은 데이터를 활용하는지에 대해서는 공감할 수 없었습니다. 또한, 대용량 데이터를 활용함에도 매우 복잡한 프레임워크로 인해 한계점이 명확할 것으로 보입니다. 감사합니다.
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs"라는 논문을 중심으로, 이미지-텍스트 쌍에 대한 학습 없이도 이미지 캡션 생성을 가능하게 하는 새로운 접근법을 발표해주셨습니다. 해당 연구는 Unsupervised Image Captioning 분야에서 이미지와 텍스트 간의 Semantic Gap을 완화하기 위해 Relational Distant Supervision이라는 기법을 도입하였으며, 외부 텍스트 코퍼스를 활용해 Pseudo Image-Sentence Pair를 구축한 점이 특히 인상 깊었습니다. 이미지에서 객체 간 관계를 추론하고, 이를 Predicate Embedding과 재구성된 이미지 특징 간 MSE Loss를 통해 학습한 뒤, 생성된 관계를 기반으로 문장을 디코딩하는 방식은 매우 독창적이고 실용적인 접근으로 보입니다. 특히 대규모 레이블 데이터에 대한 의존도를 줄이는 동시에, 객체와 텍스트 간의 의미적 연결을 강화하려는 시도가 Unsupervised Task의 난이도를 효과적으로 극복했다고 생각됩니다. 좋은 발표 감사합니다 !
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs" 논문에 대해 다뤄주셨습니다. 본 연구는 이미지와 텍스트 간의 직접적인 매칭 데이터를 활용하지 않고도 이미지 캡셔닝을 학습할 수 있는 새로운 접근법을 제안하였습니다. 특히, 이미지 내 객체 간의 관계를 학습하고 이를 텍스트로 표현하는 방식으로, 관계 기반 학습(Relational Distant Supervision)을 도입한 점이 돋보였습니다.
이 논문은 객체 검출 및 관계 추론에서 얻은 지식을 텍스트 생성 모델에 효과적으로 전달하여, 기존 이미지-텍스트 쌍 데이터의 부족 문제를 극복하였습니다. 또한, 대규모 레이블이 없는 이미지 데이터를 활용해 이미지의 의미적 표현을 자연스러운 문장으로 변환하는 과정을 자동화하여 실용성을 높였습니다.
다만, 객체 간 관계 추론의 정확도에 따라 최종 캡션 품질이 크게 좌우될 수 있어, 관계 모델의 성능 향상이 핵심 과제로 보입니다. 전반적으로, 본 연구는 데이터 효율성을 극대화한 이미지 캡셔닝 접근법을 제시하며, 이미지와 텍스트 간의 간접 학습 가능성을 확장한 점에서 큰 의의를 지닙니다. 좋은 발표 감사합니다!
이번 세미나에서는 "Relational Distant Supervision for Image Captioning without Image-Text Pairs"에 대해 소개해주셨습니다. 해당 연구는 image-text pair 없이도 image captioning model을 훈련할 수 있는 참신한 아이디어를 다룹니다. 특히, relational distant supervision을 활용하여 텍스트 정보를 이미지와 연결하였으며, 이를 통해 데이터의존적이었던 기존 이미지 캡셔닝 방식에서 벗어나 데이터 구축의 어려움을 극복할 가능성을 보여주었습니다. 두 차례의 세미나에서 이미지 캡셔닝과 관련된 이야기를 다루어주셔서 다소 낯설었던 연구에 대해 훨씬 잘 이해해볼 수 있었습니다. 발표 수고 많으셨습니다. 좋은 발표 감사드립니다.
이번 세미나에서는 “Relational Distant Supervision for Image Captioning without Image-Text Pairs”라는 논문을 중심으로, 레이블된 이미지-텍스트 쌍 없이도 이미지 캡션 생성을 가능하게 하는 혁신적인 접근법이 발표되었습니다. 본 연구는 이미지와 텍스트 사이의 Semantic Gap을 줄이기 위해 Relational Distant Supervision을 활용하며, 외부 텍스트 코퍼스를 기반으로 Pseudo Image-Sentence Pair를 구축합니다. 구체적으로, Relationship Learning Module은 이미지 내 객체 간의 관계를 추론하고, 이를 텍스트 코퍼스에서 얻은 관계 지식과 연결하며, Relationship-to-Sentence Module은 이러한 관계를 기반으로 문장을 생성하여 학습 데이터를 구축합니다. 최종적으로 Image Captioning Module은 생성된 데이터로 캡션 생성 모델을 학습합니다. 이러한 접근은 Unsupervised Image Captioning의 난이도를 극복하는 동시에, 대규모 레이블 데이터에 대한 의존성을 줄이고, 객체와 텍스트 간의 의미적 연결을 강화하는 데 기여합니다. 특히 외부 지식을 효과적으로 통합해 비지도 학습의 가능성을 확장한 점이 인상적이었습니다. 향후 더 다양한 텍스트 코퍼스와 이미지 데이터셋을 활용한다면, 이미지-텍스트 상호작용의 정밀성을 한층 높일 수 있을 것으로 기대됩니다. 좋은 발표 감사합니다!
이번 세미나는 이미지 캡셔닝을 주제로 진행되었습니다. 여러 방식의 학습 방식이 있지만 그 중 ‘Unsupervised Image Captioning’은 곧 이미지와 그에 대응한 텍스트 쌍을 정하지 않은 채 학습하는 것을 의미합니다. 당연하게도 labeling의 어려움을 축소할 수 있는 방안이지만, 그럼 어떻게 소위 ‘제 짝을 찾아갈 것인가’ 가 당면하는 과제가 될 것입니다. 제안하는 방법론은 외부 코퍼스에서 추출한 객체 관계(realtion)와 사진 속에서 탐지된 객체, 그리고 문장 꾸러미들을 가지고 다음의 두 가지의 모듈을 학습한 후 최종적으로 이미지 캡셔닝을 수행합니다. 첫번째는 Relationship Learning 모듈로 이미지와 객체 레이블을 입력으로 받아 객체 관계를 추론하는 모듈이고, 두번째는 Relationship-to-Sentence 모듈로 객체 관계를 입력으로 받아 문장으로 변화는 모듈입니다. 따라서 이 두 모듈을 이용해 기학습된 두모듈로부터 생성된 문장과 학습대상의 이미지 캡셔닝 모듈로 부터 나오는 캡션의 차이를 기반으로 학습이 진행됩니다. 따라서 이 모든 과정에서 실제 레이블이 전혀 활용되지 않기 때문에 비지도 학습이라 볼 수 있습니다. 전반적으로 아이디어가 충분히 납득 가능하였지만, 각 모듈이 pseudo pair 를 가지고 학습하기에 해당 pseudo pair의 정확성을 보장할 수 있는 장치가 더 마련되면 좋을듯합니다. 감사합니다.