[Paper Review] MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

Paper Review
작성자
Kiyoon Jeong
작성일
2025-01-16 22:54
조회
586
발표자: 고려대학교 산업경영공학과 석사과정 정기윤

논문제목: MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

논문링크: https://arxiv.org/abs/2402.04788

Overview:
  • 본 논문은 Multimodal Large Language Models(MLLMs)의 판단이 사람의 판단과 얼마나 맞닿아 있는가를 분석하기 위한 새로운 벤치마크 *MLLM-as-a-Judge*를 제안함
  • 세 가지 주요 작업(Scoring Evaluation, Pair Comparison, Batch Ranking)을 통해 MLLMs의 판단이 인간과 얼마나 비슷한지 수치적으로 계산함
  • Scoring Evaluation: 단일 이미지에 대한 단일 응답을 점수화
  • Pair Comparison: 단일 이미지에 대한 두 응답의 상대적 우위를 비교
  • Batch Ranking: 단일 이미지에 대한 여러 응답을 품질 기준에 따라 정렬
  • 평가 방법: “평가 대상 MLLM”의 평가와 공동저자 6명의 평가 사이의 pearson 유사도, accuracy, f1,recall, 편집거리 등을 계산하여 각 MLLM이 얼마나 인간과 유사한 평가를 하는지 수치화
  • 실험결과 GPT-4V 등 최신 MLLMs의 성능이 Pair Comparison에서 인간과 유사하지만, Scoring 및 Batch Ranking 작업에서는 한계가 있음을 보였음
  • 또한, MLLMs가 판단 과정에서 드러내는 편향(Egocentric Bias, Length Bias 등) 및 Hallucination을 분석하고, 이러한 한계를 완화하기 위한 방안을 탐구함

발표자료 및 발표영상



전체 13

  • 2025-01-31 19:41

    금일 세미나는 multi modal 분야의 llm-as-judge 프레임워크에 대한 탐색적 연구를 진행한 "MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark"을 중심으로 진행되었습니다. llm-as-judge 프레임워크는 자연어 처리 분야에서 다양한 도메인에서 활용되고 있습니다. 특히, 그 과정에서 pair-wise comparison, ranking, scoring 등의 점수 부여 방식의 효과성과 LLM 특성으로 인한 한계점들이 다수 연구되어 오고 있습니다. 해당 논문은 이를 multi-modal 분야로 확장하기 위한 평가 데이터 구축 및 그 결과를 공유하고 있습니다. 특히, 3가지 평가 전략에 따른 점수 변화 및 llm의 내재된 bias도 함께 분석하고 있습니다. 다양한 결과들이 주어져있지만, 무엇보다 blind solution의 문제점이 judge에서도 발생한다는 점이 매우 인상적이었습니다. multi-modal의 특성 상 단일 modality로도 추론이 가능한 경우 발생하는 문제로서, 특히나 captioning 데이터를 기반으로 평가 데이터가 구축되면서 발생한 문제로 보입니다. mllm을 이용해 타 모델 결과를 평가할 때, 해당 문제점이 실제로 문제가 되는지, 해결 방안은 없는지 향후에 분석해볼 필요가 있어 보입니다. 좋은 발표 감사합니다.


  • 2025-01-23 22:47

    이번 세미나에서는 “MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark” 논문을 중심으로 진행되었습니다. 본 연구는 기존 MLLM(Multimodal Large Language Model) 평가 방식이 단순한 정답률 측정에 집중되어 있는 한계를 극복하고자, 인간의 판단과 얼마나 유사한지를 측정하는 새로운 평가 프레임워크를 제안합니다. 이를 위해 Scoring Evaluation(주관식 평가), Pair Comparison(양자택일), Batch Ranking(순위 매기기)의 세 가지 평가 방법을 도입하여, MLLM의 판단력이 인간과 얼마나 정렬되는지를 정량적으로 분석합니다. 실험 결과, GPT-4V 등 최신 MLLM이 높은 평가 성능을 보였지만, Egocentric Bias나 Length Bias 등의 편향성이 여전히 존재하며, 일부 경우 인간과의 평가 결과가 다르게 나타나는 한계를 보였습니다. 또한, Human Annotation 과정에서 저자들만이 참여하여 평가의 다양성이 부족하다는 점도 추가적인 보완이 필요해 보였습니다. 그럼에도 불구하고, 본 연구는 MLLM이 평가자로 활용될 가능성을 제시하고, 향후 AI 모델의 자동 평가 시스템 구축에 대한 새로운 방향성을 제시했다는 점에서 중요한 기여를 한 연구라고 생각됩니다. 좋은 발표 감사합니다.


  • 2025-01-17 10:08

    이번 세미나에서는 MLLM(Multimodal Large Language Models)을 사용하여 평가하기 위해 새롭고 흥미로운 접근법을 제안한 “MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark” 논문에 대하여 발표해 주셨습니다. 해당 방법론은 MLLM의 판단이 얼마나 사람과 유사한지를 Scoring Evaluation, Pair Comparison, Batch Ranking의 세 가지 작업을 통해 수치화했다는 점에서 독창적이었습니다. 특히 MLLM이 단순히 문제 해결 능력만을 테스트했던 기존 벤치마크와는 달리, 사람과의 판단 유사성을 명확히 평가한다는 점에서 참신하게 다가왔습니다. 다만, 최신 모델인 GPT-4V가 대부분의 작업에서 뛰어난 성능을 보였지만, Scoring과 Batch Ranking 작업에서는 여전히 한계가 드러났다는 점이 다소 아쉬웠습니다. 또한, MLLM의 판단에서 나타나는 Egocentric Bias나 Length Bias와 같은 편향성을 분석한 점은 실제 모델 개발과 활용에 있어 여전히 한계점이 존재한다는 것을 알게되었습니다. 이미지를 보지 않고도 문제를 해결할 수 있는 Blind Solution 데이터셋 설계상의 한계와 개선 필요성도 느낄 수 있었습니다. 궁극적으로, 해당 논문은 인간의 판단을 대체할 수 있는 MLLM 평가자의 가능성을 보여주면서도, 여전히 해결해야 할 과제와 한계를 명확히 제시한 논문이라고 생각합니다. 흥미로운 주제로 좋은 발표해 주셔서 감사합니다.


  • 2025-01-20 22:11

    금일 세미나는 “MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark” 논문을 바탕으로 진행되었습니다. 논문의 주요 골자가 되는 LLM-as-a-Judge란 사람이 평가하는 것처럼 LLM이 다른 모델의 출력을 평가하는 방식으로, 하고자 하는 Task에 따라 임의로 평가 방법을 정의할 수 있습니다. 이러한 LLM-as-a-Judge을 바탕으로 나온 MLLM-as-a-Judge은 Multimodality를 다면적으로 평가하기 위한 방법으로, Vision-Language 분야의 MMMU나 MME와 같은 벤치마크 데이터셋 존재했으나 이들은 오직 정답을 맞추는 Task에 한정되어 있었습니다. 제안 연구에서는 MLLM의 판단과 사람의 판단과의 일치도를 측정하는 벤치마크 데이터셋이 부족하다고 말하며, Problem solving이 아닌 사람과의 유사한 판단을 목적으로 연구를 제안했습니다. 이를 목적으로 총 3가지 방식으로 측정을 진행하는데, 먼저 주관식 점수 산출로 볼 수 있는 Scoring Evaluation, 양자택일 문제로 간주할 수 있는 Pair Comparison, 적절한 순으로 나열하는 Batch Ranking으로 구분할 수 있습니다. 또한, 제안 연구에서는 데이터셋을 구축하기 위하여 Image-Instruction-Answer triplet의 구축과 문제와 triplet에 대한 Human Judgement의 생성 과정을 거치며 구축되었습니다. 날이 가면서 LLM 이 발전하고 있고, 들어오는 데이터 스트림에 대한 모든 평가를 사람이 진행하기에는 현실적으로 어렵기 때문에 꼭 필요한 연구라는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.


  • 2025-01-21 18:39

    이번 세미나는 기존 LLM-as-a-Judge라는 논문에서 제시한 아이디어를 MLLM으로 확장하여 여러 Task를 통해서 MLLM의 판단과 사람의 판단 사이의 유사도를 측정할 수 있는 프레임워크를 제안한 “MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark”라는 논문에 대한 발표를 중심으로 진행되었습니다. 기존 MLLM Benchmark로 사용되던 MMMU, MME 등은 MLLM이 문제를 해결할 수 있는지, 즉 Problem Solver의 역할을 수행할 수 있는지를 평가하는데 그쳤다면, 해당 Benchmark는 MLLM과 사람의 판단 사이의 유사도를 평가할 수 있도록 구성하였습니다. 해당 방법론의 장점은 개인적으로 평가 방식이 매우 직관적이라는 점이라고 생각합니다. MLLM-as-a-Judge의 평가 방식은 Scoring Evaluation, Pair Comparison, Batch Ranking으로 구성되며 각각 Answer의 품질 평가, 양자택일, 나열에 해당합니다. 이 방식들은 복잡한 수식이나 평가 과정을 요구하지 않고, 해당 Benchmark의 사용자들이 쉽게 이해할 수 있게 구성되었다고 생각합니다. 그러나 Benchmark Dataset을 구축하는 과정에서는 Human Annotation을 구성하는 데 있어 다양한 직업, 연령, 성별 등의 사람들을 고용하지 못하고 저자들만 참여해 Diversity를 고려하지 못했다는 점이 아쉽게 다가왔습니다. 좋은 발표 해주셔서 감사합니다.


  • 2025-01-23 12:35

    이번 세미나에서는 “MLLM as a Judge: Assessing Multimodal LLM as a Judge with Vision-Language Benchmark” 논문을 중심으로, 멀티모달 대규모 언어 모델(MLLM)의 판단이 인간과 얼마나 유사한지를 평가하는 새로운 프레임워크를 소개하였습니다. 기존의 LLM as a Judge 개념을 확장하여, Scoring Evaluation, Pair Comparison, Batch Ranking의 세 가지 과제를 통해 MLLM의 판단을 정량화하는 접근법은 매우 창의적이었습니다. 특히, MMMU나 MME와 같은 기존 벤치마크가 문제 해결 능력을 중심으로 평가했다면, 본 논문은 MLLM과 인간의 판단 유사성에 초점을 맞추어 평가의 직관성을 높인 점이 인상적이었습니다. 또한, GPT-4V 모델이 대부분의 작업에서 우수한 성능을 보였으나, Scoring과 Batch Ranking에서는 여전히 한계를 드러낸 점도 주목할 만했습니다. 그러나 벤치마크 데이터셋 구축 시 다양한 직업, 연령, 성별을 반영하지 못한 점과 Egocentric Bias, Length Bias와 같은 편향성 문제는 개선이 필요하다는 점이 아쉬웠습니다. 이러한 연구는 MLLM이 인간의 판단을 대체할 가능성을 보여주었으나, 실용화를 위해서는 추가적인 연구와 개선이 요구된다는 점에서 중요한 의의를 가지고 있다고 생각됩니다. 좋은 발표 감사합니다.


  • 2025-01-23 14:34

    이번 세미나에서는 "MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark"라는 논문에 대한 소개를 중심으로 진행되었습니다. 이 논문에서는 Multimodal Large Language Models(MLLMs)가 어떻게 인간과 유사한 판단을 내릴 수 있는지에 대한 측정이 가능한 새로운 벤치마크, 'MLLM-as-a-Judge'를 제안합니다. 이 벤치마크는 다음 세 가지 주요 작업을 통해 MLLMs의 판단을 평가합니다. 'Scoring Evaluation'에서는 단일 이미지에 대한 응답을 점수화하고, 'Pair Comparison'에서는 같은 이미지에 대한 두 응답의 상대적 우위를 평가합니다. 'Batch Ranking'에서는 단일 이미지에 대한 여러 응답을 품질 기준에 따라 순위를 매깁니다. 이러한 평가 방식을 통해, MLLM의 판단력과 공동저자 6명의 평가 사이의 유사도를 정량적으로 비교하며, MLLM이 인간과 유사한 평가를 하는지를 측정합니다. 또한, 이 연구는 MLLMs의 판단 과정에서 발생할 수 있는 편향성(Egocentric Bias, Length Bias 등)과 Hallucination을 분석하고, 이러한 문제를 완화하기 위한 방안을 탐구합니다. 이번 세미나는 MLLMs가 판단자로서의 역할을 수행할 수 있는지에 대한 이해를 깊게 하고, 기존 연구의 한계를 극복하려는 중요한 시도를 보여주었습니다. MLLMs의 판단력과 인간의 판단력이 어떻게 다르고 유사한지에 대한 통찰을 제공함으로써, 향후 인간의 업무를 대체할 수 있는 모델 개발에 기여할 수 있다 생각합니다. 좋은 발표 준비해주셔서 감사합니다.


  • 2025-01-27 22:40

    이번 세미나는 “MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark” 논문을 중심으로 진행되었으며, MLLM(Multimodal Large Language Models)이 인간의 판단과 얼마나 유사한지 평가하는 새로운 방법론을 제시했습니다. 이 연구는 기존 MLLM 벤치마크들이 문제 해결 능력에 집중한 것과 달리, MLLM의 판단을 사람과 비교하는 데 초점을 맞추어 Scoring Evaluation, Pair Comparison, Batch Ranking 방식으로 평가를 진행했습니다. 이러한 접근법은 직관적이고 이해하기 쉬운 평가 방법으로 설계되어 흥미로웠습니다. 그러나, 최신 모델인 GPT-4V도 일부 작업에서 한계를 보였으며, MLLM의 판단에서 나타날 수 있는 편향성 문제도 논의되었습니다. 또한 데이터셋 구축에서 연구팀의 참가자들만을 사용해 다양성 부족이 아쉬운 부분으로 지적되었습니다. 그럼에도 불구하고, 이 연구는 MLLM의 인간 유사 판단 평가 가능성을 보여주었으며, 향후 개선과 발전이 필요한 중요한 연구로 평가됩니다.


  • 2025-01-28 20:07

    이번 세미나는 LLM을 다른 LLM으로 평가하는 프레임워크인 LLM-as-a-judge의 아이디어에서 착안한 Multimodal LLM-as-a-judge가 소개되었습니다. 멀티모달 모델의 평가 프레임워크인 MLLM-as-a-judge는 MLLM의 판단과 사람의 판단과의 일치성을 측정하는데 목적을 두고 있습니다. Scoring Evaluation, Pair Comparison, Batch Ranking 등의 세가지 방식을 통해서 MLLM을 평가합니다. 이를 위해 Image-Instruction- 저자들이 직접 작성한 human annotated 답안으로 구성된 자체 제작 triplet 데이터셋을 이용합니다. LLM-as-a-judge 이후에 본 연구의 등장은 사실상 시간 문제였을 것이라 생각됩니다. 그러나 데이터셋 구축에 있어서 저자들이 직접 답안을 작성하는 등의 한계점이 존재하여 해당 연구를 타겟으로 또 다른 평가 프레임워크가 등장할 가능성이 높지 않을까 싶습니다. 의미 있는 연구 소개해주셔서 감사합니다.


  • 2025-01-17 05:14

    이번 세미나에서는 "MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark" 논문이 소개되었습니다. 이 논문은 MLLM의 신뢰성을 검증하기 위해 MLLM-as-a-Judge 벤치마크를 제안한 연구로, 특히 scoring evaluation, pair comparison, batch ranking 세 가지 평가 방식을 활용해 MLLM의 판단이 인간 평가와 얼마나 유사한지 분석한 점이 인상적이었습니다.

    그중 pair comparison에서는 사람과 비슷한 판단을 보였지만, scoring evaluation과 batch ranking에서는 차이가 컸다는 점이 눈에 띄었습니다. 이 연구는 MLLM이 평가자로 활용될 가능성과 함께 현재 한계를 명확히 정리했다는 점에서 의미 있는 기여를 했다고 생각합니다.
    좋은 발표 감사합니다!


  • 2025-01-30 12:17

    이번 세미나에서는 "MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark" 논문을 통해, MLLM이 단순히 문제 해결 능력을 평가하는 기존 벤치마크와 달리 인간의 판단과 얼마나 유사한지를 측정하는 새로운 프레임워크를 제안했다는 점이 인상적이었습니다. 특히 Scoring Evaluation, Pair Comparison, Batch Ranking을 활용한 평가 방식이 직관적이고, MLLM을 보다 정량적으로 분석할 수 있도록 설계되었다는 점이 흥미로웠습니다. 다만, GPT-4V조차 일부 평가에서 한계를 보였고, Human Annotation 과정에서 저자들만이 참여해 다양성이 부족했다는 점은 보완이 필요한 부분으로 보였습니다. 또한, Egocentric Bias나 Length Bias와 같은 편향성이 존재한다는 점은 MLLM을 평가자로 활용하는 데 있어 신중한 접근이 필요함을 시사하는 것 같습니다. 그럼에도 불구하고, MLLM을 평가자로 활용할 가능성을 제시하며 향후 연구 방향을 제안한 점에서 중요한 기여를 한 연구라고 생각됩니다. 좋은 발표 감사합니다!


  • 2025-01-30 13:13

    이번 세미나에서는 MLLM-as-a-Judge와 관련된 방법론을 제시한 논문을 중심으로 진행되었습니다. 이 연구는 Multimodal LLM(MLLM)이 인간과 유사한 판단을 내릴 수 있는지를 평가하기 위한 벤치마크를 구축하는 것을 목표로 하며, 기존 평가 방식이 문제 해결 능력에 초점을 맞췄던 것과 달리 MLLM의 판단력(Judgement)을 측정하는 평가 프레임워크를 제안합니다. 연구에서는 Image-Instruction-Answer triplet을 기반으로 MLLM과 인간의 판단을 비교하는 Scoring Evaluation, Pair Comparison, Batch Ranking 세 가지 평가 방식을 도입하였으며, 실험 결과 GPT-4V가 가장 인간과 유사한 판단을 내렸지만 다른 모델들은 편향된 결과를 보였습니다. 또한, 문장의 길이와 특정 답변 유형에 대한 편향성이 평가에 영향을 미칠 수 있음을 확인하며, MLLM 기반 평가 시스템의 신뢰성을 높이기 위한 과제를 제시했습니다.


  • 2025-01-30 15:31

    이번 세미나는 "MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark" 에 대해서 소개해주셨습니다. 본 논문에서는 기존 Multimodal LLM (MLLM)의 평가 방식을 개선하고 문제점을 지적하였습니다. 개인적으로 blind solution 문제에 대해서 실험적으로 보인 결과가 있어서 인상깊게 들었습니다. 시각적 정보가 주어지지지 않음에도 불구하고 높은 성능이 나온점에서 새로운 MLLM 평가를 위한 벤치마크가 필요하다 생각되었습니다. 최근 LLM에 대한 평가 방식의 다양성과 aspects 관점을 논하는 연구가 많이 나오고있는 것 처럼 MLLM에서도 이와 같은 양상의 연구가 많이 진행되고 있지 않을까 생각되는 시간이었습니다. 좋은 발표 감사합니다.


전체 518
번호 제목 작성자 작성일 추천 조회
공지사항
Paper Reviews 2019 Q3
관리자 | 2020.03.12 | 추천 0 | 조회 11516
관리자 2020.03.12 0 11516
공지사항
Paper Reviews 2019 Q2
관리자 | 2020.03.12 | 추천 0 | 조회 10161
관리자 2020.03.12 0 10161
공지사항
Paper Reviews 2019 Q1
관리자 | 2020.03.12 | 추천 0 | 조회 11241
관리자 2020.03.12 0 11241
515
[Paper Review] Multi-Scale Finetuning for Encoder-based Time Series Foundation Models (1)
Hyeongwon Kang | 2025.07.29 | 추천 0 | 조회 89
Hyeongwon Kang 2025.07.29 0 89
514
[Paper Review] Recent Research Trends in Video Anomaly Detection (2)
Jaehyuk Heo | 2025.07.27 | 추천 0 | 조회 95
Jaehyuk Heo 2025.07.27 0 95
513
[Paper Review] Introduction to PINN (Some basic concepts and research directions) (9)
Hankyeol Kim | 2025.07.18 | 추천 0 | 조회 169
Hankyeol Kim 2025.07.18 0 169
512
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (10)
Sieon Park | 2025.07.14 | 추천 0 | 조회 204
Sieon Park 2025.07.14 0 204
511
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (9)
Subeen Cha | 2025.07.10 | 추천 0 | 조회 180
Subeen Cha 2025.07.10 0 180
510
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon | 2025.06.27 | 추천 0 | 조회 363
Jaewon Cheon 2025.06.27 0 363
509
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma | 2025.06.07 | 추천 0 | 조회 414
Minjeong Ma 2025.06.07 0 414
508
비밀글 [Rehearsal] 석사학위 논문심사 - 마민정 (19)
Minjeong Ma | 2025.06.02 | 추천 0 | 조회 38
Minjeong Ma 2025.06.02 0 38
507
비밀글 [Rehearsal] 석사학위 논문심사 - 정기윤 (20)
Kiyoon Jeong | 2025.06.02 | 추천 0 | 조회 38
Kiyoon Jeong 2025.06.02 0 38
506
비밀글 [Rehearsal] 석사학위 논문심사 - 남웅찬 (19)
Woongchan Nam | 2025.06.02 | 추천 0 | 조회 33
Woongchan Nam 2025.06.02 0 33

Data Science & Business Analytics Lab.
Department of Industrial Engineering, College of Engineering,
Seoul National University

Contact Us

  • 강필성 교수 (pilsung_kang@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 301호 
  • 대학원 연구실 (총무 허재혁 : jaehyuk.heo@snu.ac.kr)
    서울특별시 관악구 관악로 1 서울대학교 공과대학 39동 411호