번호 | 제목 | 작성자 | 작성일 | 추천 | 조회 |
공지사항 |
Paper Reviews 2019 Q3
관리자
|
2020.03.12
|
추천 0
|
조회 11394
|
관리자 | 2020.03.12 | 0 | 11394 |
공지사항 |
Paper Reviews 2019 Q2
관리자
|
2020.03.12
|
추천 0
|
조회 10031
|
관리자 | 2020.03.12 | 0 | 10031 |
공지사항 |
Paper Reviews 2019 Q1
관리자
|
2020.03.12
|
추천 0
|
조회 11104
|
관리자 | 2020.03.12 | 0 | 11104 |
512 |
[Paper Review] TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment (2)
Sieon Park
|
2025.07.14
|
추천 0
|
조회 39
|
Sieon Park | 2025.07.14 | 0 | 39 |
511 |
[Paper Review] Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection (2)
Subeen Cha
|
2025.07.10
|
추천 0
|
조회 66
|
Subeen Cha | 2025.07.10 | 0 | 66 |
510 |
[Paper Review] Theory of Everything (About Sequence Modeling with DL Models…) (14)
Jaewon Cheon
|
2025.06.27
|
추천 0
|
조회 239
|
Jaewon Cheon | 2025.06.27 | 0 | 239 |
509 |
[Paper Review] Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? (16)
Minjeong Ma
|
2025.06.07
|
추천 0
|
조회 344
|
Minjeong Ma | 2025.06.07 | 0 | 344 |
508 |
![]()
Minjeong Ma
|
2025.06.02
|
추천 0
|
조회 38
|
Minjeong Ma | 2025.06.02 | 0 | 38 |
507 |
![]()
Kiyoon Jeong
|
2025.06.02
|
추천 0
|
조회 35
|
Kiyoon Jeong | 2025.06.02 | 0 | 35 |
506 |
![]()
Woongchan Nam
|
2025.06.02
|
추천 0
|
조회 33
|
Woongchan Nam | 2025.06.02 | 0 | 33 |
505 |
![]()
SangMin Lee
|
2025.06.02
|
추천 0
|
조회 35
|
SangMin Lee | 2025.06.02 | 0 | 35 |
504 |
[Paper Review] Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems (14)
Siyul Sung
|
2025.05.31
|
추천 0
|
조회 434
|
Siyul Sung | 2025.05.31 | 0 | 434 |
503 |
[Paper Review] Restructuring Vector Quantization with the Rotation Trick (16)
Woojun Lee
|
2025.05.20
|
추천 0
|
조회 374
|
Woojun Lee | 2025.05.20 | 0 | 374 |
해당 논문은 LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 추적하는 새로운 연구 분야를 개척한 점에서 매우 인상 깊었습니다. 특히, 'Who&When' 데이터셋을 통해 127개의 시스템에서 수집한 실패 로그를 정밀하게 주석 처리하여, 어떤 에이전트가 언제 실패를 유발했는지를 분석할 수 있도록 한 점이 돋보였습니다 .
가장 인상 깊었던 부분은 기존에 수작업으로 이루어졌던 실패 원인 분석을 자동화하려는 시도였습니다. 논문에서 제안한 세 가지 자동화 방법인 1) 전체 로그를 한 번에 분석하는 방법, 2) 단계별로 분석하는 방법, 3) 이분 탐색을 활용한 방법에서 각각의 장단점이 명확하게 드러났습니다. 특히 전체 로그를 한 번에 분석하는 방법이 에이전트 수준의 실패 식별에서는 53.5%의 정확도를 보였지만, 결정적인 오류 단계를 식별하는 데에는 14.2%의 정확도에 그쳤다는 점에서, 해당 문제의 복잡성과 난이도를 실감할 수 있었습니다 .
이러한 결과는 LLM이 복잡한 협업 시스템에서의 실패 원인을 정확히 식별하는 데에는 아직 한계가 있음을 보여줍니다. 그러나 이러한 한계를 명확히 드러냄으로써, 향후 연구 방향을 제시하고 있다는 점에서 큰 의의가 있다고 생각합니다. 또한, 'Who&When' 데이터셋은 향후 이 분야의 연구에 중요한 기반이 될 것으로 기대됩니다. 실제로 해당 데이터셋은 다양한 현실적인 멀티 에이전트 시나리오를 포함하고 있어, 연구자들이 보다 현실적인 환경에서 모델을 평가하고 개선할 수 있도록 도와줄 것으로 기대됩니다.
전체적으로, 이 논문은 LLM 기반 멀티 에이전트 시스템의 신뢰성과 디버깅 가능성을 향상시키기 위한 중요한 첫걸음을 내딛었다고 생각합니다. 앞으로 이 분야에서의 지속적인 연구와 발전이 기대됩니다. 좋은 발표 진행해 주셔서 감사합니다!
이번 세미나는 LLM 기반 멀티 에이전트 시스템의 Task Solving 과정에서 실패의 원인을 분석하는 Failure Attribution라는 분야를 자동화한 Automated Failure Attribution이라는 새로운 연구 분야를 제시한 “Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems”라는 논문에 대한 발표를 중심으로 진행되었습니다. Failure Attribution이란 결국 Task를 실패한 에이전트를 찾아내는 과정이라고 볼 수 있는데, 이를 사람이 직접 찾는 것이 많이 번거로우며 이를 자동화해하는 이유에 대해 공감할 수 있었습니다. 해당 논문에선 이러한 Automated Failure Attribution 과업을 자동으로 수행하기 위한 새로운 Task와 이를 수행하고, 평가하기 위한 Who & When이라는 데이터셋을 제안하였습니다. 새로운 과업과 이에 대한 벤치마크를 제안하는 연구 자체가 가지는 Contribution이 있다는 생각이 들었지만, 생성된 데이터셋의 개수가 너무 적기도 하고, 데이터셋을 구성하는 것이 그냥 3명의 Human Annotator를 고용한 것이 다라는 생각이 들어서 조금은 아쉬운 생각도 든 연구였습니다. 그러나 과업의 필요성 자체에는 공감하기 때문에 향후 어떠한 연구들이 해당 벤치마크를 기반으로 진행될지 지켜보면 좋을 것 같습니다. 좋은 발표 해주셔서 감사합니다.
최근 LLM agent system의 성능, 편리성, 범용성 때문에 다소 정성적이고 경험적으로만 사용하는 맹목성이 다소 존재했던 것 같은데, 이 시스템을 보다 정량적이고 분석적으로 평가하려고 시도한 점에서 충분히 유의미한 연구인 듯합니다. 아직 결과적으로는 human annotator들이 매긴 task failure annotation에 의존하긴 하지만, LLM-as-a-judge를 기반으로 평가를 자동화하려고 한 데에 의의가 있다고 생각하며, decisive error의 도입을 통해 critical한 오류의 양을 정량적으로 알아보려는 시도 또한 합리적이라고 느껴졌습니다. 물론 agent system evaluation의 초기 연구인 만큼 방법론 자체는 간단하고 기초적인 듯하지만, 이러한 아이디어와 시도들을 계기로 이후에 보다 세련된 접근법들이 등장하기를 기대하게 됩니다.
이번 논문은 LLM 기반 멀티 에이전트 시스템의 실패 원인 분석을 자동화함으로써, 그동안 주관적이고 반복적인 작업이었던 failure attribution을 체계적이고 정량적으로 접근하고자 노력하였던 연구인 'Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems'라는 논문을 소개해 주셨습니다. 해당 논문에서는, 특히 Who&When 데이터셋을 통해 다양한 시스템 로그에 대해 에이전트별, 단계별 실패 시점을 명확히 주석화한 점이 인상 깊었던 것 같습니다. 물론, 평가 과정에서 여전히 human annotator의 개입이 필요하고, 데이터셋의 규모나 다양성 측면에서 아쉬움이 남긴 하지만, LLM을 활용한 자동화 방식 자체가 향후 연구의 초석을 제시한 것 같아, 더욱 방대한 실제 환경 데이터와 다양한 시나리오에 대한 적용 사례가 축적된다면, LLM 멀티 에이전트 시스템의 신뢰성과 실용성을 크게 높일 수 있을 것으로 기대가 되었던 것 같습니다. 좋은 발표 감사합니다!
이번 세미나는 multi-agent의 문제 풀이 과정 전반에 대한 분석을 제공하는 벤치마크를 제시한 "Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems"을 중심으로 진행되었습니다. 멀티 에이전트는 최근 매우 복잡한 태스크에서 좋은 성능을 보이고 있으나, 실제 과업 수행에 있어 성능 저하를 일으키는 reasoning step 및 expert를 탐색하는 작업은 매우 어렵습니다. 특히 대부분의 벤치마크가 최종 산출물에 대한 성능을 평가하므로 분석이 더욱 어렵게 된 상황입니다. 이에 대해 해당 연구는 LLM이 실패 지점을 탐색할 수 있는지 측정하는 벤치마크를 제안합니다. 특히, 해당 과업들은 사람이 수행하였을 때 30시간 이상 걸리는 매우 어려운 과업들입니다. LLM을 이용하여 평가를 수행하였을 때에 높지 않은 성능이 나오고 있으나, 해당 모델의 출력은 시스템 개선에 도움이 되는 것으로 나타났습니다. Agent 구조에 있어 점차 스스로 오류를 수정하는 것이 중요해지는 시점에서 이와 관련된 방향성을 제시한 논문인 것 같습니다. 좋은 발표 감사합니다.
이번 세미나에서는 “Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems” 논문을 소개해주셨습니다. 본 연구는 최근 활발히 연구되고 있는 LLM 기반 멀티 에이전트 시스템의 문제 해결 과정 중 실패가 발생한 원인과 그 책임 에이전트를 자동으로 파악하는 Automated Failure Attribution이라는 새로운 분야를 제안하며, 이를 위한 벤치마크인 Who & When 데이터셋을 구성하였습니다. 기존의 멀티 에이전트 벤치마크가 주로 최종 결과에만 집중한 반면, 이 연구는 복잡한 문제 해결 과정에서 어느 에이전트가 어느 시점에서 실패를 유발했는지 명확하게 분석하여 시스템 개선의 기반을 제공한다는 점이 특히 인상적이었습니다. 다만, 제안한 데이터셋이 소규모로 Human Annotator 수가 제한적이라는 아쉬움이 있지만, LLM 기반 자동 평가 방식이 시스템 개선에 실질적으로 유용한 인사이트를 제공할 수 있다는 점에서 향후 중요한 연구 방향을 제시했다고 생각합니다. 좋은 발표 감사합니다.
이번 세미나는 LLM 기반 멀티 에이전트 시스템에서 발생하는 Task 실패의 원인을 자동으로 분석하는 새로운 연구 분야인 Automated Failure Attribution을 다룬 논문 발표로, 실패를 유발한 에이전트와 그 시점을 판별하는 새로운 과업과 이를 위한 Who & When 데이터셋을 제안한 점이 핵심이었습니다. 아직은 소규모의 휴먼 어노테이션에 의존하는 등 초기 단계의 연구이지만, LLM 시스템을 보다 정량적이고 체계적으로 평가하려는 시도가 인상 깊었고, LLM-as-a-judge와 decisive error 개념 도입 등을 통해 향후 평가 방식의 발전 가능성을 제시한 점에서 의미 있는 출발점이 되었다고 느꼈습니다.
금일 세미나는 "Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems" 논문을 바탕으로 진행되었습니다. 해당 연구는 LLM 기반 멀티 에이전트 시스템의 Task Solving의 실패 원인 분석을 위한 "Automated Failure Attribution"라는 이름의 새로운 과업을 제안하고 있습니다. 이는 현실적으로 LLM 에이전트 시스템 내에서 디버깅을 위해 꼭 필요한 과업이지만, 아직까지는 크게 덜 연구되고 있었기 때문에, 이를 자동으로 탐지하기 위하여 연구된 분야라고 할 수 있습니다. 이때, 이러한 Automated Failure Attribution을 수행하고 평가하기 위한 벤치마크 데이터셋을 함께 제안합니다. 해당 데이터셋은 127개의 LLM multi-agent system으로부터 광범위한 failure log로 구성되어 있으며, 특정 agent와 결정적인 step에 연결된 fine-grained한 failure annotation을 함께 제공하고 있습니다. 또한, 총 3가지의 Failure Attribution Methodology 제안하고 있는데, 이때 All-at-once에서는 전체 실패 로그를 한 번에 LLM에 입력하여 실패 책임 에이전트와 실패 단계를 판단하며, 전체적 맥락을 한 번에 사용하고 있습니다. 다음으로 Step-by-step에서는 실패 로그를 단계적으로 LLM에 제공하고, 매 단계마다 오류가 발생했는지를 판단하며, 에러를 처음 발견한 단계에서 즉시 판단을 종료하고 결정적 오류를 결정하게 됩니다. 마지막으로 Binary search는 실패 로그를 이진 탐색 방식으로 분할하여 탐색 범위를 절반씩 줄여가면서 실패 위치를 특정하는 방식으로 동작하여, All-at-once와 Step-by-step의 중간 성격이라고 이해할 수 있었습니다. "왜 실패했는가"를 아는 것은 모델의 개선이나 실적용에 있어서 매우 중요한 부분이기 때문에, 꼭 필요한 연구 중 하나라는 생각이 들었습니다. 좋은 발표 정말 감사드립니다.
이번 세미나에서는 LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 분석하는 새로운 연구 분야인 Automated Failure Attribution에 대해 다루어 주셨습니다.
특히 127개의 시스템에서 수집된 실패 로그를 기반으로 제안된 ‘Who & When’ 데이터셋은 어떤 에이전트가 언제 실패를 유발했는지를 정밀하게 주석 처리하여 분석할 수 있도록 구성된 점이 인상 깊었습니다.
논문에서 제시한 세 가지 자동화 방법은 각각의 장단점이 잘 드러나 있었고, 이를 통해 LLM 기반 시스템의 디버깅 가능성과 한계를 명확히 보여주셨습니다.
해당 데이터셋을 기반으로 향후 다양한 후속 연구가 이어질 것으로 기대되며, 좋은 발표 잘 들었습니다.
이번 세미나에서는 “Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems” 논문을 소개해주셨습니다. 해당 연구는 LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 식별하고 책임 에이전트를 지정하는 새로운 연구 과제인 Automated Failure Attribution을 제안하며, 이를 위한 벤치마크 데이터셋인 Who & When을 함께 공개한 점이 인상 깊었습니다. 기존의 멀티 에이전트 연구들이 주로 최종 성공 여부에 초점을 맞췄다면, 본 논문은 문제 해결의 과정 속에서 발생하는 세부 실패 원인을 에이전트 단위와 단계 단위로 정밀하게 추적하려 했다는 점에서 차별화된 접근을 보여주었습니다. 발표에서 소개된 세 가지 failure attribution 방식인 All-at-once, Step-by-step, Binary search은 각각 전체 맥락 활용, 점진적 판단, 탐색 효율성이라는 서로 다른 관점을 반영하고 있어 흥미로웠고, 시스템 성능 및 진단 정확도 측면에서의 비교도 인상적이었습니다. 향후 멀티 에이전트 시스템이 보다 복잡한 문제를 다루게 될수록, 이러한 fine-grained failure 분석이 실제 시스템 개선에 기여할 수 있는 방향으로 중요성이 더욱 커질 것이라 생각되며, 이를 위한 기반을 잘 마련한 연구였다고 느꼈습니다. 좋은 발표 감사합니다.
이번 세미나에서는 LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 분석하는 방법론을 제시한 논문 “Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems”를 중심으로 진행되었습니다. 본 논문은 기존의 LLM 기반 에이전트 시스템에서 특정 태스크 실패의 원인을 인간이 수작업으로 분석해야 하는 한계를 지적하며, 이를 자동화하기 위한 새로운 연구 과제인 "Automated Failure Attribution"을 제안합니다. 특히 127개의 멀티 에이전트 시스템으로부터 수집된 실패 로그를 기반으로, 실패를 유발한 특정 에이전트와 결정적 오류 시점을 식별한 Who & When 데이터셋을 구축하여 벤치마크로 활용합니다. 세 가지 자동화 기법인 All-at-once, Step-by-step, Binary search 방법론을 제시하며, 실험을 통해 Agent-Level과 Step-Level Accuracy 측면에서의 성능을 비교합니다. 결과적으로 전체 로그를 한 번에 입력하는 방식이 Agent-Level 평가에 유리하고, 단계별 추론 방식은 더 세밀한 Step-Level 평가에 효과적임을 보였습니다. 본 연구는 LLM 시스템 개선을 위한 디버깅 자동화의 첫걸음을 제시했다는 점에서 의의가 있습니다.
이번 세미나에서는 “ Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems“논문에 대해 소개해주셨습니다. LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 규명하는 Automated Failure Attribution이라는 새로운 문제를 제안하고, 이를 위한 Who & When 데이터셋을 구축하여 실증적으로 접근한 점이 인상 깊었습니다. 특히 다양한 멀티 에이전트 시스템에서 수집한 failure log에 대해 fine-grained하게 실패 에이전트와 결정적 오류 시점을 어노테이션한 방식은 연구의 신뢰도를 높이는 중요한 요소라고 생각됩니다. 또한 All-at-once, Step-by-step, Binary Search 방식의 비교를 통해 각각의 장단점이 잘 나와있었고 Evaluation Metric도 체계적으로 설정된 점이 돋보였습니다. 좋은 논문 소개해주셔서 감사합니다!
이번 세미나에서는 LLM 기반 멀티 에이전트 시스템의 실패 원인을 자동으로 분석하는 새로운 문제 정의와 이를 위한 벤치마크를 제시한 “Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems” 논문을 중심으로 진행되었습니다. 기존 멀티 에이전트 시스템 연구는 주로 최종 정답 여부에만 평가가 집중되어 있어, 복잡한 태스크 수행 중 어느 단계에서 어떤 에이전트가 실패를 유발했는지 분석하기 어려운 한계가 있었습니다. 본 연구는 이 같은 한계를 극복하고자 ‘Automated Failure Attribution’이라는 문제를 정의하고, 사람이 수행 시 30시간 이상이 걸리는 고난이도 태스크에 대해 LLM이 실패 지점을 추적할 수 있는지 평가할 수 있는 Who & When 벤치마크를 새롭게 구축하였습니다. 특히 All-at-once, Step-by-step, Binary search 방식 등 다양한 failure 분석 전략을 제안해 각기 다른 접근의 효과를 비교하고, LLM의 낮은 정답률에도 불구하고 실패 진단에는 유용하게 활용될 수 있음을 실험적으로 보여준 점이 인상 깊었습니다. 앞으로 멀티 에이전트 시스템이 복잡한 과업을 수행하게 될수록, 정밀한 실패 분석의 중요성은 더욱 커질 것이며, 본 논문은 그러한 방향성을 잘 제시한 의미 있는 연구라고 생각됩니다. 좋은 발표 감사합니다.
이번 세미나에서는 "Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems" 이라는 제목의 논문에 대해 다뤄주셨습니다. 본 연구는 여러 에이전트가 협업하는 LLM 기반 시스템에서 작업 실패 발생 시 어떤 에이전트가 언제 문제를 일으켰는지 식별하는 방법을 제안합니다. 다중 에이전트 구조에서의 문제 추적이 왜 중요한지를 설명하는 것을 시작으로, 실패 상황을 분석해 책임 소재를 분리하는 자동화된 평가 체계를 구축한 방식을 제안합니다. 특히, 각 에이전트의 출력과 상호작용 로그를 기반으로 실패 원인을 시점별로 분류하는 메커니즘이 핵심이었습니다. 이 접근법은 협업하는 LLM 시스템에서 어디서 문제가 발생했는지를 빠르게 파악할 수 있게 해주며, 오류 수정과 성능 개선에 실질적인 도움을 줄 수 있다는 점에서 유용해 보였습니다. 다중 에이전트 시스템의 신뢰성과 디버깅 효율성을 높이는 데 기여할 수 있는 방향이라 인상 깊었습니다. 좋은 발표 감사합니다!