MLLM图像序列推理能力测试:重要挑战和优化需求

释放双眼,带上耳机,听听看~!
马里兰大学与北卡教堂山合作发布的Mementos测试揭示了多模态大语言模型在处理图像序列中的幻觉、对象和行为理解方面的困难,对于推动MLLM在图像领域的发展提出了重要挑战,并强调了进一步研究和优化的迫切性。

AICMTY(aicmty.com)1月31日 消息:近期,马里兰大学与北卡教堂山合作发布了Mementos,这是专为多模态大语言模型(MLLM)设计的图像序列基准测试,旨在全面测试这些模型对于真实世界、机器人和动漫图像序列的推理能力。然而,测试结果令人震惊,GPT-4V和Gemini等MLLM在漫画数据集上的准确率不足20%。这揭示了这些模型在处理图像序列中的幻觉、对象和行为理解方面的明显不足。

MLLM图像序列推理能力测试:重要挑战和优化需求

项目地址:https://mementos-bench.github.io/

测试中发现MLLM容易出现对象幻觉和行为幻觉。对象幻觉是指模型产生不存在的对象,而行为幻觉则是模型产生对象未进行的动作。这些问题的根本原因在于对象识别错误可能导致后续行为识别的不准确,共现效应加剧了行为幻觉问题,而行为幻觉的雪球效应导致错误逐渐累积和加剧。这对于MLLM在处理图像序列中的推理能力提出了重要的挑战。

在具体的图像案例中,MLLM对于漫画中的场景和行为理解存在明显的困难,例如将人物行为错误识别为持武器相互打斗。作者还指出,这些MLLM对于动漫领域的不熟悉需要大幅度的优化和预训练。此外,测试结果还表明,训练数据的局限性对于开源MLLM的推理能力有直接影响,强调了训练数据的重要性。

Mementos测试为多模态大语言模型在图像序列推理方面提供了全面的评估,揭示了它们在处理连续图像中的幻觉、对象和行为理解方面的困难。这对于推动MLLM在图像领域的发展提出了挑战,并强调了进一步研究和优化的迫切性。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

Chatbot Arena排行榜:Bard超越GPT-4成为第二名

2024-1-31 11:26:34

AI资讯

Codeium完成6500万美元B轮融资,估值达5亿美元 | 人工智能工具包助力开发者提高生产力

2024-1-31 11:35:45

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索