华中科技大学软件学院发布多模态大模型Monkey,超越微软、谷歌和阿里

释放双眼,带上耳机,听听看~!
华中科技大学软件学院发布了多模态大模型Monkey,在图像描述和视觉问答任务方面表现出色,超越了微软、谷歌和阿里等知名模型。Monkey具有出色的看图说话能力和处理高分辨率图像的能力,已在GitHub上开源。

快科技12月12日消息,华中科技大学官方发文称,该校软件学院一团队发布了多模态大模型Monkey”。

该模型擅长图像描述和视觉问答,能够实现对世界的观察”,对图片进行深入问答交流和精确描述。

华中科技大学软件学院发布多模态大模型Monkey,超越微软、谷歌和阿里

官方介绍称,在18个数据集上的实验中,华科大Monkey模型表现出色,特别是在图像描述和视觉问答任务方面,超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。

此外,Monkey在文本密集的问答任务中显示出显著的优势,甚至在某些样本上超越了业界公认的领先者GPT-4V。

Monkey的一个显著特点是其出色的看图说话”能力。在详细描述任务中,Monkey展现了对图像细节的感知能力,能够察觉到其他多模态大模型所忽略的内容。

另一亮点是能够处理分辨率高达1344 x 896像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的6倍。

据悉,目前业内能处理的图片最大分辨率为448448像素。

值得一提的是,该团队已将Monkey代码在全球最大的代码托管服务平台GitHub上开源。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

OpenAI GPT-4存在懒惰迹象,用户反馈回应速度慢、敷衍回答

2023-12-13 10:53:34

AI资讯

xAI旗下人工智能机器人Grok推出,引发社交媒体热议

2023-12-13 11:02:27

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索