智谱AI开源CogAgent视觉语言模型,支持GUI理解和导航

释放双眼,带上耳机,听听看~!
智谱AI开源了CogAgent,一个拥有180亿参数规模的视觉语言模型,支持GUI理解和导航,具有SOTA的通用性能,在OCR相关任务方面表现出色。Github链接:https://github.com/CogNLP/CogAGENT

AICMTY(aicmty.com)12月21日 消息:智谱 AI 开源了 CogAgent,它是一个视觉语言模型,拥有180亿参数规模。该模型在 GUI 理解和导航方面表现出色,在多个基准测试上取得了 SOTA 的通用性能。

它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。

智谱AI开源CogAgent视觉语言模型,支持GUI理解和导航

模型可以通过上传截图来进行任务推理,并返回计划、下一个动作以及具体操作的坐标信息。

CogAgent 还支持 OCR 相关任务,通过预训练和微调,其能力得到了显著提升。

Github:

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

ChatGPT新增存档功能,帮助科研、医疗、写作、金融等行业精细化管理聊天记录

2023-12-21 10:38:19

AI资讯

AICMTY.com谷歌Gemini实力测试报告—专业客观第三方比较

2023-12-21 10:50:46

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索