Google AI团队发布新视觉语言模型ScreenAI及三个数据集

AI资讯
2月21日
编辑

AICMTY

释放双眼，带上耳机，听听看~！

Google AI团队最近提出了名为ScreenAI的新视觉语言模型，旨在全面理解用户界面（UI）和信息图。该模型在多个任务上表现出色，包括图形问答（QA）、元素注释、摘要生成等。团队还发布了三个新数据集，为未来研究提供更多资源。

划重点:

⭐️ Google AI 团队提出了 ScreenAI，这是一个视觉语言模型，可以全面理解 UI 和信息图。

⭐️ ScreenAI 在多个任务上表现出色，包括图形问答（QA），元素注释，摘要生成等。

⭐️ 该团队发布了三个新数据集，为未来研究提供更多资源。

AICMTY（aicmty.com）2月21日消息:Google AI 最近提出了 ScreenAI，这是一个视觉语言模型，旨在全面理解用户界面（UI）和信息图。UI 和信息图在现代数字世界中共享设计概念和视觉语言，但由于每个领域的复杂性，创建一个统一的模型变得更加困难。为了解决这个问题，Google AI 团队提出了 ScreenAI 作为解决方案。

Google AI团队发布新视觉语言模型ScreenAI及三个数据集

ScreenAI 具有处理图形问答（QA）等任务的能力，这些任务可能涉及图表、图片、地图等元素。该模型结合了来自 Pix2struct 的灵活 patching 方法和 PaLI 架构，使其能够将视觉相关任务转化为文本或图像到文本问题。

团队进行了多项测试，展示了这些设计决策如何影响模型的功能。经评估，ScreenAI 在诸如 Multipage DocVQA、WebSRC、MoTIF 和 Widget Captioning 等任务上取得了新的最先进结果，参数数量不到50亿。在诸如 DocVQA、信息图 QA 和图表 QA 等任务上表现出色，优于同等规模模型。

团队发布了三个新数据集:Screen Annotation、ScreenQA Short 和 Complex ScreenQA。其中一个数据集专注于未来研究的屏幕注释任务，另外两个数据集则专注于问答，进一步扩展了可用资源，以推动该领域的发展。

ScreenAI 是朝着综合解决信息图和用户界面理解问题的一步。通过利用这些组件的共同视觉语言和复杂设计，ScreenAI 为理解数字内容提供了全面的方法。

论文地址:https://arxiv.org/abs/2402.04615

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Google AI团队发布新视觉语言模型ScreenAI及三个数据集

UniVision：以视觉为中心的3D感知任务的高性能基线

基础模型在自动驾驶中的应用及分类方法探讨

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

UniVision：以视觉为中心的3D感知任务的高性能基线

基础模型在自动驾驶中的应用及分类方法探讨

VMamba: 改变视觉模型游戏规则的下一代AI

WhatsApp AI 贴纸生成器存在偏见问题，生成巴勒斯坦儿童持枪图

李开复带领创新工场创办的AI大模型公司零一万物发布首款强大的Yi系列大模型

GPT-4完成正确率仅6%！北大等提出首个「多轮、多模态」PPT任务完成基准PPTC