PixelProse官网链接地址:https://accorata.com/
网站默认显示语言:英语
PixelProse 介绍
PixelProse是由tomg-group-umd创建的大规模数据集,利用Gemini 1.0 Pro Vision生成详细图像描述。这个数据集对图像到文本转换技术的开发和改进具有重要意义,适合机器学习和人工智能领域的研究人员和开发者。
PixelProse用户群体
面向专注于图像识别、图像描述生成和视觉问答系统的专家,提供超过1600万的图像-文本配对,支持多种任务,数据格式为parquet,易于处理。
研究人员使用PixelProse数据集训练图像描述生成模型,开发者利用该数据集开发视觉问答应用,教育机构作为教学资源帮助学生了解图像识别和自然语言处理的基本原理。
PixelProse的核心功能
- 提供超过16M的图像-文本配对。 支持多种任务,如图像到文本和文本到图像。 包含多种模态,包括表格和文本。 数据格式为parquet,易于机器学习模型处理。 包含详细的图像描述,适用于训练复杂的视觉-语言模型。 数据集分为CommonPool、CC12M和RedCaps三个部分。 提供图像的EXIF信息和SHA256哈希值,确保数据完整性。