智谱AI发布中文大语言模型对齐评测基准AlignBench

释放双眼,带上耳机,听听看~!
智谱AI发布了专为中文大语言模型而生的对齐评测基准AlignBench,评分模型提供多维度、规则校准的评分方法,开发者可以利用AlignBench进行评测并使用评价能力较强的打分模型进行评分。

AICMTY(aicmty.com) 12月12日 消息:智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。

AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答案生成和难度筛选等步骤,确保具有真实性和挑战性。数据集分为8个大类,包括知识问答、写作生成、角色扮演等多种类型的问题。

智谱AI发布中文大语言模型对齐评测基准AlignBench

为了实现自动化和可复现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)为每个模型的回答打分,代表其回答质量。评分模型具有多维度、规则校准的评分方法,提高了模型评分和人类评分的一致性,并提供了细致的评测分析和评测分数。

开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型(如 GPT-4或 CritiqueLLM)进行评分。通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测,大约5分钟即可得到评测结果。

体验地址:https://llmbench.ai/align

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI资讯

超大规模数据中心云容量增长趋势报告

2023-12-12 18:12:38

AI资讯

Google Gemini:多模态人工智能模型全面介绍

2023-12-12 18:14:45

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索