RULER

释放双眼,带上耳机,听听看~!
RULER 是一种用于测试长文本语言模型合理性的评估基准,为长文本语言模型提供了更全面的评估和测试。它扩展了传统的检索测试范围,包含不同类型和数量的信息点,并引入了新的任务类别,如多跳跟踪和聚合,以评估模型在超出检索上下文的行为表现。

RULER官网链接地址:https://huggingface.co/papers/2404.06654

RULER 介绍

RULER 是一项新兴的合成基准,用于全面评估长文本语言模型。它扩展了普通检索测试,包括不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索上下文的行为。在 RULER 上评估了 10 个长文本语言模型,在 13 个代表性任务中表现出色。尽管这些模型在普通检索测试中准确性几乎完美,但随着上下文长度增加,它们的表现非常糟糕。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度达到 32K 时表现相当不错。我们开源 RULER,旨在推动对长文本语言模型的全面评估。

RULER用户群体

教育和科研领域

自媒体创作者可利用小炎智能写作生成高质量文章,SEOer 可使用小炎智能写作优化网站内容,网站管理员可使用小炎智能写作提升收录率。

RULER的核心功能

  • 长文本语言模型测试/多跳跟踪/聚合
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
文档助手

Stablelm

2024-4-10 17:41:17

文档助手

QuickRead AI

2024-4-15 15:45:21

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索