长文本语言模型评估基准RULER

RULER

文档助手
4月14日
编辑

AI应用发布

释放双眼，带上耳机，听听看~！

RULER 是一种用于测试长文本语言模型合理性的评估基准，为长文本语言模型提供了更全面的评估和测试。它扩展了传统的检索测试范围，包含不同类型和数量的信息点，并引入了新的任务类别，如多跳跟踪和聚合，以评估模型在超出检索上下文的行为表现。

RULER官网链接地址：https://huggingface.co/papers/2404.06654

RULER 介绍

RULER 是一项新兴的合成基准，用于全面评估长文本语言模型。它扩展了普通检索测试，包括不同类型和数量的信息点。此外，RULER 引入了新的任务类别，如多跳跟踪和聚合，以测试超出检索上下文的行为。在 RULER 上评估了 10 个长文本语言模型，在 13 个代表性任务中表现出色。尽管这些模型在普通检索测试中准确性几乎完美，但随着上下文长度增加，它们的表现非常糟糕。只有四个模型（GPT-4、Command-R、Yi-34B 和 Mixtral）在长度达到 32K 时表现相当不错。我们开源 RULER，旨在推动对长文本语言模型的全面评估。

RULER用户群体

教育和科研领域

自媒体创作者可利用小炎智能写作生成高质量文章，SEOer 可使用小炎智能写作优化网站内容，网站管理员可使用小炎智能写作提升收录率。

RULER的核心功能

长文本语言模型测试/多跳跟踪/聚合

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

RULER

RULER 介绍

RULER用户群体

RULER的核心功能

Stablelm

QuickRead AI

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

RULER 介绍

RULER用户群体

RULER的核心功能

Stablelm

QuickRead AI

Instaphrase

笔灵AI写作

ragobble

曹植大模型