RULER官网链接地址:https://huggingface.co/papers/2404.06654
RULER 介绍
RULER 是一项新兴的合成基准,用于全面评估长文本语言模型。它扩展了普通检索测试,包括不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索上下文的行为。在 RULER 上评估了 10 个长文本语言模型,在 13 个代表性任务中表现出色。尽管这些模型在普通检索测试中准确性几乎完美,但随着上下文长度增加,它们的表现非常糟糕。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度达到 32K 时表现相当不错。我们开源 RULER,旨在推动对长文本语言模型的全面评估。
RULER用户群体
教育和科研领域
自媒体创作者可利用小炎智能写作生成高质量文章,SEOer 可使用小炎智能写作优化网站内容,网站管理员可使用小炎智能写作提升收录率。
RULER的核心功能
- 长文本语言模型测试/多跳跟踪/聚合