SEAL Leaderboards：大型语言模型评估的私密专家评估

释放双眼，带上耳机，听听看~！

SEAL Leaderboards是对大型语言模型评估的私密专家评估，旨在确保评估的质量和代表性。了解GPT-4、Claude 3 Opus等领先大模型的评估结果，从而更好地了解当前领先前沿模型的表现。

lmsys.org的一个严肃的竞争对手已经加入了对LLMs（大型语言模型）评估的讨论中：SEAL Leaderboards——对领先前沿模型进行的私密、专家评估。

SEAL Leaderboards的设计原则：

🔒私密 + 无法被利用。在评估上不会过度拟合！

🎓领域专家评估

🏆持续更新，包含新数据和模型

SEAL Leaderboards：大型语言模型评估的私密专家评估 https://x.com/karpathy/status/179587366648140201

Andrej Karpathy（原OpenAI的创始成员和研究科学家，也是特斯拉人工智能和自动驾驶部门(Autopilot)原负责人）的一些观点：

LLM评估正在改进，但不久前它们的状况非常糟糕，因为定性体验经常与定量排名不符。
好的评估很难构建——在特斯拉，Karpathy可能花了1/3的时间在数据上，1/3在评估上，还有1/3在其他所有事情上。它们必须全面、代表性强、质量高，并测量梯度信号（即不要太容易，也不要太困难），在定性和定量评估一致之前，有很多细节需要考虑和正确处理。
任何公开（非私有）的测试数据集不可避免地会渗透到训练集中。这是人们强烈直觉上怀疑的事情，也是为什么最近的GSM1k引起了轰动。https://arxiv.org/html/2405.00332。
即使LLM开发者尽了最大努力，防止测试集渗透到训练集中（以及答案被记住）也是困难的。当然，你可以尽力过滤掉完全匹配的项。你也可以过滤掉近似匹配的项，比如使用n-gram重叠等。但是你如何过滤掉合成数据重写，或者有关数据的相关在线讨论呢？一旦我们开始常规地训练多模态模型，你如何过滤掉数据的图像/截图？你如何防止开发者，例如，向量嵌入测试集，并特别针对与测试集在嵌入空间中高度一致的数据进行训练？
大家关心的并非所有LLM任务都可以自动评估（例如，想想摘要等），在这种情况下，你希望涉及人类。当你这样做时，你如何控制所有涉及的变量，比如人们有多关注实际答案，或者长度，或者风格，或者如何处理拒绝等。
好的评估出人意料地困难，工作量巨大，但非常重要。

SEAL Leaderboards一些大模型评估结果，包括一些领先大模型：

– GPT-4o
– GPT-4 Turbo
– Claude 3 Opus
– Gemini 1.5 Pro
– Gemini 1.5 Flash
– Llama3
– Mistral Large

SEAL Leaderboards：大型语言模型评估的私密专家评估图片

SEAL Leaderboards  https://scale.com/leaderboard

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

SEAL Leaderboards：大型语言模型评估的私密专家评估

清华大学类脑视觉感知芯片技术突破：天眸芯登上《自然》杂志封面

MonoDETRNext: 单目3D物体检测模型及其优势性能评估

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

清华大学类脑视觉感知芯片技术突破：天眸芯登上《自然》杂志封面

MonoDETRNext: 单目3D物体检测模型及其优势性能评估

亚马逊新对话式AI“Olympus”即将问世

B站UP主挑战大型语言模型：用“弱智吧”测试AI智商引发热议

Octopus：让AI模型成为GTA五星玩家

GPT-4的新突破：通过复述问题提高回答准确率