five

allenai/WildBench

收藏
Hugging Face2024-07-21 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/allenai/WildBench
下载链接
链接失效反馈
官方服务:
资源简介:
WildBench是一个用于评估大型语言模型(LLMs)在更具挑战性任务上的基准测试,这些任务更能代表现实世界的应用。数据集中的示例来自AI2 WildChat项目收集的真实用户数据。WildBench提供了细粒度的注释,包括任务类型和评估响应质量的检查清单,并使用长度惩罚的Elo评分来确保响应质量不偏向于较长的输出。WildBench旨在提供一个更现实和更具挑战性的基准测试,以评估LLMs在多样性和复杂性方面的表现。数据集包含1024个示例,并且将不断添加新的示例和更新评估方法。
提供机构:
allenai
原始信息汇总

数据集概述

名称: WildBench

来源: WildBench是WildChat数据集的一个子集。

授权: 该数据集已根据AI2的ImpACT许可公开发布,作为低风险制品。

使用限制: 严格禁止使用WildChat数据造成伤害。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作