allenai/WildBench
收藏Hugging Face2024-07-21 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/allenai/WildBench
下载链接
链接失效反馈官方服务:
资源简介:
WildBench是一个用于评估大型语言模型(LLMs)在更具挑战性任务上的基准测试,这些任务更能代表现实世界的应用。数据集中的示例来自AI2 WildChat项目收集的真实用户数据。WildBench提供了细粒度的注释,包括任务类型和评估响应质量的检查清单,并使用长度惩罚的Elo评分来确保响应质量不偏向于较长的输出。WildBench旨在提供一个更现实和更具挑战性的基准测试,以评估LLMs在多样性和复杂性方面的表现。数据集包含1024个示例,并且将不断添加新的示例和更新评估方法。
提供机构:
allenai
原始信息汇总
数据集概述
名称: WildBench
来源: WildBench是WildChat数据集的一个子集。
授权: 该数据集已根据AI2的ImpACT许可公开发布,作为低风险制品。
使用限制: 严格禁止使用WildChat数据造成伤害。



