prometheus-eval/BiGGen-Bench|文本生成数据集|数据评估数据集

hugging_face2025-04-03 更新2024-06-15 收录

文本生成

数据评估

下载链接：

https://hf-mirror.com/datasets/prometheus-eval/BiGGen-Bench

下载链接

链接失效反馈

资源简介：

BIGGEN-Bench是一个全面的评估基准，旨在评估大型语言模型（LLM）在广泛任务上的能力。该基准专注于自由形式的文本生成，并采用细粒度、实例特定的评估标准。它旨在使用精确、定制的评估标准来评估LLM在各种能力上的表现。评估方法包括使用人类评估者和基于LLM的评估者（如GPT-4、Claude-3-Opus）进行评估，并使用5点Likert量表根据实例特定的量表进行打分。

BIGGEN-Bench (BiG Generation Benchmark) is a comprehensive evaluation benchmark designed to assess the capabilities of large language models (LLMs) across a wide range of tasks. This benchmark focuses on free-form text generation and employs fine-grained, instance-specific evaluation criteria. It aims to evaluate LLMs on diverse capabilities using precise, tailored evaluation criteria. The evaluation methodology includes both human evaluators and LLM-based evaluators (e.g., GPT-4, Claude-3-Opus) and utilizes a 5-point Likert scale based on instance-specific rubrics for scoring.

提供机构：

prometheus-eval

原始信息汇总

数据集概述

数据集信息

特征列表:
- id: 类型为字符串
- capability: 类型为字符串
- task: 类型为字符串
- instance_idx: 类型为整数
- system_prompt: 类型为字符串
- input: 类型为字符串
- reference_answer: 类型为字符串
- score_rubric: 结构类型，包含以下字段:
  - criteria: 类型为字符串
  - score1_description: 类型为字符串
  - score2_description: 类型为字符串
  - score3_description: 类型为字符串
  - score4_description: 类型为字符串
  - score5_description: 类型为字符串
数据分割:
- test: 包含765个样本，总字节数为2637800
下载大小: 1241396字节
数据集大小: 2637800字节

配置信息

默认配置:
- 数据文件路径: data/test-*

其他信息

许可证: cc-by-nd-4.0
任务类别: 文本生成
语言: 英语
数据集大小类别: n<1K

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家，记录了18000次飞行，由于缺乏卫星覆盖，海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集，专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象，包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息，并提供了加载和评估数据集的示例代码。

huggingface 收录