allenai/discoverybench

Name: allenai/discoverybench
Creator: allenai
Published: 2024-07-15 17:36:39
License: 暂无描述

Hugging Face2024-07-15 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/allenai/discoverybench

下载链接

链接失效反馈

官方服务：

资源简介：

DiscoveryBench数据集旨在系统地评估当前模型在数据驱动发现任务中的能力，并提供一个改进这些能力的资源。每个DiscoveryBench任务由一个目标和数据集组成，解决任务需要统计分析和语义推理。数据集包含真实和合成的基准测试，每个基准测试都有训练和测试分区，且每个分区包含查询数据集文件和元数据文件。元数据文件包含一个或多个查询，这些查询都可以通过答案键中的黄金假设来回答。答案键中的每个记录由数据集文件夹名称、元数据ID和查询ID索引。

DiscoveryBench is designed to systematically assess current model capabilities in data-driven discovery tasks and provide a useful resource for improving them. Each DiscoveryBench task consists of a goal and dataset(s). Solving the task requires both statistical analysis and semantic reasoning. The dataset contains both real and synthetic benchmarks, each with train and test partitions. Each partition includes query dataset files and metadata files. The metadata files contain one or more queries that can all be answered by the gold hypothesis present in the answer keys. Each record in the answer key is indexed by the dataset folder name, metadata ID, and query ID.

提供机构：

allenai

原始信息汇总

数据集概述

许可证

许可证类型：odc-by

任务类别

文本生成

数据配置

配置名称：default
- 数据文件：
  - 训练集路径：discoverybench/real/train/evolution_freshwater_fish/*.json
  - 测试集路径：discoverybench/real/test/archaeology/*.json

数据结构

discoverybench：包含真实和合成基准测试文件夹。每个基准测试都有训练和测试分区。每个文件夹包含常见的查询-数据集文件（通常是csv）和多个metadata_*.json文件。每个metadata_*.json文件包含一个或多个查询，这些查询都可以通过answer_key中的黄金假设来回答。
answer_key：真实和合成发现任务的黄金假设。每个记录通过数据集文件夹名称、metadata_id和qid进行索引。

5,000+

优质数据集

54 个

任务类型

进入经典数据集