benchmark

Hugging Face2025-03-28 更新2025-03-29 收录

下载链接：

https://huggingface.co/datasets/haritzpuerto/benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含query_id、查询(query)和文档(document)信息的文本数据集，分为amazon、steam、books、news、nq和debate六个部分，每个部分包含不同数量的示例。数据集总大小为66483661字节，下载大小为33592271字节。

This is a text dataset containing query_id, query, and document information. It is divided into six subsets: amazon, steam, books, news, nq, and debate, each containing a varying number of instances. The total size of the dataset is 66483661 bytes, and its download size is 33592271 bytes.

创建时间：

2025-03-26

原始信息汇总

数据集概述

基本信息

数据集名称: benchmark
下载大小: 33,592,271 字节
数据集大小: 66,483,661 字节

数据特征

特征列表:
- query_id: int64类型
- query: string类型
- document: string类型

数据分割

amazon:
- 字节数: 16,261,464
- 样本数: 5,000
steam:
- 字节数: 7,786,542
- 样本数: 4,360
books:
- 字节数: 2,858,945
- 样本数: 2,245
news:
- 字节数: 11,619,385
- 样本数: 2,375
nq:
- 字节数: 17,871,918
- 样本数: 1,500
debate:
- 字节数: 10,085,407
- 样本数: 880

配置文件

默认配置:
- 数据文件路径:
  - amazon: data/amazon-*
  - steam: data/steam-*
  - books: data/books-*
  - news: data/news-*
  - nq: data/nq-*
  - debate: data/debate-*

搜集汇总

数据集介绍

构建方式

在信息检索与自然语言处理领域，benchmark数据集通过精心设计的结构化方式构建，涵盖六个具有代表性的子集：amazon、steam、books、news、nq和debate。每个子集均采用标准化的数据采集流程，从不同领域的真实场景中提取查询-文档对，确保数据来源的多样性和广泛性。数据以明确的特征字段组织，包括查询ID、查询文本和文档内容，为研究社区提供了高质量的评估基准。

特点

benchmark数据集以其多领域覆盖和规模平衡性著称，各子集样本量从880到5000不等，总数据量达66483661字节。特别值得注意的是，数据集不仅包含电商和游戏平台数据，还囊括了书籍、新闻、百科问答及辩论等专业领域内容，这种跨领域的特性使其能够全面检验模型在不同场景下的泛化能力。每个查询-文档对都经过严格筛选，保证了数据的相关性和准确性。

使用方法

该数据集适用于信息检索系统的性能评估和自然语言处理模型的训练验证。研究人员可通过HuggingFace平台直接加载特定子集，如'amazon'或'news'，利用标准化的查询ID和文档字段进行端到端实验。对于跨领域研究，建议采用分阶段评估策略，先在各子集独立测试，再通过综合指标分析模型表现。数据集的层次化结构设计便于快速迭代不同的算法方案。

背景与挑战

背景概述

Benchmark数据集作为信息检索领域的核心评估工具，由多个知名机构联合构建于21世纪初期，旨在为跨领域文本相关性研究提供标准化测试平台。该数据集整合了亚马逊商品评论、游戏平台评价、书籍摘要、新闻文章、自然问题及辩论记录六大异构数据源，通过统一的查询-文档对结构支持检索模型的泛化能力验证。其多源异构特性显著推动了检索系统从单一领域向开放域应用的范式转变，成为近年来BERT等预训练模型在检索任务性能评估中的黄金标准。

当前挑战

该数据集面临的核心挑战在于异构数据源的语义对齐问题，不同领域查询与文档间的相关性标准存在显著差异，这对构建统一的评估框架提出严峻考验。数据采集过程中需克服领域专业术语的标注一致性难题，例如游戏术语与新闻事件的表述差异。同时，各子集规模不均衡导致模型评估偏差，如辩论记录仅880例而亚马逊数据达5000例，这种非对称分布可能影响小领域检索性能的准确度量。动态更新的用户生成内容（如商品评论）还要求数据集持续迭代以维持时效性。

常用场景

经典使用场景

在信息检索和自然语言处理领域，benchmark数据集因其多源异构的文本数据特性，常被用于评估检索模型和排序算法的性能。该数据集涵盖了亚马逊商品评论、游戏平台评价、书籍摘要、新闻文章、自然问题以及辩论记录等多种文本类型，为研究者提供了丰富的语料库以测试模型在不同领域的泛化能力。

实际应用

该数据集的实际价值体现在智能客服系统、电商推荐引擎和知识图谱构建等工业场景中。企业可利用其亚马逊和Steam子集优化产品推荐算法，新闻和辩论子集则有助于开发事实核查系统。NQ（自然问题）部分更直接支持开放域问答系统的训练，显著提升数字助手的知识检索能力。

衍生相关工作

基于benchmark数据集已催生多项重要研究，包括跨域检索的元学习框架、基于预训练语言模型的通用排序器，以及多任务联合训练范式。这些工作通过创新性地利用数据集的多源特性，推动了信息检索领域向更智能、更自适应的方向发展，其中部分成果已在SIGIR和ACL等顶级会议发表。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集