BRIGHT

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xlangai/BRIGHT

下载链接

链接失效反馈

官方服务：

资源简介：

BRIGHT基准是一个针对需要深入推理的文本检索任务的测试平台。该数据集包含三个子集：'示例'、'文档'和'长文档'，每个子集都有特定的特征和格式。数据集涵盖了多个领域，数据来源于真实的人类数据，为检索模型提供了一个具有挑战性的测试环境。README文件还提供了数据集的统计信息、加载数据的指导以及引用信息。

创建时间：

2024-06-08

原始信息汇总

数据集概述

基本信息

语言: 英语
许可: CC-BY-4.0
大小类别: 1K<n<10K
任务类别: 文本检索

数据集详情

数据集包含多个配置，每个配置具有不同的特征和分割。以下是各配置的详细信息：

配置: Gemini-1.0_reason

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 343015 字节, 103 个样本
- earth_science: 406248 字节, 116 个样本
- economics: 412624 字节, 103 个样本
- psychology: 393619 字节, 101 个样本
- robotics: 361351 字节, 101 个样本
- stackoverflow: 413018 字节, 117 个样本
- sustainable_living: 417293 字节, 108 个样本
- pony: 333122 字节, 112 个样本
- leetcode: 1381914 字节, 142 个样本
- aops: 14181673 字节, 111 个样本
- theoremqa_theorems: 402283 字节, 78 个样本
- theoremqa_questions: 13599923 字节, 206 个样本
下载大小: 5165504 字节
数据集大小: 32646083 字节

配置: claude-3-opus_reason

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 328200 字节, 103 个样本
- earth_science: 394834 字节, 116 个样本
- economics: 369690 字节, 103 个样本
- psychology: 352967 字节, 101 个样本
- robotics: 330940 字节, 101 个样本
- stackoverflow: 382737 字节, 117 个样本
- sustainable_living: 382943 字节, 108 个样本
- pony: 366973 字节, 112 个样本
- leetcode: 1406507 字节, 142 个样本
- aops: 14149093 字节, 111 个样本
- theoremqa_theorems: 387797 字节, 78 个样本
- theoremqa_questions: 13573184 字节, 206 个样本
下载大小: 4992625 字节
数据集大小: 32425865 字节

配置: documents

特征:
- id: 字符串
- content: 字符串
分割:
- biology: 21983744 字节, 57359 个样本
- earth_science: 46952371 字节, 121249 个样本
- economics: 22771374 字节, 50220 个样本
- psychology: 23167414 字节, 52835 个样本
- robotics: 20718385 字节, 61961 个样本
- stackoverflow: 189733583 字节, 107081 个样本
- sustainable_living: 24373723 字节, 60792 个样本
- pony: 2365157 字节, 7894 个样本
- leetcode: 456581333 字节, 413932 个样本
- aops: 146691791 字节, 188177 个样本
- theoremqa_theorems: 21124422 字节, 23839 个样本
- theoremqa_questions: 146691791 字节, 188177 个样本
下载大小: 465633413 字节
数据集大小: 1123155088 字节

配置: examples

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 97602 字节, 103 个样本
- earth_science: 117309 字节, 116 个样本
- economics: 138625 字节, 103 个样本
- psychology: 122512 字节, 101 个样本
- robotics: 260593 字节, 101 个样本
- stackoverflow: 230786 字节, 117 个样本
- sustainable_living: 127770 字节, 108 个样本
- pony: 140813 字节, 112 个样本
- leetcode: 1211646 字节, 142 个样本
- aops: 13981025 字节, 111 个样本
- theoremqa_theorems: 261112 字节, 78 个样本
- theoremqa_questions: 13242711 字节, 206 个样本
下载大小: 3800832 字节
数据集大小: 29932504 字节

配置: gpt4_reason

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 384686 字节, 103 个样本
- earth_science: 454834 字节, 116 个样本
- economics: 437687 字节, 103 个样本
- psychology: 407954 字节, 101 个样本
- robotics: 413451 字节, 101 个样本
- stackoverflow: 464607 字节, 117 个样本
- sustainable_living: 448590 字节, 108 个样本
- pony: 429003 字节, 112 个样本
- leetcode: 1460069 字节, 142 个样本
- aops: 14331617 字节, 111 个样本
- theoremqa_theorems: 451206 字节, 78 个样本
- theoremqa_questions: 13727005 字节, 206 个样本
下载大小: 5652208 字节
数据集大小: 33410709 字节

配置: grit_reason

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 249326 字节, 103 个样本
- earth_science: 280360 字节, 116 个样本
- economics: 288616 字节, 103 个样本
- psychology: 244357 字节, 101 个样本
- robotics: 234626 字节, 101 个样本
- stackoverflow: 301192 字节, 117 个样本
- sustainable_living: 266326 字节, 108 个样本
- pony: 263806 字节, 112 个样本
- leetcode: 1304312 字节, 142 个样本
- aops: 14170156 字节, 111 个样本
- theoremqa_theorems: 366284 字节, 78 个样本
- theoremqa_questions: 13492590 字节, 206 个样本
下载大小: 4422419 字节
数据集大小: 31461951 字节

配置: llama3-70b_reason

特征:
- query: 字符串
- reasoning: 字符串
- id: 字符串
- excluded_ids: 字符串序列
- gold_ids_long: 字符串序列
- gold_ids: 字符串序列
分割:
- biology: 402307 字节, 103 个样本
- earth_science: 458655 字节, 116 个样本
- economics: 427110 字节, 103 个样本
- psychology: 400437 字节, 101 个样本
- robotics: 343073 字节, 101 个样本
- stackoverflow: 402274 字节, 117 个样本
- sustainable_living: 445898 字节, 108 个样本
- pony: 321674 字节, 112 个样本
- leetcode: 1375038 字节, 142 个样本
- aops: 14183118 字节, 111 个样本
- theoremqa_theorems: 410564 字节, 78 个样本
- theoremqa_questions: 13604384 字节, 206 个样本
下载大小: 5094631 字节
数据集大小: 32774532 字节

配置: long_documents

特征:
- id: 字符串
- content: 字符串
分割:
- biology: 19454314 字节, 524 个样本
- earth_science: 41843262 字节, 601 个样本
- economics: 20095594 字节, 516 个样本
- psychology: 20541239 字节, 512 个样本
- robotics: 18220587 字节, 508 个样本
- stackoverflow: 184616744 字节, 1858 个样本
- sustainable_living: 21200303 字节, 554 个样本
- pony: 2098474 字节, 577 个样本
下载大小: 104578765 字节
数据集大小: 328070517 字节

搜集汇总

数据集介绍

构建方式

BRIGHT数据集的构建基于多样化的领域数据，包括StackExchange、LeetCode以及数学竞赛等真实人类生成的内容。数据集的查询部分来源于这些领域的实际问题，文档部分则通过从完整网页、博客等内容中提取的短版和长版文档构成。为了确保数据的高质量，人类专家对推理步骤进行了标注，帮助理解查询与文档之间的相关性。数据集的组织结构分为examples、documents和long_documents三个子集，每个子集均采用一致的格式，便于后续的研究和分析。

特点

BRIGHT数据集的特点在于其强调推理密集型检索任务，涵盖了生物学、地球科学、经济学、心理学、机器人学等多个领域。数据集的查询和文档均来源于真实场景，具有高度的多样性和复杂性。此外，数据集提供了详细的推理步骤标注，帮助研究者深入理解检索任务的挑战性。实验表明，现有的检索模型在BRIGHT上的表现较差，最高得分仅为22.1（nDCG@10），这为未来的检索研究提供了一个极具挑战性的测试平台。

使用方法

BRIGHT数据集的使用方法简单直观，用户可以通过Hugging Face的`datasets`库轻松加载数据。例如，加载生物学领域的示例数据时，只需调用`load_dataset('xlangai/BRIGHT', 'examples')['biology']`即可。数据集的结构清晰，分为examples、documents和long_documents三个子集，每个子集包含查询、文档内容及其对应的索引信息。研究者可以根据需要选择不同的子集进行实验，进一步探索推理密集型检索任务的解决方案。

背景与挑战

背景概述

BRIGHT数据集是首个专注于需要深度推理的文本检索任务的基准数据集，旨在评估检索模型在复杂推理场景下的表现。该数据集由多个领域的查询组成，涵盖生物学、地球科学、经济学、心理学、机器人学、编程问题（如LeetCode）以及数学竞赛等，数据来源于真实的人类生成内容。BRIGHT的创建时间为2024年，由来自多个研究机构的团队共同开发，其核心研究问题在于如何提升检索模型在需要复杂推理的任务中的性能。该数据集为未来的检索研究提供了一个更具挑战性和现实意义的测试平台，推动了文本检索领域向更高层次的推理能力发展。

当前挑战

BRIGHT数据集面临的挑战主要体现在两个方面。首先，该数据集解决的领域问题是复杂推理驱动的文本检索，现有检索模型在这一任务上表现较差，最高nDCG@10得分仅为22.1，表明模型在处理需要深度推理的查询时存在显著不足。其次，在数据构建过程中，研究人员需要从多样化的真实场景中收集查询，并为其标注相关的推理步骤和文档，这一过程不仅耗时且需要高度的领域专业知识。此外，数据集中包含的长文档和短文档的匹配问题，以及跨领域数据的统一处理，也为数据集的构建带来了额外的复杂性。

常用场景

经典使用场景

BRIGHT数据集作为首个需要深度推理的文本检索基准，广泛应用于多领域文本检索任务中。其查询数据来源于StackExchange、LeetCode及数学竞赛等真实场景，涵盖了生物学、地球科学、经济学、心理学、机器人学等多个学科。通过提供复杂的查询与文档对，BRIGHT为研究者提供了一个评估和改进现有检索模型的理想平台，尤其是在需要推理能力的检索任务中。

实际应用

BRIGHT数据集在实际应用中具有广泛的价值。其多领域数据来源使其能够应用于教育、科研、技术开发等多个场景。例如，在教育领域，BRIGHT可以用于开发智能辅导系统，帮助学生通过推理检索相关学习资料；在技术开发中，BRIGHT可用于优化搜索引擎的推理能力，提升复杂查询的检索效果。

衍生相关工作

BRIGHT数据集的发布催生了一系列相关研究工作。研究者们基于BRIGHT提出了多种改进的检索模型，特别是在结合大语言模型（如GPT-4、Claude-3）的推理能力方面取得了显著进展。此外，BRIGHT还推动了多模态检索、跨领域检索等新兴研究方向的发展，为未来的检索技术提供了新的思路和挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集