xlangai/BRIGHT
收藏Hugging Face2025-03-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xlangai/BRIGHT
下载链接
链接失效反馈官方服务:
资源简介:
BRIGHT是第一个需要深度推理来检索相关文档的文本检索基准测试。查询来源于多个领域(如StackExchange、LeetCode和数学竞赛),所有数据均来源于真实的人类数据。实验表明,现有的检索模型在BRIGHT基准测试上表现不佳,最高得分仅为21(nDCG@10)。BRIGHT为未来在更现实和具有挑战性的环境中进行检索研究提供了一个良好的测试平台。数据集包含三个子集:examples、documents和long_documents,分别用于存储查询、文档内容和长文档内容。
BRIGHT is the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. The queries are collected from diverse domains (StackExchange, LeetCode, and math competitions), all sourced from realistic human data. Experiments show that existing retrieval models perform poorly on BRIGHT, where the highest score is only 21 measured by nDCG@10. BRIGHT provides a good testbed for future retrieval research in more realistic and challenging settings. The dataset consists of three subsets: examples, documents, and long_documents, which store queries, document content, and long document content, respectively.
提供机构:
xlangai
原始信息汇总
数据集概述
数据集配置
-
documents
- 特征:
id: 数据类型为字符串content: 数据类型为字符串
- 分割:
biology: 57359个示例,大小为21983744字节earth_science: 121249个示例,大小为46952371字节economics: 50220个示例,大小为22771374字节psychology: 52835个示例,大小为23167414字节robotics: 61961个示例,大小为20718385字节stackoverflow: 107081个示例,大小为189733583字节sustainable_living: 60792个示例,大小为24373723字节leetcode: 413932个示例,大小为456581333字节pony: 7894个示例,大小为2365157字节aops: 188002个示例,大小为150030021字节theoremqa: 188002个示例,大小为150970031字节
- 下载大小: 478526058字节
- 数据集大小: 1109647136字节
- 特征:
-
examples
- 特征:
query: 数据类型为字符串reasoning: 数据类型为字符串id: 数据类型为字符串excluded_ids: 数据类型为字符串序列gold_ids_long: 数据类型为字符串序列gold_ids: 数据类型为字符串序列
- 分割:
biology: 103个示例,大小为97602字节earth_science: 116个示例,大小为117309字节economics: 103个示例,大小为138625字节psychology: 101个示例,大小为122512字节robotics: 101个示例,大小为260593字节stackoverflow: 117个示例,大小为230786字节sustainable_living: 108个示例,大小为127770字节leetcode: 142个示例,大小为1211646字节pony: 112个示例,大小为140813字节aops: 111个示例,大小为163737334字节theoremqa: 206个示例,大小为184110371字节
- 下载大小: 49347420字节
- 数据集大小: 350295361字节
- 特征:
-
long_documents
- 特征:
id: 数据类型为字符串content: 数据类型为字符串
- 分割:
biology: 524个示例,大小为19454314字节earth_science: 601个示例,大小为41843262字节economics: 516个示例,大小为20095594字节psychology: 512个示例,大小为20541239字节robotics: 508个示例,大小为18220587字节stackoverflow: 1858个示例,大小为184616744字节sustainable_living: 554个示例,大小为21200303字节pony: 577个示例,大小为2098474字节
- 下载大小: 104544231字节
- 数据集大小: 328070517字节
- 特征:
数据集结构
- examples:
query: 检索查询reasoning: 检索所需推理id: 实例索引excluded_ids: 评估中排除的文档索引gold_ids_long: 与long_documents子集索引对应的真值文档索引gold_ids: 与documents子集索引对应的真值文档索引
- documents:
id: 文档索引content: 文档内容(从完整网页、博客等分割的短版本)
- long_documents:
id: 文档索引content: 文档内容(与完整网页、博客等对应的完整版本)



