five

xlangai/BRIGHT

收藏
Hugging Face2025-03-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/xlangai/BRIGHT
下载链接
链接失效反馈
官方服务:
资源简介:
BRIGHT是第一个需要深度推理来检索相关文档的文本检索基准测试。查询来源于多个领域(如StackExchange、LeetCode和数学竞赛),所有数据均来源于真实的人类数据。实验表明,现有的检索模型在BRIGHT基准测试上表现不佳,最高得分仅为21(nDCG@10)。BRIGHT为未来在更现实和具有挑战性的环境中进行检索研究提供了一个良好的测试平台。数据集包含三个子集:examples、documents和long_documents,分别用于存储查询、文档内容和长文档内容。

BRIGHT is the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. The queries are collected from diverse domains (StackExchange, LeetCode, and math competitions), all sourced from realistic human data. Experiments show that existing retrieval models perform poorly on BRIGHT, where the highest score is only 21 measured by nDCG@10. BRIGHT provides a good testbed for future retrieval research in more realistic and challenging settings. The dataset consists of three subsets: examples, documents, and long_documents, which store queries, document content, and long document content, respectively.
提供机构:
xlangai
原始信息汇总

数据集概述

数据集配置

  1. documents

    • 特征:
      • id: 数据类型为字符串
      • content: 数据类型为字符串
    • 分割:
      • biology: 57359个示例,大小为21983744字节
      • earth_science: 121249个示例,大小为46952371字节
      • economics: 50220个示例,大小为22771374字节
      • psychology: 52835个示例,大小为23167414字节
      • robotics: 61961个示例,大小为20718385字节
      • stackoverflow: 107081个示例,大小为189733583字节
      • sustainable_living: 60792个示例,大小为24373723字节
      • leetcode: 413932个示例,大小为456581333字节
      • pony: 7894个示例,大小为2365157字节
      • aops: 188002个示例,大小为150030021字节
      • theoremqa: 188002个示例,大小为150970031字节
    • 下载大小: 478526058字节
    • 数据集大小: 1109647136字节
  2. examples

    • 特征:
      • query: 数据类型为字符串
      • reasoning: 数据类型为字符串
      • id: 数据类型为字符串
      • excluded_ids: 数据类型为字符串序列
      • gold_ids_long: 数据类型为字符串序列
      • gold_ids: 数据类型为字符串序列
    • 分割:
      • biology: 103个示例,大小为97602字节
      • earth_science: 116个示例,大小为117309字节
      • economics: 103个示例,大小为138625字节
      • psychology: 101个示例,大小为122512字节
      • robotics: 101个示例,大小为260593字节
      • stackoverflow: 117个示例,大小为230786字节
      • sustainable_living: 108个示例,大小为127770字节
      • leetcode: 142个示例,大小为1211646字节
      • pony: 112个示例,大小为140813字节
      • aops: 111个示例,大小为163737334字节
      • theoremqa: 206个示例,大小为184110371字节
    • 下载大小: 49347420字节
    • 数据集大小: 350295361字节
  3. long_documents

    • 特征:
      • id: 数据类型为字符串
      • content: 数据类型为字符串
    • 分割:
      • biology: 524个示例,大小为19454314字节
      • earth_science: 601个示例,大小为41843262字节
      • economics: 516个示例,大小为20095594字节
      • psychology: 512个示例,大小为20541239字节
      • robotics: 508个示例,大小为18220587字节
      • stackoverflow: 1858个示例,大小为184616744字节
      • sustainable_living: 554个示例,大小为21200303字节
      • pony: 577个示例,大小为2098474字节
    • 下载大小: 104544231字节
    • 数据集大小: 328070517字节

数据集结构

  • examples:
    • query: 检索查询
    • reasoning: 检索所需推理
    • id: 实例索引
    • excluded_ids: 评估中排除的文档索引
    • gold_ids_long: 与long_documents子集索引对应的真值文档索引
    • gold_ids: 与documents子集索引对应的真值文档索引
  • documents:
    • id: 文档索引
    • content: 文档内容(从完整网页、博客等分割的短版本)
  • long_documents:
    • id: 文档索引
    • content: 文档内容(与完整网页、博客等对应的完整版本)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作