RECOR

github2026-01-10 更新2026-01-11 收录

下载链接：

https://github.com/RECOR-Benchmark/RECOR

下载链接

链接失效反馈

官方服务：

资源简介：

RECOR是一个专注于推理的多轮对话检索基准，用于评估需要复杂推理的真实世界信息检索场景。它包含707个对话，2971个对话轮次，涵盖11个不同领域，每个对话平均有4.2个轮次。数据集分为基准文件和文档文件，支持多种下载和使用方式。

RECOR is a reasoning-focused multi-turn dialogue retrieval benchmark designed for evaluating real-world information retrieval scenarios that require complex reasoning. It consists of 707 dialogues and 2971 dialogue turns, covering 11 distinct domains, with an average of 4.2 turns per dialogue. The dataset is divided into benchmark files and document files, and supports multiple download and usage methods.

创建时间：

2026-01-05

原始信息汇总

RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

概述

RECOR是一个用于评估推理密集型会话信息检索系统的基准测试，旨在解决传统会话搜索评估与真实世界信息寻求场景中复杂推理需求之间的差距。

数据集统计

指标	数值
总会话数	707
总轮次	2,971
领域数	11
平均每会话轮次	4.2

领域

来源	领域
BRIGHT	biology, earth_science, economics, psychology, robotics, sustainable_living
StackExchange	Drones, hardware, law, medicalsciences, politics

数据获取

选项1: Python (推荐) python from datasets import load_dataset benchmark = load_dataset("RECOR-Benchmark/RECOR", "benchmark", split="biology") corpus = load_dataset("RECOR-Benchmark/RECOR", "corpus", split="biology") all_benchmarks = load_dataset("RECOR-Benchmark/RECOR", "benchmark") all_corpus = load_dataset("RECOR-Benchmark/RECOR", "corpus")

可用领域: biology, earth_science, economics, psychology, robotics, sustainable_living, Drones, hardware, law, medicalsciences, politics

选项2: 命令行 bash huggingface-cli download RECOR-Benchmark/RECOR --repo-type dataset --local-dir ./RECOR-data

选项3: 浏览与下载文件 访问 https://huggingface.co/datasets/RECOR-Benchmark/RECOR/tree/main/data 浏览和下载单个文件。

数据格式

基准测试文件 ({domain}_benchmark.jsonl): json { "id": "biology_0", "task": "biology", "original_query": "How do mitochondria generate ATP?", "original_answer": "Mitochondria generate ATP through...", "turns": [ { "turn_id": 1, "query": "What happens during the electron transport chain?", "answer": "The electron transport chain...", "gold_doc_ids": ["doc_123", "doc_456"], "conversation_history": "No previous conversation.", "subquestion_reasoning": "Understanding ETC is foundational...", "subquestion_reasoning_metadata": { "target_information": "...", "relevance_signals": ["..."], "irrelevance_signals": ["..."] } } ], "metadata": {"num_turns": 3, "created_at": "..."} }

注意: BRIGHT领域使用 gold_doc_ids，StackExchange领域使用 supporting_doc_ids。

文档文件 ({domain}_documents.jsonl): json {"doc_id": "document_id", "content": "Document text content..."}

文件结构

data/ ├── benchmark/ # 会话基准测试 (11个文件) │ └── {domain}_benchmark.jsonl └── corpus/ # 文档语料库 (11个文件) └── {domain}_documents.jsonl

评估指标

检索: Recall@K, MRR, nDCG@10

生成 (自动): ROUGE-L, METEOR, BERTScore

生成 (LLM评判): Correctness, Completeness, Relevance, Coherence, Faithfulness

许可证

MIT License

搜集汇总

数据集介绍

构建方式

在对话式信息检索领域，传统评估方法往往难以捕捉真实场景中复杂的推理需求。RECOR数据集通过精心设计的构建流程弥合了这一差距，其数据来源于两个权威知识库：BRIGHT涵盖生物学、地球科学等六个科学领域，StackExchange则包含无人机、硬件等五个专业社区。构建过程中采用多轮对话模拟真实信息寻求行为，每轮对话均配备详细的子问题推理说明和元数据标注，最终形成包含707段对话、2971轮交互的基准测试集，覆盖11个不同领域，平均每段对话包含4.2轮交互。

特点

该数据集最显著的特征在于其专注于推理密集型对话检索任务的设计理念。每个对话轮次不仅包含查询与应答，还特别标注了黄金文档标识、对话历史以及结构化的推理元数据，这些元数据明确标示了目标信息、相关信号与非相关信号。数据集采用双模块架构，将对话基准与文档语料分离存储，支持按领域灵活加载。这种设计使得研究者能够深入分析推理过程对检索效果的影响，为评估检索系统在复杂多轮对话中的表现提供了多维度的观测窗口。

使用方法

研究者可通过Hugging Face平台便捷获取RECOR数据集，支持按特定领域或完整集合加载对话基准与文档语料。数据使用主要围绕检索与生成两大实验范式展开：检索评估可通过内置脚本测试不同模型在Recall、MRR等指标上的表现，并支持融入对话历史、推理信息等要素的消融实验；生成评估则提供端到端的检索增强生成流程，支持调用多种大语言模型生成答案，并可通过自动指标与基于LLM的评判员从正确性、连贯性等五个维度进行综合评估。这种模块化的使用方式为系统性能的深入剖析提供了完整工具链。

背景与挑战

背景概述

在人工智能与信息检索领域，多轮对话检索系统正逐渐成为研究热点，旨在模拟真实世界中复杂的信息寻求过程。RECOR基准数据集应运而生，由RECOR-Benchmark团队创建，专注于评估推理密集型会话信息检索系统。该数据集旨在弥合传统会话搜索评估与真实场景中复杂推理需求之间的鸿沟，涵盖了生物学、地球科学、经济学、心理学、机器人学、可持续生活以及来自StackExchange的无人机、硬件、法律、医学科学、政治等11个领域，总计包含707个对话和2,971个对话轮次，平均每个对话拥有4.2轮。其核心研究问题在于如何有效评估系统在需要深度推理的多轮对话中的检索与生成能力，对推动会话AI、检索增强生成及跨领域知识推理研究具有重要影响力。

当前挑战

RECOR数据集所解决的领域问题主要聚焦于推理密集型多轮对话检索，其挑战在于如何设计评估框架以准确衡量系统在复杂、多步骤推理场景下的性能，例如处理跨领域知识整合、上下文依赖性以及动态信息需求演变。在构建过程中，面临的挑战包括从多样化来源（如BRIGHT和StackExchange）收集高质量对话数据，确保对话轮次间的逻辑连贯性与推理深度，同时标注支持文档与子问题推理元数据，以维护数据的一致性与可靠性。此外，平衡不同领域的覆盖范围与数据规模，以及验证基准质量的多维度标准，也是构建过程中的关键难点。

常用场景

经典使用场景

在对话式信息检索领域，RECOR数据集为评估推理密集型检索系统提供了标准化的测试平台。该数据集通过模拟多轮对话场景，涵盖了生物学、经济学、机器人学等11个专业领域，每个对话平均包含4.2轮交互，要求系统不仅理解当前查询，还需结合历史对话进行连贯推理。研究人员通常利用该数据集训练和评估检索模型在复杂语境下的表现，特别是在处理需要多步逻辑推导的专业问题时，能够检验模型对隐含信息关联和领域知识的掌握程度。

解决学术问题

RECOR数据集主要解决了传统对话检索评估与真实世界复杂推理需求之间的脱节问题。在学术研究中，它帮助量化检索系统在理解多轮对话语境、处理专业领域知识以及进行链式推理方面的能力。通过提供细粒度的标注信息，如子问题推理和相关性信号，该数据集使得研究者能够深入分析检索失败案例，推动对话式检索模型从简单匹配向深度理解演进，对提升人工智能在知识密集型对话中的实用性具有重要意义。

衍生相关工作

围绕RECOR数据集，已衍生出多项经典研究工作，主要集中在检索增强生成（RAG）架构的优化和推理机制的改进。例如，一些研究利用其提供的对话历史和推理元数据，开发了能够动态整合上下文信息的检索模型；另一些工作则基于该数据集的评估框架，提出了新的多维度评估指标，如结合LLM评判的完整性、连贯性等维度。这些工作共同推动了对话式检索系统向更高效、更可靠的方向发展，并为后续跨领域推理研究奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集