five

OkayestProgrammer/mtr-qwen35-fp8-12turn

收藏
Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/OkayestProgrammer/mtr-qwen35-fp8-12turn
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: messages list: - name: content dtype: string - name: role dtype: string - name: ctxs sequence: string - name: ground_truth_document_idx dtype: int64 - name: ground_truth_ctx dtype: string - name: cluster_idx dtype: int64 - name: turn dtype: int64 - name: switch_turn dtype: int64 splits: - name: train num_examples: 107928 - name: test num_examples: 12000 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # MTR-Qwen3.5-FP8 12-Turn Multi-Turn Retrieval Dataset Synthesized multi-turn retrieval dataset using **Qwen3.5-FP8** (397B MoE) via SGLang. ## Overview | Split | Rows | Description | |-------|------|-------------| | train | 107,928 | 8,994 conversations × 12 turns (each turn = 1 sample) | | test | 12,000 | 1,000 conversations × 12 turns | Each row is a **single retrieval test case**: a conversation truncated at a specific turn, with a ground-truth document the system should retrieve for the last user query. ## Features | Column | Type | Description | |--------|------|-------------| | `messages` | `List[{role, content}]` | Conversation history up to this turn | | `ctxs` | `List[string]` | Candidate document pool (text only) | | `ground_truth_document_idx` | `int64` | Index into `ctxs` for the relevant document | | `ground_truth_ctx` | `string` | The ground-truth document text | | `cluster_idx` | `int64` | Source document cluster ID | | `turn` | `int64` | Turn number (1-12) | | `switch_turn` | `int64` | Turn where hard topic switch occurs (-1 = no switch) | ## Key Properties - **Humanized queries**: Turn 2-12 user queries are rewritten to sound natural (contractions, pronouns, ellipsis) while Turn 1 remains formal - **Hard topic switch**: ~50% of conversations switch to a completely different topic at a random turn (uniformly distributed across turns 2-11) - **Document-grounded**: Every query references specific content from the document pool - **Per-turn ground truth**: Each turn has its own `ground_truth_document_idx` pointing to a different document ## Usage ```python from datasets import load_dataset ds = load_dataset("OkayestProgrammer/mtr-qwen35-fp8-12turn") print(ds["train"][0]) # Turn 1: 2 messages, formal query print(ds["train"][11]) # Turn 12: 24 messages, casual query ``` ## Related Resources | Resource | Link | |----------|------| | Document Collection (1M docs) | [OkayestProgrammer/MTR-DOCUMENT](https://huggingface.co/datasets/OkayestProgrammer/MTR-DOCUMENT) | | Training Code | [rangehow/mtr-suite](https://github.com/rangehow/mtr-suite) |
提供机构:
OkayestProgrammer
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,多轮对话检索数据集对于评估和训练检索系统至关重要。MTR-Qwen3.5-FP8-12Turn数据集通过合成方法构建,利用Qwen3.5-FP8模型生成对话内容。该数据集包含训练集和测试集,分别基于8,994和1,000个完整对话,每个对话被拆分为12轮,每轮作为一个独立的检索测试样本。构建过程中,对话历史被截断至特定轮次,并为最后一轮用户查询标注了待检索的真实文档,确保了数据结构的系统性和一致性。
特点
该数据集展现出多项独特特征,旨在模拟真实对话场景。用户查询经过人性化处理,从第二轮开始引入自然语言表达,如缩略词和代词,而首轮查询保持正式风格。约半数对话在随机轮次发生硬主题切换,增加了检索任务的挑战性。数据集以文档为基础,每轮查询均与文档池中的特定内容相关联,且每轮均提供独立的真实文档索引,支持细粒度的检索性能评估。
使用方法
使用该数据集时,研究人员可通过Hugging Face的datasets库便捷加载。加载后,数据集以标准格式呈现,每条样本包含对话历史、候选文档池及真实文档索引等信息。用户可访问不同轮次的样本,例如首轮样本包含2条消息和正式查询,而末轮样本则可能包含24条消息和更随意的查询,便于分析对话演进对检索的影响。该数据集适用于多轮检索模型的训练、评估及消融实验,为相关研究提供了结构化基准。
背景与挑战
背景概述
在信息检索与对话系统研究领域,多轮对话检索任务旨在模拟真实人机交互场景,要求系统依据连续对话历史动态定位相关信息。MTR-Qwen3.5-FP8-12Turn数据集应运而生,由研究团队借助Qwen3.5-FP8大型语言模型合成构建,专注于评估模型在多轮对话中的检索性能。该数据集包含超过十万条训练样本与一万两千条测试样本,每轮对话均设计为十二轮次,并引入话题切换机制以模拟复杂对话流。其核心研究问题在于如何提升检索系统在长程、多主题对话中的上下文理解与精准文档定位能力,为对话式信息检索模型的训练与评测提供了重要基准。
当前挑战
该数据集致力于应对多轮对话检索领域的核心挑战,即如何在长对话序列中维持上下文连贯性,并准确捕捉用户意图的演变。具体而言,数据构建过程中需模拟真实对话的复杂性,包括自然语言查询的改写、代词与省略现象的处理,以及随机话题切换的引入,这些均对合成数据的真实性与多样性提出了较高要求。此外,确保每轮对话的检索目标与历史上下文紧密关联,同时避免信息冗余或矛盾,构成了数据构造的技术难点。这些挑战共同指向了开发更鲁棒、更适应动态对话环境的检索系统的迫切需求。
常用场景
经典使用场景
在多轮对话检索领域,该数据集为评估和训练检索模型提供了标准化的测试平台。其核心应用场景在于模拟真实对话中的信息需求演变,通过包含12轮对话历史、候选文档池及每轮的真实相关文档索引,使模型能够学习在长程对话上下文中准确识别用户意图,并应对话题切换带来的挑战。这种设计特别适用于研究对话式检索系统的鲁棒性和连贯性,为模型在动态交互环境中的性能提供了全面评估。
实际应用
在实际应用层面,该数据集可直接服务于智能客服、对话式搜索引擎以及个性化推荐系统的开发。通过模拟用户与系统之间的多轮交互,数据集帮助训练模型理解渐进式查询、处理指代消解并适应话题的自然转换。这种能力对于构建能够维持上下文一致性、提供精准信息响应的实际对话系统至关重要,从而提升用户体验和系统效率。
衍生相关工作
围绕该数据集,已衍生出一系列经典研究工作,主要集中在多轮检索模型架构优化、上下文编码策略以及话题切换检测算法等方面。例如,基于其提供的文档池和对话结构,研究者开发了专门的检索-重排序管道,并探索了预训练语言模型在长对话场景下的微调方法。这些工作不仅扩展了数据集的实用价值,也为对话式人工智能的进一步发展奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作