Vikhrmodels/Grounded-RAG-QA-RU

Name: Vikhrmodels/Grounded-RAG-QA-RU
Creator: Vikhrmodels
Published: 2024-07-04 23:31:02
License: 暂无描述

Hugging Face2024-07-04 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Vikhrmodels/Grounded-RAG-QA-RU

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于13,000篇俄语维基百科文章构建的，使用了GPT-4-turbo-1106生成的合成问题和答案。数据集中的对话格式遵循HuggingFace的标准，包含文档、用户和助手三个角色。特别地，助手的角色在对话末尾重复出现，第一次出现时提供文档ID的JSON数组，第二次出现时提供对用户问题的完整回答。数据集旨在训练模型回答基于多个文档的复杂和简单问题，并学会拒绝那些无法在提供文档中找到答案的问题。此外，模型还会在每次回答前生成一个包含相关文档选择的回复，以增强对模型的控制和监控。数据集包含训练集和测试集，分别有44,253和150个示例。

This dataset is built from 13,000 Russian Wikipedia articles using synthetic questions and answers generated by GPT-4-turbo-1106. The conversation format in the dataset follows the HuggingFace standard, including roles for documents, user, and assistant. Notably, the assistant role is repeated at the end of the conversation, first providing a JSON array of document IDs, and then providing a full answer to the users question. The dataset aims to train models to answer complex and simple questions based on multiple documents and to learn to reject questions that cannot be answered from the provided documents. Additionally, the model generates a response containing the selection of relevant documents before each answer to enhance control and monitoring of the model. The dataset includes training and test sets with 44,253 and 150 examples, respectively.

提供机构：

Vikhrmodels

原始信息汇总

数据集概述

基本信息

语言: 俄语
许可证: Apache 2.0

数据集结构

特征

id: 整数类型
cluster: 整数类型
model: 字符串类型
type: 字符串类型
conversation: 列表类型
- content: 字符串类型
- role: 字符串类型

数据分割

训练集:
- 字节数: 769241255
- 样本数: 44253
测试集:
- 字节数: 2570290
- 样本数: 150

数据大小

下载大小: 130735237 字节
数据集大小: 771811545 字节

配置

默认配置:
- 训练数据路径: data/train-*
- 测试数据路径: data/test-*

数据集目标

训练模型回答复杂和简单的问题，涉及多个文档（1到5个）的不同格式。
模型学习拒绝任何在找到的文档中没有答案的问题。
模型在每次回答前生成包含相关文档选择的单独回复，以更好地控制和监控模型。

文档格式

documents: 包含文档内容的列表，使用json.dumps(array)格式。
文档内容格式: markdown, html, plain_text
文档内容长度: 每个文档的随机块，长度最多4000个字符。

数据集构建步骤

解析约30,000篇俄语维基百科文章，生成三种不同格式的文本。
使用AgglomerativeClustering和e5-large-multilingual进行过滤和聚类，生成约4,000个独特集群，包含13,000个文档。
使用gpt-4-turbo-1106生成合成问题，每个集群生成11个问题，其中7个有答案，4个无答案。
随机删除部分文档的标题和集群，仅用于无答案问题。
使用gpt-4-turbo-1106生成合成答案，指定查找答案的文档。
后处理，将对话收集并分割为训练集和测试集，按问题类型分层。

作者

Sergey Bratchikov, NLP Wanderer

搜集汇总

数据集介绍

构建方式

在信息检索与自然语言处理领域，构建高质量的数据集对于提升模型在文档问答任务中的表现至关重要。该数据集以约13,000篇俄语维基百科文章为基础，通过解析并转换为Markdown、HTML及纯文本三种随机格式，从中提取长度不超过4000字符的文本片段作为文档内容。随后，利用E5-large-multilingual模型进行嵌入表示，并采用凝聚层次聚类方法将文档划分为约4000个独特簇，每个簇包含2至5个相关文档。在此基础上，借助GPT-4-Turbo模型生成合成问题与答案，其中每个簇对应11个问题，包括7个可在文档中找到答案的问题及4个超出文档范围的分布外问题，以确保模型专注于基于文档的问答。最后，通过随机丢弃部分簇及标题信息，并进行后处理与分层划分，形成了包含训练集与测试集的完整对话格式数据。

特点

该数据集在设计上体现了多模态文档处理与严格基础对齐的鲜明特色。其文档内容以三种随机格式呈现，模拟了真实世界中文本数据的多样性，要求模型具备跨格式理解能力。对话结构采用HuggingFace标准格式，并特别设置了独立的文档角色，清晰区隔上下文与查询，其中助理回复被设计为两次输出：首次输出相关文档ID的JSON数组，实现答案的可追溯性与基础对齐；第二次输出基于文档的完整答案。此外，数据集刻意引入了分布外问题，迫使模型学会在缺乏文档支持时拒绝回答，从而强化其基于检索的问答专注度，避免生成无关内容。这种结构不仅支持复杂多文档问答，还通过分层抽样确保了训练与测试数据的平衡性。

使用方法

在应用该数据集进行模型训练时，需遵循其特定的对话逻辑与训练目标。数据以角色化对话形式组织，包含文档、用户和助理三种角色，其中助理的首次回复应为文档ID列表，第二次回复为基于文档的答案。训练过程中，模型应仅以助理的两次回复作为学习目标，而不直接学习文档内容或用户问题，以此专注于答案生成与基础对齐能力的培养。对于分布外问题，模型需被引导至忽略或拒绝回答，这通常可通过结合另一个对话模型来实现。在实际使用前，建议对数据进行完整性校验，确保对话格式与角色序列符合规范，并依据数据集的划分进行训练与评估，以优化模型在复杂文档问答任务中的性能与可控性。

背景与挑战

背景概述

在自然语言处理领域，提升大型语言模型基于检索增强生成技术的问答能力，尤其是针对多文档、多格式的复杂查询场景，已成为研究的关键方向。Vikhrmodels/Grounded-RAG-QA-RU数据集由Sergey Bratchikov及其团队于近期构建，依托约1.3万篇俄语维基百科文章，通过GPT-4-turbo模型生成合成问答对。该数据集的核心研究问题聚焦于训练模型在对话式环境中，依据提供的文档集合进行精准问答，并具备拒绝无关查询的能力，从而推动俄语检索增强生成模型在真实应用中的可靠性与可解释性发展。

当前挑战

该数据集旨在解决多文档问答中模型对检索结果的依赖与答案生成一致性的挑战，要求模型在混合格式文档中定位相关信息，并区分可回答与不可回答的问题。构建过程中的挑战包括：对大规模俄语文本进行有效的聚类与表示学习，确保文档间的语义关联；设计合成问题生成流程，平衡可回答问题与分布外问题的比例，以模拟真实查询场景；以及处理文档内容的随机格式转换与标题缺失，增加模型对噪声的鲁棒性。

常用场景

经典使用场景

在检索增强生成（RAG）领域，该数据集为俄语语言模型提供了经典的应用场景。它通过模拟多文档问答任务，训练模型在给定文档集合中定位相关信息并生成精确回答。数据集中的对话格式包含文档、用户和助手角色，促使模型学习从结构化文档中提取关键信息，同时处理复杂或跨文档的查询。这种设置不仅强化了模型的信息检索能力，还提升了其在多轮对话中保持上下文一致性的表现，为俄语RAG系统的开发奠定了坚实基础。

解决学术问题

该数据集有效解决了自然语言处理中几个关键学术问题。它针对多文档问答的挑战，通过合成数据训练模型识别文档间的关联性，从而提升答案的准确性和连贯性。同时，数据集引入了分布外（OOD）问题示例，迫使模型学会拒绝无法从文档中回答的查询，这增强了模型的鲁棒性和可靠性。此外，数据集的格式设计促进了模型在生成答案前先输出相关文档ID，实现了答案的可追溯性，为研究模型的可解释性和可控性提供了宝贵资源。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作。例如，基于其格式的模型微调方法被广泛应用于改进俄语LLM的RAG性能，特别是在文档选择和答案生成的双重任务上。研究人员利用数据集的OOD示例开发了更先进的拒绝机制，增强了模型在开放域对话中的安全性。此外，数据集的聚类和文档表示方式启发了新的多语言嵌入技术，促进了跨语言信息检索系统的优化，为后续的俄语NLP项目提供了重要的基准和灵感来源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集