Grounded-RAG-Chat-RU

Hugging Face2024-06-29 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-Chat-RU

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是从13,000篇俄语维基百科文章中收集的，使用了合成的问题和答案，生成工具为gpt-4-turbo-1106。数据集的目的是训练模型以回答关于多个文档的复杂和简单问题，并且学习拒绝那些在文档中找不到答案的问题。数据集的对话部分采用了HuggingFace的格式，包含角色如documents、user和assistant。特别之处在于，assistant角色在对话结束时会重复两次，第一次是文档ID的JSON数组，第二次是完整回答。此外，文档内容以三种格式（markdown、html、plain_text）呈现，每个文档的内容是从文章中随机抽取的片段，长度不超过4000个字符。数据集的构建过程包括维基百科文章的解析、过滤和聚类、合成问题的生成、答案的生成以及最终的对话构建和分割。

创建时间：

2024-06-19

原始信息汇总

数据集概述

数据集信息

语言: 俄语
许可证: Apache 2.0

数据集特征

特征列表:
- id: 数据类型为 int64
- cluster: 数据类型为 int64
- model: 数据类型为 string
- type: 数据类型为 string
- conversation: 包含以下子特征的列表
  - content: 数据类型为 string
  - role: 数据类型为 string

数据集分割

训练集:
- 字节数: 506330621
- 样本数: 28075
测试集:
- 字节数: 2745190
- 样本数: 150

数据集大小

下载大小: 103219153 字节
数据集大小: 509075811 字节

配置

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*

数据集目标

训练模型回答基于多个不同格式文档的复杂和简单问题，以聊天格式进行。
模型在每次回答前生成包含相关信息文档选择的单独回复，以更好地控制和监控模型（接地）。

文档格式

文档角色: 以JSON格式表示的文档内容列表。
内容格式: 文档内容以markdown、html或纯文本格式随机呈现，每个文档内容为随机选择的4000字符长度的文章片段。

数据集构建步骤

解析约30,000篇俄语维基百科文章，以三种不同文本格式提取随机4000字符长度的片段。
使用AgglomerativeClustering和e5-large-multilingual进行过滤和聚类，形成约4,000个包含13,000篇文档的独特集群，每个集群包含2到5篇文档。
使用gpt-4-turbo-1106生成关于文档集群的合成问题，考虑多个文档的复杂问题。每个集群生成7个有答案的问题。
随机丢弃部分集群和标题字段（设置为null）。
使用gpt-4-turbo-1106生成合成答案，指定在哪些文档中查找答案。
后处理，构建对话并按问题类型分层分割为训练集和测试集。

作者

Sergey Bratchikov, NLP Wanderer

搜集汇总

数据集介绍

构建方式

Grounded-RAG-Chat-RU数据集的构建基于13,000篇俄语维基百科文章，通过GPT-4-turbo-1106生成合成问答对。数据集的对话格式遵循HuggingFace标准，包含documents、user和assistant三种角色。数据集通过AgglomerativeClustering和e5-large-multilingual进行文档聚类，生成复杂问题并确保每个问题有多个文档支持。最终，数据集经过后处理，划分为训练集和测试集，并确保问题的类型分布均衡。

特点

该数据集的特点在于其对话格式的多样性，每个对话包含多个文档的引用，且文档内容以三种随机格式（markdown、html、plain_text）呈现。数据集特别设计了assistant角色的双重回答机制，首先生成相关文档的ID列表，随后提供完整的回答。这种设计不仅增强了模型的文档引用能力，还提高了模型在复杂问题上的表现。此外，数据集避免了OOD（Out-of-Distribution）样本，确保模型能够在广泛的主题上进行有效对话。

使用方法

Grounded-RAG-Chat-RU数据集主要用于训练模型在复杂文档环境中进行问答对话。使用时，模型需首先识别相关文档的ID，随后基于这些文档生成回答。数据集特别适用于训练具有16k上下文窗口的模型，以处理长文本对话。用户可以通过HuggingFace平台直接下载数据集，并利用其提供的训练和测试集进行模型训练与评估。数据集的对话格式和文档引用机制为模型提供了丰富的上下文信息，有助于提升模型在文档引用和问答任务中的表现。

背景与挑战

背景概述

Grounded-RAG-Chat-RU数据集由Sergey Bratchikov及其团队于近期创建，旨在提升大型语言模型（LLM）在基于文档的问答任务中的表现。该数据集基于13,000篇俄语维基百科文章，通过GPT-4-turbo-1106模型生成合成问答对，专注于多文档问答的复杂场景。数据集的设计特别强调对话格式，包含文档、用户和助手三种角色，并支持16k上下文长度的模型。其核心研究问题在于如何使模型在复杂文档环境中生成准确且基于证据的回答，同时通过文档选择机制增强模型的可解释性。这一数据集为俄语自然语言处理领域提供了重要的资源，推动了多文档问答和对话系统的研究进展。

当前挑战

Grounded-RAG-Chat-RU数据集面临的主要挑战包括多文档问答的复杂性以及数据构建过程中的技术难题。在领域问题方面，模型需要同时处理多个文档中的信息，并生成基于证据的回答，这对模型的推理能力和上下文理解提出了极高要求。此外，数据集要求模型在回答前先选择相关文档，这一额外任务增加了模型的训练难度。在数据构建过程中，生成高质量的合成问答对需要依赖GPT-4-turbo-1106模型，其生成的一致性和准确性直接影响数据集的质量。同时，文档格式的多样性（如Markdown、HTML和纯文本）以及随机长度的文本块进一步增加了数据处理的复杂性。这些挑战共同构成了该数据集在研究和应用中的核心难点。

常用场景

经典使用场景

Grounded-RAG-Chat-RU数据集主要用于训练和评估大型语言模型（LLM）在基于文档的问答任务中的表现。该数据集通过模拟真实对话场景，包含用户提问、文档内容以及助手的回答，特别适用于研究模型在复杂文档检索和问答任务中的表现。其独特的对话格式和文档嵌入方式，使得模型能够在多文档环境中进行信息检索和生成回答。

实际应用

在实际应用中，Grounded-RAG-Chat-RU数据集可用于开发智能客服系统、文档检索工具以及教育领域的自动问答系统。通过训练模型在多文档环境中进行信息检索和生成回答，这些系统能够更高效地处理用户查询，并提供准确的答案。此外，数据集还可用于开发多语言问答系统，特别是在俄语环境中的应用。

衍生相关工作

基于Grounded-RAG-Chat-RU数据集，研究者们开发了一系列相关的工作，包括改进的多文档问答模型、文档检索算法以及对话生成系统。这些工作进一步推动了多文档问答领域的研究，特别是在俄语环境中的应用。此外，数据集的文档选择和回答生成任务，也为其他语言的多文档问答任务提供了参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集