five

Vikhrmodels/Grounded-RAG-Chat-RU

收藏
Hugging Face2024-07-05 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Vikhrmodels/Grounded-RAG-Chat-RU
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在训练模型回答基于文档的复杂和简单问题,特别是在多文档环境下通过聊天形式进行问答。数据集基于俄语维基百科的13,000篇文章,使用GPT-4-turbo-1106模型生成合成的问题和答案。对话格式包含文档、用户和助手三种角色,文档内容以三种随机格式(markdown、html、plain_text)呈现。数据集的构建过程包括文章解析、聚类、问题生成、答案生成和对话组装等步骤,最终分为训练集和测试集。

This dataset is designed to train models to answer complex and simple questions based on documents, particularly in a multi-document context through a chat format. It is based on 13,000 articles from the Russian Wikipedia, with synthetic questions and answers generated using the GPT-4-turbo-1106 model. The conversation format includes three roles: documents, user, and assistant, with document content presented in three random formats (markdown, html, plain_text). The dataset construction process involves article parsing, clustering, question generation, answer generation, and dialogue assembly, ultimately divided into training and test sets.
提供机构:
Vikhrmodels
原始信息汇总

数据集概述

数据集信息

  • 特征列表:
    • id: 数据类型为 int64
    • cluster: 数据类型为 int64
    • model: 数据类型为 string
    • type: 数据类型为 string
    • conversation: 包含以下子特征
      • content: 数据类型为 string
      • role: 数据类型为 string
  • 数据分割:
    • train: 字节数为 487723909,样本数为 28135
    • test: 字节数为 2659935,样本数为 150
  • 下载大小: 97370786 字节
  • 数据集大小: 490383844 字节
  • 配置:
    • default 配置包含以下数据文件
      • train: 路径为 data/train-*
      • test: 路径为 data/test-*
  • 许可证: Apache-2.0
  • 语言: 俄语

数据集目的

该数据集旨在训练模型回答基于多个不同格式文档的复杂和简单问题,并学会拒绝那些在找到的文档中没有答案的问题。模型在每次回答前会生成包含相关信息文档选择的单独回复,以更好地控制和监督模型。

文档格式

documents 角色是一个包含文档内容的字典列表,使用 json.dumps(array) 格式。文档内容以三种随机格式呈现:markdown、html 和 plain_text。每个文档的内容是从文章中随机选取的长度不超过 4000 个字符的片段。

数据集构建步骤

  1. 解析约 30,000 篇俄语维基百科文章,并以三种不同格式提取随机片段,每个文档不超过 4000 个字符。
  2. 使用 AgglomerativeClustering 和 e5-large-multilingual 进行过滤和聚类,形成约 4,000 个独特集群,包含 13,000 篇文档,每个集群包含 2 到 5 篇文档。
  3. 使用 gpt-4-turbo-1106 生成关于文档集群的合成问题,包括复杂的多文档问题。每个集群生成 7 个问题:5 个有答案的问题和 2 个无答案的问题。
  4. 随机删除部分文档的标题字段和集群,仅针对无答案的问题。
  5. 使用 gpt-4-turbo-1106 生成合成答案,指明在哪些文档中查找答案。
  6. 后处理,将数据集组装成对话并按问题类型分层分割为训练集和测试集。

作者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作