Mutonix/RefGPT-Fact|对话系统数据集|自然语言处理数据集

hugging_face2023-05-30 更新2024-03-04 收录

对话系统

自然语言处理

下载链接：

https://hf-mirror.com/datasets/Mutonix/RefGPT-Fact

下载链接

链接失效反馈

资源简介：

RefGPT-Fact数据集包含10万个关于事实知识的多轮对话，其中5万个为英文，5万个为中文。英文对话参考英文维基百科，中文对话参考百度百科。该数据集适用于聊天机器人指令微调等任务。同时，文档中提到了使用该数据集时需注意的偏见和安全问题，指出数据集未经人工验证，使用者需对使用结果负责。

提供机构：

Mutonix

原始信息汇总

数据集概述

名称: RefGPT-Fact

语言: 中文, 英文

数据集大小: 10K<n<100K

任务类别: 对话式

数据集结构:

特征:
- dialogue: 字符串
- reference: 字符串
- language: 字符串
- type: 字符串
分割:
- zh: 50000个示例, 180760081字节
- en: 50000个示例, 464054853字节
下载大小: 260969665字节
数据集大小: 644814934字节

数据集内容:

包含100k多轮对话，涉及事实知识，其中50k为英文，50k为中文。英文版使用英文维基百科作为参考，中文版使用百度百科。

使用注意事项:

数据集未经过手动验证，安全性不能严格保证。
数据集可能反映所选参考资料和GPT-3.5/GPT-4模型的偏见。

许可证: Apache-2.0

AI搜集汇总

数据集介绍

构建方式

RefGPT-Fact数据集的构建基于大规模的多轮对话，涵盖了100,000条关于事实知识的对话，其中50,000条为英文对话，50,000条为中文对话。英文部分的数据来源于英文维基百科，而中文部分则基于百度百科这一常用的中文在线百科全书。通过这种方式，数据集旨在提供一个多语言、多领域的对话资源，以支持对话系统的微调与训练。

特点

RefGPT-Fact数据集的主要特点在于其多语言和多轮对话的结构，这使得它适用于跨语言的对话系统研究。此外，数据集的对话内容基于权威的百科全书，确保了信息的准确性和可靠性。然而，由于数据集未经过人工验证，用户在使用时应自行承担可能存在的安全风险。

使用方法

RefGPT-Fact数据集适用于对话系统的微调任务，特别是那些需要处理多语言和多轮对话的场景。用户可以通过访问数据集的GitHub仓库或阅读相关论文来获取详细的使用指南和代码示例。在使用过程中，用户应注意数据集的潜在偏见和未验证的安全性问题，并根据具体需求进行适当的预处理和验证。

背景与挑战

背景概述

RefGPT-Fact数据集由Dongjie Yang等人于2023年创建，旨在通过提供多轮对话数据来增强对话系统的真实性和定制化能力。该数据集包含100,000条多轮对话，涵盖50,000条英文和50,000条中文对话，分别基于英文维基百科和中文百度百科。RefGPT-Fact的创建不仅填补了多语言对话数据集的空白，还为对话系统的微调提供了丰富的资源，推动了对话系统在事实性知识处理方面的研究进展。

当前挑战

RefGPT-Fact数据集在构建过程中面临多重挑战。首先，数据的真实性和准确性依赖于参考来源，如维基百科和百度百科，这些来源可能存在事实错误或偏见。其次，数据集未经过人工验证，其安全性无法严格保证，用户需自行承担使用风险。此外，数据集可能反映出GPT-3.5/GPT-4模型本身的偏见，这需要在后续研究中加以校正和优化。

常用场景

经典使用场景

在自然语言处理领域，RefGPT-Fact数据集的经典使用场景主要集中在对话系统的微调与优化。该数据集通过提供多轮对话及其对应的参考信息，使得研究人员能够训练出更加准确和可靠的对话模型。特别是在多语言环境下，RefGPT-Fact的英汉双语数据为跨语言对话系统的开发提供了宝贵的资源。

解决学术问题

RefGPT-Fact数据集解决了对话系统中常见的信息准确性和一致性问题。通过引入参考信息，该数据集帮助研究人员在训练过程中更好地校正模型输出，从而提高对话系统的真实性和可靠性。这对于推动对话系统在学术研究中的应用具有重要意义，尤其是在需要高度准确信息的领域，如医疗咨询和法律咨询。

衍生相关工作

基于RefGPT-Fact数据集，研究人员开发了多种对话生成模型和评估工具。例如，一些工作专注于改进模型的多轮对话能力，通过引入更复杂的上下文理解和生成机制，提升对话的连贯性和自然度。此外，还有一些研究致力于开发自动评估系统，用于量化对话模型的表现，从而为模型的持续优化提供科学依据。这些衍生工作不仅丰富了对话系统的研究领域，也为实际应用提供了技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

NuminaMath-CoT

数据集包含约86万道数学题目，每道题目的解答都采用思维链（Chain of Thought, CoT）格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式，以及最终答案格式化。

huggingface 收录