shareAI/DPO-zh-en-emoji|聊天机器人数据集|指令微调数据集

hugging_face2024-06-04 更新2024-05-25 收录

聊天机器人

指令微调

下载链接：

https://hf-mirror.com/datasets/shareAI/DPO-zh-en-emoji

下载链接

链接失效反馈

资源简介：

--- license: apache-2.0 task_categories: - question-answering language: - zh - en pretty_name: dpo-llama3 size_categories: - 1K<n<10K --- A chatbot dialogue dataset with textual emojis, available in both Chinese and English versions, suitable for SFT/DPO training. We have carefully selected some questions originating from Zhihu, logic reasoning, and Weichi Bar as Queries. These were generated using the llama3 70b instruct version, with each query producing a Chinese version of the answer and an English version of the answer. This can be used for aligning language model "language type" and "language style" tasks. Github link: https://github.com/CrazyBoyM/llama3-Chinese-chat Modelscope link: https://modelscope.cn/datasets/shareAI/shareAI-Llama3-DPO-zh-en-emoji/summary The data can also be used for traditional training methods such as SFT/ORPO, improving the model's logical reasoning and complex question answering capabilities while aligning language styles. 一个带有趣味文字表情的机器人聊天对话数据集，包含中文和英文版本，可用于SFT/DPO训练。我们精心选出了一些源于知乎、逻辑推理、弱智吧的问题作为Query，使用llama3 70b instruct版本采样生成，对每个query生成一个中文版本的answer和一个英文版本的answer，用于对齐语言模型的“语种”、“语言风格”任务。 Github地址：https://github.com/CrazyBoyM/llama3-Chinese-chat modelscope地址：https://modelscope.cn/datasets/shareAI/shareAI-Llama3-DPO-zh-en-emoji/summary 该数据亦可用于SFT/ORPO等传统训练方式，可在对齐语言风格的同时提升模型的推理逻辑、复杂问题问答能力。如果您的工作成果使用到了该项目，请按如下方式进行引用： If your work results use this project, please cite it as follows: ``` @misc{DPO-zh-en-emoji2024, author = {Xinlu Lai, shareAI}, title = {The DPO Dataset for Chinese and English with emoji}, year = {2024}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {\url{https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji}} } ```

提供机构：

shareAI

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 中文, 英文
数据集名称: dpo-llama3
数据集大小: 1K<n<10K

数据集描述

内容: 一个包含文字表情的聊天机器人对话数据集，提供中文和英文版本。
用途: 适用于SFT/DPO训练，用于对齐语言模型的“语种”和“语言风格”。
数据来源: 精心挑选的问题来源于知乎、逻辑推理和弱智吧，使用llama3 70b instruct版本生成。
数据结构: 每个问题对应一个中文答案和一个英文答案。

应用场景

训练方法: 可用于传统的训练方法如SFT/ORPO，提升模型的逻辑推理和复杂问题问答能力。

引用信息

作者: Xinlu Lai, shareAI
标题: The DPO Dataset for Chinese and English with emoji
年份: 2024
出版者: huggingface
出版物: huggingface repository
引用方式:

@misc{DPO-zh-en-emoji2024, author = {Xinlu Lai, shareAI}, title = {The DPO Dataset for Chinese and English with emoji}, year = {2024}, publisher = {huggingface}, journal = {huggingface repository}, howpublished = {url{https://huggingface.co/datasets/shareAI/DPO-zh-en-emoji}} }

AI搜集汇总

数据集介绍

构建方式

在构建shareAI/DPO-zh-en-emoji数据集时，研究者们精心挑选了源自知乎、逻辑推理及弱智吧的问题作为查询（Query），并利用llama3 70b instruct版本生成相应的中文和英文回答。这一过程不仅确保了数据集的多样性和实用性，还通过双语对齐的方式，增强了语言模型在处理不同语言类型和风格任务时的适应性。

特点

shareAI/DPO-zh-en-emoji数据集的显著特点在于其双语性和丰富的文本表情符号。该数据集不仅包含了中文和英文两种语言的对话内容，还巧妙地融入了趣味性的文字表情，使得数据集在语言风格对齐和情感表达方面具有独特的优势。此外，数据集的规模适中，介于1K到10K之间，适合多种训练任务。

使用方法

shareAI/DPO-zh-en-emoji数据集适用于多种自然语言处理任务，特别是语言模型训练中的SFT（Supervised Fine-Tuning）和DPO（Direct Preference Optimization）。通过使用该数据集，研究者和开发者可以有效提升模型在逻辑推理和复杂问题回答方面的能力，同时确保语言风格的一致性。数据集的GitHub和Modelscope链接提供了详细的访问和使用指南，便于用户快速上手。

背景与挑战

背景概述

在自然语言处理领域，跨语言对话系统的研究日益受到关注。shareAI/DPO-zh-en-emoji数据集由Xinlu Lai和shareAI团队于2024年创建，旨在提供一个包含中文和英文版本的聊天机器人对话数据集，特别加入了文本表情符号，以增强语言模型的语言类型和风格对齐任务。该数据集精选自知乎、逻辑推理及弱智吧的问题，通过llama3 70b instruct版本生成对应的中英文回答，不仅适用于SFT/DPO训练，还能提升模型的逻辑推理和复杂问题解答能力。这一数据集的推出，为跨语言对话系统的研究提供了宝贵的资源，推动了该领域的发展。

当前挑战

尽管shareAI/DPO-zh-en-emoji数据集在跨语言对话系统研究中具有重要价值，但其构建过程中仍面临若干挑战。首先，如何确保中英文版本回答的准确性和一致性是一个关键问题，尤其是在处理复杂逻辑推理问题时。其次，文本表情符号的引入虽然增加了语言风格的多样性，但也带来了如何有效编码和解析这些符号的难题。此外，数据集的规模相对较小，如何在有限的样本中实现高效的模型训练和性能提升，也是研究人员需要克服的挑战。这些问题的解决，将进一步提升数据集的应用价值和研究影响力。

常用场景

经典使用场景

在自然语言处理领域，shareAI/DPO-zh-en-emoji数据集的经典使用场景主要集中在多语言对话系统的训练与优化。该数据集通过包含中文和英文版本的对话内容，结合趣味文字表情，为模型提供了丰富的语言风格和语种对齐的训练材料。这种双语对话数据集特别适用于支持双语或多语言的聊天机器人开发，旨在提升模型在不同语言环境下的自然语言理解和生成能力。

解决学术问题

shareAI/DPO-zh-en-emoji数据集在学术研究中解决了多语言模型训练中的关键问题，如语言风格对齐和语种转换的挑战。通过提供带有文字表情的双语对话数据，该数据集帮助研究人员开发出能够更自然地处理和生成多语言文本的模型。这不仅提升了模型的跨语言交流能力，还为多语言环境下的情感分析和对话管理提供了新的研究方向。

衍生相关工作

基于shareAI/DPO-zh-en-emoji数据集，研究者们开展了一系列相关工作，包括多语言模型的优化、跨语言情感分析和多语言对话系统的开发。这些工作不仅推动了多语言自然语言处理技术的发展，还为实际应用中的多语言交流提供了技术支持。例如，一些研究通过该数据集训练的模型，成功实现了在不同语言间无缝切换的智能对话系统，极大地提升了跨文化交流的效率和准确性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估，我们引入了一个新颖且全面的数据集，专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集，包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象，以实现强大的检测和分类。

github 收录