zhihu_rlhf_3k|社交问答数据集|偏好数据集数据集

github2024-04-10 更新2024-05-31 收录

社交问答

偏好数据集

下载链接：

https://github.com/xv44586/Chinese-instruction-datasets

下载链接

链接失效反馈

资源简介：

3k+条基于知乎问答的人类偏好数据集，每个问题下给出了一对不同赞数的回答

A dataset comprising over 3,000 entries of human preference data based on Q&A from Zhihu, where each question is paired with two answers differing in the number of upvotes.

创建时间：

2023-04-25

原始信息汇总

偏好数据

名称	许可证	描述	数量
zhihu_rlhf_3k	cc-by-2.0	3k+条基于知乎问答的人类偏好数据集，每个问题下给出了一对不同赞数的回答	3k
huozi_rlhf_data	Apache 2.0	16.9k 人工标注偏好数据（回复来自huozi-1.0）	16.9k
chatbot_arena_conversations	cc	33K 清理后的对话，包含成对的人类偏好，收集自13K独特IP地址	33k

人工标注

名称	许可证	描述	数量
ruozhiba	Apache 2.0	受COIG-CQIA启发，构建类似数据集，答案风格更简洁	1.5k
COIG-CQIA		开源高质量指令微调数据集，旨在为中文NLP社区提供高质量指令微调数据	46K
OL-CC	Apache 2.0	以众包方式、人工生成的开源中文对话指令集，包含10k+“指令-回答”数据对	11.6K

NLP 任务数据转换

名称	许可证	描述	数量
firefly-train-1.1M	none	23个常见中文数据集上由人工书写若干指令模板构造	110 万
pCLUE	none	单分类tnews/自然语言推理ocnli等9个数据集，73个prompt 转换而来	120 万
xP3mt_zh	apache-2.0	原始xP3（英语）通过翻译得到的中文数据集	3571636

LLM 生成

名称	许可证	描述	数量
alpaca_gpt4_data_zh_52k	Apache 2.0	由GPT-4使用中文提示生成数据	52k
alpaca_data_zh_51k	Apache 2.0	中文Alpaca数据，包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据	51k
BELLE	gpl-3.0	参考Stanford Alpaca生成的中文数据集	50万/100万/200万/1000万
alpaca_chinese_dataset	MIT	人工校验了21K左右的alpaca翻译数据集，并增加了许多中文特色数据集	> 21 K
COIG	Apache 2.0/MIT/CC-BY-SA-4.0	包含多个子数据集，总计191,191个指令数据	191,191
MOSS	cc-by-4.0	moss-002-sft-data包含约59万条中文对话，moss-003-sft-data包含约110万条对话数据	59万/110万
HC3-Chinese	cc-by-sa-4.0	人类-ChatGPT 对比语料	12853
RefGPT-Fact-zh	Apache 2.0	包含5万个中文事实知识的多轮对话数据集	50k
Safety-Prompts	Apache 2.0	包含100k条中文安全场景的prompts和ChatGPT的回复	100k

AI搜集汇总

数据集介绍

构建方式

zhihu_rlhf_3k数据集的构建基于知乎平台上的问答内容，通过收集3k+条具有不同赞数的人类偏好数据。每个问题下包含一对回答，这些回答根据用户的点赞数进行排序，从而形成偏好对比。数据集的构建过程中，确保了回答的多样性和质量，以反映真实用户在知乎社区中的互动行为。

特点

zhihu_rlhf_3k数据集的显著特点在于其高度聚焦于人类偏好，通过对比不同赞数的回答，能够有效捕捉用户对回答质量的直接反馈。此外，数据集的规模适中，适合用于小规模实验和模型微调，同时其内容来源于知乎这一中文社区，具有较高的语言和文化相关性。

使用方法

zhihu_rlhf_3k数据集适用于需要进行人类偏好建模和评估的自然语言处理任务，如强化学习中的奖励模型训练。用户可以通过访问提供的链接下载数据集，并将其用于模型训练、验证和测试。在使用过程中，建议结合具体的任务需求，对数据进行预处理和特征提取，以最大化数据集的价值。

背景与挑战

背景概述

zhihu_rlhf_3k数据集是由李宇成（Li Yucheng）创建，旨在为中文自然语言处理（NLP）领域提供高质量的人类偏好数据。该数据集包含了超过3000条基于知乎问答的人类偏好数据，每条数据包含一对不同赞数的回答，用于训练和评估模型在理解人类偏好方面的能力。这一数据集的创建对于推动中文NLP模型在指令微调（Instruction Tuning）和强化学习（Reinforcement Learning）中的应用具有重要意义，尤其是在理解和模拟人类偏好方面。

当前挑战

zhihu_rlhf_3k数据集在构建过程中面临的主要挑战包括数据收集的多样性和质量控制。首先，确保数据来源的多样性以覆盖广泛的用户偏好是一个重要问题。其次，数据的质量控制，包括去除噪声和确保数据的准确性，是另一个关键挑战。此外，如何在有限的资源下高效地标注和验证数据，以确保数据集的可靠性和实用性，也是该数据集面临的重要问题。这些挑战对于提升数据集的质量和应用价值至关重要。

常用场景

经典使用场景

zhihu_rlhf_3k数据集在自然语言处理领域中，主要用于训练和评估基于人类偏好的强化学习模型。该数据集通过收集知乎问答平台上用户对不同回答的点赞数，形成了一对对具有不同赞数的回答，从而为模型提供了明确的人类偏好信息。这种数据结构使得模型能够学习到在特定问题下，哪些回答更符合人类用户的偏好，进而优化其生成回答的质量。

实际应用

在实际应用中，zhihu_rlhf_3k数据集可以广泛应用于智能问答系统、聊天机器人和内容推荐系统等领域。通过利用该数据集训练的模型，能够生成更符合用户偏好的回答和推荐内容，从而提高用户体验和系统性能。例如，在智能客服系统中，模型可以根据用户的历史偏好，生成更准确和个性化的回答，提升用户满意度。

衍生相关工作

zhihu_rlhf_3k数据集的发布，激发了大量相关研究工作的开展。例如，研究人员基于该数据集开发了多种强化学习算法，以更好地捕捉和利用人类偏好信息。此外，该数据集还被用于构建和评估新的偏好学习模型，推动了自然语言处理领域在人类偏好建模方面的研究进展。同时，该数据集的成功应用也为其他领域提供了借鉴，促进了跨学科的研究合作。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。