five

zhihu_rlhf_3k|社交问答数据集|偏好数据集数据集

收藏
github2024-04-10 更新2024-05-31 收录
社交问答
偏好数据集
下载链接:
https://github.com/xv44586/Chinese-instruction-datasets
下载链接
链接失效反馈
资源简介:
3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答

A dataset comprising over 3,000 entries of human preference data based on Q&A from Zhihu, where each question is paired with two answers differing in the number of upvotes.
创建时间:
2023-04-25
原始信息汇总

偏好数据

名称 许可证 描述 数量
zhihu_rlhf_3k cc-by-2.0 3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答 3k
huozi_rlhf_data Apache 2.0 16.9k 人工标注偏好数据(回复来自huozi-1.0) 16.9k
chatbot_arena_conversations cc 33K 清理后的对话,包含成对的人类偏好,收集自13K独特IP地址 33k

人工标注

名称 许可证 描述 数量
ruozhiba Apache 2.0 受COIG-CQIA启发,构建类似数据集,答案风格更简洁 1.5k
COIG-CQIA 开源高质量指令微调数据集,旨在为中文NLP社区提供高质量指令微调数据 46K
OL-CC Apache 2.0 以众包方式、人工生成的开源中文对话指令集,包含10k+“指令-回答”数据对 11.6K

NLP 任务数据转换

名称 许可证 描述 数量
firefly-train-1.1M none 23个常见中文数据集上由人工书写若干指令模板构造 110 万
pCLUE none 单分类tnews/自然语言推理ocnli等9个数据集,73个prompt 转换而来 120 万
xP3mt_zh apache-2.0 原始xP3(英语)通过翻译得到的中文数据集 3571636

LLM 生成

名称 许可证 描述 数量
alpaca_gpt4_data_zh_52k Apache 2.0 由GPT-4使用中文提示生成数据 52k
alpaca_data_zh_51k Apache 2.0 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据 51k
BELLE gpl-3.0 参考Stanford Alpaca生成的中文数据集 50万/100万/200万/1000万
alpaca_chinese_dataset MIT 人工校验了21K左右的alpaca翻译数据集,并增加了许多中文特色数据集 > 21 K
COIG Apache 2.0/MIT/CC-BY-SA-4.0 包含多个子数据集,总计191,191个指令数据 191,191
MOSS cc-by-4.0 moss-002-sft-data包含约59万条中文对话,moss-003-sft-data包含约110万条对话数据 59万/110万
HC3-Chinese cc-by-sa-4.0 人类-ChatGPT 对比语料 12853
RefGPT-Fact-zh Apache 2.0 包含5万个中文事实知识的多轮对话数据集 50k
Safety-Prompts Apache 2.0 包含100k条中文安全场景的prompts和ChatGPT的回复 100k
AI搜集汇总
数据集介绍
main_image_url
构建方式
zhihu_rlhf_3k数据集的构建基于知乎平台上的问答内容,通过收集3k+条具有不同赞数的人类偏好数据。每个问题下包含一对回答,这些回答根据用户的点赞数进行排序,从而形成偏好对比。数据集的构建过程中,确保了回答的多样性和质量,以反映真实用户在知乎社区中的互动行为。
特点
zhihu_rlhf_3k数据集的显著特点在于其高度聚焦于人类偏好,通过对比不同赞数的回答,能够有效捕捉用户对回答质量的直接反馈。此外,数据集的规模适中,适合用于小规模实验和模型微调,同时其内容来源于知乎这一中文社区,具有较高的语言和文化相关性。
使用方法
zhihu_rlhf_3k数据集适用于需要进行人类偏好建模和评估的自然语言处理任务,如强化学习中的奖励模型训练。用户可以通过访问提供的链接下载数据集,并将其用于模型训练、验证和测试。在使用过程中,建议结合具体的任务需求,对数据进行预处理和特征提取,以最大化数据集的价值。
背景与挑战
背景概述
zhihu_rlhf_3k数据集是由李宇成(Li Yucheng)创建,旨在为中文自然语言处理(NLP)领域提供高质量的人类偏好数据。该数据集包含了超过3000条基于知乎问答的人类偏好数据,每条数据包含一对不同赞数的回答,用于训练和评估模型在理解人类偏好方面的能力。这一数据集的创建对于推动中文NLP模型在指令微调(Instruction Tuning)和强化学习(Reinforcement Learning)中的应用具有重要意义,尤其是在理解和模拟人类偏好方面。
当前挑战
zhihu_rlhf_3k数据集在构建过程中面临的主要挑战包括数据收集的多样性和质量控制。首先,确保数据来源的多样性以覆盖广泛的用户偏好是一个重要问题。其次,数据的质量控制,包括去除噪声和确保数据的准确性,是另一个关键挑战。此外,如何在有限的资源下高效地标注和验证数据,以确保数据集的可靠性和实用性,也是该数据集面临的重要问题。这些挑战对于提升数据集的质量和应用价值至关重要。
常用场景
经典使用场景
zhihu_rlhf_3k数据集在自然语言处理领域中,主要用于训练和评估基于人类偏好的强化学习模型。该数据集通过收集知乎问答平台上用户对不同回答的点赞数,形成了一对对具有不同赞数的回答,从而为模型提供了明确的人类偏好信息。这种数据结构使得模型能够学习到在特定问题下,哪些回答更符合人类用户的偏好,进而优化其生成回答的质量。
实际应用
在实际应用中,zhihu_rlhf_3k数据集可以广泛应用于智能问答系统、聊天机器人和内容推荐系统等领域。通过利用该数据集训练的模型,能够生成更符合用户偏好的回答和推荐内容,从而提高用户体验和系统性能。例如,在智能客服系统中,模型可以根据用户的历史偏好,生成更准确和个性化的回答,提升用户满意度。
衍生相关工作
zhihu_rlhf_3k数据集的发布,激发了大量相关研究工作的开展。例如,研究人员基于该数据集开发了多种强化学习算法,以更好地捕捉和利用人类偏好信息。此外,该数据集还被用于构建和评估新的偏好学习模型,推动了自然语言处理领域在人类偏好建模方面的研究进展。同时,该数据集的成功应用也为其他领域提供了借鉴,促进了跨学科的研究合作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

The Stack v2

The Stack v2 dataset is a collection of source code in over 600 programming languages.

huggingface 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录