zhihu_rlhf_3k|社交问答数据集|偏好数据集数据集
收藏偏好数据
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
zhihu_rlhf_3k | cc-by-2.0 | 3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答 | 3k |
huozi_rlhf_data | Apache 2.0 | 16.9k 人工标注偏好数据(回复来自huozi-1.0) | 16.9k |
chatbot_arena_conversations | cc | 33K 清理后的对话,包含成对的人类偏好,收集自13K独特IP地址 | 33k |
人工标注
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
ruozhiba | Apache 2.0 | 受COIG-CQIA启发,构建类似数据集,答案风格更简洁 | 1.5k |
COIG-CQIA | 开源高质量指令微调数据集,旨在为中文NLP社区提供高质量指令微调数据 | 46K | |
OL-CC | Apache 2.0 | 以众包方式、人工生成的开源中文对话指令集,包含10k+“指令-回答”数据对 | 11.6K |
NLP 任务数据转换
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
firefly-train-1.1M | none | 23个常见中文数据集上由人工书写若干指令模板构造 | 110 万 |
pCLUE | none | 单分类tnews/自然语言推理ocnli等9个数据集,73个prompt 转换而来 | 120 万 |
xP3mt_zh | apache-2.0 | 原始xP3(英语)通过翻译得到的中文数据集 | 3571636 |
LLM 生成
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
alpaca_gpt4_data_zh_52k | Apache 2.0 | 由GPT-4使用中文提示生成数据 | 52k |
alpaca_data_zh_51k | Apache 2.0 | 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据 | 51k |
BELLE | gpl-3.0 | 参考Stanford Alpaca生成的中文数据集 | 50万/100万/200万/1000万 |
alpaca_chinese_dataset | MIT | 人工校验了21K左右的alpaca翻译数据集,并增加了许多中文特色数据集 | > 21 K |
COIG | Apache 2.0/MIT/CC-BY-SA-4.0 | 包含多个子数据集,总计191,191个指令数据 | 191,191 |
MOSS | cc-by-4.0 | moss-002-sft-data包含约59万条中文对话,moss-003-sft-data包含约110万条对话数据 | 59万/110万 |
HC3-Chinese | cc-by-sa-4.0 | 人类-ChatGPT 对比语料 | 12853 |
RefGPT-Fact-zh | Apache 2.0 | 包含5万个中文事实知识的多轮对话数据集 | 50k |
Safety-Prompts | Apache 2.0 | 包含100k条中文安全场景的prompts和ChatGPT的回复 | 100k |

OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录