有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
zhihu_rlhf_3k | cc-by-2.0 | 3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答 | 3k |
huozi_rlhf_data | Apache 2.0 | 16.9k 人工标注偏好数据(回复来自huozi-1.0) | 16.9k |
chatbot_arena_conversations | cc | 33K 清理后的对话,包含成对的人类偏好,收集自13K独特IP地址 | 33k |
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
ruozhiba | Apache 2.0 | 受COIG-CQIA启发,构建类似数据集,答案风格更简洁 | 1.5k |
COIG-CQIA | 开源高质量指令微调数据集,旨在为中文NLP社区提供高质量指令微调数据 | 46K | |
OL-CC | Apache 2.0 | 以众包方式、人工生成的开源中文对话指令集,包含10k+“指令-回答”数据对 | 11.6K |
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
firefly-train-1.1M | none | 23个常见中文数据集上由人工书写若干指令模板构造 | 110 万 |
pCLUE | none | 单分类tnews/自然语言推理ocnli等9个数据集,73个prompt 转换而来 | 120 万 |
xP3mt_zh | apache-2.0 | 原始xP3(英语)通过翻译得到的中文数据集 | 3571636 |
名称 | 许可证 | 描述 | 数量 |
---|---|---|---|
alpaca_gpt4_data_zh_52k | Apache 2.0 | 由GPT-4使用中文提示生成数据 | 52k |
alpaca_data_zh_51k | Apache 2.0 | 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据 | 51k |
BELLE | gpl-3.0 | 参考Stanford Alpaca生成的中文数据集 | 50万/100万/200万/1000万 |
alpaca_chinese_dataset | MIT | 人工校验了21K左右的alpaca翻译数据集,并增加了许多中文特色数据集 | > 21 K |
COIG | Apache 2.0/MIT/CC-BY-SA-4.0 | 包含多个子数据集,总计191,191个指令数据 | 191,191 |
MOSS | cc-by-4.0 | moss-002-sft-data包含约59万条中文对话,moss-003-sft-data包含约110万条对话数据 | 59万/110万 |
HC3-Chinese | cc-by-sa-4.0 | 人类-ChatGPT 对比语料 | 12853 |
RefGPT-Fact-zh | Apache 2.0 | 包含5万个中文事实知识的多轮对话数据集 | 50k |
Safety-Prompts | Apache 2.0 | 包含100k条中文安全场景的prompts和ChatGPT的回复 | 100k |
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
The Stack v2
The Stack v2 dataset is a collection of source code in over 600 programming languages.
huggingface 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录