LIUshu123/knowledgeDAO

Name: LIUshu123/knowledgeDAO
Creator: LIUshu123
Published: 2023-09-05 15:29:12
License: 暂无描述

Hugging Face2023-09-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LIUshu123/knowledgeDAO

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 --- # KnowledgeDAO（知识岛）供AI训练的中文数据集（持续更新。。。）为了推进中文AI的发展，促进AI技术公开化、国际化，我们成立了知识岛（KnowledgeDAO)项目，希望借助大家的力量推进中文AI数据集的建设。数据、算法和算力，是AI发展的三大基石，其中数据的质量对模型最终性能至关重要。然而，从Hugging Face上的模型数据集数量来看，5W多的数据集中，英语的占比超过90%，优质中文数据少之又少。 OpenAI完成数据集的收集花费了巨大成本，以至于需要从微软集资。我们无力承担如此巨大的开销，于是需要各位有志于筹建开放获取语料，并有一定技术基础的网友们献上自己的力量。如果您有意向参与此项目，我们将不胜感激。 # 知识岛目前的数据集 1、餐饮行业： a、餐饮行业8000问，文件名：《餐饮行业8000问.jsonl》来源：2022年和2023年餐饮行业报告与行业白皮书，由chatGPT 3.5负责整理总结，共8204条问答对，1.3M的tokens总数（680k汉字总数） 2、百度知道，WebQA文件夹中，文件名：test数据集《KD_WebQA_test.json》《KD_WebQA_test.jsonl》，validation数据集《KD_WebQA_validation.json》《KD_WebQA_validation.jsonl》， train数据集：《KD_WebQA_train.json》《KD_WebQA_train.jsonl》，同时压缩文件为原数据（付处理代码）来源：百度知道的帖子（2017年的数据整理），共211741条问答对，1.3M的tokens总数（680k汉字总数），42M的tokens总数（21M汉字总数），json和jsonl的区别是json文件格式为一个json列表，jsonl文件为每一个json数据一行 # 知识岛项目参与方式 QQ群：916663510 知识岛社区文档： https://docs.qq.com/aio/DVXZ6d3V6T2lYaENP?p=0Tv6BON3xXocBIBQ629PMO Dodo平台：https://imdodo.com/s/209426?inv=4RL32 （主要看中了dodo类似于discord的在线语音功能以及积分系统，可以用来量化成员的贡献） GitHub: https://github.com/shuliu586/KnowledgeDAO # 知识岛需要的人作为知识岛的发起者，很惭愧我不是专业的技术人员，只会简单的代码（不懂的请教项目上的大神以及GPT），因此，知识岛需要的人： 1、愿意分享行业经验的伙伴，共同参与AI行业专家的模型训练； 2、拥有IT技术的伙伴，为社区的发展添砖加瓦； 3、想要参与社区运营的伙伴，为社区稳步发展保驾护航； 4、天使投资者，看好知识岛，为知识岛的建设提供资金支持； 5、热心的参与者，参与知识岛社群规则建立，为社区的良性发展出谋划策。 # 训练效果 ChatGPT3.5 + LangChain + 餐饮行业8000问之后的训练效果（上面是原生的GPT3.5，下面是加上了餐饮行业8000问的效果） ![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/64dddefc573d067c9e9160b8/eXwe3LsN37EmVtFu-KYv5.jpeg)

提供机构：

LIUshu123

原始信息汇总

知识岛数据集概述

数据集介绍

知识岛项目旨在推进中文AI的发展，通过收集和整理中文数据集，促进AI技术的公开化和国际化。数据集的质量对模型性能至关重要，目前项目已收集多个领域的数据集。

数据集列表

餐饮行业数据集
- 文件名：《餐饮行业8000问.jsonl》
- 来源：2022年和2023年餐饮行业报告与行业白皮书
- 整理工具：chatGPT 3.5
- 数据量：8204条问答对
- 总tokens数：1.3M（680k汉字总数）
百度知道WebQA数据集
- 文件名：
  - 测试数据集：《KD_WebQA_test.json》、《KD_WebQA_test.jsonl》
  - 验证数据集：《KD_WebQA_validation.json》、《KD_WebQA_validation.jsonl》
  - 训练数据集：《KD_WebQA_train.json》、《KD_WebQA_train.jsonl》
- 来源：百度知道的帖子（2017年数据整理）
- 数据量：211741条问答对
- 总tokens数：1.3M（680k汉字总数），42M（21M汉字总数）
- 格式说明：json文件格式为一个json列表，jsonl文件为每一个json数据一行