BELLE

github2024-05-01 更新2024-05-31 收录

下载链接：

https://github.com/zhenlohuang/awesome-chinese-llm

下载链接

链接失效反馈

官方服务：

资源简介：

10M中文数据集

10M Chinese Dataset

创建时间：

2023-05-01

原始信息汇总

Awesome Chinese LLM 数据集概述

中文数据集

BELLE
- 描述：10M中文数据集
- 链接：https://github.com/LianjiaTech/BELLE/tree/main/data/10M
Chinese book
- 描述：中文图书数据集/数据挖掘/自然语言处理/中国图书分类法/图书情报学/数据挖掘/文本分类/
- 链接：https://github.com/JiangYanting/Chinese_book_dataset
Chinese Scientific Literature Dataset
- 描述：中文科学文献数据集
- 链接：https://github.com/ydli-ai/CSL
chinese-poetry
- 描述：最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人，21050首词。
- 链接：https://github.com/chinese-poetry/chinese-poetry
CLUECorpus2020
- 描述：通过对Common Crawl的中文部分进行语料清洗，最终得到100GB的高质量中文预训练语料
- 链接：https://github.com/CLUEbenchmark/CLUECorpus2020/
MNBVC
- 描述：超大规模中文语料集，对标chatGPT训练的40T数据。包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
- 链接：https://github.com/esbatmop/MNBVC
MOSS
- 描述：MOSS训练数据
- 链接：https://github.com/OpenLMLab/MOSS#%E6%95%B0%E6%8D%AE
News Commentary v13
- 描述：News Commentary v13包括平行语料
- 链接：https://github.com/dbiir/UER-py/wiki/%E9%A2%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE
NKCorpus
- 描述：利用海量网络数据构建大型高质量中文数据集
- 链接：https://gitee.com/lidongwen1997/nkunlp-preprocessing
pretrain_zh
- 描述：中文开源预训练集 - 55G，包含中文书籍、中文互联网、中文百科
- 链接：https://github.com/TigerResearch/TigerBot#%E5%BC%80%E6%BA%90%E6%95%B0%E6%8D%AE%E9%9B%86
THUCNews
- 描述：根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档，划分出14个候选分类。
- 链接：http://thuctc.thunlp.org/
WuDaoCorpora Text文本预训练数据集
- 描述：北京智源人工智能研究院（智源研究院）构建的大规模、高质量数据集
- 链接：https://data.baai.ac.cn/details/WuDaoCorporaText
千言
- 描述：百度联合中国计算机学会自然语言处理专委会、中国中文信息学会评测工作委员会共同发起的,由来自国内多家高校和企业的数据资源研发者共同建设的中文开源数据集。
- 链接：https://www.luge.ai/
天池
- 描述：天池数据集是阿里集团对外开放的科研数据平台,由阿里巴巴集团业务团队和外部研究机构联合提供,覆盖了电商、娱乐、物流、医疗健康、交通、工业、自然科学、能源等十多个行业。
- 链接：https://tianchi.aliyun.com/dataset/
清华大学NLP实验室开放数据集
- 描述：清华大学自然语言处理与社会人文计算实验室维护的中文自然语言处理共享平台，提供了大量的中文文本数据集，包括新闻、论坛、微博、问答等。
- 链接：http://thuocl.thunlp.org/
中文医疗问答数据集
- 描述：中文医疗问答数据集
- 链接：https://github.com/Toyhom/Chinese-medical-dialogue-data
中文公开聊天语料库
- 描述：中文公开聊天语料库
- 链接：https://github.com/codemayq/chinese-chatbot-corpus
中医药古籍文本
- 描述：中医药古籍文本
- 链接：https://github.com/xiaopangxia/TCM-Ancient-Books

预训练大语言模型

模型	作者	仓库/检查点	论文
鹏程.盘古α	Huawei	Github	Paper
MOSS	FDU	Github
TigerBot	TigerResearch	Github
Qwen	Alibaba Cloud	Github
Baichuan2	Baichuan Intelligent Technology	Github
ChatGLM3	THUDM	Github

搜集汇总

数据集介绍

构建方式

BELLE数据集的构建基于大规模的中文语料库，通过精心筛选和清洗，确保了数据的高质量和多样性。该数据集涵盖了多种中文文本类型，包括新闻、小说、论文等，旨在为中文自然语言处理任务提供丰富的训练资源。其构建过程严格遵循数据采集、清洗、标注和验证的标准流程，确保数据的准确性和可靠性。

特点

BELLE数据集的显著特点在于其规模庞大且内容多样，包含了1000万条高质量的中文文本数据。这些数据不仅覆盖了主流文化，还涉及小众文化，甚至包括火星文等特殊形式，极大地丰富了数据集的多样性。此外，数据集的标注精细，适用于多种自然语言处理任务，如文本分类、情感分析和机器翻译等。

使用方法

BELLE数据集可广泛应用于中文自然语言处理的各个领域，包括但不限于文本分类、情感分析、机器翻译和问答系统等。用户可以通过下载数据集并加载到相应的机器学习框架中，进行模型训练和评估。数据集提供了详细的文档和示例代码，帮助用户快速上手并充分利用数据集的资源。

背景与挑战

背景概述

BELLE数据集是由链家科技（LianjiaTech）发布的一个大规模中文语言模型数据集，旨在支持中文自然语言处理（NLP）领域的研究与应用。该数据集包含1000万条中文语料，涵盖了广泛的主题和文本类型，为研究人员提供了丰富的资源以训练和评估中文大语言模型。BELLE数据集的发布不仅填补了中文NLP领域在高质量大规模数据集方面的空白，还为推动中文语言模型的技术进步和应用落地提供了坚实的基础。

当前挑战

BELLE数据集在构建过程中面临了多个挑战。首先，数据集的规模庞大，如何高效地收集、清洗和标注1000万条中文语料是一个巨大的技术难题。其次，中文语言的复杂性和多样性使得数据集的构建需要考虑不同方言、语体和领域的文本，确保数据的全面性和代表性。此外，数据集的质量控制也是一个重要挑战，如何在保证数据多样性的同时，确保语料的准确性和一致性，是构建高质量数据集的关键。最后，随着中文NLP技术的快速发展，如何持续更新和扩展数据集以适应新的研究需求，也是BELLE数据集未来需要面对的挑战。

常用场景

经典使用场景

BELLE数据集，作为10M中文数据集，广泛应用于中文自然语言处理（NLP）领域，特别是在大规模语言模型的预训练阶段。其丰富的中文语料为模型提供了深厚的语言理解基础，使得模型在中文文本生成、翻译、问答等任务中表现卓越。

实际应用

在实际应用中，BELLE数据集被广泛用于开发和优化中文智能助手、机器翻译系统、文本生成工具等。例如，在智能客服系统中，利用BELLE数据集训练的模型能够更准确地理解用户查询，提供更精准的回答。此外，在新闻摘要生成、文学创作等领域，BELLE数据集也为模型提供了强大的语言支持。

衍生相关工作

基于BELLE数据集，研究者们开发了多种中文语言模型，如鹏程.盘古α、MOSS等，这些模型在中文文本处理任务中展现了卓越的性能。此外，BELLE数据集还激发了大量关于中文语料处理、模型优化和应用场景扩展的研究，推动了中文NLP领域的快速发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集