MNBVC

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/esbatmop/MNBVC

下载链接

链接失效反馈

资源简介：

MNBVC数据集是一个超大规模的中文语料集，包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。

The MNBVC dataset is an extensive collection of Chinese text corpora, encompassing a wide variety of content such as news articles, essays, novels, books, magazines, academic papers, scripts, forum posts, wiki entries, classical poetry, song lyrics, product descriptions, jokes, embarrassing stories, and chat logs. This dataset not only covers mainstream culture but also includes data from various niche cultures and even internet slang.

创建时间：

2022-12-31

原始信息汇总

MNBVC超大规模中文语料集概述

数据集描述

名称: MNBVC(Massive Never-ending BT Vast Chinese corpus)
内容: 包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
数据来源: 互联网收集。

数据集特点

多样性: 涵盖主流文化及小众文化，甚至包括火星文。
数据量: 目前总数据量33091GB，目标达到chatGPT3.5的40T数据，目前进度83%。
数据格式: 压缩包内中文语料清洗为txt和json（包括jsonl）格式。
数据脱敏: 收录的数据将去掉大于等于8位的数字串。
数据加工: 只做粗加工，如html&xml转txt、csv&tsv转json等。

数据集使用

下载方式:
- 通过p2p微力同步全部压缩包并接收更新。
- 通过百度网盘下载。
版权声明: 数据集不提供压缩包内数据的索引和分类，以避免版权争议。

数据集贡献

贡献方式: 通过参加语料元气弹项目，上传语料文档。
技术支持: 提供多种清洗工具和爬虫工具，以优化数据处理效率。

引用信息

引用格式:

@misc{mnbvc, author = {{MOP-LIWU Community} and {MNBVC Team}}, title = {MNBVC: Massive Never-ending BT Vast Chinese corpus}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/esbatmop/MNBVC}}, }

AI搜集汇总

数据集介绍

构建方式

MNBVC数据集的构建方式主要依赖于互联网上的广泛数据收集，涵盖了新闻、小说、论文、聊天记录等多种文本形式。数据来源于中文互联网的各个角落，包括主流文化与小众文化的内容。数据经过初步处理，如HTML和XML转换为纯文本，CSV和TSV转换为JSON等，并进行了脱敏处理，去除了包含8位及以上数字的敏感信息。最终数据以txt、json、jsonl和parquet格式存储，并计划统一为jsonl和parquet格式。

特点

MNBVC数据集的显著特点在于其超大规模和多样性。目前数据量已达42915GB，超过了ChatGPT3.5的40T目标，进度达到107.2%。数据集不仅包含主流文化内容，还涵盖了小众文化和火星文等多种形式，体现了中文语料的广泛性和深度。此外，数据集的构建过程中注重隐私保护和版权规避，通过脱敏处理和避免提供详细的索引和分类信息，确保了数据集的长期可持续性。

使用方法

MNBVC数据集的使用方法多样，用户可以通过Hugging Face平台获取清洗完成的分类数据，或通过P2P微力同步和百度网盘下载原始数据。数据集支持多种格式，包括txt、json、jsonl和parquet，适合不同类型的数据处理需求。用户在使用数据时应注意遵守项目的三条红线，避免讨论数据的索引和具体内容，以支持数据集的长期更新和维护。此外，项目提供了多种清洗和处理工具，帮助用户更高效地利用数据集。

背景与挑战

背景概述

MNBVC（Massive Never-ending BT Vast Chinese corpus）是由MOP里屋社区于2023年1月1日发起的超大规模中文语料集项目。该项目旨在收集和整理涵盖广泛主题的中文文本数据，包括新闻、小说、论文、聊天记录等多种形式，以支持自然语言处理和人工智能领域的研究。MNBVC不仅包括主流文化内容，还涵盖了小众文化和火星文等多样化的语料，总数据量已达42915GB，目标是达到40TB，超越ChatGPT 3.5的数据规模。该项目由社区自发组织，致力于为中文算法圈提供丰富的语料资源，推动中文自然语言处理技术的发展。

当前挑战

MNBVC项目面临的主要挑战包括数据来源的多样性和复杂性，以及数据清洗和版权审核的困难。首先，语料来源广泛，涵盖了从主流媒体到小众社区的多种文本形式，这增加了数据处理的复杂性。其次，由于数据来源于互联网，版权问题成为一大挑战，尽管项目组提供了数据来源信息，但仍需避免潜在的法律风险。此外，数据清洗工作量大，涉及多种格式的转换和重复内容的剔除，这对技术实现和人力资源提出了高要求。最后，如何确保数据的质量和一致性，以及如何高效地进行多模态数据的处理，也是项目面临的重要技术挑战。

常用场景

经典使用场景

MNBVC数据集的经典使用场景主要体现在自然语言处理（NLP）领域，尤其是在中文语言模型的训练与优化中。该数据集包含了从新闻、小说、论文到聊天记录等多种文本形式，为研究人员提供了丰富的语料资源，用于构建和验证中文语言模型，如文本生成、情感分析、机器翻译等任务。

实际应用

在实际应用中，MNBVC数据集被广泛用于开发智能客服、自动文本摘要、内容推荐系统等应用。例如，企业可以利用该数据集训练模型，提升客户服务的自动化水平；媒体机构则可以利用其进行新闻内容的自动生成与编辑。此外，教育领域也可利用该数据集开发智能辅导系统，提供个性化的学习内容。

衍生相关工作

基于MNBVC数据集，许多相关研究工作得以展开，包括但不限于中文预训练语言模型的开发、多模态数据处理技术的研究以及跨语言翻译模型的优化。例如，有研究者利用该数据集训练了高性能的中文BERT模型，进一步推动了中文NLP的发展。此外，该数据集还激发了对多模态数据处理技术的探索，如结合图像与文本进行联合建模。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集