liwu/MNBVC

Hugging Face2026-03-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/liwu/MNBVC

下载链接

链接失效反馈

加速链接：

金山云加速下载

资源简介：

MNBVC数据集是一个包含多种类型中文互联网语料的数据集，旨在为开源社区提供一个长期更新的中文语料库。数据集包含多个子集，如法律文书、政府工作报告、企业年报、知乎问答、维基百科文本等。数据格式包括通用文本、问答语料、代码语料、多轮对话、论坛语料和平行语料。数据集由里屋社区构建，并由社区成员上传至Huggingface。

The MNBVC dataset is a Chinese internet text corpus covering diverse types, which aims to provide a long-term updated Chinese language corpus resource for the open-source community. It includes multiple subsets such as legal documents, government work reports, corporate annual reports, Zhihu Q&A, Wikipedia articles, etc. The dataset supports various data formats including general text, Q&A corpora, code corpora, multi-turn dialogues, forum corpora and parallel corpora. Developed by the Liwu Community, the dataset is uploaded to the Hugging Face platform by community members.

提供机构：

liwu

原始信息汇总

数据集概述

基本信息

名称: MNBVC
语言: 中文
许可证: MIT
多语言性: 单语种
数据来源: 原始数据
任务类别:
- 文本生成
- 填充掩码
任务ID:
- 语言建模
- 掩码语言建模

数据集介绍

MNBVC数据集由中文互联网上的里屋社区创建，旨在提供最大的中文互联网语料集。数据集在不断更新中，用户可通过GitHub获取更多未清洗的数据。

数据子集

MNBVC数据集包含以下子集：

law_judgement: 法律文书文本
gov_xuexiqiangguo: 学习强国文本
gov_report: 政府工作报告文本
co_ann_report: 企业年报文本
code_metadata: 代码元数据
qa_zhihu: 知乎问答数据
qa_wikihow: 来自wikihow的问答数据
qa_mfa: 外交部问答数据
news_peoples_daily: 人民日报文本数据
wikipedia: 维基百科文本数据
qa_stackexchange: StackExchange问答数据
qa_chatgpt: 使用ChatGPT构造的问答语料
math_qa: 数学领域问答数据
math_chat: 数学领域对话数据
crawler_oscar: 从CommonCrawl清洗出的通用文本数据

数据格式

MNBVC数据集包含以下几类数据格式：

通用文本
问答语料
代码语料
多轮对话
论坛语料
平行语料

早期数据格式如下，未来将被废弃并重新上传： json { "text": datasets.Value("string"), "meta": datasets.Value("string") }

搜集汇总

数据集介绍

构建方式

MNBVC数据集的构建基于广泛的中文互联网语料，涵盖了法律文书、政府报告、企业年报、问答数据、新闻报道、维基百科条目等多个领域。数据集的构建过程包括从原始数据源中提取、清洗和整理，确保语料的多样性和高质量。通过社区的共同努力，MNBVC数据集不断更新和扩展，以满足不同应用场景的需求。

特点

MNBVC数据集以其庞大的规模和多样的内容著称，包含了从法律文书到游戏平行语料的广泛领域。数据集的多样性不仅体现在内容上，还包括数据格式，如通用文本、问答语料、代码语料等。此外，MNBVC数据集的持续更新机制确保了其时效性和实用性，使其成为中文自然语言处理领域的重要资源。

使用方法

MNBVC数据集可以通过HuggingFace的datasets库进行加载和使用。用户可以根据需求选择特定的子集，如法律文书、政府报告或问答数据等。加载数据集的示例代码展示了如何使用Python脚本进行数据访问。此外，MNBVC数据集的wiki页面提供了详细的数据格式说明，帮助用户更好地理解和处理数据。

背景与挑战

背景概述

MNBVC数据集，由中文互联网上历史悠久的里屋社区于2023年1月1日宣布创建，旨在为开源社区提供一份最大的中文互联网语料集。该数据集由里屋社区的成员在英明神武的里屋管子领导下，利用社区资源和专业知识，逐步更新和完善。MNBVC数据集的构建不仅体现了社区对开源事业的贡献，也为中文自然语言处理领域提供了丰富的资源，推动了相关研究的发展。

当前挑战

MNBVC数据集在构建过程中面临多重挑战。首先，数据来源广泛，包括法律文书、政府报告、企业年报、问答平台等多种文本类型，确保数据质量和一致性是一大难题。其次，数据清洗和格式标准化需要大量人力和时间，尤其是在处理多轮对话和论坛语料时。此外，随着数据规模的不断扩大，如何高效管理和更新数据集，以及如何确保数据的安全性和隐私保护，也是亟待解决的问题。

常用场景

经典使用场景

MNBVC数据集在自然语言处理领域中，以其庞大的中文语料库和多样化的数据子集，成为文本生成和掩码语言建模的经典资源。其子集如`law_judgement`和`gov_report`为法律和政府文本的生成提供了丰富的训练数据，而`qa_zhihu`和`qa_wikihow`则为问答系统的设计和优化提供了宝贵的语料支持。

实际应用

在实际应用中，MNBVC数据集被广泛用于构建和优化各种中文自然语言处理模型，如智能客服、法律文书自动生成和政府报告分析等。其丰富的语料资源使得这些应用在处理中文文本时更加准确和高效，极大地提升了用户体验和工作效率。

衍生相关工作

基于MNBVC数据集，研究者们开发了多种自然语言处理模型和工具，如针对法律文本的专用模型、问答系统的优化算法等。此外，该数据集还激发了关于大规模语料库构建和管理的研究，推动了数据清洗和标注技术的发展，为后续的数据集构建提供了宝贵的经验和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集