liwu/MNBVC
收藏Hugging Face2026-03-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liwu/MNBVC
下载链接
链接失效反馈加速链接:
资源简介:
MNBVC数据集是一个包含多种类型中文互联网语料的数据集,旨在为开源社区提供一个长期更新的中文语料库。数据集包含多个子集,如法律文书、政府工作报告、企业年报、知乎问答、维基百科文本等。数据格式包括通用文本、问答语料、代码语料、多轮对话、论坛语料和平行语料。数据集由里屋社区构建,并由社区成员上传至Huggingface。
The MNBVC dataset is a Chinese internet text corpus covering diverse types, which aims to provide a long-term updated Chinese language corpus resource for the open-source community. It includes multiple subsets such as legal documents, government work reports, corporate annual reports, Zhihu Q&A, Wikipedia articles, etc. The dataset supports various data formats including general text, Q&A corpora, code corpora, multi-turn dialogues, forum corpora and parallel corpora. Developed by the Liwu Community, the dataset is uploaded to the Hugging Face platform by community members.
提供机构:
liwu
原始信息汇总
数据集概述
基本信息
- 名称: MNBVC
- 语言: 中文
- 许可证: MIT
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
数据集介绍
MNBVC数据集由中文互联网上的里屋社区创建,旨在提供最大的中文互联网语料集。数据集在不断更新中,用户可通过GitHub获取更多未清洗的数据。
数据子集
MNBVC数据集包含以下子集:
law_judgement: 法律文书文本gov_xuexiqiangguo: 学习强国文本gov_report: 政府工作报告文本co_ann_report: 企业年报文本code_metadata: 代码元数据qa_zhihu: 知乎问答数据qa_wikihow: 来自wikihow的问答数据qa_mfa: 外交部问答数据news_peoples_daily: 人民日报文本数据wikipedia: 维基百科文本数据qa_stackexchange: StackExchange问答数据qa_chatgpt: 使用ChatGPT构造的问答语料math_qa: 数学领域问答数据math_chat: 数学领域对话数据crawler_oscar: 从CommonCrawl清洗出的通用文本数据
数据格式
MNBVC数据集包含以下几类数据格式:
- 通用文本
- 问答语料
- 代码语料
- 多轮对话
- 论坛语料
- 平行语料
早期数据格式如下,未来将被废弃并重新上传: json { "text": datasets.Value("string"), "meta": datasets.Value("string") }
搜集汇总
数据集介绍

构建方式
MNBVC数据集的构建基于广泛的中文互联网语料,涵盖了法律文书、政府报告、企业年报、问答数据、新闻报道、维基百科条目等多个领域。数据集的构建过程包括从原始数据源中提取、清洗和整理,确保语料的多样性和高质量。通过社区的共同努力,MNBVC数据集不断更新和扩展,以满足不同应用场景的需求。
特点
MNBVC数据集以其庞大的规模和多样的内容著称,包含了从法律文书到游戏平行语料的广泛领域。数据集的多样性不仅体现在内容上,还包括数据格式,如通用文本、问答语料、代码语料等。此外,MNBVC数据集的持续更新机制确保了其时效性和实用性,使其成为中文自然语言处理领域的重要资源。
使用方法
MNBVC数据集可以通过HuggingFace的datasets库进行加载和使用。用户可以根据需求选择特定的子集,如法律文书、政府报告或问答数据等。加载数据集的示例代码展示了如何使用Python脚本进行数据访问。此外,MNBVC数据集的wiki页面提供了详细的数据格式说明,帮助用户更好地理解和处理数据。
背景与挑战
背景概述
MNBVC数据集,由中文互联网上历史悠久的里屋社区于2023年1月1日宣布创建,旨在为开源社区提供一份最大的中文互联网语料集。该数据集由里屋社区的成员在英明神武的里屋管子领导下,利用社区资源和专业知识,逐步更新和完善。MNBVC数据集的构建不仅体现了社区对开源事业的贡献,也为中文自然语言处理领域提供了丰富的资源,推动了相关研究的发展。
当前挑战
MNBVC数据集在构建过程中面临多重挑战。首先,数据来源广泛,包括法律文书、政府报告、企业年报、问答平台等多种文本类型,确保数据质量和一致性是一大难题。其次,数据清洗和格式标准化需要大量人力和时间,尤其是在处理多轮对话和论坛语料时。此外,随着数据规模的不断扩大,如何高效管理和更新数据集,以及如何确保数据的安全性和隐私保护,也是亟待解决的问题。
常用场景
经典使用场景
MNBVC数据集在自然语言处理领域中,以其庞大的中文语料库和多样化的数据子集,成为文本生成和掩码语言建模的经典资源。其子集如`law_judgement`和`gov_report`为法律和政府文本的生成提供了丰富的训练数据,而`qa_zhihu`和`qa_wikihow`则为问答系统的设计和优化提供了宝贵的语料支持。
实际应用
在实际应用中,MNBVC数据集被广泛用于构建和优化各种中文自然语言处理模型,如智能客服、法律文书自动生成和政府报告分析等。其丰富的语料资源使得这些应用在处理中文文本时更加准确和高效,极大地提升了用户体验和工作效率。
衍生相关工作
基于MNBVC数据集,研究者们开发了多种自然语言处理模型和工具,如针对法律文本的专用模型、问答系统的优化算法等。此外,该数据集还激发了关于大规模语料库构建和管理的研究,推动了数据清洗和标注技术的发展,为后续的数据集构建提供了宝贵的经验和方法。
以上内容由遇见数据集搜集并总结生成



