five

botp/liwu-MNBVC

收藏
Hugging Face2023-09-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botp/liwu-MNBVC
下载链接
链接失效反馈
官方服务:
资源简介:
MNBVC数据集是一个由里屋社区发起并持续更新的中文互联网语料集,旨在帮助开源社区长期更新一份最大的中文互联网语料集。数据集包含多个子集,涵盖了法律文书、政府工作报告、企业年报、问答数据等多种类型的数据。数据格式包括文本数据和问答数据,分别以JSON格式组织。
提供机构:
botp
原始信息汇总

数据集卡片 for MNBVC

数据集描述

数据集介绍

MNBVC数据集是由中文互联网社区里屋社区于2023年1月1日宣布,旨在长期更新一份最大的中文互联网语料集。该数据集在Huggingface上逐渐更新,更多未完成清洗的数据可在GitHub上获取。

数据子集

MNBVC数据集包含以下子集:

  • law_judgement: 来自法律文书的文本。
  • gov_xuexiqiangguo: 来自学习强国的文本。
  • gov_report: 来自政府工作报告的文本。
  • co_ann_report: 企业年报文本。
  • code_metadata: 代码元数据。
  • qa_zhihu: 来自知乎的问答数据。
  • qa_wikihow: 来自wikihow的问答数据。
  • qa_mfa: 外交部问答数据。
  • news_peoples_daily: 来自人民日报的文本数据。
  • wikipedia: 来自维基百科的文本数据。

数据格式

文本数据

文本数据使用如下格式组织: json { "文件名": datasets.Value("string"), "是否待查文件": datasets.Value("bool"), "是否重复文件": datasets.Value("bool"), "文件大小": datasets.Value("int32"), "simhash": datasets.Value("uint64"), "最长段落长度": datasets.Value("int32"), "段落数": datasets.Value("int32"), "去重段落数": datasets.Value("int32"), "低质量段落数": datasets.Value("int32"), "段落": [ datasets.Features( { "行号": datasets.Value("int32"), "是否重复": datasets.Value("bool"), "是否跨文件重复": datasets.Value("bool"), "md5": datasets.Value("string"), "内容": datasets.Value("string"), } ) ] }

问答数据

问答数据使用如下格式组织: json { "id": datasets.Value("int32"), "问": datasets.Value("string"), "答": datasets.Value("string"), "来源": datasets.Value("string"), "元数据": { "create_time": datasets.Value("string"), "问题明细": datasets.Value("string"), "回答明细": datasets.Value("string"), "扩展字段": datasets.Value("string"), } }

早期上传的数据使用如下格式,未来将被废弃并重新上传: json { "text": datasets.Value("string"), "meta": datasets.Value("string") }

搜集汇总
背景与挑战
背景概述
MNBVC数据集是一个由里屋社区发起并持续更新的中文互联网语料集,旨在构建最大的中文语料资源。它包含多个子集,涵盖法律文书、政府工作报告、企业年报和问答数据等多种类型,数据以JSON格式组织,适用于自然语言处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作