botp/liwu-MNBVC
收藏数据集卡片 for MNBVC
数据集描述
数据集介绍
MNBVC数据集是由中文互联网社区里屋社区于2023年1月1日宣布,旨在长期更新一份最大的中文互联网语料集。该数据集在Huggingface上逐渐更新,更多未完成清洗的数据可在GitHub上获取。
数据子集
MNBVC数据集包含以下子集:
law_judgement: 来自法律文书的文本。gov_xuexiqiangguo: 来自学习强国的文本。gov_report: 来自政府工作报告的文本。co_ann_report: 企业年报文本。code_metadata: 代码元数据。qa_zhihu: 来自知乎的问答数据。qa_wikihow: 来自wikihow的问答数据。qa_mfa: 外交部问答数据。news_peoples_daily: 来自人民日报的文本数据。wikipedia: 来自维基百科的文本数据。
数据格式
文本数据
文本数据使用如下格式组织: json { "文件名": datasets.Value("string"), "是否待查文件": datasets.Value("bool"), "是否重复文件": datasets.Value("bool"), "文件大小": datasets.Value("int32"), "simhash": datasets.Value("uint64"), "最长段落长度": datasets.Value("int32"), "段落数": datasets.Value("int32"), "去重段落数": datasets.Value("int32"), "低质量段落数": datasets.Value("int32"), "段落": [ datasets.Features( { "行号": datasets.Value("int32"), "是否重复": datasets.Value("bool"), "是否跨文件重复": datasets.Value("bool"), "md5": datasets.Value("string"), "内容": datasets.Value("string"), } ) ] }
问答数据
问答数据使用如下格式组织: json { "id": datasets.Value("int32"), "问": datasets.Value("string"), "答": datasets.Value("string"), "来源": datasets.Value("string"), "元数据": { "create_time": datasets.Value("string"), "问题明细": datasets.Value("string"), "回答明细": datasets.Value("string"), "扩展字段": datasets.Value("string"), } }
早期上传的数据使用如下格式,未来将被废弃并重新上传: json { "text": datasets.Value("string"), "meta": datasets.Value("string") }



