five

wanng/wikipedia-zh-mnbvc

收藏
Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wanng/wikipedia-zh-mnbvc
下载链接
链接失效反馈
官方服务:
资源简介:
zhwiki-mnbvc数据集是MNBVC超大规模中文语料集的一部分,专注于中文维基百科的语料爬取和处理。数据时间范围为2023年2月至2023年5月,并且持续更新。数据集的处理流程参考了特定的清洗方法,并使用了组员开发的去重工具进行数据格式化。数据集的总行数为10,754,146,包含中文和英文内容,主要用于文本生成任务。

The zhwiki-mnbvc dataset is a subset of the MNBVC ultra-large-scale Chinese corpus, focusing on the crawling and processing of Chinese Wikipedia corpora. The dataset covers the period from February 2023 to May 2023, with continuous updates. Its processing pipeline adopts specific cleaning methods and uses a deduplication tool developed by the team for data formatting. The total number of rows in the dataset is 10,754,146, which contains both Chinese and English content, and it is primarily used for text generation tasks.
提供机构:
wanng
原始信息汇总

数据集概述

基本信息

  • 数据集名称: zhwiki-mnbvc
  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 中文, 英文
  • 标签: mnbvc, Wikipedia

数据来源与处理

  • 分项目: 爬取并处理中文维基百科语料
  • 数据时间: 202302-202305(持续更新)
  • 主项目: MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集
  • 清洗流程参考: https://kexue.fm/archives/4176/comment-page-1
  • 去重工具: https://github.com/aplmikex/deduplication_mnbvc

数据统计

  • 总行数(样本): 10,754,146

数据示例

json { "文件名": "cleaned/zhwiki-20230420/folder_0/723712.txt", "是否待查文件": false, "是否重复文件": false, "文件大小": 558, "simhash": 14363740497821204542, "最长段落长度": 142, "段落数": 6, "去重段落数": 6, "低质量段落数": 0, "段落": [ { "行号": 0, "是否重复": false, "是否跨文件重复": false, "md5": "39a3b4c7a4785d88c7c7d774364ea17e", "内容": "【龙州 (唐朝)】" }, { "行号": 1, "是否重复": false, "是否跨文件重复": false, "md5": "856bdf443999603f349625a56a5e92d6", "内容": "龙州,中国古代的州,今龙州县的前身。" }, { "行号": 2, "是否重复": false, "是否跨文件重复": false, "md5": "45fd3b9dc612d6235b5653d1a5b40688", "内容": "唐朝武德四年(621年)设置的州,治所在龙城县(今广西壮族自治区龙州县北),辖两县:龙城县、柳岭县。贞观七年(633年),柳岭县并入龙城县,撤销龙州,龙城县归南昆州管辖。元朝设万户府,移治今龙州。明朝洪武初年,复为龙州。清朝雍正三年(1725年)废为龙州县,今属广西壮族自治区崇左市。" }, { "行号": 4, "是否重复": false, "是否跨文件重复": false, "md5": "8756367c3ee308f3875ed8e942a6e377", "内容": "== 参考文献 ==" }, { "行号": 5, "是否重复": false, "是否跨文件重复": false, "md5": "6db73b5b7c22fb1bcf7829fbe585043f", "内容": "* 《旧唐书·地理志》" }, { "行号": 6, "是否重复": false, "是否跨文件重复": false, "md5": "38b370ac9f61b116d4f6c98873ffc4bd", "内容": "* 《明史·地理志》" } ], "文件日期": "2023-04-20" }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是中文维基百科的语料集合,包含超过1000万条记录,每条记录都有详细的元数据和段落信息。数据集经过清洗和去重处理,适用于文本生成等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作