wikipedia-cn-20230720-filtered
收藏魔搭社区2024-08-30 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/wikipedia-cn-20230720-filtered
下载链接
链接失效反馈官方服务:
资源简介:
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 `254,547条` 质量较高的词条内容。具体而言:
* 过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条
* 使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条
* 过滤了一部分内容较为敏感或存在争议性的词条。
* 进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。
This dataset is based on the Chinese Wikipedia dump archive from July 20th, 2023. As a data-centric effort, the dataset retains `254,574` high-quality entries. Specifically:
* Entries of special types such as Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, and Help have been filtered out.
* A heuristic approach and proprietary NLU models have been used to filter out some low-quality entries.
* Entries with sensitive or controversial content have also been filtered out.
* To ensure compliance with language usage in mainland China, the dataset underwent conversions from simplified to traditional Chinese, as well as colloquial language conversions.
本数据集基于2023年7月20日的中文维基百科(Chinese Wikipedia)dump存档。作为一项以数据为核心的工作,本数据集仅保留了254,574条高质量词条。具体如下:
* 过滤了模板(Template)、分类(Category)、维基百科(Wikipedia)、文件(File)、主题(Topic)、门户(Portal)、MediaWiki、草稿(Draft)、帮助(Help)等特殊类型的词条
* 采用启发式方法与自研自然语言理解(NLU)模型,过滤了部分低质量词条
* 过滤了涉及敏感内容或存在争议的词条
* 完成了简繁转换与用语规范调整,以符合中国大陆地区的语言使用习惯
提供机构:
maas
创建时间:
2023-12-05
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是2023年7月20日中文维基百科的高质量过滤版本,包含254,547条精选词条,经过特殊类型过滤、质量筛选、敏感内容移除及简繁转换处理,符合中国大陆语言习惯。
以上内容由遇见数据集搜集并总结生成



