five

wikipedia-cn-20230720-filtered

收藏
魔搭社区2024-08-30 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/wikipedia-cn-20230720-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了 `254,547条` 质量较高的词条内容。具体而言: * 过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条 * 使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条 * 过滤了一部分内容较为敏感或存在争议性的词条。 * 进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。 This dataset is based on the Chinese Wikipedia dump archive from July 20th, 2023. As a data-centric effort, the dataset retains `254,574` high-quality entries. Specifically: * Entries of special types such as Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, and Help have been filtered out. * A heuristic approach and proprietary NLU models have been used to filter out some low-quality entries. * Entries with sensitive or controversial content have also been filtered out. * To ensure compliance with language usage in mainland China, the dataset underwent conversions from simplified to traditional Chinese, as well as colloquial language conversions.

本数据集基于2023年7月20日的中文维基百科(Chinese Wikipedia)dump存档。作为一项以数据为核心的工作,本数据集仅保留了254,574条高质量词条。具体如下: * 过滤了模板(Template)、分类(Category)、维基百科(Wikipedia)、文件(File)、主题(Topic)、门户(Portal)、MediaWiki、草稿(Draft)、帮助(Help)等特殊类型的词条 * 采用启发式方法与自研自然语言理解(NLU)模型,过滤了部分低质量词条 * 过滤了涉及敏感内容或存在争议的词条 * 完成了简繁转换与用语规范调整,以符合中国大陆地区的语言使用习惯
提供机构:
maas
创建时间:
2023-12-05
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是2023年7月20日中文维基百科的高质量过滤版本,包含254,547条精选词条,经过特殊类型过滤、质量筛选、敏感内容移除及简繁转换处理,符合中国大陆语言习惯。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作