five

pleisto/wikipedia-cn-20230720-filtered

收藏
Hugging Face2023-07-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pleisto/wikipedia-cn-20230720-filtered
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了254,547条质量较高的词条内容。具体而言:过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条;使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条;过滤了一部分内容较为敏感或存在争议性的词条;进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。

本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了254,547条质量较高的词条内容。具体而言:过滤了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条;使用启发式的方法和自有的NLU模型过滤了一部分质量较低的词条;过滤了一部分内容较为敏感或存在争议性的词条;进行了简繁转换和习惯用词转换,确保符合中国大陆地区的习惯用词。
提供机构:
pleisto
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-3.0
  • 任务类别: 文本生成
  • 语言: 中文
  • 标签: 维基百科
  • 数据集大小: 100K<n<1M

数据来源与处理

  • 来源: 中文维基百科2023年7月20日的dump存档
  • 保留条目数: 254,547条(中文描述)/ 254,574条(英文描述)
  • 过滤内容:
    • 排除了Template, Category, Wikipedia, File, Topic, Portal, MediaWiki, Draft, Help等特殊类型的词条
    • 使用启发式方法和自有的NLU模型过滤了质量较低的词条
    • 排除了内容敏感或存在争议性的词条
  • 语言处理:
    • 进行了简繁转换
    • 进行了习惯用词转换,以符合中国大陆地区的习惯用词
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集基于2023年7月20日的中文维基百科dump存档,经过精心筛选与处理,最终保留了254,547条高质量词条。构建过程中,首先排除了Template、Category、Wikipedia等特殊类型的词条,随后采用启发式方法与自有的自然语言理解(NLU)模型,进一步过滤了质量较低的词条。此外,为确保内容的适宜性,还剔除了部分敏感或存在争议性的词条,并进行了简繁转换与习惯用词的调整,以符合中国大陆地区的语言习惯。
特点
该数据集显著特点在于其高质量与适用性。经过多重过滤与优化,数据集不仅去除了低质量与特殊类型的词条,还特别关注了内容的敏感性与争议性,确保了数据的安全性与可靠性。此外,通过简繁转换与习惯用词的调整,数据集更贴近中国大陆地区的语言使用习惯,为相关研究与应用提供了更为精准的语言资源。
使用方法
该数据集适用于多种自然语言处理任务,特别是文本生成领域。用户可直接下载数据集,利用其中的高质量词条进行模型训练或验证。由于数据集已进行简繁转换与习惯用词调整,用户在使用时无需额外处理语言差异问题,可直接应用于中文相关的研究与开发项目中。此外,数据集的过滤机制确保了内容的高质量与安全性,适合用于需要高精度语言数据的场景。
背景与挑战
背景概述
在自然语言处理领域,高质量的文本数据集对于模型的训练和评估至关重要。pleisto/wikipedia-cn-20230720-filtered数据集正是基于这一需求,由专业团队于2023年7月20日从中文维基百科的dump存档中精心筛选而成。该数据集的核心研究问题在于如何从海量信息中提取出高质量、无争议且符合特定语言习惯的文本内容,以支持文本生成等任务。这一数据集的创建不仅提升了中文自然语言处理的数据质量,也为相关领域的研究提供了坚实的基础。
当前挑战
构建pleisto/wikipedia-cn-20230720-filtered数据集面临多项挑战。首先,如何从维基百科的众多词条中筛选出高质量内容,需要复杂的启发式方法和自然语言理解模型的支持。其次,处理简繁转换和习惯用词的差异,确保数据集的通用性和适用性,也是一项技术难题。此外,过滤敏感或争议性内容,确保数据集的合规性和安全性,更是对数据处理技术的严峻考验。这些挑战不仅影响了数据集的构建过程,也对其在实际应用中的效果产生了深远影响。
常用场景
经典使用场景
在自然语言处理领域,pleisto/wikipedia-cn-20230720-filtered数据集被广泛用于文本生成任务。其高质量的中文维基词条内容为模型训练提供了丰富的语料资源,尤其适用于构建大规模预训练语言模型,如BERT、GPT等。通过该数据集,研究者能够有效提升模型在中文文本生成、摘要提取和问答系统等任务中的表现。
解决学术问题
该数据集解决了中文自然语言处理领域中高质量语料稀缺的问题。通过精心筛选和处理,它为学术界提供了一个结构化、高质量的中文文本资源,有助于推动中文语言模型的研究与应用。此外,数据集的简繁转换和习惯用词转换功能,确保了语料的通用性和适用性,为跨地区语言研究提供了便利。
衍生相关工作
基于pleisto/wikipedia-cn-20230720-filtered数据集,研究者们开发了多种中文语言模型和应用。例如,有研究团队利用该数据集训练了高性能的中文BERT模型,显著提升了中文文本分类和情感分析的准确性。此外,该数据集还被用于构建中文知识图谱,为智能问答系统和知识推理提供了坚实的基础。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作