维基百科中文高质量词条子集
收藏OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/liding/wikipedia-cn-filtered
下载链接
链接失效反馈官方服务:
资源简介:
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,使用启发式的方法和自有的NLU模型过滤了一部分质量较低或内容不合规的词条。
This dataset is based on the Chinese Wikipedia dump archive dated July 20, 2023. As a data-centric work, heuristic methods and our proprietary NLU model were employed to filter out a portion of low-quality or non-compliant entries.
提供机构:
liding
创建时间:
2023-08-10
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是基于中文维基2023年7月20日dump存档的高质量词条子集,经过过滤处理以确保内容质量和合规性,适用于文本生成等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



