【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
维基百科中文高质量词条子集
收藏OpenDataLab2026-05-10 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/liding/wikipedia-cn-filtered
下载链接
链接失效反馈官方服务:
资源简介:
本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,使用启发式的方法和自有的NLU模型过滤了一部分质量较低或内容不合规的词条。
This dataset is based on the Chinese Wikipedia dump archive dated July 20, 2023. As a data-centric work, heuristic methods and our proprietary NLU model were employed to filter out a portion of low-quality or non-compliant entries.
提供机构:
liding
创建时间:
2023-08-10
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是基于中文维基2023年7月20日dump存档的高质量词条子集,经过过滤处理以确保内容质量和合规性,适用于文本生成等自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



