NyxKrage/uncyclopedia-dump
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NyxKrage/uncyclopedia-dump
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是截至2024年2月13日的Uncyclopedia(非百科全书)的转储。包含主要文件(最新修订版的parquet文件,经过轻微清理并转换为markdown格式)、清理后的文件(包括所有修订版和转换为markdown的最新修订版)、脚本(用于解析原始xml转储为HuggingFace数据集兼容格式的脚本和清理笔记本)以及源文件(原始xml转储和其他由mediawiki-dump-generator生成的文件)。原始转储超过50GB,已分割成多个部分,可以使用`cat`命令重新组合。转换后的文本约为3500万个词,但建议在使用前进行更彻底的清理。Uncyclopedia包含大量“边缘”/种族主义内容。
该数据集是截至2024年2月13日的Uncyclopedia(非百科全书)的转储。包含主要文件(最新修订版的parquet文件,经过轻微清理并转换为markdown格式)、清理后的文件(包括所有修订版和转换为markdown的最新修订版)、脚本(用于解析原始xml转储为HuggingFace数据集兼容格式的脚本和清理笔记本)以及源文件(原始xml转储和其他由mediawiki-dump-generator生成的文件)。原始转储超过50GB,已分割成多个部分,可以使用`cat`命令重新组合。转换后的文本约为3500万个词,但建议在使用前进行更彻底的清理。Uncyclopedia包含大量“边缘”/种族主义内容。
提供机构:
NyxKrage
原始信息汇总
Uncyclopedia Dump 数据集概述
数据集信息
- 许可证: cc
- 语言: 英语
- 标签: not-for-all-audiences
- 名称: Uncyclopedia Dump
- 大小类别: 10K<n<100K
数据内容
- main: 包含最新修订版本的parquet文件,经过轻微清理并转换为markdown格式。
- cleaned: 包含所有修订版本及最新修订版本的markdown转换结果的parquet文件。
- scripts: 用于解析原始xml dump并转换为huggingface datasets兼容格式的脚本,以及用于清理数据的notebook。
- source: 原始xml dump及其他由mediawiki-dump-generator生成的文件。
注意事项
- 下载方式: 不要使用GIT LFS下载文件,建议使用huggingface-cli。
- 原始dump大小: 超过50GB,已分割成多个部分,可以使用
cat命令重新组合。 - 转换文本大小: 约35M tokens,建议在使用前进行更彻底的数据清理。
- 内容警告: Uncyclopedia包含大量“边缘”/种族主义内容。



