five

NyxKrage/uncyclopedia-dump

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/NyxKrage/uncyclopedia-dump
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是截至2024年2月13日的Uncyclopedia(非百科全书)的转储。包含主要文件(最新修订版的parquet文件,经过轻微清理并转换为markdown格式)、清理后的文件(包括所有修订版和转换为markdown的最新修订版)、脚本(用于解析原始xml转储为HuggingFace数据集兼容格式的脚本和清理笔记本)以及源文件(原始xml转储和其他由mediawiki-dump-generator生成的文件)。原始转储超过50GB,已分割成多个部分,可以使用`cat`命令重新组合。转换后的文本约为3500万个词,但建议在使用前进行更彻底的清理。Uncyclopedia包含大量“边缘”/种族主义内容。

该数据集是截至2024年2月13日的Uncyclopedia(非百科全书)的转储。包含主要文件(最新修订版的parquet文件,经过轻微清理并转换为markdown格式)、清理后的文件(包括所有修订版和转换为markdown的最新修订版)、脚本(用于解析原始xml转储为HuggingFace数据集兼容格式的脚本和清理笔记本)以及源文件(原始xml转储和其他由mediawiki-dump-generator生成的文件)。原始转储超过50GB,已分割成多个部分,可以使用`cat`命令重新组合。转换后的文本约为3500万个词,但建议在使用前进行更彻底的清理。Uncyclopedia包含大量“边缘”/种族主义内容。
提供机构:
NyxKrage
原始信息汇总

Uncyclopedia Dump 数据集概述

数据集信息

  • 许可证: cc
  • 语言: 英语
  • 标签: not-for-all-audiences
  • 名称: Uncyclopedia Dump
  • 大小类别: 10K<n<100K

数据内容

  • main: 包含最新修订版本的parquet文件,经过轻微清理并转换为markdown格式。
  • cleaned: 包含所有修订版本及最新修订版本的markdown转换结果的parquet文件。
  • scripts: 用于解析原始xml dump并转换为huggingface datasets兼容格式的脚本,以及用于清理数据的notebook。
  • source: 原始xml dump及其他由mediawiki-dump-generator生成的文件。

注意事项

  • 下载方式: 不要使用GIT LFS下载文件,建议使用huggingface-cli。
  • 原始dump大小: 超过50GB,已分割成多个部分,可以使用cat命令重新组合。
  • 转换文本大小: 约35M tokens,建议在使用前进行更彻底的数据清理。
  • 内容警告: Uncyclopedia包含大量“边缘”/种族主义内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作