recursal/FanaticFandom

Name: recursal/FanaticFandom
Creator: recursal
Published: 2024-06-13 01:30:38
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/recursal/FanaticFandom

下载链接

链接失效反馈

官方服务：

资源简介：

Fanatic Fandom是一个经过清洗的数据集，源自对Fandom.com上公开wiki页面的爬取。我们爬取了所有公开的wiki页面，并对每个页面进行了处理。数据集主要包含英文内容，经过Roblox wiki的过滤和HTML到Markdown的转换处理，总token数约为7.43B（使用llama-2-7b-chat-tokenizer）或6.27B（使用RWKV Tokenizer）。数据集由KaraKaraWitch整理，由Recursal.ai资助，并遵循CC-BY-SA-4.0许可。

提供机构：

recursal

原始信息汇总

数据集概述

数据集描述

Fanatic Fandom 是一个从粉丝维基中清理出来的数据集。我们爬取了所有公开可用的维基并爬取了每个页面。过滤后总共有 ~7.43B (llama-2-7b-chat-tokenizer) / ~6.27B (RWKV Tokenizer) 的令牌，主要来自英语语言。

语言(s) (NLP): 主要英语
许可证: cc-by-sa-4.0

数据集来源

源数据: https://fandom.com/ (机器人爬取)

处理和过滤

我们详细描述了从爬取、索引和清理粉丝维基到 html 内容文件的过程。以下是过程的分解：

维基识别:
- WikisIndexer.py 脚本从 https://community.fandom.com/Special:NewWikis 获取维基列表。
页面索引:
- IndexFandomPages.py 脚本利用 MediaWiki API (api.php) 为每个维基收集页面列表。
页面获取:
- WikiPageFetcher.py 脚本利用 MediaWiki API (api.php) 渲染维基页面并保存到一个大 JSONL 文件中。
- 此外，任何少于 5 页的维基都不会被爬取，因为它们被认为是低质量的。
数据分块:
- 包含所有获取页面的单个大 JSONL 文件被分割成更小、更易管理的块。
- 这是为了准备第四步。
Roblox 维基移除:
- RobloxWikiFilter.py 脚本识别并移除 Roblox 维基，因为它们通常会产生大量低质量内容。这一过滤步骤简化了后续的存根文章移除过程。
- 根据快速计算：大约 15.2%（比较步骤 3 和步骤 4 的结果）的粉丝维基是 Roblox 数据。
内容转换:
- HTML 内容被转换为 Markdown 格式。转换过程去除了不必要的元素，如图形、存根文章通知和其他无关数据。

数据分割

该数据集有 3 个分割：

final
- 包含最终的 25GB jsonl 文件。
- 您可能希望将其用于训练。
raw-pre-roblox
- 原始文件，在 Roblox 过滤之前。
- 如果您想从头开始并且不想再次爬取粉丝维基，请使用此文件。
raw-post-roblox
- 原始文件，在 Roblox 过滤之后。
- Roblox 维基已移除。
- 如果您想从头开始并且不想再次爬取粉丝维基，请使用此文件。

数据键

对于此数据集，我们包含了数据集的大多数步骤。它们如下所列：

fandom_wikis_210224.csv
- 一个 CSV 文件，包含从 Special:NewWikis 爬取的维基列表，日期为 21/02/2024
- 键如下：Sub Domain,Name of Wiki,Path name,0
- 多余的零可以忽略，因为它没有任何作用。
fandom_wikis_pages_210224_v2.jsonl
- 包含每个维基的维基页面 jsonl 列表。
- 每个 jsonl 有以下键：
- domain: str [子域名]
- path: str [到 api.php 的路径。对于不同语言可能不同]
- pages: list[str] [包含页面名称的字符串列表]
v2.5-chunks [文件夹]
- 包含从 fandom_wikis_pages_210224_v2.jsonl 列表中获取的所有页面
- 原始文件是 fandom_wikis_pages_contents_210224_v2.jsonl，大小为 283.44GB，无法上传到 HF。
- 每个 jsonl 有以下键：
- domain: str [子域名]
- path: str [到 api.php 的路径。对于不同语言可能不同]
- pages: str [页面名称]
- content: api.php 的原始响应
v2.5-chunks-roblox-filter [文件夹]
- 包含过滤 Roblox 后的文件。
- 每个 jsonl 有以下键：
  - domain: str [子域名]
  - path: str [到 api.php 的路径。对于不同语言可能不同]
  - pages: str [页面名称]
  - content: api.php 的原始响应
fandom-v0.5.jsonl [文件]
- 包含完全处理文本的 jsonl 文件。
- 每个 jsonl 有以下键：
  - text: str [文本内容]
  - meta: dict[str,str] [元数据字典]
    - title: str [页面/名称]
    - domain: str [子域名]
    - cats: str [分类。提取但未使用]
    - removed: list[str] [移除的存根 / html 内容列表]
roblox.domains.txt [额外]
- 一个 Roblox 域名的 txt 列表。

许可证信息

大多数粉丝用户创建的内容都根据 CC-BY-SA 许可证进行许可，除非另有说明。基于这一假设，我们没有包含任何图形或图像，因为它们通常不受 CC-BY-SA 许可证的许可。

Recursal Waifus（横幅图像）根据 CC-BY-SA 许可证进行许可。它们不代表相关网站的任何官方能力，除非网站另有宣布。您可以将它们用作横幅图像。但是，您必须始终链接到数据集。

引用信息

@ONLINE{fantaticfandom, title = {FanaticFandom}, author = {KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/FanaticFandom}}, }

搜集汇总

数据集介绍

构建方式

在数字文化蓬勃发展的背景下，Fanatic Fandom数据集通过系统化的网络爬取与清洗流程构建而成。其构建始于利用定制脚本从Fandom社区平台自动识别并索引公开的维基页面，随后通过MediaWiki API获取页面原始HTML内容。为确保数据质量，构建过程实施了多重过滤策略，包括剔除页面数量过少的低质量维基、专门移除大量生成低质内容的Roblox相关维基，并将HTML内容转换为纯净的Markdown格式，最终生成结构化的JSONL文件，总计包含约74.3亿标记的高质量文本。

特点

该数据集的核心特征在于其大规模、高纯净度的英文维基文本集合，专为语言模型预训练设计。数据经过精心处理，移除了图像、存根通知等无关元素，聚焦于实质性的文本内容，确保了语料的连贯性与可用性。数据集提供了三种不同处理阶段的版本，包括最终处理版、Roblox过滤前与过滤后的原始版本，为研究者提供了从原始爬取数据到精炼文本的完整追溯与灵活选择，满足了不同研究阶段对数据粒度与纯净度的差异化需求。

使用方法

在自然语言处理领域，该数据集主要服务于文本生成与掩码语言建模等任务。使用者可通过Hugging Face平台直接加载‘final’配置下的数据文件进行模型训练。对于希望进行定制化预处理的研究者，可选用‘raw-pre-roblox’或‘raw-post-roblox’配置下的原始分块文件，从中提取‘content’等关键字段，并依据自身需求实施进一步的清洗或格式转换。数据以JSONL格式组织，每条记录包含文本内容及丰富的元数据，便于进行有监督学习或领域特定的分析探索。

背景与挑战

背景概述

在自然语言处理领域，大规模、高质量文本语料的构建是推动语言模型发展的关键基石。Fanatic Fandom数据集由KaraKaraWitch于2024年创建，并得到Recursal.ai的支持，旨在从Fandom.com这一庞大的用户生成内容平台中，系统性地爬取并清洗维基页面，最终形成一个包含约74.3亿标记（以Llama-2-7b-chat分词器计）的英文文本语料库。该数据集的核心研究问题聚焦于如何从开放网络社区中高效提取结构化知识，并将其转化为适用于文本生成与掩码语言建模任务的训练数据，其发布为开源社区提供了宝贵的多样化、长文本资源，有力支持了RWKV等高效架构的模型预训练与研究。

当前挑战

该数据集旨在应对从海量、异构的网络用户生成内容中构建纯净、高质量语言模型的挑战，其核心难题在于如何有效区分并滤除低价值信息，例如充斥于Roblox相关维基中的大量低质内容，这占据了原始数据的约15.2%。在构建过程中，挑战同样显著：大规模分布式爬取面临极高的时间与计算成本；原始HTML内容需精确转换为Markdown格式，并剔除存根文章通知等无关元素，这一清洗流程对自动化脚本的鲁棒性与准确性提出了苛刻要求。此外，确保最终语料在去除噪音的同时，保留其原有的知识结构与语言多样性，亦是贯穿始终的技术难点。

常用场景

经典使用场景

在自然语言处理领域，大规模文本语料库的构建是推动语言模型发展的基石。Fanatic Fandom数据集以其约74.3亿令牌的庞大规模，为研究者提供了丰富的、源自真实网络社群的文本资源。该数据集最经典的应用场景在于作为预训练语料，用于训练或微调大型语言模型。其内容涵盖了Fandom平台上众多粉丝维基的条目，这些条目通常包含对虚构作品、角色、设定等深入且充满热情的社区创作，为模型注入了大量特定领域的知识、叙事结构和社区语言风格，有助于提升模型在理解长文本、生成连贯叙述以及处理特定文化语境方面的能力。

解决学术问题

该数据集的构建直接回应了当前语言模型研究中对高质量、多样化、大规模训练数据的迫切需求。它有效缓解了传统学术语料库可能存在的领域狭窄、风格单一问题，为研究社区语言演化、知识密集型文本生成、以及模型在非正式、多主题网络文本上的泛化能力提供了关键数据支持。其意义在于，通过整合来自庞大粉丝社区的集体智慧，为探索模型如何吸收和再现复杂、细粒度的领域知识开辟了新路径，对推动开放领域、知识增强型语言模型的发展具有重要影响。

衍生相关工作

作为RWKV开源基金会及其商业实体Recursal AI支持下的项目，该数据集天然地与RWKV架构的高效模型训练生态相关联。它可能直接用于训练或评估新一代的RWKV系列模型，以验证该架构在处理超长序列和多样化网络文本方面的优势。同时，此类大规模、经过清洗的粉丝社群数据集的发布，也激励了更多围绕特定垂直领域（如游戏、动漫）构建高质量预训练语料的研究工作，推动了开放、可访问AI数据资源的社区共建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集