recursal/FanaticFandom
收藏数据集概述
数据集描述
Fanatic Fandom 是一个从粉丝维基中清理出来的数据集。我们爬取了所有公开可用的维基并爬取了每个页面。过滤后总共有 ~7.43B (llama-2-7b-chat-tokenizer) / ~6.27B (RWKV Tokenizer) 的令牌,主要来自英语语言。
- 语言(s) (NLP): 主要英语
- 许可证: cc-by-sa-4.0
数据集来源
- 源数据: https://fandom.com/ (机器人爬取)
处理和过滤
我们详细描述了从爬取、索引和清理粉丝维基到 html 内容文件的过程。以下是过程的分解:
-
维基识别:
WikisIndexer.py脚本从https://community.fandom.com/Special:NewWikis获取维基列表。
-
页面索引:
IndexFandomPages.py脚本利用 MediaWiki API (api.php) 为每个维基收集页面列表。
-
页面获取:
WikiPageFetcher.py脚本利用 MediaWiki API (api.php) 渲染维基页面并保存到一个大 JSONL 文件中。- 此外,任何少于 5 页的维基都不会被爬取,因为它们被认为是低质量的。
-
数据分块:
- 包含所有获取页面的单个大 JSONL 文件被分割成更小、更易管理的块。
- 这是为了准备第四步。
-
Roblox 维基移除:
RobloxWikiFilter.py脚本识别并移除 Roblox 维基,因为它们通常会产生大量低质量内容。这一过滤步骤简化了后续的存根文章移除过程。- 根据快速计算:大约 15.2%(比较步骤 3 和步骤 4 的结果)的粉丝维基是 Roblox 数据。
-
内容转换:
- HTML 内容被转换为 Markdown 格式。转换过程去除了不必要的元素,如图形、存根文章通知和其他无关数据。
数据分割
该数据集有 3 个分割:
- final
- 包含最终的 25GB jsonl 文件。
- 您可能希望将其用于训练。
- raw-pre-roblox
- 原始文件,在 Roblox 过滤之前。
- 如果您想从头开始并且不想再次爬取粉丝维基,请使用此文件。
- raw-post-roblox
- 原始文件,在 Roblox 过滤之后。
- Roblox 维基已移除。
- 如果您想从头开始并且不想再次爬取粉丝维基,请使用此文件。
数据键
对于此数据集,我们包含了数据集的大多数步骤。它们如下所列:
-
fandom_wikis_210224.csv- 一个 CSV 文件,包含从
Special:NewWikis爬取的维基列表,日期为 21/02/2024 - 键如下:
Sub Domain,Name of Wiki,Path name,0 - 多余的零可以忽略,因为它没有任何作用。
- 一个 CSV 文件,包含从
-
fandom_wikis_pages_210224_v2.jsonl- 包含每个维基的维基页面 jsonl 列表。
- 每个 jsonl 有以下键:
- domain: str [子域名]
- path: str [到
api.php的路径。对于不同语言可能不同] - pages: list[str] [包含页面名称的字符串列表]
-
v2.5-chunks[文件夹]- 包含从
fandom_wikis_pages_210224_v2.jsonl列表中获取的所有页面 - 原始文件是
fandom_wikis_pages_contents_210224_v2.jsonl,大小为 283.44GB,无法上传到 HF。 - 每个 jsonl 有以下键:
- domain: str [子域名]
- path: str [到
api.php的路径。对于不同语言可能不同] - pages: str [页面名称]
- content: api.php 的原始响应
- 包含从
-
v2.5-chunks-roblox-filter[文件夹]- 包含过滤 Roblox 后的文件。
- 每个 jsonl 有以下键:
- domain: str [子域名]
- path: str [到
api.php的路径。对于不同语言可能不同] - pages: str [页面名称]
- content: api.php 的原始响应
-
fandom-v0.5.jsonl[文件]- 包含完全处理文本的 jsonl 文件。
- 每个 jsonl 有以下键:
- text: str [文本内容]
- meta: dict[str,str] [元数据字典]
- title: str [页面/名称]
- domain: str [子域名]
- cats: str [分类。提取但未使用]
- removed: list[str] [移除的存根 / html 内容列表]
-
roblox.domains.txt[额外]- 一个 Roblox 域名的 txt 列表。
许可证信息
大多数粉丝用户创建的内容都根据 CC-BY-SA 许可证进行许可,除非另有说明。基于这一假设,我们没有包含任何图形或图像,因为它们通常不受 CC-BY-SA 许可证的许可。
Recursal Waifus(横幅图像)根据 CC-BY-SA 许可证进行许可。它们不代表相关网站的任何官方能力,除非网站另有宣布。您可以将它们用作横幅图像。但是,您必须始终链接到数据集。
引用信息
@ONLINE{fantaticfandom, title = {FanaticFandom}, author = {KaraKaraWitch, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/FanaticFandom}}, }




