RyokoAI/Fandom23K
收藏Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoAI/Fandom23K
下载链接
链接失效反馈官方服务:
资源简介:
Fandom23K数据集由15,616,749篇文章组成,这些文章是从2023年3月14日至18日期间从大约23,665个Fandom.com维基中抓取的。它是即将发布的BigKnow2022数据集的一个子集。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言主要为英语,但也可能包含少量其他语言。数据集的创建过程包括收集活跃的Fandom维基列表、使用脚本抓取和下载最新的维基内容、处理成XML文件、转换为JSONL格式,并最终合并成Fandom23K数据集。
Fandom23K数据集由15,616,749篇文章组成,这些文章是从2023年3月14日至18日期间从大约23,665个Fandom.com维基中抓取的。它是即将发布的BigKnow2022数据集的一个子集。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言主要为英语,但也可能包含少量其他语言。数据集的创建过程包括收集活跃的Fandom维基列表、使用脚本抓取和下载最新的维基内容、处理成XML文件、转换为JSONL格式,并最终合并成Fandom23K数据集。
提供机构:
RyokoAI
原始信息汇总
Fandom23K Wikis 数据集概述
数据集描述
- 数据集名称: Fandom23K
- 数据集组成: 由15,616,749篇文章组成,这些文章是从大约23,665个Fandom.com维基中于2023年3月14日至3月18日期间抓取的。
- 数据集目的: 主要用于无监督的文本生成模型训练,也可能适用于其他用途。
- 语言: 主要为英语,可能包含少量其他语言。
数据集结构
数据实例
每个数据实例包含以下字段:
- text: 实际的文章文本。
- title: 文章标题。
- tag: 文本来源标签,格式为
fandom.<wiki name>。
数据分割
数据未进行分割。
数据集创建
采集理由
Fandom23K提供了一个包含流行文化和媒体信息的最新语料库,涵盖了多种兴趣和爱好。此前的类似数据集要么属于难以处理的大型整体,如Common Crawl,要么提供的变化不足,或者已经过时。
源数据
初始数据收集和规范化
数据收集过程包括:
- 收集活跃的Fandom维基列表。
- 使用
scrape_fandom.py脚本生成并下载每个维基的最新数据转储。 - 使用
wikiextractor处理转储文件为单个XML文件。 - 使用
dump2jsonl将XML文件转换为JSONL文件。 - 将JSONL文件合并成Fandom23K数据集。
源语言生产者
维基的贡献者。
注释
注释过程
自动收集维基名称和文章标题,未进行人工注释。
注释者
无人工注释者。
个人和敏感信息
数据集收集自公开的维基数据,不包含个人识别信息(PII)。
使用数据时的考虑
社会影响
该数据集旨在帮助训练生成“更娱乐化”内容所需的模型,这些内容需要流行文化或特定领域的知识。
偏见讨论
数据集包含来自随机互联网用户的内容,不应作为权威信息来源。建议仅用于研究目的。
其他已知限制
数据集基于2023年1月的活跃维基列表,可能未包含所有活跃的小型维基。
附加信息
数据集创建者
Ronsor Labs
许可信息
CC-BY-SA 3.0
引用信息
@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }
贡献者
感谢@ronsor收集此数据集。
搜集汇总
背景与挑战
背景概述
Fandom23K数据集包含约1,560万篇文章,从2023年3月期间抓取自约2.3万个Fandom.com维基,是BigKnow2022数据集的子集。该数据集主要用于无监督文本生成模型训练,语言以英语为主,创建过程涉及内容抓取、格式转换和合并处理。
以上内容由遇见数据集搜集并总结生成



