five

RyokoAI/Fandom23K

收藏
Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoAI/Fandom23K
下载链接
链接失效反馈
官方服务:
资源简介:
Fandom23K数据集由15,616,749篇文章组成,这些文章是从2023年3月14日至18日期间从大约23,665个Fandom.com维基中抓取的。它是即将发布的BigKnow2022数据集的一个子集。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言主要为英语,但也可能包含少量其他语言。数据集的创建过程包括收集活跃的Fandom维基列表、使用脚本抓取和下载最新的维基内容、处理成XML文件、转换为JSONL格式,并最终合并成Fandom23K数据集。

Fandom23K数据集由15,616,749篇文章组成,这些文章是从2023年3月14日至18日期间从大约23,665个Fandom.com维基中抓取的。它是即将发布的BigKnow2022数据集的一个子集。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集的语言主要为英语,但也可能包含少量其他语言。数据集的创建过程包括收集活跃的Fandom维基列表、使用脚本抓取和下载最新的维基内容、处理成XML文件、转换为JSONL格式,并最终合并成Fandom23K数据集。
提供机构:
RyokoAI
原始信息汇总

Fandom23K Wikis 数据集概述

数据集描述

  • 数据集名称: Fandom23K
  • 数据集组成: 由15,616,749篇文章组成,这些文章是从大约23,665个Fandom.com维基中于2023年3月14日至3月18日期间抓取的。
  • 数据集目的: 主要用于无监督的文本生成模型训练,也可能适用于其他用途。
  • 语言: 主要为英语,可能包含少量其他语言。

数据集结构

数据实例

每个数据实例包含以下字段:

  • text: 实际的文章文本。
  • title: 文章标题。
  • tag: 文本来源标签,格式为 fandom.<wiki name>

数据分割

数据未进行分割。

数据集创建

采集理由

Fandom23K提供了一个包含流行文化和媒体信息的最新语料库,涵盖了多种兴趣和爱好。此前的类似数据集要么属于难以处理的大型整体,如Common Crawl,要么提供的变化不足,或者已经过时。

源数据

初始数据收集和规范化

数据收集过程包括:

  1. 收集活跃的Fandom维基列表。
  2. 使用scrape_fandom.py脚本生成并下载每个维基的最新数据转储。
  3. 使用wikiextractor处理转储文件为单个XML文件。
  4. 使用dump2jsonl将XML文件转换为JSONL文件。
  5. 将JSONL文件合并成Fandom23K数据集。

源语言生产者

维基的贡献者。

注释

注释过程

自动收集维基名称和文章标题,未进行人工注释。

注释者

无人工注释者。

个人和敏感信息

数据集收集自公开的维基数据,不包含个人识别信息(PII)。

使用数据时的考虑

社会影响

该数据集旨在帮助训练生成“更娱乐化”内容所需的模型,这些内容需要流行文化或特定领域的知识。

偏见讨论

数据集包含来自随机互联网用户的内容,不应作为权威信息来源。建议仅用于研究目的。

其他已知限制

数据集基于2023年1月的活跃维基列表,可能未包含所有活跃的小型维基。

附加信息

数据集创建者

Ronsor Labs

许可信息

CC-BY-SA 3.0

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献者

感谢@ronsor收集此数据集。

搜集汇总
背景与挑战
背景概述
Fandom23K数据集包含约1,560万篇文章,从2023年3月期间抓取自约2.3万个Fandom.com维基,是BigKnow2022数据集的子集。该数据集主要用于无监督文本生成模型训练,语言以英语为主,创建过程涉及内容抓取、格式转换和合并处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作