RyokoAI/Fandom23K

Name: RyokoAI/Fandom23K
Creator: RyokoAI
Published: 2023-03-20 19:58:46
License: 暂无描述

Hugging Face2023-03-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RyokoAI/Fandom23K

下载链接

链接失效反馈

官方服务：

资源简介：

Fandom23K数据集由15,616,749篇文章组成，这些文章是从2023年3月14日至18日期间从大约23,665个Fandom.com维基中抓取的。它是即将发布的BigKnow2022数据集的一个子集。该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他用途。数据集的语言主要为英语，但也可能包含少量其他语言。数据集的创建过程包括收集活跃的Fandom维基列表、使用脚本抓取和下载最新的维基内容、处理成XML文件、转换为JSONL格式，并最终合并成Fandom23K数据集。

提供机构：

RyokoAI

原始信息汇总

Fandom23K Wikis 数据集概述

数据集描述

数据集名称: Fandom23K
数据集组成: 由15,616,749篇文章组成，这些文章是从大约23,665个Fandom.com维基中于2023年3月14日至3月18日期间抓取的。
数据集目的: 主要用于无监督的文本生成模型训练，也可能适用于其他用途。
语言: 主要为英语，可能包含少量其他语言。

数据集结构

数据实例

每个数据实例包含以下字段：

text: 实际的文章文本。
title: 文章标题。
tag: 文本来源标签，格式为 fandom.<wiki name>。

数据分割

数据未进行分割。

数据集创建

采集理由

Fandom23K提供了一个包含流行文化和媒体信息的最新语料库，涵盖了多种兴趣和爱好。此前的类似数据集要么属于难以处理的大型整体，如Common Crawl，要么提供的变化不足，或者已经过时。

源数据

初始数据收集和规范化

数据收集过程包括：

收集活跃的Fandom维基列表。
使用scrape_fandom.py脚本生成并下载每个维基的最新数据转储。
使用wikiextractor处理转储文件为单个XML文件。
使用dump2jsonl将XML文件转换为JSONL文件。
将JSONL文件合并成Fandom23K数据集。

源语言生产者

维基的贡献者。

注释

注释过程

自动收集维基名称和文章标题，未进行人工注释。

注释者

无人工注释者。

个人和敏感信息

数据集收集自公开的维基数据，不包含个人识别信息（PII）。

使用数据时的考虑

社会影响

该数据集旨在帮助训练生成“更娱乐化”内容所需的模型，这些内容需要流行文化或特定领域的知识。

偏见讨论

数据集包含来自随机互联网用户的内容，不应作为权威信息来源。建议仅用于研究目的。

其他已知限制

数据集基于2023年1月的活跃维基列表，可能未包含所有活跃的小型维基。

附加信息

数据集创建者

Ronsor Labs

许可信息

CC-BY-SA 3.0

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献者

感谢@ronsor收集此数据集。

搜集汇总

背景与挑战

背景概述

Fandom23K数据集包含约1,560万篇文章，从2023年3月期间抓取自约2.3万个Fandom.com维基，是BigKnow2022数据集的子集。该数据集主要用于无监督文本生成模型训练，语言以英语为主，创建过程涉及内容抓取、格式转换和合并处理。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集