RyokoExtra/JapaneseGoblin
收藏Hugging Face2023-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/JapaneseGoblin
下载链接
链接失效反馈官方服务:
资源简介:
JapaneseGoblin数据集是从en.touhouwiki.net维基站点获取的原始数据转储,主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集包含英文和日文内容,主要关注Touhou系列相关的内容。数据集的结构为jsonl格式,所有文章都包含在`touhou.dump.json`文件中。数据集的创建是由于有人请求获取Touhou维基的数据,数据集的来源是en.touhouwiki.net的编辑者。数据集中没有包含个人或敏感信息,也没有进行人工标注。数据集的使用可能对社会产生影响,但具体影响需要进一步研究。数据集的许可证为Apache 2.0,数据集的主要贡献者是KaraKaraWitch。
JapaneseGoblin数据集是从en.touhouwiki.net维基站点获取的原始数据转储,主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集包含英文和日文内容,主要关注Touhou系列相关的内容。数据集的结构为jsonl格式,所有文章都包含在`touhou.dump.json`文件中。数据集的创建是由于有人请求获取Touhou维基的数据,数据集的来源是en.touhouwiki.net的编辑者。数据集中没有包含个人或敏感信息,也没有进行人工标注。数据集的使用可能对社会产生影响,但具体影响需要进一步研究。数据集的许可证为Apache 2.0,数据集的主要贡献者是KaraKaraWitch。
提供机构:
RyokoExtra
原始信息汇总
数据集概述
数据集名称
- Pretty Name: Japanese Goblin
数据集描述
- Summary: JapaneseGoblin 是一个来自 en.touhouwiki.net 维基的原始数据转储。
支持的任务和排行榜
- Supported Tasks:
- text-classification
- text-generation
- Leaderboards: N/A
语言
- Languages: 主要为英语,也包含日语。
数据集结构
- Data Structure:
- File Format: JSONL
- Location:
touhou.dump.json - Sample Format:
touhou.dump.sample.json
数据集创建
- Curation Rationale: 有人请求了一个关于 touhou wiki 的数据集。
- Source Data:
- Data Collection: 未进行数据收集和规范化处理,数据为原始转储。
- Language Producers: en.touhouwiki.net 的相关维基编辑者。
- Annotations: 无标注。
使用数据集的考虑
- Social Impact: 需要更多信息。
- Biases: 数据集聚焦于 Touhou 系列。
附加信息
- Curators: KaraKaraWitch
- Licensing Information:
- License: Apache 2.0
- Re-licensing: Ronsor Labs 允许在数据集经过处理后重新授权。
- Citation Information:
-
Citation:
@misc{japanesegoblin, title = {JapaneseGoblin: We are Japanese Goblin!}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/JapaneseGoblin}}, }
-



