five

RyokoExtra/JapaneseGoblin

收藏
Hugging Face2023-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoExtra/JapaneseGoblin
下载链接
链接失效反馈
官方服务:
资源简介:
JapaneseGoblin数据集是从en.touhouwiki.net维基站点获取的原始数据转储,主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集包含英文和日文内容,主要关注Touhou系列相关的内容。数据集的结构为jsonl格式,所有文章都包含在`touhou.dump.json`文件中。数据集的创建是由于有人请求获取Touhou维基的数据,数据集的来源是en.touhouwiki.net的编辑者。数据集中没有包含个人或敏感信息,也没有进行人工标注。数据集的使用可能对社会产生影响,但具体影响需要进一步研究。数据集的许可证为Apache 2.0,数据集的主要贡献者是KaraKaraWitch。

JapaneseGoblin数据集是从en.touhouwiki.net维基站点获取的原始数据转储,主要用于无监督的文本生成模型训练,但也可能适用于其他用途。数据集包含英文和日文内容,主要关注Touhou系列相关的内容。数据集的结构为jsonl格式,所有文章都包含在`touhou.dump.json`文件中。数据集的创建是由于有人请求获取Touhou维基的数据,数据集的来源是en.touhouwiki.net的编辑者。数据集中没有包含个人或敏感信息,也没有进行人工标注。数据集的使用可能对社会产生影响,但具体影响需要进一步研究。数据集的许可证为Apache 2.0,数据集的主要贡献者是KaraKaraWitch。
提供机构:
RyokoExtra
原始信息汇总

数据集概述

数据集名称

  • Pretty Name: Japanese Goblin

数据集描述

  • Summary: JapaneseGoblin 是一个来自 en.touhouwiki.net 维基的原始数据转储。

支持的任务和排行榜

  • Supported Tasks:
    • text-classification
    • text-generation
  • Leaderboards: N/A

语言

  • Languages: 主要为英语,也包含日语。

数据集结构

  • Data Structure:
    • File Format: JSONL
    • Location: touhou.dump.json
    • Sample Format: touhou.dump.sample.json

数据集创建

  • Curation Rationale: 有人请求了一个关于 touhou wiki 的数据集。
  • Source Data:
    • Data Collection: 未进行数据收集和规范化处理,数据为原始转储。
    • Language Producers: en.touhouwiki.net 的相关维基编辑者。
  • Annotations: 无标注。

使用数据集的考虑

  • Social Impact: 需要更多信息。
  • Biases: 数据集聚焦于 Touhou 系列。

附加信息

  • Curators: KaraKaraWitch
  • Licensing Information:
    • License: Apache 2.0
    • Re-licensing: Ronsor Labs 允许在数据集经过处理后重新授权。
  • Citation Information:
    • Citation:

      @misc{japanesegoblin, title = {JapaneseGoblin: We are Japanese Goblin!}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/JapaneseGoblin}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作