RyokoAI/BLiterature-260M

Name: RyokoAI/BLiterature-260M
Creator: RyokoAI
Published: 2023-06-28 02:14:43
License: 暂无描述

Hugging Face2023-06-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/RyokoAI/BLiterature-260M

下载链接

链接失效反馈

官方服务：

资源简介：

BLiterature数据集是一个包含来自日本博客网站blog.fc2.com的文本数据的原始数据集，总计约260,261,224篇博客文章。数据集以jsonl文件格式存储，并压缩为7z文件。该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他任务，如文本分类。数据集的语言为日语，内容较为非正式，因为博客作者可以自由发布个人内容。数据集未进行任何规范化处理，且可能包含个人身份信息。数据集由KaraKaraWitch收集，并遵循Apache 2.0许可证。

提供机构：

RyokoAI

原始信息汇总

数据集概述

名称: BLiterature

许可证: Apache-2.0

语言: 日语

标签: 博客, 训练, 文本, 不适合所有观众

任务类别: 文本分类, 文本生成

大小: 100M<n<1B

数据集描述

概要: BLiterature是一个原始数据集，包含来自blog.fc2.com的最多260,261,224篇博客文章的文本。

支持的任务:

文本分类
文本生成

数据结构:

数据存储在jsonl文件中，这些文件被压缩成7z档案。
数据实例包含URL和内容。
数据字段包括URL和内容，内容可能包含错误标记。

数据分割:

数据文件大约每2,500,000篇文章分割一次。

数据集创建

来源数据:

数据来自fc2，一个日本博客托管网站。
数据未经任何规范化处理，是原始数据转储。

个人和敏感信息:

数据集可能包含个人身份信息，但作者已尽好意避免此类信息。

使用数据注意事项

社会影响:

数据集旨在用于训练生成“更有趣”内容的模型。

偏见:

数据集围绕日本文化，存在相关偏见。

贡献者

KaraKaraWitch: 数据集收集
neggles: 提供数据收集的计算资源

5,000+

优质数据集

54 个

任务类型

进入经典数据集