RyokoAI/BLiterature-260M
收藏Hugging Face2023-06-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoAI/BLiterature-260M
下载链接
链接失效反馈官方服务:
资源简介:
BLiterature数据集是一个包含来自日本博客网站blog.fc2.com的文本数据的原始数据集,总计约260,261,224篇博客文章。数据集以jsonl文件格式存储,并压缩为7z文件。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他任务,如文本分类。数据集的语言为日语,内容较为非正式,因为博客作者可以自由发布个人内容。数据集未进行任何规范化处理,且可能包含个人身份信息。数据集由KaraKaraWitch收集,并遵循Apache 2.0许可证。
BLiterature数据集是一个包含来自日本博客网站blog.fc2.com的文本数据的原始数据集,总计约260,261,224篇博客文章。数据集以jsonl文件格式存储,并压缩为7z文件。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他任务,如文本分类。数据集的语言为日语,内容较为非正式,因为博客作者可以自由发布个人内容。数据集未进行任何规范化处理,且可能包含个人身份信息。数据集由KaraKaraWitch收集,并遵循Apache 2.0许可证。
提供机构:
RyokoAI
原始信息汇总
数据集概述
名称: BLiterature
许可证: Apache-2.0
语言: 日语
标签: 博客, 训练, 文本, 不适合所有观众
任务类别: 文本分类, 文本生成
大小: 100M<n<1B
数据集描述
概要: BLiterature是一个原始数据集,包含来自blog.fc2.com的最多260,261,224篇博客文章的文本。
支持的任务:
- 文本分类
- 文本生成
数据结构:
- 数据存储在jsonl文件中,这些文件被压缩成7z档案。
- 数据实例包含URL和内容。
- 数据字段包括URL和内容,内容可能包含错误标记。
数据分割:
- 数据文件大约每2,500,000篇文章分割一次。
数据集创建
来源数据:
- 数据来自fc2,一个日本博客托管网站。
- 数据未经任何规范化处理,是原始数据转储。
个人和敏感信息:
- 数据集可能包含个人身份信息,但作者已尽好意避免此类信息。
使用数据注意事项
社会影响:
- 数据集旨在用于训练生成“更有趣”内容的模型。
偏见:
- 数据集围绕日本文化,存在相关偏见。
贡献者
- KaraKaraWitch: 数据集收集
- neggles: 提供数据收集的计算资源



