five

botp/RyokoAI_BLiterature-260M

收藏
Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botp/RyokoAI_BLiterature-260M
下载链接
链接失效反馈
官方服务:
资源简介:
BLiterature数据集是一个包含来自日本博客网站blog.fc2.com的文本数据的原始数据集,总计约260,261,224篇博客文章。该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他目的,如文本分类。数据集的语言为日语,数据以jsonl文件形式存储,并压缩为7z格式。数据集未进行任何规范化处理,是原始数据转储。数据集可能包含个人身份信息,但作者已预先筛选以避免此类情况。数据集的使用可能对日本文化有偏见,且主要用于生成更“有趣”的内容。
提供机构:
botp
原始信息汇总

数据集卡片 for BLiterature

数据集描述

  • 数据集概述: BLiterature 是一个原始数据集,包含来自 blog.fc2.com 的最多 260,261,224 篇博客文章的文本(不包括分类和按日期分组的文章)。

支持的任务和排行榜

该数据集主要用于无监督训练文本生成模型;然而,它也可能对其他目的有用。

  • 文本分类
  • 文本生成

语言

  • 日语

数据集结构

所有文件都位于已压缩成 7z 存档的 jsonl 文件中。

数据实例

json ["http://1kimono.blog49.fc2.com/blog-entry-50.html", "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/T... (TRUNCATED)"]

数据字段

列表中只有两个字段:URL 和检索到的内容。检索到的内容可能包含抓取器遇到问题的值,如果是,则以 xml 标记。

xml <?xml version="1.0" encoding="utf-8"?><error>特定错误</error>

URL 可能与最终检索页面的 URL 不匹配,因为抓取过程中可能存在重定向。

数据分割

jsonl 文件大约每 2,500,000 篇文章分割一次。由于文件保存方式,允许有 5000 篇额外文章的偏差。

数据集创建

策划理由

fc2 是一个日本博客托管网站,任何人都可以在其上托管自己的博客。因此,与其他更正式的来源相比,使用的语言更加非正式和轻松,因为任何人都可以发布他们个人想要的内容。

源数据

初始数据收集和规范化

没有进行规范化,因为这是数据集的原始转储。

源语言生产者是谁?

每个博客的作者,可能还包括其他人也在他们的博客域上发布。

注释

注释过程

没有注释。

注释者是谁?

没有人类注释者。

个人和敏感信息

由于该数据集包含个人信息,因此更有可能找到个人身份信息。然而,我们相信作者已经以良好的信念预先审查了他们的帖子,以避免此类情况。

使用数据集的考虑

数据集的社会影响

该数据集旨在对希望训练模型生成“更有趣”内容的任何人有用。 它也可能对其他语言有用,具体取决于您的语言模型。

偏见的讨论

该数据集包含现实生活中的参考资料,围绕日本文化。因此,会有对其的偏见。

其他已知限制

N/A

附加信息

数据集策展人

KaraKaraWitch

许可信息

Apache 2.0,对于 KaraKaraWitch 可以被视为作者的所有部分。所有其他材料根据合理使用原则分发。

Ronsor Labs 可以在进行处理的情况下重新许可数据集。

引用信息

@misc{bliterature, title = {BLiterature: fc2 blogs for the masses.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/KaraKaraWitch/BLiterature}}, }

名称词源

Literature (リテラチュア) - Reina Ueda (上田麗奈)
Blogs > B + Literature > BLiterature

贡献

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作