botp/RyokoAI_BLiterature-260M
收藏数据集卡片 for BLiterature
数据集描述
- 数据集概述: BLiterature 是一个原始数据集,包含来自 blog.fc2.com 的最多 260,261,224 篇博客文章的文本(不包括分类和按日期分组的文章)。
支持的任务和排行榜
该数据集主要用于无监督训练文本生成模型;然而,它也可能对其他目的有用。
- 文本分类
- 文本生成
语言
- 日语
数据集结构
所有文件都位于已压缩成 7z 存档的 jsonl 文件中。
数据实例
json ["http://1kimono.blog49.fc2.com/blog-entry-50.html", "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <!-- <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/T... (TRUNCATED)"]
数据字段
列表中只有两个字段:URL 和检索到的内容。检索到的内容可能包含抓取器遇到问题的值,如果是,则以 xml 标记。
xml <?xml version="1.0" encoding="utf-8"?><error>特定错误</error>
URL 可能与最终检索页面的 URL 不匹配,因为抓取过程中可能存在重定向。
数据分割
jsonl 文件大约每 2,500,000 篇文章分割一次。由于文件保存方式,允许有 5000 篇额外文章的偏差。
数据集创建
策划理由
fc2 是一个日本博客托管网站,任何人都可以在其上托管自己的博客。因此,与其他更正式的来源相比,使用的语言更加非正式和轻松,因为任何人都可以发布他们个人想要的内容。
源数据
初始数据收集和规范化
没有进行规范化,因为这是数据集的原始转储。
源语言生产者是谁?
每个博客的作者,可能还包括其他人也在他们的博客域上发布。
注释
注释过程
没有注释。
注释者是谁?
没有人类注释者。
个人和敏感信息
由于该数据集包含个人信息,因此更有可能找到个人身份信息。然而,我们相信作者已经以良好的信念预先审查了他们的帖子,以避免此类情况。
使用数据集的考虑
数据集的社会影响
该数据集旨在对希望训练模型生成“更有趣”内容的任何人有用。 它也可能对其他语言有用,具体取决于您的语言模型。
偏见的讨论
该数据集包含现实生活中的参考资料,围绕日本文化。因此,会有对其的偏见。
其他已知限制
N/A
附加信息
数据集策展人
KaraKaraWitch
许可信息
Apache 2.0,对于 KaraKaraWitch 可以被视为作者的所有部分。所有其他材料根据合理使用原则分发。
Ronsor Labs 可以在进行处理的情况下重新许可数据集。
引用信息
@misc{bliterature, title = {BLiterature: fc2 blogs for the masses.}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/KaraKaraWitch/BLiterature}}, }
名称词源
Literature (リテラチュア) - Reina Ueda (上田麗奈)
Blogs > B + Literature > BLiterature
贡献
- @KaraKaraWitch (Twitter) 收集此数据集。
- neggles (Github) 提供计算资源以收集数据集。



