five

WitchesSocialStream/misskey.io

收藏
Hugging Face2025-03-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/WitchesSocialStream/misskey.io
下载链接
链接失效反馈
官方服务:
资源简介:
MissingKeys数据集是一个关于misskey.io网络的原始数据集存档,主要用于无监督的文本生成模型训练,但也可能适用于其他目的。数据集主要包含日语文本,但也有英语文本。数据以jsonl文件形式存储,并按日期压缩成.7z存档。数据字段包括用户信息、文本内容、创建时间等。数据集没有进行任何规范化处理,保留了原始数据的形式。

MissingKeys is a raw dataset archive of the misskey.io network, primarily intended for unsupervised training of text generation models; however, it may be useful for other purposes. The dataset mainly contains Japanese text, but also includes English. The data is stored in jsonl files and compressed into .7z archives by date. Data fields include user information, text content, creation time, etc. The dataset has not undergone any normalization and retains the original form of the data.
提供机构:
WitchesSocialStream
原始信息汇总

数据集卡片 for misskey.io

数据集描述

数据集概述

MissingKeys(或此特定数据集)是 misskey.io 网络的原始数据集存档。

支持的任务和排行榜

该数据集主要用于文本生成模型的无监督训练,但也可能对其他用途有用。

  • 文本分类
  • 文本生成

语言

主要是日语,但也包含英语。

数据集结构

所有文件都位于按日期压缩成 .7z 存档的 jsonl 文件中。

数据实例

以下是一个包含所有潜在字段的样本: json { "id": "9hh9iux6al", "createdAt": "2023-07-22T07:38:17.994Z", "userId": "9grv7htulz", "user": { "uid": "9grv7htulz#chikusa_nao@misskey.backspace.fm", "name": "千種ナオ(ばすキー)", "avatarUrl": "https://proxy.misskeyusercontent.com/avatar.webp?url=https%3A%2F%2Fs3.isk01.sakurastorage.jp%2Fbackspacekey%2Fmisskey%2Fca098593-5c2f-4488-8b82-18961149cf92.png&avatar=1", "avatarBlurhash": "eGD8ztEK0KVb-=4TtSXm-jf4B7Vs~CEND*Fy%2Mct7%Lx.M{xcS0bv", "states": "bot,nyaa~", "hostInfo": "misskey@13.13.2#e4d440", "emojis": {}, "onlineStatus": "unknown" }, "text": "パソコン工房などのユニットコム系列だと、マザボ売るときにドライバディスクがないと30%買取金額が下がるという知見を得た", "cw": null, "visibility": "public", "localOnly": false, "renoteCount": 0, "repliesCount": 0, "reactions": {}, "reactionEmojis": {}, "emojis": {}, "fileIds": [], "files": [], "replyId": null, "renoteId": null, "uri": "https://misskey.backspace.fm/notes/9hh9iux6p7" }

数据字段

参考上面的样本。我会在下面添加一些额外的注释:

  • uiduser 中遵循以下特定格式:user_id#username@user_host

数据分割

每个 jsonl 文件按 100000 条笔记进行分割。

数据集创建

策划理由

因为我们需要一个社交网络服务(SNS)数据集,而 Twitter 似乎相当不情愿,所以我们选择了替代方案。

源数据

初始数据收集和规范化

没有进行规范化,因为这是数据集的原始转储。然而,我们已经删除了空字段和空值以节省空间。

源语言生产者是谁?

misskey.io 网络的相关用户。

注释

注释过程

没有注释。

谁是注释者?

没有人类注释者。

个人和敏感信息

我们确定数据集中没有包含个人身份信息(PII)。

使用数据集的考虑

数据集的社会影响

[更多信息需要]

偏见的讨论

Misskey.io 倾向于包含 NSFW 图片,并且聚焦于日本文化。

其他已知限制

N/A

附加信息

数据集策展人

KaraKaraWitch

许可信息

Apache 2.0,KaraKaraWitch 可被视为所有部分的作者。所有其他材料根据合理使用原则分发。

引用信息

@misc{missingkeys, title = {MissingKeys: A SNS dataset on misskey.io network}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/MissingKeys}}, }

名称词源

N/A

贡献

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作