WitchesSocialStream/misskey.io
收藏数据集卡片 for misskey.io
数据集描述
数据集概述
MissingKeys(或此特定数据集)是 misskey.io 网络的原始数据集存档。
支持的任务和排行榜
该数据集主要用于文本生成模型的无监督训练,但也可能对其他用途有用。
- 文本分类
- 文本生成
语言
主要是日语,但也包含英语。
数据集结构
所有文件都位于按日期压缩成 .7z 存档的 jsonl 文件中。
数据实例
以下是一个包含所有潜在字段的样本: json { "id": "9hh9iux6al", "createdAt": "2023-07-22T07:38:17.994Z", "userId": "9grv7htulz", "user": { "uid": "9grv7htulz#chikusa_nao@misskey.backspace.fm", "name": "千種ナオ(ばすキー)", "avatarUrl": "https://proxy.misskeyusercontent.com/avatar.webp?url=https%3A%2F%2Fs3.isk01.sakurastorage.jp%2Fbackspacekey%2Fmisskey%2Fca098593-5c2f-4488-8b82-18961149cf92.png&avatar=1", "avatarBlurhash": "eGD8ztEK0KVb-=4TtSXm-jf4B7Vs~CEND*Fy%2Mct7%Lx.M{xcS0bv", "states": "bot,nyaa~", "hostInfo": "misskey@13.13.2#e4d440", "emojis": {}, "onlineStatus": "unknown" }, "text": "パソコン工房などのユニットコム系列だと、マザボ売るときにドライバディスクがないと30%買取金額が下がるという知見を得た", "cw": null, "visibility": "public", "localOnly": false, "renoteCount": 0, "repliesCount": 0, "reactions": {}, "reactionEmojis": {}, "emojis": {}, "fileIds": [], "files": [], "replyId": null, "renoteId": null, "uri": "https://misskey.backspace.fm/notes/9hh9iux6p7" }
数据字段
参考上面的样本。我会在下面添加一些额外的注释:
uid在user中遵循以下特定格式:user_id#username@user_host
数据分割
每个 jsonl 文件按 100000 条笔记进行分割。
数据集创建
策划理由
因为我们需要一个社交网络服务(SNS)数据集,而 Twitter 似乎相当不情愿,所以我们选择了替代方案。
源数据
初始数据收集和规范化
没有进行规范化,因为这是数据集的原始转储。然而,我们已经删除了空字段和空值以节省空间。
源语言生产者是谁?
misskey.io 网络的相关用户。
注释
注释过程
没有注释。
谁是注释者?
没有人类注释者。
个人和敏感信息
我们确定数据集中没有包含个人身份信息(PII)。
使用数据集的考虑
数据集的社会影响
[更多信息需要]
偏见的讨论
Misskey.io 倾向于包含 NSFW 图片,并且聚焦于日本文化。
其他已知限制
N/A
附加信息
数据集策展人
KaraKaraWitch
许可信息
Apache 2.0,KaraKaraWitch 可被视为所有部分的作者。所有其他材料根据合理使用原则分发。
引用信息
@misc{missingkeys, title = {MissingKeys: A SNS dataset on misskey.io network}, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/RyokoExtra/MissingKeys}}, }
名称词源
N/A
贡献
- @KaraKaraWitch (Twitter) 收集此数据集。



