BlackSamorez/2ch_b_dialogues
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BlackSamorez/2ch_b_dialogues
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从2ch.hk/b/论坛中挖掘的俄语对话数据,主要用于对话生成任务。数据格式为对话列表,每个对话包含多个帖子,按从后到前的顺序排列。数据集的创建动机是娱乐,数据来源是2ch.hk/b/的用户。
annotations_creators:
- 无标注
language_creators:
- 现有资源采集
language:
- 俄语
license: []
multilinguality:
- 单语言
pretty_name: 从2ch/b/板块挖掘的对话数据集
size_categories:
- 10000 < n < 100000
source_datasets:
- 原始数据集
task_categories:
- 对话式任务
task_ids:
- 对话生成
---
# 2ch_b_dialogues 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集摘要](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [使用语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注信息](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [授权信息](#licensing-information)
- [引用信息](#citation-information)
## 数据集描述
- **主页:** https://github.com/BlackSamorez/ebanko
- **代码仓库:** [需补充更多信息]
- **相关论文:** [需补充更多信息]
- **排行榜:** [需补充更多信息]
- **联系人:** [需补充更多信息]
### 数据集摘要
从2ch.hk/b/板块挖掘的俄语对话数据集
### 支持任务与排行榜
[需补充更多信息]
### 使用语言
俄语
## 数据集结构
### 数据实例
{
"对话": ["很高兴收到你的消息!", "很好,谢谢!", "嗨,你好吗?"]
}
### 数据字段
- `对话`: 按回复时间倒序排列的帖子列表(最新回复位于列表首位)
### 数据划分
[需补充更多信息]
## 数据集构建
### 构建初衷
仅供娱乐
### 源数据
#### 初始数据收集与标准化处理
仅选取拥有单个父节点的顶点构建线程图,随后从中提取不重叠的对话线程。
#### 源语言内容生产者是谁?
2ch.hk/b/板块的用户
### 标注信息
#### 标注流程
[需补充更多信息]
#### 标注者是谁?
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
该数据集内容在道德层面存在争议
### 偏差讨论
[需补充更多信息]
### 其他已知局限
[需补充更多信息]
## 附加信息
### 数据集维护者
blacks_samorez
### 授权信息
[需补充更多信息]
### 引用信息
[需补充更多信息]
提供机构:
BlackSamorez
原始信息汇总
数据集概述
数据集基本信息
- 名称: 2ch_b_dialogues
- 语言: 俄语
- 许可证: 未指定
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 数据来源: 原始数据
- 任务类别: 对话生成
数据集内容
- 摘要: 数据集包含从2ch.hk/b/挖掘的俄语对话。
- 数据实例结构:
- 字段: 对话(list of posts ordered last-to-first)
- 示例: {"dialogue": ["Glad to hear!", "Fine, thank you!", "Hi, how are you?"]}
数据集创建
- 采集与标准化: 仅选择具有单个父节点的顶点,构建非重叠的对话线程。
- 源语言生产者: 2ch.hk/b/用户
- 注释过程: 未指定
- 注释者: 未指定
使用数据集的考虑
- 社会影响: 道德上可疑的数据
- 偏见讨论: 未指定
- 其他已知限制: 未指定



