p1atdev/open2ch
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/open2ch
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从日本论坛おーぷん2ちゃんねる收集的对话数据,包含了多个子集如livejupiter、news4vip和newsplus。每个子集都包含对话数据,其中每个对话由发言者和发言内容组成。此外,数据集还包括一个用于响应排序任务的子集ranking。数据集还提供了经过清理的版本,这些版本过滤掉了不适当的内容。数据集的语言为日语,遵循Apache-2.0许可证。
提供机构:
p1atdev
原始信息汇总
おーぷん2ちゃんねる対話コーパス
数据集详情
数据集描述
- 语言: 日语
- 许可证: Apache-2.0
数据集结构
数据集包含多个配置,每个配置都有特定的特征和分割:
-
all-corpus
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。board:类型为string。
- 分割:
train:包含 8134707 个样本,总字节数为 1693355620。
- 下载大小: 868453263 字节
- 数据集大小: 1693355620 字节
- 特征:
-
all-corpus-cleaned
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。board:类型为string。
- 分割:
train:包含 6192730 个样本,总字节数为 1199092499。
- 下载大小: 615570076 字节
- 数据集大小: 1199092499 字节
- 特征:
-
livejupiter
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 5943594 个样本,总字节数为 1101433134。
- 下载大小: 592924274 字节
- 数据集大小: 1101433134 字节
- 特征:
-
livejupiter-cleaned
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 4650253 个样本,总字节数为 807499499。
- 下载大小: 437414714 字节
- 数据集大小: 807499499 字节
- 特征:
-
news4vip
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 1973817 个样本,总字节数为 420403926。
- 下载大小: 240974172 字节
- 数据集大小: 420403926 字节
- 特征:
-
news4vip-cleaned
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 1402903 个样本,总字节数为 269941607。
- 下载大小: 156934128 字节
- 数据集大小: 269941607 字节
- 特征:
-
newsplus
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 217296 个样本,总字节数为 56071294。
- 下载大小: 32368053 字节
- 数据集大小: 56071294 字节
- 特征:
-
newsplus-cleaned
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。
- 分割:
train:包含 139574 个样本,总字节数为 33387874。
- 下载大小: 19556120 字节
- 数据集大小: 33387874 字节
- 特征:
-
ranking
- 特征:
dialogue:对话数据,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。next:下一个正确的对话,包含speaker(说话者编号,类型为int8)和content(发言内容,类型为string)。random:随机选择的9个响应,类型为string的序列。
- 分割:
train:包含 2000 个样本,总字节数为 1605628。test:包含 1953 个样本,总字节数为 1604356。
- 下载大小: 2127033 字节
- 数据集大小: 3209984 字节
- 特征:



