p1atdev/open2ch

Name: p1atdev/open2ch
Creator: p1atdev
Published: 2023-11-01 01:59:51
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/p1atdev/open2ch

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从日本论坛おーぷん2ちゃんねる收集的对话数据，包含了多个子集如livejupiter、news4vip和newsplus。每个子集都包含对话数据，其中每个对话由发言者和发言内容组成。此外，数据集还包括一个用于响应排序任务的子集ranking。数据集还提供了经过清理的版本，这些版本过滤掉了不适当的内容。数据集的语言为日语，遵循Apache-2.0许可证。

提供机构：

p1atdev

原始信息汇总

おーぷん2ちゃんねる対話コーパス

数据集详情

数据集描述

语言： 日语
许可证： Apache-2.0

数据集结构

数据集包含多个配置，每个配置都有特定的特征和分割：

all-corpus
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
  - board：类型为 string。
- 分割：
  - train：包含 8134707 个样本，总字节数为 1693355620。
- 下载大小： 868453263 字节
- 数据集大小： 1693355620 字节
all-corpus-cleaned
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
  - board：类型为 string。
- 分割：
  - train：包含 6192730 个样本，总字节数为 1199092499。
- 下载大小： 615570076 字节
- 数据集大小： 1199092499 字节
livejupiter
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 5943594 个样本，总字节数为 1101433134。
- 下载大小： 592924274 字节
- 数据集大小： 1101433134 字节
livejupiter-cleaned
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 4650253 个样本，总字节数为 807499499。
- 下载大小： 437414714 字节
- 数据集大小： 807499499 字节
news4vip
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 1973817 个样本，总字节数为 420403926。
- 下载大小： 240974172 字节
- 数据集大小： 420403926 字节
news4vip-cleaned
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 1402903 个样本，总字节数为 269941607。
- 下载大小： 156934128 字节
- 数据集大小： 269941607 字节
newsplus
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 217296 个样本，总字节数为 56071294。
- 下载大小： 32368053 字节
- 数据集大小： 56071294 字节
newsplus-cleaned
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
- 分割：
  - train：包含 139574 个样本，总字节数为 33387874。
- 下载大小： 19556120 字节
- 数据集大小： 33387874 字节
ranking
- 特征：
  - dialogue：对话数据，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
  - next：下一个正确的对话，包含 speaker（说话者编号，类型为 int8）和 content（发言内容，类型为 string）。
  - random：随机选择的9个响应，类型为 string 的序列。
- 分割：
  - train：包含 2000 个样本，总字节数为 1605628。
  - test：包含 1953 个样本，总字节数为 1604356。
- 下载大小： 2127033 字节
- 数据集大小： 3209984 字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集