five

p1atdev/open2ch

收藏
Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/open2ch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从日本论坛おーぷん2ちゃんねる收集的对话数据,包含了多个子集如livejupiter、news4vip和newsplus。每个子集都包含对话数据,其中每个对话由发言者和发言内容组成。此外,数据集还包括一个用于响应排序任务的子集ranking。数据集还提供了经过清理的版本,这些版本过滤掉了不适当的内容。数据集的语言为日语,遵循Apache-2.0许可证。
提供机构:
p1atdev
原始信息汇总

おーぷん2ちゃんねる対話コーパス

数据集详情

数据集描述

  • 语言: 日语
  • 许可证: Apache-2.0

数据集结构

数据集包含多个配置,每个配置都有特定的特征和分割:

  • all-corpus

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
      • board:类型为 string
    • 分割:
      • train:包含 8134707 个样本,总字节数为 1693355620。
    • 下载大小: 868453263 字节
    • 数据集大小: 1693355620 字节
  • all-corpus-cleaned

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
      • board:类型为 string
    • 分割:
      • train:包含 6192730 个样本,总字节数为 1199092499。
    • 下载大小: 615570076 字节
    • 数据集大小: 1199092499 字节
  • livejupiter

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 5943594 个样本,总字节数为 1101433134。
    • 下载大小: 592924274 字节
    • 数据集大小: 1101433134 字节
  • livejupiter-cleaned

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 4650253 个样本,总字节数为 807499499。
    • 下载大小: 437414714 字节
    • 数据集大小: 807499499 字节
  • news4vip

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 1973817 个样本,总字节数为 420403926。
    • 下载大小: 240974172 字节
    • 数据集大小: 420403926 字节
  • news4vip-cleaned

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 1402903 个样本,总字节数为 269941607。
    • 下载大小: 156934128 字节
    • 数据集大小: 269941607 字节
  • newsplus

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 217296 个样本,总字节数为 56071294。
    • 下载大小: 32368053 字节
    • 数据集大小: 56071294 字节
  • newsplus-cleaned

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
    • 分割:
      • train:包含 139574 个样本,总字节数为 33387874。
    • 下载大小: 19556120 字节
    • 数据集大小: 33387874 字节
  • ranking

    • 特征:
      • dialogue:对话数据,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
      • next:下一个正确的对话,包含 speaker(说话者编号,类型为 int8)和 content(发言内容,类型为 string)。
      • random:随机选择的9个响应,类型为 string 的序列。
    • 分割:
      • train:包含 2000 个样本,总字节数为 1605628。
      • test:包含 1953 个样本,总字节数为 1604356。
    • 下载大小: 2127033 字节
    • 数据集大小: 3209984 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作