five

p1atdev/japanese-stackexchange

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/japanese-stackexchange
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于Japanese Stack Exchange的数据加工而成,主要包含问题和回答对的QA数据。数据集分为default和simple两个子集,其中default子集包含详细的问题和回答信息,如问题ID、标题、内容、回答列表等;simple子集则是default子集的简化版本,主要包含问题和回答的基本信息,如ID、标题、内容、分数等。数据集适用于文本生成和问答任务,支持英语和日语。

该数据集基于Japanese Stack Exchange的数据加工而成,主要包含问题和回答对的QA数据。数据集分为default和simple两个子集,其中default子集包含详细的问题和回答信息,如问题ID、标题、内容、回答列表等;simple子集则是default子集的简化版本,主要包含问题和回答的基本信息,如ID、标题、内容、分数等。数据集适用于文本生成和问答任务,支持英语和日语。
提供机构:
p1atdev
原始信息汇总

数据集概述

数据集信息

default 配置

  • 特征:
    • question:
      • accepted_answer_id: 字符串
      • answer_count: 64位整数
      • body: 字符串
      • comment_count: 64位整数
      • content_license: 字符串
      • creation_date: 字符串
      • favorite_count: 64位整数
      • id: 字符串
      • last_activity_date: 字符串
      • last_edit_date: 字符串
      • last_editor_user_id: 字符串
      • owner_user_id: 字符串
      • post_type: 字符串
      • score: 64位整数
      • tags: 字符串序列
      • title: 字符串
      • view_count: 64位整数
    • answers:
      • body: 字符串
      • comment_count: 64位整数
      • content_license: 字符串
      • creation_date: 字符串
      • id: 字符串
      • last_activity_date: 字符串
      • last_edit_date: 字符串
      • last_editor_user_id: 字符串
      • owner_user_id: 字符串
      • parent_id: 字符串
      • post_type: 字符串
      • score: 64位整数
    • id: 字符串
    • accepted_answer_id: 字符串
    • popular_answer_id: 字符串
  • 分割:
    • train:
      • 字节数: 67721507
      • 样本数: 28428
  • 下载大小: 38951308
  • 数据集大小: 67721507

simple 配置

  • 特征:
    • id: 字符串
    • accepted_answer_id: 字符串
    • popular_answer_id: 字符串
    • title: 字符串
    • question_body: 字符串
    • question_score: 64位整数
    • accepted_answer_body: 字符串
    • accepted_answer_score: 64位整数
    • popular_answer_body: 字符串
    • popular_answer_score: 64位整数
    • tags: 字符串序列
  • 分割:
    • train:
      • 字节数: 66135683
      • 样本数: 28428
  • 下载大小: 40717946
  • 数据集大小: 66135683

配置

  • default:
    • 数据文件:
      • train: data/train-*
  • simple:
    • 数据文件:
      • train: simple/train-*

许可证

  • CC BY-SA 4.0

任务类别

  • 文本生成
  • 问答

语言

  • 英语
  • 日语

标签

  • stackexchange

数据集名称

  • Japanese StackExchange

数据集大小类别

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作