five

p1atdev/ja-stackoverflow

收藏
Hugging Face2023-12-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/p1atdev/ja-stackoverflow
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于日语版Stack Overflow的数据,经过加工处理,形成了问答对的形式。数据集包含两个子集:default和simple。default子集包含详细的问答信息,如问题ID、问题内容、回答列表、被接受的回答ID和最受欢迎的回答ID等。simple子集则是对default子集的简化版本,包含了问题ID、被接受的回答ID、最受欢迎的回答ID、问题标题、问题正文、问题评分、被接受的回答正文、被接受的回答评分、最受欢迎的回答正文、最受欢迎的回答评分以及问题标签等信息。数据集的使用方法通过代码示例进行了说明,用户可以使用datasets库轻松加载和使用该数据集。

该数据集基于日语版Stack Overflow的数据,经过加工处理,形成了问答对的形式。数据集包含两个子集:default和simple。default子集包含详细的问答信息,如问题ID、问题内容、回答列表、被接受的回答ID和最受欢迎的回答ID等。simple子集则是对default子集的简化版本,包含了问题ID、被接受的回答ID、最受欢迎的回答ID、问题标题、问题正文、问题评分、被接受的回答正文、被接受的回答评分、最受欢迎的回答正文、最受欢迎的回答评分以及问题标签等信息。数据集的使用方法通过代码示例进行了说明,用户可以使用datasets库轻松加载和使用该数据集。
提供机构:
p1atdev
原始信息汇总

数据集概述

数据集信息

default 配置

  • 特征:
    • question:
      • accepted_answer_id: 字符串
      • answer_count: 整数
      • body: 字符串
      • comment_count: 整数
      • content_license: 字符串
      • creation_date: 字符串
      • favorite_count: 整数
      • id: 字符串
      • last_activity_date: 字符串
      • last_edit_date: 字符串
      • last_editor_user_id: 字符串
      • owner_user_id: 字符串
      • post_type: 字符串
      • score: 整数
      • tags: 字符串序列
      • title: 字符串
      • view_count: 整数
    • answers:
      • body: 字符串
      • comment_count: 整数
      • content_license: 字符串
      • creation_date: 字符串
      • id: 字符串
      • last_activity_date: 字符串
      • last_edit_date: 字符串
      • last_editor_user_id: 字符串
      • owner_user_id: 字符串
      • parent_id: 字符串
      • post_type: 字符串
      • score: 整数
    • id: 字符串
    • accepted_answer_id: 字符串
    • popular_answer_id: 字符串
  • 分割:
    • train:
      • num_bytes: 112596554
      • num_examples: 30551
  • 下载大小: 54805530
  • 数据集大小: 112596554

simple 配置

  • 特征:
    • id: 字符串
    • accepted_answer_id: 字符串
    • popular_answer_id: 字符串
    • title: 字符串
    • question_body: 字符串
    • question_score: 整数
    • accepted_answer_body: 字符串
    • accepted_answer_score: 整数
    • popular_answer_body: 字符串
    • popular_answer_score: 整数
    • tags: 字符串序列
  • 分割:
    • train:
      • num_bytes: 113051344
      • num_examples: 30551
  • 下载大小: 56632072
  • 数据集大小: 113051344

配置

  • default 配置:
    • data_files:
      • split: train
      • path: data/train-*
  • simple 配置:
    • data_files:
      • split: train
      • path: simple/train-*

许可证

  • CC BY-SA 4.0

任务类别

  • 文本生成
  • 问答

语言

  • 日语

标签

  • stackoverflow
  • programming

数据集名称

  • Japanese StackOverflow

数据集大小类别

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作