five

nurik040404/mse

收藏
Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nurik040404/mse
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Mathematics StackExchange(math.stackexchange.com)的问题和答案。数据是通过Stack Exchange API收集的,总共收集了465,295个问题。数据集以JSON Lines格式提供,每行一个JSON对象,包含问题的唯一ID、提问时间、提问者名称、提问者声誉、问题得分、问题标题、问题标签、问题正文、评论列表和答案列表等信息。答案列表中还包含每个答案的评论列表。数据集未经过预处理,包含原始未过滤的数据,可能存在冗余换行或空格问题。

该数据集包含来自Mathematics StackExchange(math.stackexchange.com)的问题和答案。数据是通过Stack Exchange API收集的,总共收集了465,295个问题。数据集以JSON Lines格式提供,每行一个JSON对象,包含问题的唯一ID、提问时间、提问者名称、提问者声誉、问题得分、问题标题、问题标签、问题正文、评论列表和答案列表等信息。答案列表中还包含每个答案的评论列表。数据集未经过预处理,包含原始未过滤的数据,可能存在冗余换行或空格问题。
提供机构:
nurik040404
原始信息汇总

数学堆栈交换数据集概述

基本信息

  • 名称: 数学堆栈交换数据集(Math StackExchange Dataset)
  • 语言: 英语(English)
  • 语言创建者: 机器生成(Machine-generated)
  • 多语言性: 单语(Monolingual)
  • 许可证: WTFPL
  • 数据集大小: 10万至100万之间

数据来源

  • 来源: 原始数据(Original)

数据集内容

  • 数据格式: JSON Lines格式,每行一个JSON对象
  • 字段详情:
    • id: 问题唯一ID
    • asked_at: 问题提问时间戳
    • author_name: 提问者名称
    • author_rep: 提问者声望
    • score: 问题得分
    • title: 问题标题
    • tags: 问题标签列表
    • body: 问题内容
    • comments: 评论列表,每个评论包含ID、内容、发布时间、得分、作者及作者声望
    • answers: 答案列表,每个答案包含ID、内容、得分、发布时间、作者及作者声望,以及是否被接受和评论列表

任务类别

  • 问题回答(Question-Answering)
  • 文本生成(Text-Generation)
  • 文本分类(Text-Classification)
  • 对话建模(Dialogue-Modeling)
  • 语言建模(Language-Modeling)
  • 可接受性分类(Acceptability-Classification)
  • 文本评分(Text-Scoring)

任务ID

  • 封闭领域问答(Closed-Domain-QA)
  • 抽取式问答(Extractive-QA)
  • 开放领域问答(Open-Domain-QA)

联系方式

  • 联系邮箱: nurik040404@gmail.com
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作