nurik040404/mse
收藏Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nurik040404/mse
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Mathematics StackExchange(math.stackexchange.com)的问题和答案。数据是通过Stack Exchange API收集的,总共收集了465,295个问题。数据集以JSON Lines格式提供,每行一个JSON对象,包含问题的唯一ID、提问时间、提问者名称、提问者声誉、问题得分、问题标题、问题标签、问题正文、评论列表和答案列表等信息。答案列表中还包含每个答案的评论列表。数据集未经过预处理,包含原始未过滤的数据,可能存在冗余换行或空格问题。
该数据集包含来自Mathematics StackExchange(math.stackexchange.com)的问题和答案。数据是通过Stack Exchange API收集的,总共收集了465,295个问题。数据集以JSON Lines格式提供,每行一个JSON对象,包含问题的唯一ID、提问时间、提问者名称、提问者声誉、问题得分、问题标题、问题标签、问题正文、评论列表和答案列表等信息。答案列表中还包含每个答案的评论列表。数据集未经过预处理,包含原始未过滤的数据,可能存在冗余换行或空格问题。
提供机构:
nurik040404
原始信息汇总
数学堆栈交换数据集概述
基本信息
- 名称: 数学堆栈交换数据集(Math StackExchange Dataset)
- 语言: 英语(English)
- 语言创建者: 机器生成(Machine-generated)
- 多语言性: 单语(Monolingual)
- 许可证: WTFPL
- 数据集大小: 10万至100万之间
数据来源
- 来源: 原始数据(Original)
数据集内容
- 数据格式: JSON Lines格式,每行一个JSON对象
- 字段详情:
id: 问题唯一IDasked_at: 问题提问时间戳author_name: 提问者名称author_rep: 提问者声望score: 问题得分title: 问题标题tags: 问题标签列表body: 问题内容comments: 评论列表,每个评论包含ID、内容、发布时间、得分、作者及作者声望answers: 答案列表,每个答案包含ID、内容、得分、发布时间、作者及作者声望,以及是否被接受和评论列表
任务类别
- 问题回答(Question-Answering)
- 文本生成(Text-Generation)
- 文本分类(Text-Classification)
- 对话建模(Dialogue-Modeling)
- 语言建模(Language-Modeling)
- 可接受性分类(Acceptability-Classification)
- 文本评分(Text-Scoring)
任务ID
- 封闭领域问答(Closed-Domain-QA)
- 抽取式问答(Extractive-QA)
- 开放领域问答(Open-Domain-QA)
联系方式
- 联系邮箱: nurik040404@gmail.com



