five

Myashka/SO-Python_QA-filtered-2023-tanh_score

收藏
Hugging Face2023-07-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Myashka/SO-Python_QA-filtered-2023-tanh_score
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于Stack Overflow(SO)上带有`python`标签的问答数据,包含英语内容,数据规模在10K到100K之间。数据集对问题和答案进行了过滤:问题过滤条件包括去除包含图片、链接的问题,且问题的评分大于0,回答数量大于0;答案过滤条件包括去除包含图片、链接和代码块的答案。答案的评分经过tanh函数处理,并使用AbsMaxScaler缩放到原始SO答案评分的IQR范围内。
提供机构:
Myashka
原始信息汇总

数据集概述

数据集基本信息

  • 任务类别:问答(question-answering)
  • 语言:英语(en)
  • 数据集大小:10,000至100,000条记录

数据集内容

  • 主题:Python标签数据集

数据过滤条件

  • 问题过滤

    • 排除包含图片和链接的问题
    • 仅包含Q_Score大于0的问题
    • 仅包含回答数大于0的问题
  • 答案过滤

    • 排除包含图片和链接的答案
    • 排除包含代码块的答案

评分机制

  • 评分采用tanh函数处理,并通过AbsMaxScaler缩放到原始SO答案评分的IQR范围内。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作