Myashka/SO-Python_QA-filtered-2023-tanh_score
收藏Hugging Face2023-07-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Myashka/SO-Python_QA-filtered-2023-tanh_score
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Stack Overflow(SO)上带有`python`标签的问答数据,包含英语内容,数据规模在10K到100K之间。数据集对问题和答案进行了过滤:问题过滤条件包括去除包含图片、链接的问题,且问题的评分大于0,回答数量大于0;答案过滤条件包括去除包含图片、链接和代码块的答案。答案的评分经过tanh函数处理,并使用AbsMaxScaler缩放到原始SO答案评分的IQR范围内。
提供机构:
Myashka
原始信息汇总
数据集概述
数据集基本信息
- 任务类别:问答(question-answering)
- 语言:英语(en)
- 数据集大小:10,000至100,000条记录
数据集内容
- 主题:Python标签数据集
数据过滤条件
-
问题过滤:
- 排除包含图片和链接的问题
- 仅包含Q_Score大于0的问题
- 仅包含回答数大于0的问题
-
答案过滤:
- 排除包含图片和链接的答案
- 排除包含代码块的答案
评分机制
- 评分采用tanh函数处理,并通过AbsMaxScaler缩放到原始SO答案评分的IQR范围内。



