autores/imo_lq_filtered
收藏Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/autores/imo_lq_filtered
下载链接
链接失效反馈官方服务:
资源简介:
我们从Art of Problem Solving的高中奥林匹克竞赛部分抓取了对话及其标签,然后对数据进行了标准化处理并去重。每个主题的第一个帖子被视为问题,随后的帖子可能包含答案被视为解决方案。使用open-web-math/filtering-models过滤掉困惑度大于15,000的文本数据,并移除每个主题中第一个帖子后不太可能是答案的文本数据,如果其字符数少于200或LaTeX比率低于0.1。
我们从Art of Problem Solving的高中奥林匹克竞赛部分抓取了对话及其标签,然后对数据进行了标准化处理并去重。每个主题的第一个帖子被视为问题,随后的帖子可能包含答案被视为解决方案。使用open-web-math/filtering-models过滤掉困惑度大于15,000的文本数据,并移除每个主题中第一个帖子后不太可能是答案的文本数据,如果其字符数少于200或LaTeX比率低于0.1。
提供机构:
autores
原始信息汇总
数据集概述
基本信息
- 任务类别:问答
- 语言:英语
- 标签:数学竞赛、AoPS、IMO、AIMO、数学
- 数据集大小:100K<n<1M
数据集详情
- 数据来源:从Art of Problem Solving的高中奥林匹克竞赛板块抓取的对话及其标签。
- 数据处理:
- 将每个话题的第一条帖子视为问题。
- 将后续可能包含答案的帖子视为解决方案。
- 使用open-web-math/filtering-models过滤文本数据,移除困惑度大于15,000的数据。
- 对于每个话题中除第一条外的帖子,若文本长度小于等于200字符或LaTeX比率低于0.1,则视为非答案并移除。
数据集用途
- 用于微调语言模型,专注于数学奥林匹克问题。



