autores/imo_lq_filtered

Name: autores/imo_lq_filtered
Creator: autores
Published: 2024-04-11 05:30:43
License: 暂无描述

Hugging Face2024-04-11 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/autores/imo_lq_filtered

下载链接

链接失效反馈

官方服务：

资源简介：

我们从Art of Problem Solving的高中奥林匹克竞赛部分抓取了对话及其标签，然后对数据进行了标准化处理并去重。每个主题的第一个帖子被视为问题，随后的帖子可能包含答案被视为解决方案。使用open-web-math/filtering-models过滤掉困惑度大于15,000的文本数据，并移除每个主题中第一个帖子后不太可能是答案的文本数据，如果其字符数少于200或LaTeX比率低于0.1。

提供机构：

autores

原始信息汇总

数据集概述

基本信息

任务类别：问答
语言：英语
标签：数学竞赛、AoPS、IMO、AIMO、数学
数据集大小：100K<n<1M

数据集详情

数据来源：从Art of Problem Solving的高中奥林匹克竞赛板块抓取的对话及其标签。
数据处理：
- 将每个话题的第一条帖子视为问题。
- 将后续可能包含答案的帖子视为解决方案。
- 使用open-web-math/filtering-models过滤文本数据，移除困惑度大于15,000的数据。
- 对于每个话题中除第一条外的帖子，若文本长度小于等于200字符或LaTeX比率低于0.1，则视为非答案并移除。

数据集用途

用于微调语言模型，专注于数学奥林匹克问题。

5,000+

优质数据集

54 个

任务类型

进入经典数据集