five

autores/imo_lq_filtered

收藏
Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/autores/imo_lq_filtered
下载链接
链接失效反馈
官方服务:
资源简介:
我们从Art of Problem Solving的高中奥林匹克竞赛部分抓取了对话及其标签,然后对数据进行了标准化处理并去重。每个主题的第一个帖子被视为问题,随后的帖子可能包含答案被视为解决方案。使用open-web-math/filtering-models过滤掉困惑度大于15,000的文本数据,并移除每个主题中第一个帖子后不太可能是答案的文本数据,如果其字符数少于200或LaTeX比率低于0.1。

我们从Art of Problem Solving的高中奥林匹克竞赛部分抓取了对话及其标签,然后对数据进行了标准化处理并去重。每个主题的第一个帖子被视为问题,随后的帖子可能包含答案被视为解决方案。使用open-web-math/filtering-models过滤掉困惑度大于15,000的文本数据,并移除每个主题中第一个帖子后不太可能是答案的文本数据,如果其字符数少于200或LaTeX比率低于0.1。
提供机构:
autores
原始信息汇总

数据集概述

基本信息

  • 任务类别:问答
  • 语言:英语
  • 标签:数学竞赛、AoPS、IMO、AIMO、数学
  • 数据集大小:100K<n<1M

数据集详情

  • 数据来源:从Art of Problem Solving的高中奥林匹克竞赛板块抓取的对话及其标签。
  • 数据处理
    • 将每个话题的第一条帖子视为问题。
    • 将后续可能包含答案的帖子视为解决方案。
    • 使用open-web-math/filtering-models过滤文本数据,移除困惑度大于15,000的数据。
    • 对于每个话题中除第一条外的帖子,若文本长度小于等于200字符或LaTeX比率低于0.1,则视为非答案并移除。

数据集用途

  • 用于微调语言模型,专注于数学奥林匹克问题。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作