five

AryanAnuj/processed_dataset_orca-math-word-problems-200k

收藏
Hugging Face2024-04-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AryanAnuj/processed_dataset_orca-math-word-problems-200k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含经过两个预处理步骤的数据:一是移除了响应中少于100个标记的指令,以确保数据集包含实质性且信息丰富的响应;二是通过余弦相似度(阈值>0.95)进行数据去重,将相似度大于0.95的实例视为重复并进行分组,以提高数据集质量并减少冗余。此外,数据集现在包含独特的问题及其相应的答案,并且已经准备好用于训练大型语言模型以解决数学文字问题。

该数据集包含经过两个预处理步骤的数据:一是移除了响应中少于100个标记的指令,以确保数据集包含实质性且信息丰富的响应;二是通过余弦相似度(阈值>0.95)进行数据去重,将相似度大于0.95的实例视为重复并进行分组,以提高数据集质量并减少冗余。此外,数据集现在包含独特的问题及其相应的答案,并且已经准备好用于训练大型语言模型以解决数学文字问题。
提供机构:
AryanAnuj
原始信息汇总

数据集概述

数据预处理步骤

  1. 响应长度筛选:移除了响应中令牌数少于100的指令,确保数据集包含的信息量充足且具有信息性。
  2. 数据去重:通过余弦相似度进行数据去重,将相似度大于0.95的实例视为重复并进行分组处理,有效移除了数据集中的冗余或高度相似的实例,提高了数据集的质量并减少了冗余。

数据集用途

该数据集经过上述预处理后,包含独特的数学问题及其答案,适用于训练大型语言模型处理数学应用题。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作