five

RWKV-7-Arithmetic

收藏
魔搭社区2025-12-13 更新2025-08-09 收录
下载链接:
https://modelscope.cn/datasets/shoumenchougou/RWKV-7-Arithmetic
下载链接
链接失效反馈
官方服务:
资源简介:
**[RWKV-7-Arithmetic-0.1B](https://modelscope.cn/models/shoumenchougou/RWKV-7-Arithmetic-0.1B/summary) 加减法运算模型**的训练和测试数据集。 该模型实现基础**加减法运算**和**加减法方程求解**功能,能够处理整数部分为 1-12 位、小数部分为 0-6 位的数值,支持中英文数字、全半角格式以及大小写字符的多种表示形式,可实现基础**加减法运算**和**加减法方程求解**功能。 ## 训练数据集说明 以下是我们使用的加减法训练数据类型,共包含 ~~30000587~~ 33000147 条单轮加减法 QA 数据,约 1B(1014434168) token。 |数据文件名| 数据条数| 数据说明|示例| |--------------|----------|------------------------------------|-----------| | ADD_4M |3997733 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声 | {"text": "User: 249476576 减 796580834 还剩多少?\n\nAssistant: -547104258"} | | ADD_2M |1999673 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声 | {"text": "User: 捌仟玖佰捌拾叁点肆贰陆玖+9334160.73357\n\nAssistant: 9343144.16047"} | | ADD_base_8M |7992002 | -999~999的全部两两组合,仅算术式子,无任何随机更改 | {"text": "User: -999 + -991 = ?\n\nAssistant: -1990"} | | ADD_n1m0 |270887 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字;<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 额外限制最少有 1 次进/退位 | {"text": "User: 78041304-805555\n\nAssistant: 77235749"} | | ADD_n1m1 |199900 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声<br>4. 限制最少 1 次进/退位 | {"text": "User: 3921857214+玖仟柒佰肆拾壹萬肆仟叁佰玖拾肆 = ?\n\nAssistant: 4019271608"} | | ADD_n2m0 |270798 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字;<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 额外限制最少有 2 次进/退位 | {"text": "User: 9420731235+陆仟柒佰伍拾陆萬肆仟贰佰玖拾玖\n\nAssistant: 9488295534"} | | ADD_n2m1 |199847 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声<br>4. 限制至少 2 次进/退位 | {"text": "User: 30685362+柒仟壹佰肆拾萬壹仟壹佰贰拾捌 = ?\n\nAssistant: 102086490"} | | ADD_n3m0 |270853 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字;<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 额外限制最少有 3 次进/退位 | {"text": "User: 肆拾叁億肆仟伍佰零肆萬贰仟肆佰捌拾玖加78759970978\n\nAssistant: 83105013467"} | | ADD_n4m3 |271345 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字;<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 额外限制最少有 4 次进/退位,且至少有一个连续进/退位长度为 3 的连续段 | {"text": "User: 六亿两千三百二十八万一千零二十四点五四五二六减2329558.33317\n\nAssistant: 620951466.21209"} | | ADD_random_0.25M |249735 | **1.** 逐位随机进行替换<br>**2.** 替换内容为:大小写中文、全半角数字、(例如:叁2五)<br>**3.** 每个数字和运算符直接随机0~2个空格 | {"text": "User: 46495569.67886-四百6十亿8千六百4十二万贰千陆百8十玖点九3四五伍=?\n\nAssistant: -46039927120.25569"} | | ADD_random_4M |4494484 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换数字的某个位,例如:八4肆<br>**2.** 数字内部和运算符附近有 1~2 个随机空格 | {"text": "User: 8千1百陆十六万捌千8百捌十捌-2仟5佰壹拾八 億2仟六佰1拾八萬陆仟 六佰5拾五\n\nAssistant: -251744517767"} | | ADD_many0_50k |50000 | 强化数据,如2.000+1 | {"text": "User: -315052474 4.00 和 825824149176.0000 等于?\n\nAssistant: 822673624432"} | | ADD_en |976394 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’、‘英文数字’随机替换整个数字;<br>例如: 叁3三3three THREE Three | {"text": "User: seven Nine FOUR six six One seven NINE SIX one ZERO zero point Six SIX ONE seven NINE six One NINE+2=?\n\nAssistant: 794661796102"} | | ADD_en_base_1M-v1 |1000000 | 英语基础数据,从qa_add_base_8M.jsonl下采样直译而来 | {"text": "User: 275MINUS six Hundred sixty five= , solve this.\n\nAssistant: -390"} | | ADD_en_base_1M-v2 |1000000 | 英语基础数据,从qa_add_base_8M.jsonl下采样直译而来 | {"text": "User: -684 plusfour Hundred eighty Five=equals WHAT?\n\nAssistant: -199"} | | ADD_en_random_mix |1464727 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’、‘英文数字’随机替换整个数字;<br>**2.** 对每个单词逐个字母进行大小写随机<br>例如: 叁3三3three THREE Three tHrEe | {"text": "User: 6941+Six MILLION Three HUNDRED FIFTY four THOUSAND TWENTY three=?\n\nAssistant: 6360964"} | | ADD_en_by-desc |489961 | **1.** 使用‘全角’、‘英文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声 | {"text": "User: What is Eight three five Eight TWO four zero TWO Point Four added To 10994.06?\n\nAssistant: 83593396.46"} | | ADD_use-connect |1542000 | 强制使用标准化的英文连接符 | {"text": "User: FIVE-BILLION-EIGHT-HUNDRED-NINETY-THREE-MILLION-NINE-HUNDRED-FIFTY-FIVE-THOUSAND-EIGHT-HUNDRED-FORTY-THREE+ NiNE-HUndred-FoRTY-sIx-BiLlIon-sIx-hUnDReD-Eighty-foUr-miLLiON-Eight-HunDRed-seveNty-two-THoUSAND-FOUR-HUndREd-FiFty-nIne-PoInT-EIGHT-nINe-siX-SIX = ?\n\nAssistant: 952578828302.8966"} | | X_ch_mix |2000000 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 随机中英问号<br>4. 解方程格式 | {"text": "User: x+514= 585.028, 求解 x。\n\nAssistant: x = 585.028 - 514 = 71.028"} | | X_ch_en_mix |250000 | **1.** 使用‘全角’、‘英文数字’、‘中文数字’、‘大写中文数字'随机替换数字的某个位<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 随机中英问号<br>4. 解方程格式 | {"text": "User: x-685919一7185=-68伍91玖1692捌, 求 x 的值。\n\nAssistant: x = -68591916928 + 68591917185 = 257"} | | X_en_random_mix |1000000 | **1.** 使用‘全角’、‘中文数字’、‘大写中文数字’随机替换整个数字<br>**2.** 运算符附近有 1~2 个随机空格<br>**3.** 含简单自然语言描述/自然语言噪声<br>4. 对每个单词逐个字母进行大小写随机<br>5. 解方程格式 |{"text": "User: miNus FouR PoINT TWO fOUr fIve FOUR zERo zerO sIx TiMeS tEN tO the pOWEr OF EigHT+x=-424539854.8 , x = ?\n\nAssistant: x = -424539854.8 + 424540060 = 205.2"} | | qa_error |248 | 噪声数据,答案为:无法相加 | {"text": "User: 椅子 + 桌子 =\n\nAssistant: 无法相加"} | | qa_gibberish_unanswerable |10000 | 乱码数据,答案为:无法回答| {"text": "User: &ad>]`Fx'uD/jPr~Xp!e:x#K4~{\n\nAssistant: 无法回答"} | |qa_add_sci-30M(新增)|3000000|使用科学计数法的加减法数据,多种混合|{"text": "User: 贰億7仟捌佰叁拾玖萬9仟叁佰2拾贰-x=2.78398392e+8, x 的值是?\n\nAssistant: x = 278399322 - 278398392 = 930"}| ## 测试集说明 我们使用同一套数据集生成代码生成了和训练集分布相同的测试集,因为生成的加减法数据整数部分为 1-12 位、小数部分为 0-6 位,存在的数字组合数量超过 10 的 36 次方,我们的训练集数据条数为 ~~30000587~~ 33000147,测试集为 6691 条,测试集和训练集出现至少 1 条重复数据的概率小于 0.00002%,可以保证测试集和训练集基本无重复。 **⚠️ 注意**:此处的概率为粗略估计,且忽略了 ADD_base 数据和相应的测试集 ADD_base_test 中必定出现的合理重复。 ### 数据生成脚本 数据生成的脚本文件为 `make_data_v2.ipynb` ,包含全部 15 个类型/ 23 个文件的生成代码,可以查看脚本中的说明。 生成时数据的位数使用公式 `min(0.1, 0.2x(0.8)^(n-1))`(n 为数字位数) 计算生成概率,以保持生成数据的位数分布。先使用该公式计算数字池,长度为指定位数的数字的生成概率,最终每个单独的概率除以概率总和,实现总体概率为 100% > 注意:强制数字必须有多个进位时,会导致部分低位数字被抛弃,进而破坏此公式。 ### 测试脚本 测试脚本文件为 `Test.ipynb`,此脚本用于测试一个文件夹中的全部 jsonl 文件。它将模型的输出和测试数据的 `Assistant` 部分进行比较,以确认回答是否正确。 使用时,只需要修改输入路径 `INPUT_FOLDER_PATH` 和输出路径 `OUTPUT_FOLDER_PATH` 即可。

**[RWKV-7-Arithmetic-0.1B](https://modelscope.cn/models/shoumenchougou/RWKV-7-Arithmetic-0.1B/summary) 加减法运算模型**的训练与测试数据集。该模型可实现基础**加减法运算**与**加减法方程求解**功能,支持处理整数位长1至12位、小数位长0至6位的数值,兼容中英文数字、全半角格式及大小写字符的多种表示形式,可完成基础加减法运算与加减法方程求解任务。 ## 训练数据集说明 本次所用加减法训练数据类型总计33000147条单轮加减法问答(QA)数据,对应约1B(1014434168)Token(Token)。 |数据文件名| 数据条数| 数据说明|示例| |--------------|----------|------------------------------------|-----------| |ADD_4M|3997733|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声|{"text": "User: 249476576 减 796580834 还剩多少? Assistant: -547104258"}| |ADD_2M|1999673|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声|{"text": "User: 捌仟玖佰捌拾叁点肆贰陆玖+9334160.73357 Assistant: 9343144.16047"}| |ADD_base_8M|7992002|覆盖-999~999的全部两两组合,仅包含算术式子,无任何随机修改|{"text": "User: -999 + -991 = ? Assistant: -1990"}| |ADD_n1m0|270887|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 额外限制至少存在1次进位或退位|{"text": "User: 78041304-805555 Assistant: 77235749"}| |ADD_n1m1|199900|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声;4. 限制至少存在1次进位或退位|{"text": "User: 3921857214+玖仟柒佰肆拾壹萬肆仟叁佰玖拾肆 = ? Assistant: 4019271608"}| |ADD_n2m0|270798|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 额外限制至少存在2次进位或退位|{"text": "User: 9420731235+陆仟柒佰伍拾陸萬肆仟贰佰玖拾玖 Assistant: 9488295534"}| |ADD_n2m1|199847|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声;4. 限制至少存在2次进位或退位|{"text": "User: 30685362+柒仟壹佰肆拾萬壹仟壹佰贰拾捌 = ? Assistant: 102086490"}| |ADD_n3m0|270853|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 额外限制至少存在3次进位或退位|{"text": "User: 肆拾叁億肆仟伍佰零肆萬贰仟肆佰捌拾玖加78759970978 Assistant: 83105013467"}| |ADD_n4m3|271345|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 额外限制至少存在4次进位或退位,且至少包含1段长度为3的连续进位/退位序列|{"text": "User: 六亿两千三百二十八万一千零二十四点五四五二六减2329558.33317 Assistant: 620951466.21209"}| |ADD_random_0.25M|249735|1. 逐位随机替换数字;2. 替换内容包含大小写中文、全半角数字(例如:叁2五);3. 每个数字与运算符之间随机插入0至2个空格|{"text": "User: 46495569.67886-四百6十亿8千六百4十二万贰千陆百8十玖点九3四五伍=? Assistant: -46039927120.25569"}| |ADD_random_4M|4494484|1. 采用全角字符、中文数字、大写中文数字随机替换数字的某一位(例如:八4肆);2. 数字内部与运算符周边存在1至2个随机空格|{"text": "User: 8千1百陆十六万捌千8百捌十捌-2仟5佰壹拾八 億2仟六佰1拾八萬陆仟 六佰5拾五 Assistant: -251744517767"}| |ADD_many0_50k|50000|强化训练数据,例如2.000+1|{"text": "User: -315052474 4.00 和 825824149176.0000 等于? Assistant: 822673624432"}| |ADD_en|976394|1. 采用全角字符、中文数字、大写中文数字、英文数字随机替换完整数字;例如:叁3三3three THREE Three|{"text": "User: seven Nine FOUR six six One seven NINE SIX one ZERO zero point Six SIX ONE seven NINE six One NINE+2=? Assistant: 794661796102"}| |ADD_en_base_1M-v1|1000000|英语基础数据集,由qa_add_base_8M.jsonl文件下采样后直译得到|{"text": "User: 275MINUS six Hundred sixty five= , solve this. Assistant: -390"}| |ADD_en_base_1M-v2|1000000|英语基础数据集,由qa_add_base_8M.jsonl文件下采样后直译得到|{"text": "User: -684 plusfour Hundred eighty Five=equals WHAT? Assistant: -199"}| |ADD_en_random_mix|1464727|1. 采用全角字符、中文数字、大写中文数字、英文数字随机替换完整数字;2. 对每个单词的每个字母进行随机大小写转换;例如:叁3三3three THREE Three tHrEe|{"text": "User: 6941+Six MILLION Three HUNDRED FIFTY four THOUSAND TWENTY three=? Assistant: 6360964"}| |ADD_en_by-desc|489961|1. 采用全角字符、英文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声|{"text": "User: What is Eight three five Eight TWO four zero TWO Point Four added To 10994.06? Assistant: 83593396.46"}| |ADD_use-connect|1542000|强制使用标准化的英文连接符|{"text": "User: FIVE-BILLION-EIGHT-HUNDRED-NINETY-THREE-MILLION-NINE-HUNDRED-FIFTY-FIVE-THOUSAND-EIGHT-HUNDRED-FORTY-THREE+ NiNE-HUndred-FoRTY-sIx-BiLlIon-sIx-hUnDReD-Eighty-foUr-miLLiON-Eight-HunDRed-seveNty-two-THoUSAND-FOUR-HUndREd-FiFty-nIne-PoInT-EIGHT-nINe-siX-SIX = ? Assistant: 952578828302.8966"}| |X_ch_mix|2000000|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 随机使用中英文问号;4. 采用方程求解格式|{"text": "User: x+514= 585.028, 求解 x。 Assistant: x = 585.028 - 514 = 71.028"}| |X_ch_en_mix|250000|1. 采用全角字符、英文数字、中文数字、大写中文数字随机替换数字的某一位;2. 运算符周边存在1至2个随机空格;3. 随机使用中英文问号;4. 采用方程求解格式|{"text": "User: x-685919一7185=-68伍91玖1692捌, 求 x 的值。 Assistant: x = -68591916928 + 68591917185 = 257"}| |X_en_random_mix|1000000|1. 采用全角字符、中文数字、大写中文数字随机替换完整数字;2. 运算符周边存在1至2个随机空格;3. 包含简单自然语言描述与自然语言噪声;4. 对每个单词的每个字母进行随机大小写转换;5. 采用方程求解格式|{"text": "User: miNus FouR PoINT TWO fOUr fIve FOUR zERo zerO sIx TiMeS tEN tO the pOWEr OF EigHT+x=-424539854.8 , x = ? Assistant: x = -424539854.8 + 424540060 = 205.2"}| |qa_error|248|噪声数据,标准答案为:无法相加|{"text": "User: 椅子 + 桌子 = Assistant: 无法相加"}| |qa_gibberish_unanswerable|10000|乱码无效数据,标准答案为:无法回答|{"text": "User: &ad>]`Fx'uD/jPr~Xp!e:x#K4~{ Assistant: 无法回答"}| |qa_add_sci-30M(新增)|3000000|科学计数法加减法数据,涵盖多种混合格式|{"text": "User: 贰億7仟捌佰叁拾玖萬9仟叁佰2拾贰-x=2.78398392e+8, x 的值是? Assistant: x = 278399322 - 278398392 = 930"}| ## 测试集说明 我们采用与训练集一致的数据集生成代码构建了分布匹配的测试集。由于本次生成的加减法数据整数位长1至12位、小数位长0至6位,其潜在数字组合数量超过10^36,训练集数据条数为33000147,测试集共6691条,测试集与训练集出现至少1条重复数据的概率低于0.00002%,可确保二者基本无重复。 ⚠️ 注意:此处概率为粗略估算,且未考虑ADD_base数据及其对应测试集ADD_base_test中必然存在的合理重复情况。 ### 数据生成脚本 数据生成脚本为`make_data_v2.ipynb`,涵盖全部15个类型、23个文件的生成代码,可查阅脚本内的说明文档。生成过程中,数字位数的生成概率通过公式`min(0.1, 0.2×(0.8)^(n-1))`(n为数字位数)计算,以维持生成数据的位数分布。首先通过该公式计算数字池,即指定位数数字的生成概率,最终将各单独概率除以总概率和,使整体概率归一至100%。 > 注意:当强制要求数字存在多次进位时,部分低位数字会被舍弃,进而破坏该概率公式。 ### 测试脚本 测试脚本文件为`Test.ipynb`,用于批量测试文件夹内的全部jsonl文件。该脚本将模型输出与测试数据的`Assistant`字段内容进行比对,以验证回答正确性。使用时仅需修改输入路径`INPUT_FOLDER_PATH`与输出路径`OUTPUT_FOLDER_PATH`即可。
提供机构:
maas
创建时间:
2025-08-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作