tlm-synth-ablation
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/Shekswess/tlm-synth-ablation
下载链接
链接失效反馈官方服务:
资源简介:
## Dataset Description
Subset of PleIAs/SYNTH (first 113,000 rows, languages: en, exercises: math exercise, math mcq, mcq, memorization).
Columns:
- text: user/assistant messages formatted with the chat template
- source: original exercise name prefixed with PleIAs/SYNTH
- language: ISO language code
- num_tokens: token count of the formatted text using meta-llama/Llama-3.2-1B (no special tokens, capped at 2048 tokens)
Max rows requested: 113,000
Total tokens: 90,707,803
Ablation mode: capped at 10% of base rows (113,000 rows).
Language token totals:
en: 90,707,803 tokens
Language share:
en: 100.00% (113,000)
Exercise share:
memorization: 94.00% (106,221)
mcq: 2.70% (3,056)
math exercise: 2.06% (2,323)
math mcq: 1.24% (1,400)
数据集描述
该数据集为PleIAs/SYNTH的子集,选取前113000条数据,涵盖语言为英语(en),题型包含数学练习题、数学选择题(mcq)、选择题(mcq)、记忆类习题。
列信息:
- text:经对话模板格式化后的用户与助手消息文本
- source:以PleIAs/SYNTH为前缀的原始习题名称
- language:ISO标准语言代码
- num_tokens:使用meta-llama/Llama-3.2-1B对格式化后文本计算的Token计数(不计特殊Token,上限为2048个Token)
申请的最大数据行数:113000
总Token数:90707803
消融实验模式:限定为基准行数的10%(即113000条数据)
语言Token分布:
英语(en):90707803个Token
语言占比:
英语(en):100.00%(共113000条)
题型占比:
记忆类习题:94.00%(106221条)
选择题(mcq):2.70%(3056条)
数学练习题:2.06%(2323条)
数学选择题(math mcq):1.24%(1400条)
提供机构:
maas
创建时间:
2025-11-23



