five

tlm-synth-ablation

收藏
魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/Shekswess/tlm-synth-ablation
下载链接
链接失效反馈
官方服务:
资源简介:
## Dataset Description Subset of PleIAs/SYNTH (first 113,000 rows, languages: en, exercises: math exercise, math mcq, mcq, memorization). Columns: - text: user/assistant messages formatted with the chat template - source: original exercise name prefixed with PleIAs/SYNTH - language: ISO language code - num_tokens: token count of the formatted text using meta-llama/Llama-3.2-1B (no special tokens, capped at 2048 tokens) Max rows requested: 113,000 Total tokens: 90,707,803 Ablation mode: capped at 10% of base rows (113,000 rows). Language token totals: en: 90,707,803 tokens Language share: en: 100.00% (113,000) Exercise share: memorization: 94.00% (106,221) mcq: 2.70% (3,056) math exercise: 2.06% (2,323) math mcq: 1.24% (1,400)

数据集描述 该数据集为PleIAs/SYNTH的子集,选取前113000条数据,涵盖语言为英语(en),题型包含数学练习题、数学选择题(mcq)、选择题(mcq)、记忆类习题。 列信息: - text:经对话模板格式化后的用户与助手消息文本 - source:以PleIAs/SYNTH为前缀的原始习题名称 - language:ISO标准语言代码 - num_tokens:使用meta-llama/Llama-3.2-1B对格式化后文本计算的Token计数(不计特殊Token,上限为2048个Token) 申请的最大数据行数:113000 总Token数:90707803 消融实验模式:限定为基准行数的10%(即113000条数据) 语言Token分布: 英语(en):90707803个Token 语言占比: 英语(en):100.00%(共113000条) 题型占比: 记忆类习题:94.00%(106221条) 选择题(mcq):2.70%(3056条) 数学练习题:2.06%(2323条) 数学选择题(math mcq):1.24%(1400条)
提供机构:
maas
创建时间:
2025-11-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作