five

English and Chinese Braille Mixed Datasets (EBMD/CBMD)

收藏
arXiv2025-10-21 更新2025-10-23 收录
下载链接:
https://huggingface.co/datasets/AI-MO/NuminaMath-CoT
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是一套包含中文和英文盲文的混合文本数据集,旨在支持盲文领域的研究,特别是解决混合文本环境中的盲文信息处理问题。数据集由纯中文、混合中文和混合英文盲文数据组成,并包含了丰富的数学公式内容。数据收集过程包括从标准中文新闻文章和STEM教育相关文档中生成盲文版本,并通过专家团队进行手动校对和标注。此外,为了提高数据集的多样性和有效性,还引入了一种基于句法和依赖语法树的数据增强方法。该数据集为低资源多语言盲文研究和翻译技术提供了基础。

This dataset is a mixed text dataset containing Chinese and English braille, designed to support research in the braille field, particularly addressing braille information processing challenges in mixed-text environments. The dataset consists of pure Chinese braille, mixed Chinese braille and mixed English braille data, and includes a rich set of mathematical formulas. The data collection process involves generating braille versions from standard Chinese news articles and STEM education-related documents, followed by manual proofreading and annotation by a panel of experts. Furthermore, to enhance the diversity and effectiveness of the dataset, a data augmentation method based on syntactic and dependency syntax trees was introduced. This dataset serves as a foundational resource for low-resource multilingual braille research and translation technologies.
提供机构:
浙江大学
创建时间:
2025-10-21
原始信息汇总

NuminaMath CoT 数据集概述

数据集基本信息

  • 数据集名称: NuminaMath CoT
  • 任务类别: 文本生成
  • 主要语言: 英语
  • 许可证: Apache License 2.0
  • 数据总量: 859,494个训练样本,100个测试样本

数据集结构

特征字段

  • source:数据来源标识
  • problem:数学问题描述
  • solution:问题解答
  • messages:包含content和role字段的列表结构

数据拆分

  • 训练集:859,494个样本,数据大小约2.5GB
  • 测试集:100个样本,数据大小约290KB
  • 总数据集大小:约2.5GB
  • 下载大小:约1.2GB

数据集内容

数据来源

数据集包含约86万个数学问题,每个解答均采用思维链格式。数据来源包括:

  • 中国高中数学练习题
  • 美国及国际数学奥林匹克竞赛题目
  • 在线考试试卷PDF
  • 数学讨论论坛

数据处理流程

  1. 原始PDF文档的OCR识别
  2. 分割为问题-解答对
  3. 翻译为英文
  4. 重新对齐生成思维链推理格式
  5. 最终答案格式化

数据来源分布

来源 样本数量
aops_forum 30,201
amc_aime 4,072
cn_k12 276,591
gsm8k 7,345
math 7,478
olympiads 150,581
orca_math 153,334
synthetic_amc 62,111
synthetic_math 167,895
总计 859,608

引用信息

@misc{numina_math_datasets, author = {Jia LI and Edward Beeching and Lewis Tunstall and Ben Lipkin and Roman Soletskyi and Shengyi Costa Huang and Kashif Rasul and Longhui Yu and Albert Jiang and Ziju Shen and Zihan Qin and Bin Dong and Li Zhou and Yann Fleureau and Guillaume Lample and Stanislas Polu}, title = {NuminaMath}, year = {2024}, publisher = {Numina}, journal = {Hugging Face repository}, howpublished = {url{https://github.com/project-numina/aimo-progress-prize/blob/main/report/numina_dataset.pdf}} }

搜集汇总
数据集介绍
main_image_url
构建方式
在盲文信息处理领域,数据稀缺长期制约着相关研究的发展。为应对这一挑战,EBMD/CBMD数据集的构建采用了系统化的多阶段流程。研究团队首先从《人民日报》标准化新闻文本、初高中数学教材以及开源数学问题库中收集纯文本与混合文本语料,涵盖中文与英文内容。随后,利用中国盲文数字平台与liblouis库的专用接口,将文本与数学公式转换为盲文ASCII码表示,生成初步的平行数据。鉴于自动转换可能存在的误差,数据集构建过程中引入了严格的人工标注与多轮验证环节,由领域专家团队对盲文分词、声调标记及公式转换等细节进行精细化校对,确保了文本与盲文间词级对齐的准确性。
特点
该数据集的核心特点在于其针对混合内容盲文处理的专门设计,有效解决了传统单一任务数据集的局限性。数据集不仅包含纯文本与盲文的对应关系,更创新性地整合了数学公式与自然语言文本混合的盲文表示,模拟了视障者在教育等实际场景中处理复杂文档的真实需求。针对中文盲文高度歧义性的固有挑战,数据集构建过程还融合了基于句法树的数据增强方法,通过替换句法成分中语义兼容的盲文片段,在保证语言合法性的前提下显著提升了数据的多样性与覆盖面,为低资源场景下的模型训练提供了更丰富的上下文特征。
使用方法
该数据集旨在支持基于大语言模型的盲文领域指令微调研究。使用者可依据任务需求,调用数据集提供的多样化指令模板,构建涵盖盲文翻译、公式转换及混合文本处理等任务的训练样本。具体而言,数据集可直接用于训练如BrailleLLM等框架,通过注入盲文先验知识的微调方法,引导模型学习盲文片段与对应拼音音节或英文单词的映射关系,从而将模型的计算重心从底层规则发现转向高层语义消歧。此外,数据集中经过增强与验证的平行语料也可作为基准,用于系统评估各类模型在低资源盲文翻译、特别是含错误或混合内容场景下的鲁棒性与泛化能力。
背景与挑战
背景概述
盲文作为视障群体获取教育与信息的关键触觉文字系统,其数字化处理长期面临资源匮乏与混合文本歧义等核心挑战。为应对这一领域瓶颈,浙江大学的黄天元等研究人员于2025年构建了英汉盲文混合数据集(EBMD/CBMD),该数据集创新性地融合了数学公式与多语言文本,旨在支撑跨模态盲文翻译、公式转换等多样化任务研究。通过引入基于语法树的数据增强方法,研究团队有效缓解了盲文数据稀缺性问题,其提出的盲文知识引导微调技术显著提升了大型语言模型对盲文上下文特征的学习效率,为低资源多语言盲文研究奠定了新的数据与方法基础。
当前挑战
该数据集致力于解决混合内容盲文翻译这一复杂领域问题,其核心挑战在于盲文字符固有的多义性——有限的盲文单元需映射到多种自然语言字符、数学符号及标点,导致翻译过程存在严重的语义歧义。在构建过程中,研究者面临双重困难:其一,盲文平行语料获取成本极高,需从盲文图书馆与学校中提取并人工校正海量数据;其二,中文盲文因音节对应多个汉字的特性,其数据标注与验证复杂度远超英文盲文,需设计专门的语法树增强算法以维持生成数据的语言学合理性。
常用场景
经典使用场景
在盲文信息处理领域,混合内容文档的转换长期面临数据稀缺与语义歧义的双重挑战。English and Chinese Braille Mixed Datasets (EBMD/CBMD) 作为首个涵盖中英文混合文本及数学公式的大规模盲文标注数据集,其经典使用场景集中于支持盲文与自然语言之间的双向翻译研究。该数据集通过提供丰富的平行语料,使得研究者能够训练端到端的神经机器翻译模型,有效处理盲文与普通文本、公式符号交织的复杂文档,为低资源多语言盲文任务奠定了数据基础。
实际应用
在实际应用层面,EBMD/CBMD 数据集为视障群体的教育与社会参与提供了技术支撑。基于该数据集训练的模型可集成于盲文数字平台,实现教材、科技文献等混合内容的高效盲文转换,辅助盲校教学与自主学习。同时,其支持的盲文到文本翻译功能能够帮助教育工作者快速批改盲文试卷,或协助视障人士将手写盲文笔记转换为电子文本,显著提升了信息获取与知识传播的平等性与效率。
衍生相关工作
该数据集的发布催生了一系列盲文领域的创新研究。以 BrailleLLM 为代表的工作首次将盲文先验知识注入大语言模型微调过程,提出了 Braille Knowledge-Based Fine-Tuning (BKFT) 方法,显著提升了模型在低资源下的翻译性能。此外,基于语法树的数据增强策略为盲文语料合成提供了新思路,后续研究可沿此路径探索跨语言盲文表征学习、盲文图像与文本的跨模态对齐等方向,进一步拓展盲文智能处理的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作