ananymous000/MathBridge8.25M
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ananymous000/MathBridge8.25M
下载链接
链接失效反馈官方服务:
资源简介:
MathBridge数据集用于训练和评估自动语音识别(ASR)和文本到语音(TTS)模型,旨在帮助有听力或视觉障碍的学生更好地学习数学。数据集包含从LLM生成的合成数据、Arxiv的原始数据以及通过pix2tex和New方法获取的原始数据。数据集的总大小为0.49M,经过增强后达到8.25M。
MathBridge数据集用于训练和评估自动语音识别(ASR)和文本到语音(TTS)模型,旨在帮助有听力或视觉障碍的学生更好地学习数学。数据集包含从LLM生成的合成数据、Arxiv的原始数据以及通过pix2tex和New方法获取的原始数据。数据集的总大小为0.49M,经过增强后达到8.25M。
提供机构:
ananymous000
原始信息汇总
数据集概述
数据集任务类别
- 文本生成
数据集大小类别
- 1M<n<10M
数据源
data/train_augmented_arxiv_merged_delete_outlier.jsonl
数据集统计信息
数据来源及类型
| 来源 | 类型 | 大小 |
|---|---|---|
| LLM | 合成数据 | 76K |
| Arxiv | 252.2K | |
| pix2tex | 原始数据 | 235K |
| New | 原始数据 | 17.2K |
| Total | 0.49M | |
| Augmented Total | 8.25M |



