大模型语料
收藏福建大数据交易所2024-12-31 更新2025-01-08 收录
下载链接:
https://trade.fjbdex.com/ltywpt/data-market/detail?time=1780417023679&id=1873998690200002561&isXxjssc=false
下载链接
链接失效反馈官方服务:
资源简介:
用于训练大规模的文本、图片、视频等数据集合。(1)通用文本数据集:微信公众号、百度百科、知乎、CSDN等网页常见的文本数据。
(2)音频文本对数据集:普通话数据成品库(训练语音识别模型)。
(3)OCR数据集:数据涵盖中文手写、中文文档、中文试卷、盖章图片、中文表格、图表图片、中英文证照/票据类图片等
提供机构:
北京智汇启明科技有限公司
创建时间:
2024-12-31
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含通用文本、音频文本对和OCR三类数据,适用于大规模模型训练,由北京智汇启明科技有限公司提供。
以上内容由遇见数据集搜集并总结生成



