five

大模型语料

收藏
福建大数据交易所2024-12-31 更新2025-01-08 收录
下载链接:
https://trade.fjbdex.com/ltywpt/data-market/detail?time=1780417023679&id=1873998690200002561&isXxjssc=false
下载链接
链接失效反馈
官方服务:
资源简介:
用于训练大规模的文本、图片、视频等数据集合。(1)通用文本数据集:微信公众号、百度百科、知乎、CSDN等网页常见的文本数据。 (2)音频文本对数据集:普通话数据成品库(训练语音识别模型)。 (3)OCR数据集:数据涵盖中文手写、中文文档、中文试卷、盖章图片、中文表格、图表图片、中英文证照/票据类图片等
提供机构:
北京智汇启明科技有限公司
创建时间:
2024-12-31
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含通用文本、音频文本对和OCR三类数据,适用于大规模模型训练,由北京智汇启明科技有限公司提供。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作