five

本地生活课程语音转文本大模型语料库数据

收藏
浙江省数据知识产权登记平台2024-12-17 更新2024-12-18 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/105405
下载链接
链接失效反馈
官方服务:
资源简介:
本数据通过语音大模型将音频课程或视频课程转为文本,使得大语言模型可以从音频数据中间接学习到知识,扩充模型可用的数据类型,提升模型效果。本数据作为自然语言处理模型训练的原材料,可用于各AI大模型学习和理解结构化数据,帮助AI大模型优化、校准、迭代升级,具有很强的复用性,适用于市面上所有大语言模型的训练。本数据中各个课程的点赞数、评论数等可以帮助使用者判断观众对各类型课程的接受情况,点赞、评论等数字大,代表观众对该类型课程更加喜爱,接受程度高,为课程创作提供方向。1、数据收集:饿了么域内存在大量的视频及音频数据文件,包含商家课程,电销通话等,对于大语言模型来说是非常丰富的学习资料,需要将多模态数据转化为文本格式,以供大语言模型学习,本数据便是将商家课程的视频文件转为文本的结果,其中content字段是转译后的结果。 2、数据处理:通过语音大模型,将工程存储在oss上的视频文件,转化为音频的文本文件,记录课程名称、课程介绍、观众数、点赞数、评论数、观看次数、课程风格、详细介绍、图像信息、内容、是否敏感、敏感词、内容长度、类别,经过文本标准化,敏感词过滤后可作为数据资产可用于下游大模型的预训练和RAG,course_style字段为课程风格,1代表图文课程,2代表视频课程,内容长度为“内容”字段所包含的字符总数。 3、对于C端等一些对数据质量要求较高的场景,评判数据集是否包含黄暴恐信息,通过语言识别模型将既定的敏感词与content字段进行过滤,输出是否敏感和敏感词两列结果,是否敏感字段结果为TRUE,代表有敏感词,对应显示敏感词内容,FALSE为没有敏感词,对应敏感词字段为无。
提供机构:
浙江鸟潮供应链管理有限公司
创建时间:
2024-11-13
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
本地生活课程语音转文本大模型语料库数据是一个包含1002条记录的企业数据集,每日更新,用于自然语言处理模型的训练和优化。数据来源于饿了么域内的视频及音频文件,通过语音大模型转换为文本,包含课程名称、介绍、观众数等字段,适用于AI大模型的训练和课程创作方向的分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作