five

AliMeeting数据集

收藏
魔搭社区2026-05-30 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/modelscope/AliMeeting
下载链接
链接失效反馈
官方服务:
资源简介:
AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。

AliMeeting contains a total of 118.75 hours of speech data, split into a 104.75-hour training set (Train), a 4-hour validation set (Eval), and a 10-hour test set (Test). The training and validation sets respectively include 212 and 8 meetings, each of which features discussions with multiple speakers that last 15 to 30 minutes.
提供机构:
maas
创建时间:
2022-12-08
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AliMeeting是一个中文多通道会议语音数据集,包含120小时真实会议录音,数据采集包括8通道麦克风阵列的远场数据和耳机麦克风的近场数据,覆盖多种会议室环境和会议主题。该数据集适用于中文会议场景的多通道多说话人转录任务,具有高语音重叠率和均衡的说话人性别比例,数据已分为训练集、验证集和测试集,遵循Apache License 2.0许可。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作