five

Spoken corpus Gos 2.0

收藏
SSH Open MarketPlace2023-10-17 更新2024-08-03 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/CsSCK0
下载链接
链接失效反馈
官方服务:
资源简介:
This corpus contains transcripts from radio and TV shows, school lessons, private conversations, business meetings. It is composed of three different sources: [Spoken corpus Gos 1.1](http://hdl.handle.net/11356/1438) (112 hours, 1 million words), [Spoken corpus Gos VideoLectures 4.2](http://hdl.handle.net/11356/1444) (22 hours, 179,000 words), a selection from the [ASR database ARTUR 1.0](http://hdl.handle.net/11356/1772) (185 hours, 1.2 mllion words). The corpus is available for download from CLARIN.SI as well as through a dedicated webconcordancer.

本语料库收录广播与电视节目、课堂教学、私人对话及商务会议的转写文本。其数据来源于三个不同的语料源:[口语语料库Gos 1.1(Spoken corpus Gos 1.1)](http://hdl.handle.net/11356/1438)(时长112小时,含100万词)、[口语语料库Gos视频讲座4.2(Spoken corpus Gos VideoLectures 4.2)](http://hdl.handle.net/11356/1444)(时长22小时,含17.9万词),以及[自动语音识别(Automatic Speech Recognition)数据库ARTUR 1.0](http://hdl.handle.net/11356/1772)的精选子集(时长185小时,含120万词)。该语料库可通过CLARIN.SI平台以及专属的网页语词索引器下载获取。
创建时间:
2023-10-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作