NOTSOFAR-1|语音识别数据集|说话人日志数据集
收藏数据集概述
数据集介绍
欢迎参加“NOTSOFAR-1: 单设备远程会议转录”挑战赛。本数据集包含用于NOTSOFAR-1挑战赛的基准系统代码。
基准结果
基准结果在NOTSOFAR dev-set-1上的表现如下,以tcpWER / tcORC-WER (会话数)
格式呈现:
单通道 | 多通道 | |
---|---|---|
所有会话 | 46.8 / 38.5 (177) | 32.4 / 26.7 (106) |
#自然会议 | 47.6 / 40.2 (30) | 32.3 / 26.2 (18) |
#辩论重叠 | 54.9 / 44.7 (39) | 38.0 / 31.4 (24) |
#无重叠轮次 | 32.4 / 29.7 (10) | 21.2 / 18.8 (6) |
#高瞬态噪声 | 51.0 / 43.7 (10) | 33.6 / 29.1 (5) |
#靠近白板谈话 | 55.4 / 43.9 (40) | 39.9 / 31.2 (22) |
数据集下载
NOTSOFAR-1挑战赛提供两个数据集:一个记录的会议数据集和一个模拟训练数据集。
会议数据集
NOTSOFAR-1记录的会议数据集是一个包含315个会议的集合,每个会议平均6分钟,记录在30个会议室中,有4-8名与会者,共有35名独特的演讲者。该数据集捕捉了现实世界声学条件和对话动态的广泛范围。
下载
可以使用utils/azure_storage.py
中的download_meeting_subset
函数下载数据集。
模拟训练数据集
NOTSOFAR-1训练数据集是一个1000小时的模拟训练数据集,通过增强真实性合成,以实现现实世界的泛化,包含15,000个真实的声学传递函数。
下载
可以使用utils/azure_storage.py
中的download_simulated_subset
函数下载数据集。
数据许可
该公共数据目前仅在NOTSOFAR挑战赛活动中许可使用。我们正在积极努力扩大其可用性,以便学术或商业用途。我们预计将很快发布公告,以实现更广泛和更有影响力的数据使用。请继续关注更新。

- 1NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription微软 · 2024年
yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
密云区2022年常住人口情况
该数据是密云区提供的密云区2022年常住人口情况信息,包括1个文本。
北京市公共数据开放平台 收录
惠州市惠阳区年末常住人口信息
惠州市惠阳区年末常住人口,该数据包含了2021年-2022年惠州市惠阳区年末常住人口的数据,应用于惠州市惠阳区人口分析服务场景,经由统计机构统计汇总而成的数据。
开放广东 收录
Differential introgression in a mosaic hybrid zone reveals candidate barrier genes
Hybrid zones act as genomic sieves; although globally advantageous alleles will spread throughout the zone and neutral alleles can be freely exchanged between species, introgression will be restricted for genes that contribute to reproductive barriers or local adaptation. Seminal fluid proteins (SFPs) are known to contribute to reproductive barriers in insects and have been proposed as candidate barrier genes in the hybridizing field crickets G. pennsylvanicus and G. firmus. Here, we have used 125 SNPs to characterize patterns of differential introgression and to identify genes that may contribute to prezygotic barriers between these species. Using a transcriptome scan of the male cricket accessory gland (the site of SFP synthesis), we identified genes with major allele frequency differences between the species. We then compared patterns of introgression for genes encoding seminal fluid proteins with patterns for genes expressed in the same tissue that do not encode SFPs. We find no evi...
DataONE 收录
Multi-Text CIR (MTCIR)
MTCIR是一个大规模的合成数据集,包含340万图像对和1770万修改文本。该数据集由亚马逊公司收集,旨在解决组合图像检索领域数据不足的问题,通过多模态大型语言模型生成图像对的修改文本,并提供了多个简短的修改文本,以覆盖各种属性,更好地反映人类查询构建方式,为CIR模型提供更真实、全面的训练基础。
arXiv 收录