CAS-VSR-S68

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/jinchiniao/CAS-VSR-S68

下载链接

链接失效反馈

官方服务：

资源简介：

CAS-VSR-S68是一个唇读数据集，专为评估极端设置而设计，其中语音内容高度多样，涉及几乎所有常用汉字，而说话者数量有限。数据从10年的新闻广播节目中收集，但只有11位主持人作为说话者。

CAS-VSR-S68 is a lip-reading dataset specifically designed for evaluating extreme settings, where the speech content is highly diverse, encompassing nearly all commonly used Chinese characters, while the number of speakers is limited. The data was collected from a decade's worth of news broadcast programs, featuring only 11 hosts as speakers.

创建时间：

2024-04-29

原始信息汇总

数据集概述

数据集名称

CAS-VSR-S68

数据集描述

CAS-VSR-S68 是一个中文唇读数据集，旨在评估极端设置下的唇读性能，其中语音内容高度多样，涵盖几乎所有常用中文字符，但发言人数量有限。数据来源于10年间的电视新闻广播节目，仅有11位主持人作为发言人。

数据格式

视频片段以视觉帧的形式提供，分辨率为96x96像素，专注于唇部区域。
每个片段的语音内容包括中文字符、拼音转录、每个字符和单词的起止时间，以及字符和单词的总数。

示例帧

数据集提供了多个发言人的唇部区域示例帧，分辨率为96x96像素。

数据集时长分布

数据集总时长约68小时，详细时长分布如下：

发言人总时长（分钟）

S1 708.85

S2 671.99

S3 621.02

S4 584.59

S5 461.52

S6 324.00

S7 294.03

S8 171.56

S9 143.19

S10 82.91

S11 39.21

总计 4103.37(68.3小时)

数据集分割

默认情况下，10位发言人的数据用于训练，每次使用一位发言人进行适应和测试。

评估结果

使用发言人6（男性）和发言人10（女性）分别进行评估的结果如下：
- 发言人6（男性）：
  
  适应时长（分钟）基准线（%）提议方法（%）
  
  0 19.61 19.37
  
  1 21.53 20.69
  
  3 18.65 18.55
  
  5 17.55 16.72
- 发言人10（女性）：
  
  适应时长（分钟）基准线（%）提议方法（%）
  
  0 44.93 43.24
  
  1 38.63 37.38
  
  3 36.37 35.64
  
  5 33.79 33.17

数据集访问

访问数据集需扫描并发送签署的协议至lipreading@vipl.ict.ac.cn，仅限于大学和研究机构用于研究目的。

文件结构

数据集包含lip_imgs（唇部图像）、utterance（对应文本）、uuid2spk.csv（UUID到发言人映射）和CAS-VSR-S68-Release Agreement-v3.pdf（数据集访问协议）。

数据隐私和安全

由于数据隐私和安全考虑，仅提供分辨率为96x96像素的唇部视频区域。

引用信息

使用此数据集时，请引用： bibtex @inproceedings{Luo_2023_BMVC, author = {Songtao Luo and Shuang Yang and Shiguang Shan and Xilin Chen}, title = {Learning Separable Hidden Unit Contributions for Speaker-Adaptive Visual Speech Recognition}, booktitle = {34th British Machine Vision Conference 2023, {BMVC} 2023, Aberdeen, UK, November 20-24, 2023}, publisher = {BMVA}, year = {2023}, url = {https://bmvc2022.mpi-inf.mpg.de/BMVC2023/0146.pdf} }

搜集汇总

数据集介绍

构建方式

CAS-VSR-S68数据集的构建基于《新闻联播》节目，历时十余年，精选了11位主持人的视频片段。这些视频片段经过处理，仅保留了唇部区域的图像，分辨率为96x96像素，确保了数据集在视觉上的专注性。每个视频片段不仅包含视觉帧，还附带了中文汉字、拼音转录、每个字和词的起止时间，以及字词总数等详细信息。这种精细的标注方式使得数据集在语音识别和唇语研究中具有极高的应用价值。

特点

CAS-VSR-S68数据集的显著特点在于其高度的多样性和有限的说话人数量。数据集涵盖了几乎所有常见的中文汉字，确保了语音内容的广泛性，而仅有的11位主持人则限制了说话人的数量，为研究者提供了一个在多样性与一致性之间取得平衡的实验平台。此外，数据集的68小时总时长和详细的标注信息，使其成为评估视觉语音识别系统在不同说话人适应性方面的理想选择。

使用方法

使用CAS-VSR-S68数据集时，用户需先签署相关协议并发送至指定邮箱以获取访问权限。数据集的文件结构清晰，包含唇部图像序列、对应的文本转录文件以及UUID与说话人映射的CSV文件。用户可以通过解压缩命令获取具体数据，并根据UUID定位特定视频片段。数据集默认将10位说话人的数据用于训练，每次留一位说话人进行适应和测试，这种划分方式有助于评估模型在不同说话人间的泛化能力。

背景与挑战

背景概述

CAS-VSR-S68数据集是由中国科学院计算技术研究所的研究团队创建的，专门用于评估在语音内容高度多样且涉及几乎所有常见汉字的情况下，有限数量说话者的唇读挑战。该数据集从超过10年的《新闻联播》节目中收集，仅包含11位主持人的语音数据。CAS-VSR-S68的创建旨在推动视觉语音识别技术的发展，特别是在说话者适应性和语音内容多样性方面的研究。通过提供详细的语音内容标注和唇部区域的低分辨率图像，该数据集为研究者提供了一个独特的平台，以探索和优化唇读算法的性能。

当前挑战

CAS-VSR-S68数据集面临的主要挑战包括：首先，语音内容的多样性极高，涵盖几乎所有常见汉字，这增加了模型识别的复杂性。其次，尽管语音内容丰富，但说话者数量有限，这可能导致模型在适应新说话者时表现不佳。此外，数据集的构建过程中，如何从长时间的视频中精确提取唇部区域并进行有效标注，也是一个技术难题。最后，数据隐私和安全问题限制了数据的使用范围，仅允许在特定条件下访问和使用，这进一步增加了数据处理的复杂性。

常用场景

经典使用场景

CAS-VSR-S68数据集的经典使用场景主要集中在唇语识别领域，尤其是在处理高度多样化的语音内容和有限说话者数量的情况下。该数据集通过提供高分辨率的唇部区域图像和详细的语音转录信息，为研究者提供了一个评估和优化唇语识别算法的理想平台。研究者可以利用这些数据进行模型训练和测试，特别是在处理不同说话者的语音适应性问题上，CAS-VSR-S68展现了其独特的优势。

实际应用

CAS-VSR-S68数据集在实际应用中具有广泛的前景，特别是在需要高精度语音识别的场景中，如安全监控、医疗辅助和教育技术等。通过利用该数据集训练的唇语识别模型，可以有效提高在这些场景中的语音识别准确率，特别是在嘈杂环境或说话者数量有限的情况下。此外，该数据集还可以用于开发个性化的语音识别系统，以适应不同用户的需求。

衍生相关工作

CAS-VSR-S68数据集的发布催生了一系列相关的经典工作，特别是在唇语识别和语音适应性研究领域。例如，基于该数据集的研究论文《Learning Separable Hidden Unit Contributions for Speaker-Adaptive Visual Speech Recognition》提出了一种新的方法来优化唇语识别模型，特别是在处理不同说话者的语音适应性问题上。此外，该数据集还激发了其他研究者开发新的算法和模型，以进一步提高唇语识别的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

发言人	总时长（分钟）
S1	708.85
S2	671.99
S3	621.02
S4	584.59
S5	461.52
S6	324.00
S7	294.03
S8	171.56
S9	143.19
S10	82.91
S11	39.21
总计	4103.37(68.3小时)

适应时长（分钟）	基准线（%）	提议方法（%）
0	19.61	19.37
1	21.53	20.69
3	18.65	18.55
5	17.55	16.72

适应时长（分钟）	基准线（%）	提议方法（%）
0	44.93	43.24
1	38.63	37.38
3	36.37	35.64
5	33.79	33.17