juice500/spoken_sts
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/juice500/spoken_sts
下载链接
链接失效反馈官方服务:
资源简介:
SpokenSTS数据集是语义文本相似性(Semantic Textual Similarity, STS)的口语版本,用于测试语义句子级别的嵌入。它包含数千对人类标注的句子对,用于评估模型是否能够捕捉句子语义。数据集包含五个任务(STS12至STS16),每个任务有若干子任务,每个子任务包含几十个独特的句子对。数据集总共有638个独特的句子对,每个句子对有4个说话者的发音,总计2552行数据。句子对的相似度范围从0.0到5.0。音频被重新采样为16kHz。
SpokenSTS数据集是语义文本相似性(Semantic Textual Similarity, STS)的口语版本,用于测试语义句子级别的嵌入。它包含数千对人类标注的句子对,用于评估模型是否能够捕捉句子语义。数据集包含五个任务(STS12至STS16),每个任务有若干子任务,每个子任务包含几十个独特的句子对。数据集总共有638个独特的句子对,每个句子对有4个说话者的发音,总计2552行数据。句子对的相似度范围从0.0到5.0。音频被重新采样为16kHz。
提供机构:
juice500
原始信息汇总
SpokenSTS Dataset 概述
数据集特征
- task: 字符串类型
- subtask: 字符串类型
- similarity: 浮点数类型
- speaker_id: 整数类型
- pair_id: 整数类型
- audio_a: 音频类型,采样率为16000 Hz
- audio_b: 音频类型,采样率为16000 Hz
- sentence_a: 字符串类型
- sentence_b: 字符串类型
数据集结构
- 包含五个任务:STS12 ~ STS16。
- 每个任务有多个子任务,每个子任务包含数十个独特的句子对。
- 总共有638个独特的句子对。
- 每个句子对由4个不同的说话者发音,总计2552行数据。
- 句子对的相似度范围从0.0到5.0。
数据集大小
- 测试集大小:1713645707.328字节
- 下载大小:1575109909字节
- 数据集总大小:1713645707.328字节
音频信息
- 音频采样率:16000 Hz
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



