five

juice500/spoken_sts

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/juice500/spoken_sts
下载链接
链接失效反馈
官方服务:
资源简介:
SpokenSTS数据集是语义文本相似性(Semantic Textual Similarity, STS)的口语版本,用于测试语义句子级别的嵌入。它包含数千对人类标注的句子对,用于评估模型是否能够捕捉句子语义。数据集包含五个任务(STS12至STS16),每个任务有若干子任务,每个子任务包含几十个独特的句子对。数据集总共有638个独特的句子对,每个句子对有4个说话者的发音,总计2552行数据。句子对的相似度范围从0.0到5.0。音频被重新采样为16kHz。

SpokenSTS数据集是语义文本相似性(Semantic Textual Similarity, STS)的口语版本,用于测试语义句子级别的嵌入。它包含数千对人类标注的句子对,用于评估模型是否能够捕捉句子语义。数据集包含五个任务(STS12至STS16),每个任务有若干子任务,每个子任务包含几十个独特的句子对。数据集总共有638个独特的句子对,每个句子对有4个说话者的发音,总计2552行数据。句子对的相似度范围从0.0到5.0。音频被重新采样为16kHz。
提供机构:
juice500
原始信息汇总

SpokenSTS Dataset 概述

数据集特征

  • task: 字符串类型
  • subtask: 字符串类型
  • similarity: 浮点数类型
  • speaker_id: 整数类型
  • pair_id: 整数类型
  • audio_a: 音频类型,采样率为16000 Hz
  • audio_b: 音频类型,采样率为16000 Hz
  • sentence_a: 字符串类型
  • sentence_b: 字符串类型

数据集结构

  • 包含五个任务:STS12 ~ STS16。
  • 每个任务有多个子任务,每个子任务包含数十个独特的句子对。
  • 总共有638个独特的句子对。
  • 每个句子对由4个不同的说话者发音,总计2552行数据。
  • 句子对的相似度范围从0.0到5.0。

数据集大小

  • 测试集大小:1713645707.328字节
  • 下载大小:1575109909字节
  • 数据集总大小:1713645707.328字节

音频信息

  • 音频采样率:16000 Hz
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作