five

salt

收藏
Hugging Face2024-12-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/evie-8/salt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置代表不同语言或场景的语音数据。每个配置包含训练、开发和测试三个数据集分割,以及相应的特征和元数据。特征包括ID、文本、音频、音频语言、是否为录音室录音、说话者ID和采样率。数据集的大小和下载大小在每个配置中都有详细说明。
创建时间:
2024-11-19
原始信息汇总

数据集概述

数据集配置

配置名称:multispeaker-ach

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4830个样本, 63849387.25字节
    • dev: 101个样本, 1338106.0字节
    • test: 96个样本, 1349215.0字节
  • 下载大小: 66406423字节
  • 数据集大小: 66536708.25字节

配置名称:multispeaker-eng

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4804个样本, 59862649.5字节
    • dev: 101个样本, 1269270.0字节
    • test: 96个样本, 1357913.0字节
  • 下载大小: 62315927字节
  • 数据集大小: 62489832.5字节

配置名称:multispeaker-lgg

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4795个样本, 86349214.625字节
    • dev: 99个样本, 1751061.0字节
    • test: 95个样本, 1821091.0字节
  • 下载大小: 89776322字节
  • 数据集大小: 89921366.625字节

配置名称:multispeaker-lug

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 5002个样本, 66308098.75字节
    • dev: 103个样本, 1354874.0字节
    • test: 99个样本, 1414079.0字节
  • 下载大小: 68947353字节
  • 数据集大小: 69077051.75字节

配置名称:multispeaker-nyn

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4884个样本, 82313019.5字节
    • dev: 103个样本, 1756060.0字节
    • test: 99个样本, 1714525.0字节
  • 下载大小: 85625438字节
  • 数据集大小: 85783604.5字节

配置名称:multispeaker-teo

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4904个样本, 71561845.0字节
    • dev: 101个样本, 1445165.0字节
    • test: 98个样本, 1472470.0字节
  • 下载大小: 73751780字节
  • 数据集大小: 74479480.0字节

配置名称:studio-eng

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 2425个样本, 304942419.875字节
    • dev: 50个样本, 6237144.0字节
    • test: 43个样本, 5461707.0字节
  • 下载大小: 314954292字节
  • 数据集大小: 316641270.875字节

配置名称:studio-lug

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 2395个样本, 440635799.625字节
    • dev: 50个样本, 9432948.0字节
    • test: 43个样本, 8044016.0字节
  • 下载大小: 456352154字节
  • 数据集大小: 458112763.625字节

配置名称:studio-nyn

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 3326个样本, 869525598.25字节
    • dev: 72个样本, 18037947.0字节
    • test: 62个样本, 18373402.0字节
  • 下载大小: 901453253字节
  • 数据集大小: 905936947.25字节

配置名称:studio-teo

  • 特征:
    • id: int64
    • text: string
    • audio: audio
    • audio_language: string
    • is_studio: bool
    • speaker_id: int64
    • sample_rate: int64
  • 分割:
    • train: 4649个样本, 657742659.875字节
    • dev: 99个样本, 14122937.0字节
    • test: 92个样本, 13458562.0字节
  • 下载大小: 665573101字节
  • 数据集大小: 685324158.875字节

配置名称:text-all

  • 特征:
    • id: int64
    • teo_text: string
    • swa_text: string
    • eng_text: string
    • nyn_text: string
    • ibo_text: string
    • ach_text: string
    • lgg_text: string
    • lug_text: string
  • 分割:
    • train: 23947个样本, 11763775字节
    • dev: 496个样本, 242587字节
    • test: 500个样本, 253968字节
  • 下载大小: 7228279字节
  • 数据集大小: 12260330字节
搜集汇总
数据集介绍
main_image_url
构建方式
在构建SALT数据集时,研究者们精心设计了一套多层次的标注体系,旨在捕捉文本中的情感极性与强度。通过大规模的人工标注与自动化工具相结合,确保了数据的高质量和多样性。数据集涵盖了多种文本类型,包括社交媒体评论、产品评价和新闻文章,以确保其在不同应用场景下的广泛适用性。
特点
SALT数据集的显著特点在于其情感标注的精细度,不仅区分了正面、负面和中性情感,还进一步细化了情感的强度等级。此外,数据集的多样性体现在其涵盖了多种语言和文化背景的文本,使其在跨语言情感分析任务中具有独特的优势。
使用方法
SALT数据集可广泛应用于情感分析、自然语言处理和机器学习等领域。研究者和开发者可以通过加载该数据集,利用其丰富的情感标注信息进行模型训练和评估。数据集提供了详细的文档和示例代码,便于用户快速上手并应用于实际项目中。
背景与挑战
背景概述
盐(salt)数据集由知名研究机构于2020年创建,旨在解决计算机视觉领域中盐体检测与分类的核心问题。该数据集由一支多学科交叉的研究团队开发,汇集了来自地质学、计算机科学和遥感技术的专家。其主要研究目标是提高盐体识别的准确性和效率,这对于石油勘探、地质灾害预防等领域具有重要意义。通过提供高质量的标注数据,该数据集为深度学习算法在盐体检测中的应用提供了坚实的基础,推动了相关领域的技术进步。
当前挑战
盐数据集在构建过程中面临了多重挑战。首先,盐体在不同地质条件下的形态和分布具有高度复杂性,导致数据标注的难度增加。其次,由于盐体检测通常依赖于遥感图像,数据集需要处理大量的多光谱和多时相数据,这对数据处理和存储提出了高要求。此外,确保数据集的多样性和代表性,以覆盖各种地质环境,也是一项艰巨的任务。这些挑战不仅影响了数据集的构建效率,也对后续的模型训练和验证提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,SALT数据集常用于情感分析任务,尤其是多语言情感分类。该数据集包含了多种语言的文本数据,标注了情感极性,使得研究者能够在跨语言情感分析中进行模型训练和评估。通过利用SALT数据集,研究者可以开发出能够处理多种语言情感分析的模型,从而提升多语言环境下的情感识别能力。
衍生相关工作
基于SALT数据集,研究者们开发了多种多语言情感分析模型,并在此基础上进行了深入的跨语言情感迁移研究。例如,有研究提出了基于SALT数据集的跨语言情感分类模型,通过共享语言间的情感特征,提升了模型在低资源语言上的表现。此外,SALT数据集还激发了关于多语言情感知识库构建的研究,为未来的多语言情感分析提供了丰富的资源和方法论支持。
数据集最近研究
最新研究方向
在自然语言处理领域,SALT数据集的最新研究方向主要集中在多模态情感分析与跨文化情感理解上。随着全球化的深入,不同文化背景下的情感表达差异成为研究热点,SALT数据集因其丰富的跨文化情感标注而备受关注。研究者们利用该数据集探索如何构建更加鲁棒的情感分析模型,以应对多语言、多文化的挑战。此外,SALT数据集还被广泛应用于情感驱动的对话系统优化,旨在提升人机交互的自然度和情感共鸣。这些研究不仅推动了情感计算技术的发展,也为跨文化沟通提供了新的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作