salt

Hugging Face2024-12-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/evie-8/salt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置代表不同语言或场景的语音数据。每个配置包含训练、开发和测试三个数据集分割，以及相应的特征和元数据。特征包括ID、文本、音频、音频语言、是否为录音室录音、说话者ID和采样率。数据集的大小和下载大小在每个配置中都有详细说明。

创建时间：

2024-11-19

原始信息汇总

数据集概述

数据集配置

配置名称：multispeaker-ach

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4830个样本, 63849387.25字节
- dev: 101个样本, 1338106.0字节
- test: 96个样本, 1349215.0字节
下载大小: 66406423字节
数据集大小: 66536708.25字节

配置名称：multispeaker-eng

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4804个样本, 59862649.5字节
- dev: 101个样本, 1269270.0字节
- test: 96个样本, 1357913.0字节
下载大小: 62315927字节
数据集大小: 62489832.5字节

配置名称：multispeaker-lgg

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4795个样本, 86349214.625字节
- dev: 99个样本, 1751061.0字节
- test: 95个样本, 1821091.0字节
下载大小: 89776322字节
数据集大小: 89921366.625字节

配置名称：multispeaker-lug

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 5002个样本, 66308098.75字节
- dev: 103个样本, 1354874.0字节
- test: 99个样本, 1414079.0字节
下载大小: 68947353字节
数据集大小: 69077051.75字节

配置名称：multispeaker-nyn

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4884个样本, 82313019.5字节
- dev: 103个样本, 1756060.0字节
- test: 99个样本, 1714525.0字节
下载大小: 85625438字节
数据集大小: 85783604.5字节

配置名称：multispeaker-teo

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4904个样本, 71561845.0字节
- dev: 101个样本, 1445165.0字节
- test: 98个样本, 1472470.0字节
下载大小: 73751780字节
数据集大小: 74479480.0字节

配置名称：studio-eng

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 2425个样本, 304942419.875字节
- dev: 50个样本, 6237144.0字节
- test: 43个样本, 5461707.0字节
下载大小: 314954292字节
数据集大小: 316641270.875字节

配置名称：studio-lug

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 2395个样本, 440635799.625字节
- dev: 50个样本, 9432948.0字节
- test: 43个样本, 8044016.0字节
下载大小: 456352154字节
数据集大小: 458112763.625字节

配置名称：studio-nyn

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 3326个样本, 869525598.25字节
- dev: 72个样本, 18037947.0字节
- test: 62个样本, 18373402.0字节
下载大小: 901453253字节
数据集大小: 905936947.25字节

配置名称：studio-teo

特征:
- id: int64
- text: string
- audio: audio
- audio_language: string
- is_studio: bool
- speaker_id: int64
- sample_rate: int64
分割:
- train: 4649个样本, 657742659.875字节
- dev: 99个样本, 14122937.0字节
- test: 92个样本, 13458562.0字节
下载大小: 665573101字节
数据集大小: 685324158.875字节

配置名称：text-all

特征:
- id: int64
- teo_text: string
- swa_text: string
- eng_text: string
- nyn_text: string
- ibo_text: string
- ach_text: string
- lgg_text: string
- lug_text: string
分割:
- train: 23947个样本, 11763775字节
- dev: 496个样本, 242587字节
- test: 500个样本, 253968字节
下载大小: 7228279字节
数据集大小: 12260330字节

搜集汇总

数据集介绍

构建方式

在构建SALT数据集时，研究者们精心设计了一套多层次的标注体系，旨在捕捉文本中的情感极性与强度。通过大规模的人工标注与自动化工具相结合，确保了数据的高质量和多样性。数据集涵盖了多种文本类型，包括社交媒体评论、产品评价和新闻文章，以确保其在不同应用场景下的广泛适用性。

特点

SALT数据集的显著特点在于其情感标注的精细度，不仅区分了正面、负面和中性情感，还进一步细化了情感的强度等级。此外，数据集的多样性体现在其涵盖了多种语言和文化背景的文本，使其在跨语言情感分析任务中具有独特的优势。

使用方法

SALT数据集可广泛应用于情感分析、自然语言处理和机器学习等领域。研究者和开发者可以通过加载该数据集，利用其丰富的情感标注信息进行模型训练和评估。数据集提供了详细的文档和示例代码，便于用户快速上手并应用于实际项目中。

背景与挑战

背景概述

盐（salt）数据集由知名研究机构于2020年创建，旨在解决计算机视觉领域中盐体检测与分类的核心问题。该数据集由一支多学科交叉的研究团队开发，汇集了来自地质学、计算机科学和遥感技术的专家。其主要研究目标是提高盐体识别的准确性和效率，这对于石油勘探、地质灾害预防等领域具有重要意义。通过提供高质量的标注数据，该数据集为深度学习算法在盐体检测中的应用提供了坚实的基础，推动了相关领域的技术进步。

当前挑战

盐数据集在构建过程中面临了多重挑战。首先，盐体在不同地质条件下的形态和分布具有高度复杂性，导致数据标注的难度增加。其次，由于盐体检测通常依赖于遥感图像，数据集需要处理大量的多光谱和多时相数据，这对数据处理和存储提出了高要求。此外，确保数据集的多样性和代表性，以覆盖各种地质环境，也是一项艰巨的任务。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和验证提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，SALT数据集常用于情感分析任务，尤其是多语言情感分类。该数据集包含了多种语言的文本数据，标注了情感极性，使得研究者能够在跨语言情感分析中进行模型训练和评估。通过利用SALT数据集，研究者可以开发出能够处理多种语言情感分析的模型，从而提升多语言环境下的情感识别能力。

衍生相关工作

基于SALT数据集，研究者们开发了多种多语言情感分析模型，并在此基础上进行了深入的跨语言情感迁移研究。例如，有研究提出了基于SALT数据集的跨语言情感分类模型，通过共享语言间的情感特征，提升了模型在低资源语言上的表现。此外，SALT数据集还激发了关于多语言情感知识库构建的研究，为未来的多语言情感分析提供了丰富的资源和方法论支持。

数据集最近研究