STRUCT_AMB_IND

github2024-02-03 更新2024-05-31 收录

下载链接：

https://github.com/ha3ci-lab/struct_amb_ind

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含第一个印度尼西亚语音数据集，用于结构上/句法上歧义句子的研究，每个歧义句子都有两种解歧文本。数据集中的歧义句子来源于英语句法歧义的类型，通过众包方式制作，每个歧义句子都有两种可能的解释，并由语言学家审核。

This dataset comprises the first Indonesian speech dataset designed for the study of structurally/syntactically ambiguous sentences, with each ambiguous sentence accompanied by two disambiguating texts. The ambiguous sentences in the dataset are derived from types of syntactic ambiguity found in English, created through a crowdsourcing approach. Each ambiguous sentence has two possible interpretations, which have been reviewed by linguists.

创建时间：

2023-10-19

原始信息汇总

数据集概述

数据集名称

STRUCT_AMB_IND

数据集内容

包含印尼语中结构/句法歧义句子的首个语音数据集。
每个歧义句子有两个不同的解释文本。

数据集构成

ind_speech
- 包含22位发言者的录音结果，其中2位为专业发言者，20位为本科生。
- 共有4800个.wav文件，按发言者分组。
- 文件命名格式：ID_(M/F)XX_TypeYY_ZZZZV.wav
text
- 包含两个文件：
  - ID_amb_disam_text.txt：包含400个歧义句子的800行文本，每个句子有两个解释。
  - ID_amb_disam_transcript.txt：包含4800行文本，对应每个录音文件。
keys
- 包含三个子目录：
  - spk_keys：包含每个发言者的<AMB_SENT_CODE>键。
  - train_dev_test_text_keys：包含400对歧义文本及其解释的训练、开发和测试键。
  - train_dev_test_spk_keys：包含4800对歧义语音转录及其解释的训练、开发和测试键。
other
- 包含用于ASR和SD额外训练数据的键，来自Indonesian LVCSR news corpus。

研究论文

论文标题：Speech Recognition and Meaning Interpretation: Towards Disambiguation of Structurally Ambiguous Spoken Utterances in Indonesian
发表于EMNLP 2023。
引用信息：

@inproceedings{widiaputri-etal-2023-speech, title = "Speech Recognition and Meaning Interpretation: Towards Disambiguation of Structurally Ambiguous Spoken Utterances in {I}ndonesian", author = "Widiaputri, Ruhiyah and Purwarianti, Ayu and Lestari, Dessi and Azizah, Kurniawati and Tanaya, Dipta and Sakti, Sakriani", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2023", address = "Singapore", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.1045", doi = "10.18653/v1/2023.emnlp-main.1045", }

搜集汇总

数据集介绍

构建方式

STRUCT_AMB_IND数据集的构建过程基于对印尼语中结构/句法歧义句的深入研究。该数据集从Taha等人提出的英语句法歧义类型中选取了四种类型，并通过众包方式生成了100个印尼语歧义句。每个歧义句均包含两种可能的解释，并由语言学家进行审核。此外，数据集还包含了22位说话者的录音，其中2位为专业说话者，20位为本科生，共生成4800个.wav文件。所有录音均按照说话者进行分组，并附有对应的歧义句及其解释文本。

特点

STRUCT_AMB_IND数据集是首个专注于印尼语结构歧义句的语音数据集，具有显著的研究价值。数据集不仅包含了400个歧义句及其对应的800个解释文本，还提供了4800个录音文件，涵盖了多种句法歧义类型。每个歧义句均经过语言学家的严格审核，确保了数据的准确性和可靠性。此外，数据集还提供了详细的训练、开发和测试集划分，为研究者提供了便利。

使用方法

使用STRUCT_AMB_IND数据集时，研究者可通过`ind_speech`目录访问录音文件，并通过`text`目录获取歧义句及其解释文本。数据集还提供了`keys`目录，其中包含了按说话者和训练集划分的键值列表，便于数据的分割和使用。若需使用额外的训练数据，可参考`other`目录中的`Indonesian LVCSR news corpus`。使用该数据集时，请务必引用相关研究论文，以确保学术规范。

背景与挑战

背景概述

STRUCT_AMB_IND数据集是首个专注于印尼语结构/句法歧义句及其消解文本的语音数据集，由Ruhiyah Widiaputri等研究人员于2023年创建，并发表于EMNLP 2023会议。该数据集旨在解决印尼语中结构歧义句的语音识别与语义消解问题，为自然语言处理领域提供了重要的研究资源。数据集基于Taha等人提出的句法歧义类型，通过众包方式生成了400个印尼语结构歧义句，并为每个句子提供了两种消解文本。所有句子均经过语言学家的审核，确保了数据的准确性与可靠性。该数据集不仅推动了印尼语语音识别技术的发展，也为多语言歧义消解研究提供了新的视角。

当前挑战

STRUCT_AMB_IND数据集在构建与应用过程中面临多重挑战。首先，印尼语作为一种资源相对匮乏的语言，其结构歧义句的标注与消解需要依赖语言学专家的深度参与，增加了数据构建的复杂性与成本。其次，语音数据的采集涉及22名不同背景的说话者，其发音差异与录音环境的不一致性对语音识别模型的训练提出了更高要求。此外，数据集的消解文本生成需确保语义的准确性与多样性，这对众包标注的质量控制提出了挑战。在应用层面，如何有效利用该数据集提升印尼语语音识别与歧义消解的性能，仍需进一步探索与优化。

常用场景

经典使用场景

STRUCT_AMB_IND数据集在自然语言处理领域中被广泛应用于研究印尼语中的结构歧义句子的消歧问题。通过提供400个结构歧义句子及其对应的两种解释文本，该数据集为开发自动语音识别和语义解析系统提供了宝贵的资源。研究人员可以利用这些数据训练和测试模型，以提高系统在处理复杂语言结构时的准确性和鲁棒性。

衍生相关工作

STRUCT_AMB_IND数据集衍生了一系列相关研究，特别是在印尼语自然语言处理领域。基于该数据集，研究人员开发了多种自动消歧模型和算法，进一步推动了语音识别和语义解析技术的发展。此外，该数据集还激发了其他低资源语言类似数据集的创建和研究，为全球自然语言处理领域的多样化发展做出了贡献。

数据集最近研究