wicho/kor_3i4k

Name: wicho/kor_3i4k
Creator: wicho
Published: 2024-01-18 11:07:37
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/wicho/kor_3i4k

下载链接

链接失效反馈

官方服务：

资源简介：

3i4K数据集是一组常用的韩语词汇（由首尔国立大学语音语言处理实验室提供）和手动创建的问题/命令，包含短句。其目标是根据文本转录识别说话者的意图，并在某些情况下需要使用辅助的声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖于语调的话语。这对于像韩语这样的头尾语言来说非常重要，因为语调水平在识别说话者意图中起着重要作用。

提供机构：

wicho

原始信息汇总

数据集描述

数据集概述

3i4K数据集包含常用韩语词汇（由首尔国立大学语音语言处理实验室提供）和手动创建的包含短语的问题/命令。该数据集旨在基于语音转录本识别说话者的意图，某些情况下需要使用辅助声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖语调的话语。在像韩语这样的头部后置语言中，语调水平在识别说话者意图方面起着重要作用。

支持的任务和排行榜

intent-classification：该数据集可以通过CNN或BiLISTM-Att进行训练，以识别韩语口语话语的意图，并可以通过F1分数衡量其性能。

语言

数据集中的文本为韩语，关联的BCP-47代码为ko-KR。

数据集结构

数据实例

一个数据实例包含一个短语及其标签：

json { "label": 3, "text": "선수잖아 이 케이스 저 케이스 많을 거 아냐 선배라고 뭐 하나 인생에 도움도 안주는데 내가 이렇게 진지하게 나올 때 제대로 한번 조언 좀 해줘보지" }

数据字段

label：确定话语的意图，可以是以下之一：fragment（0）、statement（1）、question（2）、command（3）、rhetorical question（4）、rhetorical command（5）和intonation-dependent utterance（6）。
text：关于家务、天气、交通等常见话题的韩语文本。

数据分割

数据分为包含55134个样本的训练集和包含6121个样本的测试集。

数据集创建

策划理由

对于像韩语这样的头部后置语言，语调可以是识别说话者意图的决定性因素。该数据集的目的是确定话语是片段、陈述、问题、命令还是修辞问题/命令，使用来自头部后置性的语调依赖性。这有望提高对韩语口语话语的语言理解，并有益于语音转文本应用。

源数据

初始数据收集和规范化

语料库由首尔国立大学语音语言处理实验室提供，包含来自韩国国家语言研究所的常用词汇和手动创建的命令和问题。话语涵盖天气、交通和股票等话题。随机选择了20k行。

源语言生产者是谁？

韩语母语者产生了这些命令和问题。

注释

注释过程

话语被分类为七个类别。他们提供了清晰的注释指南（参见此处），最终的注释者间一致性为0.85，最终决定通过多数投票完成。

注释者是谁？

注释由三位首尔韩语母语者完成。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

该数据集由Won Ik Cho、Hyeon Seung Lee、Ji Won Yoon、Seok Min Kim和Nam Soo Kim策展。

许可信息

该数据集根据CC BY-SA-4.0许可。

引用信息

plaintext @article{cho2018speech, title={Speech Intention Understanding in a Head-final Language: A Disambiguation Utilizing Intonation-dependency}, author={Cho, Won Ik and Lee, Hyeon Seung and Yoon, Ji Won and Kim, Seok Min and Kim, Nam Soo}, journal={arXiv preprint arXiv:1811.04231}, year={2018} }

贡献

感谢@stevhliu添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集