wicho/kor_3i4k
收藏数据集描述
数据集概述
3i4K数据集包含常用韩语词汇(由首尔国立大学语音语言处理实验室提供)和手动创建的包含短语的问题/命令。该数据集旨在基于语音转录本识别说话者的意图,某些情况下需要使用辅助声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖语调的话语。在像韩语这样的头部后置语言中,语调水平在识别说话者意图方面起着重要作用。
支持的任务和排行榜
intent-classification:该数据集可以通过CNN或BiLISTM-Att进行训练,以识别韩语口语话语的意图,并可以通过F1分数衡量其性能。
语言
数据集中的文本为韩语,关联的BCP-47代码为ko-KR。
数据集结构
数据实例
一个数据实例包含一个短语及其标签:
json { "label": 3, "text": "선수잖아 이 케이스 저 케이스 많을 거 아냐 선배라고 뭐 하나 인생에 도움도 안주는데 내가 이렇게 진지하게 나올 때 제대로 한번 조언 좀 해줘보지" }
数据字段
label:确定话语的意图,可以是以下之一:fragment(0)、statement(1)、question(2)、command(3)、rhetorical question(4)、rhetorical command(5)和intonation-dependent utterance(6)。text:关于家务、天气、交通等常见话题的韩语文本。
数据分割
数据分为包含55134个样本的训练集和包含6121个样本的测试集。
数据集创建
策划理由
对于像韩语这样的头部后置语言,语调可以是识别说话者意图的决定性因素。该数据集的目的是确定话语是片段、陈述、问题、命令还是修辞问题/命令,使用来自头部后置性的语调依赖性。这有望提高对韩语口语话语的语言理解,并有益于语音转文本应用。
源数据
初始数据收集和规范化
语料库由首尔国立大学语音语言处理实验室提供,包含来自韩国国家语言研究所的常用词汇和手动创建的命令和问题。话语涵盖天气、交通和股票等话题。随机选择了20k行。
源语言生产者是谁?
韩语母语者产生了这些命令和问题。
注释
注释过程
话语被分类为七个类别。他们提供了清晰的注释指南(参见此处),最终的注释者间一致性为0.85,最终决定通过多数投票完成。
注释者是谁?
注释由三位首尔韩语母语者完成。
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
该数据集由Won Ik Cho、Hyeon Seung Lee、Ji Won Yoon、Seok Min Kim和Nam Soo Kim策展。
许可信息
该数据集根据CC BY-SA-4.0许可。
引用信息
plaintext @article{cho2018speech, title={Speech Intention Understanding in a Head-final Language: A Disambiguation Utilizing Intonation-dependency}, author={Cho, Won Ik and Lee, Hyeon Seung and Yoon, Ji Won and Kim, Seok Min and Kim, Nam Soo}, journal={arXiv preprint arXiv:1811.04231}, year={2018} }
贡献
感谢@stevhliu添加此数据集。



