five

wicho/kor_3i4k

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/wicho/kor_3i4k
下载链接
链接失效反馈
官方服务:
资源简介:
3i4K数据集是一组常用的韩语词汇(由首尔国立大学语音语言处理实验室提供)和手动创建的问题/命令,包含短句。其目标是根据文本转录识别说话者的意图,并在某些情况下需要使用辅助的声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖于语调的话语。这对于像韩语这样的头尾语言来说非常重要,因为语调水平在识别说话者意图中起着重要作用。

3i4K数据集是一组常用的韩语词汇(由首尔国立大学语音语言处理实验室提供)和手动创建的问题/命令,包含短句。其目标是根据文本转录识别说话者的意图,并在某些情况下需要使用辅助的声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖于语调的话语。这对于像韩语这样的头尾语言来说非常重要,因为语调水平在识别说话者意图中起着重要作用。
提供机构:
wicho
原始信息汇总

数据集描述

数据集概述

3i4K数据集包含常用韩语词汇(由首尔国立大学语音语言处理实验室提供)和手动创建的包含短语的问题/命令。该数据集旨在基于语音转录本识别说话者的意图,某些情况下需要使用辅助声学特征。分类系统决定话语是片段、陈述、问题、命令、修辞问题、修辞命令还是依赖语调的话语。在像韩语这样的头部后置语言中,语调水平在识别说话者意图方面起着重要作用。

支持的任务和排行榜

  • intent-classification:该数据集可以通过CNN或BiLISTM-Att进行训练,以识别韩语口语话语的意图,并可以通过F1分数衡量其性能。

语言

数据集中的文本为韩语,关联的BCP-47代码为ko-KR

数据集结构

数据实例

一个数据实例包含一个短语及其标签:

json { "label": 3, "text": "선수잖아 이 케이스 저 케이스 많을 거 아냐 선배라고 뭐 하나 인생에 도움도 안주는데 내가 이렇게 진지하게 나올 때 제대로 한번 조언 좀 해줘보지" }

数据字段

  • label:确定话语的意图,可以是以下之一:fragment(0)、statement(1)、question(2)、command(3)、rhetorical question(4)、rhetorical command(5)和intonation-dependent utterance(6)。
  • text:关于家务、天气、交通等常见话题的韩语文本。

数据分割

数据分为包含55134个样本的训练集和包含6121个样本的测试集。

数据集创建

策划理由

对于像韩语这样的头部后置语言,语调可以是识别说话者意图的决定性因素。该数据集的目的是确定话语是片段、陈述、问题、命令还是修辞问题/命令,使用来自头部后置性的语调依赖性。这有望提高对韩语口语话语的语言理解,并有益于语音转文本应用。

源数据

初始数据收集和规范化

语料库由首尔国立大学语音语言处理实验室提供,包含来自韩国国家语言研究所的常用词汇和手动创建的命令和问题。话语涵盖天气、交通和股票等话题。随机选择了20k行。

源语言生产者是谁?

韩语母语者产生了这些命令和问题。

注释

注释过程

话语被分类为七个类别。他们提供了清晰的注释指南(参见此处),最终的注释者间一致性为0.85,最终决定通过多数投票完成。

注释者是谁?

注释由三位首尔韩语母语者完成。

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

该数据集由Won Ik Cho、Hyeon Seung Lee、Ji Won Yoon、Seok Min Kim和Nam Soo Kim策展。

许可信息

该数据集根据CC BY-SA-4.0许可。

引用信息

plaintext @article{cho2018speech, title={Speech Intention Understanding in a Head-final Language: A Disambiguation Utilizing Intonation-dependency}, author={Cho, Won Ik and Lee, Hyeon Seung and Yoon, Ji Won and Kim, Seok Min and Kim, Nam Soo}, journal={arXiv preprint arXiv:1811.04231}, year={2018} }

贡献

感谢@stevhliu添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作