eusip/silicone
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/eusip/silicone
下载链接
链接失效反馈官方服务:
资源简介:
SILICONE Benchmark是一个用于训练、评估和分析自然语言理解系统的资源集合,特别针对口语语言。所有数据集均为英语,涵盖了日常生活、脚本场景、联合任务完成、电话对话和电视对话等多个领域。部分数据集还包括情感和/或情感标签。
提供机构:
eusip
原始信息汇总
数据集概述
- 名称: SILICONE Benchmark
- 语言: 英语
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语种
- 大小类别:
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
- 源数据集: 原始
- 任务类别:
- 文本生成
- 填充掩码
- 文本分类
- 任务ID:
- 对话建模
- 语言建模
- 掩码语言建模
- 情感分类
- 文本评分
- 标签:
- 情感分类
- 对话行为分类
数据集结构
配置名称: dyda_da
- 特征:
- Utterance: 字符串
- Dialogue_Act: 字符串
- Dialogue_ID: 字符串
- Label: 分类标签
- 0: commissive
- 1: directive
- 2: inform
- 3: question
- Idx: int32
- 数据分割:
- 训练: 87170 样本
- 验证: 8069 样本
- 测试: 7740 样本
配置名称: dyda_e
- 特征:
- Utterance: 字符串
- Emotion: 字符串
- Dialogue_ID: 字符串
- Label: 分类标签
- 0: anger
- 1: disgust
- 2: fear
- 3: happiness
- 4: no emotion
- 5: sadness
- 6: surprise
- Idx: int32
- 数据分割:
- 训练: 87170 样本
- 验证: 8069 样本
- 测试: 7740 样本
配置名称: iemocap
- 特征:
- Dialogue_ID: 字符串
- Utterance_ID: 字符串
- Utterance: 字符串
- Emotion: 字符串
- Label: 分类标签
- 0: ang
- 1: dis
- 2: exc
- 3: fea
- 4: fru
- 5: hap
- 6: neu
- 7: oth
- 8: sad
- 9: sur
- 10: xxx
- Idx: int32
- 数据分割:
- 训练: 7213 样本
- 验证: 805 样本
- 测试: 2021 样本
配置名称: maptask
- 特征:
- Speaker: 字符串
- Utterance: 字符串
- Dialogue_Act: 字符串
- Label: 分类标签
- 0: acknowledge
- 1: align
- 2: check
- 3: clarify
- 4: explain
- 5: instruct
- 6: query_w
- 7: query_yn
- 8: ready
- 9: reply_n
- 10: reply_w
- 11: reply_y
- Idx: int32
- 数据分割:
- 训练: 20905 样本
- 验证: 2963 样本
- 测试: 2894 样本
配置名称: meld_e
- 特征:
- Utterance: 字符串
- Speaker: 字符串
- Emotion: 字符串
- Dialogue_ID: 字符串
- Utterance_ID: 字符串
- Label: 分类标签
- 0: anger
- 1: disgust
- 2: fear
- 3: joy
- 4: neutral
- 5: sadness
- 6: surprise
- Idx: int32
- 数据分割:
- 训练: 9989 样本
- 验证: 1109 样本
- 测试: 2610 样本
配置名称: meld_s
- 特征:
- Utterance: 字符串
- Speaker: 字符串
- Sentiment: 字符串
- Dialogue_ID: 字符串
- Utterance_ID: 字符串
- Label: 分类标签
- 0: negative
- 1: neutral
- 2: positive
- Idx: int32
- 数据分割:
- 训练: 9989 样本
- 验证: 1109 样本
- 测试: 2610 样本
配置名称: mrda
- 特征:
- Utterance_ID: 字符串
- Dialogue_Act: 字符串
- Channel_ID: 字符串
- Speaker: 字符串
- Dialogue_ID: 字符串
- Utterance: 字符串
- Label: 分类标签
- 0: s
- 1: d
- 2: b
- 3: f
- 4: q
- Idx: int32
- 数据分割:
- 训练: 83943 样本
- 验证: 9815 样本
- 测试: 15470 样本
配置名称: oasis
- 特征:
- Speaker: 字符串
- Utterance: 字符串
- Dialogue_Act: 字符串
- Label: 分类标签
- 0: accept
- 1: ackn
- 2: answ
- 3: answElab
- 4: appreciate
- 5: backch
- 6: bye
- 7: complete
- 8: confirm
- 9: correct
- 10: direct
- 11: directElab
- 12: echo
- 13: exclaim
- 14: expressOpinion
- 15: expressPossibility
- 16: expressRegret
- 17: expressWish
- 18: greet
- 19: hold
- 20: identifySelf
- 21: inform
- 22: informCont
- 23: informDisc
- 24: informIntent
- 25: init
- 26: negate
- 27: offer
- 28: pardon
- 29: raiseIssue
- 30: refer
- 31: refuse
- 32: reqDirect
- 33: reqInfo
- 34: reqModal
- 35: selfTalk
- 36: suggest
- 37: thank
- 38: informIntent-hold
- 39: correctSelf
- 40: expressRegret-inform
- 41: thank-identifySelf
- Idx: int32
- 数据分割:
- 训练: 12076 样本
- 验证: 1513 样本
- 测试: 1478 样本
配置名称: sem
- 特征:
- Utterance: 字符串
- NbPairInSession: 字符串
- Dialogue_ID: 字符串
- SpeechTurn: 字符串
- Speaker: 字符串
- Sentiment: 字符串
- Label: 分类标签
- 0: Negative
- 1: Neutral
- 2: Positive
- Idx: int32
- 数据分割:
- 训练: 4264 样本
- 验证: 485 样本
- 测试: 878 样本
配置名称: swda
- 特征:
- Utterance: 字符串
- Dialogue_Act: 字符串
- From_Caller: 字符串
- To_Caller: 字符串
- Topic: 字符串
- Dialogue_ID: 字符串
- Conv_ID: 字符串
- Label: 分类标签
- 0: sd
- 1: b
- 2: sv
- 3: %
- 4: aa
- 5: ba
- 6: fc
- 7: qw
- 8: nn
- 9: bk
- 10: h
- 11: qy^d
- 12: bh
- 13: ^q
- 14: bf
- 15: fo_o_fw_"_by_bc
- 16: fo_o_fw_by_bc_"
- 17: na
- 18: ad
- 19: ^2
- 20: b^m
- 21: qo
- 22: qh
- 23: ^h
- 24: ar
- 25: ng
- 26: br
- 27: no
- 28: fp
- 29: qrr
- 30: arp_nd
- 31: t3
- 32: oo_co_cc
- 33: aap_am
- 34: t1
- 35: bd
- 36: ^g
- 37: qw^d
- 38: fa
- 39: ft
- 40: +
- 41: x
- 42: ny
- 43: sv_fx
- 44: qy_qr
- 45: ba_fe
- Idx: int32
- 数据分割:
- 训练: 190709 样本
- 验证: 21203 样本
- 测试: 2714 样本



