five

eusip/silicone

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/eusip/silicone
下载链接
链接失效反馈
官方服务:
资源简介:
SILICONE Benchmark是一个用于训练、评估和分析自然语言理解系统的资源集合,特别针对口语语言。所有数据集均为英语,涵盖了日常生活、脚本场景、联合任务完成、电话对话和电视对话等多个领域。部分数据集还包括情感和/或情感标签。
提供机构:
eusip
原始信息汇总

数据集概述

  • 名称: SILICONE Benchmark
  • 语言: 英语
  • 许可证: CC-BY-SA-4.0
  • 多语言性: 单语种
  • 大小类别:
    • 1K<n<10K
    • 10K<n<100K
    • 100K<n<1M
  • 源数据集: 原始
  • 任务类别:
    • 文本生成
    • 填充掩码
    • 文本分类
  • 任务ID:
    • 对话建模
    • 语言建模
    • 掩码语言建模
    • 情感分类
    • 文本评分
  • 标签:
    • 情感分类
    • 对话行为分类

数据集结构

配置名称: dyda_da

  • 特征:
    • Utterance: 字符串
    • Dialogue_Act: 字符串
    • Dialogue_ID: 字符串
    • Label: 分类标签
      • 0: commissive
      • 1: directive
      • 2: inform
      • 3: question
    • Idx: int32
  • 数据分割:
    • 训练: 87170 样本
    • 验证: 8069 样本
    • 测试: 7740 样本

配置名称: dyda_e

  • 特征:
    • Utterance: 字符串
    • Emotion: 字符串
    • Dialogue_ID: 字符串
    • Label: 分类标签
      • 0: anger
      • 1: disgust
      • 2: fear
      • 3: happiness
      • 4: no emotion
      • 5: sadness
      • 6: surprise
    • Idx: int32
  • 数据分割:
    • 训练: 87170 样本
    • 验证: 8069 样本
    • 测试: 7740 样本

配置名称: iemocap

  • 特征:
    • Dialogue_ID: 字符串
    • Utterance_ID: 字符串
    • Utterance: 字符串
    • Emotion: 字符串
    • Label: 分类标签
      • 0: ang
      • 1: dis
      • 2: exc
      • 3: fea
      • 4: fru
      • 5: hap
      • 6: neu
      • 7: oth
      • 8: sad
      • 9: sur
      • 10: xxx
    • Idx: int32
  • 数据分割:
    • 训练: 7213 样本
    • 验证: 805 样本
    • 测试: 2021 样本

配置名称: maptask

  • 特征:
    • Speaker: 字符串
    • Utterance: 字符串
    • Dialogue_Act: 字符串
    • Label: 分类标签
      • 0: acknowledge
      • 1: align
      • 2: check
      • 3: clarify
      • 4: explain
      • 5: instruct
      • 6: query_w
      • 7: query_yn
      • 8: ready
      • 9: reply_n
      • 10: reply_w
      • 11: reply_y
    • Idx: int32
  • 数据分割:
    • 训练: 20905 样本
    • 验证: 2963 样本
    • 测试: 2894 样本

配置名称: meld_e

  • 特征:
    • Utterance: 字符串
    • Speaker: 字符串
    • Emotion: 字符串
    • Dialogue_ID: 字符串
    • Utterance_ID: 字符串
    • Label: 分类标签
      • 0: anger
      • 1: disgust
      • 2: fear
      • 3: joy
      • 4: neutral
      • 5: sadness
      • 6: surprise
    • Idx: int32
  • 数据分割:
    • 训练: 9989 样本
    • 验证: 1109 样本
    • 测试: 2610 样本

配置名称: meld_s

  • 特征:
    • Utterance: 字符串
    • Speaker: 字符串
    • Sentiment: 字符串
    • Dialogue_ID: 字符串
    • Utterance_ID: 字符串
    • Label: 分类标签
      • 0: negative
      • 1: neutral
      • 2: positive
    • Idx: int32
  • 数据分割:
    • 训练: 9989 样本
    • 验证: 1109 样本
    • 测试: 2610 样本

配置名称: mrda

  • 特征:
    • Utterance_ID: 字符串
    • Dialogue_Act: 字符串
    • Channel_ID: 字符串
    • Speaker: 字符串
    • Dialogue_ID: 字符串
    • Utterance: 字符串
    • Label: 分类标签
      • 0: s
      • 1: d
      • 2: b
      • 3: f
      • 4: q
    • Idx: int32
  • 数据分割:
    • 训练: 83943 样本
    • 验证: 9815 样本
    • 测试: 15470 样本

配置名称: oasis

  • 特征:
    • Speaker: 字符串
    • Utterance: 字符串
    • Dialogue_Act: 字符串
    • Label: 分类标签
      • 0: accept
      • 1: ackn
      • 2: answ
      • 3: answElab
      • 4: appreciate
      • 5: backch
      • 6: bye
      • 7: complete
      • 8: confirm
      • 9: correct
      • 10: direct
      • 11: directElab
      • 12: echo
      • 13: exclaim
      • 14: expressOpinion
      • 15: expressPossibility
      • 16: expressRegret
      • 17: expressWish
      • 18: greet
      • 19: hold
      • 20: identifySelf
      • 21: inform
      • 22: informCont
      • 23: informDisc
      • 24: informIntent
      • 25: init
      • 26: negate
      • 27: offer
      • 28: pardon
      • 29: raiseIssue
      • 30: refer
      • 31: refuse
      • 32: reqDirect
      • 33: reqInfo
      • 34: reqModal
      • 35: selfTalk
      • 36: suggest
      • 37: thank
      • 38: informIntent-hold
      • 39: correctSelf
      • 40: expressRegret-inform
      • 41: thank-identifySelf
    • Idx: int32
  • 数据分割:
    • 训练: 12076 样本
    • 验证: 1513 样本
    • 测试: 1478 样本

配置名称: sem

  • 特征:
    • Utterance: 字符串
    • NbPairInSession: 字符串
    • Dialogue_ID: 字符串
    • SpeechTurn: 字符串
    • Speaker: 字符串
    • Sentiment: 字符串
    • Label: 分类标签
      • 0: Negative
      • 1: Neutral
      • 2: Positive
    • Idx: int32
  • 数据分割:
    • 训练: 4264 样本
    • 验证: 485 样本
    • 测试: 878 样本

配置名称: swda

  • 特征:
    • Utterance: 字符串
    • Dialogue_Act: 字符串
    • From_Caller: 字符串
    • To_Caller: 字符串
    • Topic: 字符串
    • Dialogue_ID: 字符串
    • Conv_ID: 字符串
    • Label: 分类标签
      • 0: sd
      • 1: b
      • 2: sv
      • 3: %
      • 4: aa
      • 5: ba
      • 6: fc
      • 7: qw
      • 8: nn
      • 9: bk
      • 10: h
      • 11: qy^d
      • 12: bh
      • 13: ^q
      • 14: bf
      • 15: fo_o_fw_"_by_bc
      • 16: fo_o_fw_by_bc_"
      • 17: na
      • 18: ad
      • 19: ^2
      • 20: b^m
      • 21: qo
      • 22: qh
      • 23: ^h
      • 24: ar
      • 25: ng
      • 26: br
      • 27: no
      • 28: fp
      • 29: qrr
      • 30: arp_nd
      • 31: t3
      • 32: oo_co_cc
      • 33: aap_am
      • 34: t1
      • 35: bd
      • 36: ^g
      • 37: qw^d
      • 38: fa
      • 39: ft
      • 40: +
      • 41: x
      • 42: ny
      • 43: sv_fx
      • 44: qy_qr
      • 45: ba_fe
    • Idx: int32
  • 数据分割:
    • 训练: 190709 样本
    • 验证: 21203 样本
    • 测试: 2714 样本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作