five

cgpotts/swda|对话行为分类数据集|自然语言处理数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
对话行为分类
自然语言处理
下载链接:
https://hf-mirror.com/datasets/cgpotts/swda
下载链接
链接失效反馈
资源简介:
Switchboard对话行为语料库(SwDA)是对Switchboard-1电话语音语料库第2版的扩展,增加了对话行为标签,总结了与每个对话相关的句法、语义和语用信息。该语料库由UC Boulder在90年代末期创建,主要用于英语对话行为分类研究。数据集包含多种特征,如对话行为标签、呼叫者信息、对话编号等,并分为训练、验证和测试集。数据集遵循cc-by-nc-sa-3.0许可协议。
提供机构:
cgpotts
原始信息汇总

数据集概述

数据集基本信息

  • 名称: The Switchboard Dialog Act Corpus (SwDA)
  • 语言: 英语
  • 许可证: cc-by-nc-sa-3.0
  • 多语言性: 单语种
  • 大小类别: 100K<n<1M
  • 源数据集: 扩展自Switchboard-1 Telephone Speech Corpus, Release 2
  • 任务类别: 文本分类
  • 任务ID: 多标签分类

数据集结构

  • 数据实例: 包含多个字段,如swda_filename, ptb_basename, conversation_no, transcript_index, act_tag等。
  • 数据字段:
    • swda_filename: 文件名
    • ptb_basename: 树库文件名
    • conversation_no: 对话ID
    • transcript_index: 转录文本中的行号
    • act_tag: 对话行为标签
    • damsl_act_tag: 对话行为标签的217种变体
    • caller: 呼叫者标识
    • utterance_index: 话语索引
    • subutterance_index: 子话语索引
    • text: 话语文本
    • pos: 词性标注
    • trees: 树结构
    • ptb_treenumbers: 树编号
    • talk_day: 谈话日期
    • length: 谈话时长
    • topic_description: 话题描述
    • prompt: 提示信息
    • from_callerto_caller_dialect_area: 呼叫者相关信息

数据分割

  • 训练集: 213543个样本,大小为128498512字节
  • 验证集: 56729个样本,大小为34749819字节
  • 测试集: 4514个样本,大小为2560127字节

数据集创建

  • 来源数据: 扩展自Switchboard-1 Telephone Speech Corpus, Release 2
  • 注释: 包含对话行为标签,用于总结与话语相关的句法、语义和语用信息

使用数据注意事项

  • 数据集不包含Switchboard的元数据表,需额外获取
  • 数据集与Penn Treebank 3的解析资源对齐不直接,需进一步处理
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录