five

tee-oh-double-dee/social-orientation

收藏
Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tee-oh-double-dee/social-orientation
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含30,012条对话记录,每条记录都附带有社交倾向标签,如Assured-Dominant, Gregarious-Extraverted等。这些标签是通过GPT-4模型生成的,用于预测和解释社交互动的结果,例如在线辩论或论坛讨论。数据集可以与Conversations Gone Awry数据集合并,用于训练社交倾向分类器,并已被用于训练英语和多语言的社交倾向标记器。

该数据集包含30,012条对话记录,每条记录都附带有社交倾向标签,如Assured-Dominant, Gregarious-Extraverted等。这些标签是通过GPT-4模型生成的,用于预测和解释社交互动的结果,例如在线辩论或论坛讨论。数据集可以与Conversations Gone Awry数据集合并,用于训练社交倾向分类器,并已被用于训练英语和多语言的社交倾向标记器。
提供机构:
tee-oh-double-dee
原始信息汇总

数据集概述

基本信息

  • 名称: Social Orientation
  • 语言: 英语
  • 许可证: MIT
  • 任务类别: 文本分类
  • 大小类别: 10K<n<100K

数据集结构

  • 特征:
    • id (字符串): 用于与源CGA数据合并的唯一标识符。
    • social_orientation (字符串): 包含的标签有{Assured-Dominant, Gregarious-Extraverted, Warm-Agreeable, Unassuming-Ingenuous, Unassured-Submissive, Aloof-Introverted, Cold, Arrogant-Calculating, Not Available}。

数据集大小

  • 下载大小: 543685字节
  • 数据集大小: 1311810字节
  • 训练集:
    • 大小: 30021个样本
    • 存储大小: 1311810字节

使用方法

  • 直接使用: 可以通过id字段将此数据集与CGA源数据合并,用于训练社交倾向分类器。
  • 预训练模型: 提供了两个预训练的分类器,一个用于英语,另一个用于多语言。

数据集创建

  • 来源数据: 来自在线Wikipedia页面编辑讨论的Conversations Gone Awry数据集。
  • 标注过程: 使用GPT-4对CGA中的语句进行社交倾向标签标注,并通过人工样本验证标注的一致性。

引用信息

@misc{morrill2024social, title={Social Orientation: A New Feature for Dialogue Analysis}, author={Todd Morrill and Zhaoyuan Deng and Yanda Chen and Amith Ananthram and Colin Wayne Leach and Kathleen McKeown}, year={2024}, eprint={2403.04770}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作