tee-oh-double-dee/social-orientation
收藏Hugging Face2024-03-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tee-oh-double-dee/social-orientation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含30,012条对话记录,每条记录都附带有社交倾向标签,如Assured-Dominant, Gregarious-Extraverted等。这些标签是通过GPT-4模型生成的,用于预测和解释社交互动的结果,例如在线辩论或论坛讨论。数据集可以与Conversations Gone Awry数据集合并,用于训练社交倾向分类器,并已被用于训练英语和多语言的社交倾向标记器。
该数据集包含30,012条对话记录,每条记录都附带有社交倾向标签,如Assured-Dominant, Gregarious-Extraverted等。这些标签是通过GPT-4模型生成的,用于预测和解释社交互动的结果,例如在线辩论或论坛讨论。数据集可以与Conversations Gone Awry数据集合并,用于训练社交倾向分类器,并已被用于训练英语和多语言的社交倾向标记器。
提供机构:
tee-oh-double-dee
原始信息汇总
数据集概述
基本信息
- 名称: Social Orientation
- 语言: 英语
- 许可证: MIT
- 任务类别: 文本分类
- 大小类别: 10K<n<100K
数据集结构
- 特征:
- id (字符串): 用于与源CGA数据合并的唯一标识符。
- social_orientation (字符串): 包含的标签有{Assured-Dominant, Gregarious-Extraverted, Warm-Agreeable, Unassuming-Ingenuous, Unassured-Submissive, Aloof-Introverted, Cold, Arrogant-Calculating, Not Available}。
数据集大小
- 下载大小: 543685字节
- 数据集大小: 1311810字节
- 训练集:
- 大小: 30021个样本
- 存储大小: 1311810字节
使用方法
- 直接使用: 可以通过
id字段将此数据集与CGA源数据合并,用于训练社交倾向分类器。 - 预训练模型: 提供了两个预训练的分类器,一个用于英语,另一个用于多语言。
数据集创建
- 来源数据: 来自在线Wikipedia页面编辑讨论的Conversations Gone Awry数据集。
- 标注过程: 使用GPT-4对CGA中的语句进行社交倾向标签标注,并通过人工样本验证标注的一致性。
引用信息
@misc{morrill2024social, title={Social Orientation: A New Feature for Dialogue Analysis}, author={Todd Morrill and Zhaoyuan Deng and Yanda Chen and Amith Ananthram and Colin Wayne Leach and Kathleen McKeown}, year={2024}, eprint={2403.04770}, archivePrefix={arXiv}, primaryClass={cs.CL} }



