thomasgauthier/observation_or_evaluation
收藏数据集卡片 "Observation or evaluation"
数据集描述
数据集概述
该数据集包含根据马歇尔·罗森伯格教授的非暴力沟通(NVC)原则分类的陈述,分为观察和评价两类。数据集包括通过各种语言模型生成和增强的合成数据,旨在分类反映纯粹观察(注意)或评价(判断)的陈述,以理解和实践有效的同理心沟通。该数据集旨在评估通用大型语言模型区分NVC定义的观察性和评价性句子的能力,作为情感分析和主观解释准确性的基准。
支持的任务和排行榜
text-classification:该任务涉及将句子分类为包含观察的陈述和包含评价的陈述。这种辨别能力有助于理解和提高同理心沟通技巧。目前没有活跃的排行榜,但该数据集可用作一个。
语言
数据集完全为英语。
数据集结构
数据实例
数据集中的典型实例可能如下所示:
json { "statement": "John was angry with me yesterday for no reason.", "reasoning": "The statement suggests that John felt a certain emotion (anger) directed towards the speaker and adds the qualifier for no reason. This is considered an evaluation.", "classification": "Evaluation", "pure_observation_alternative": "John told me he was angry." }
数据字段
statement:数据集中提供的原始句子。reasoning:将陈述分类为观察、评价或混合的理由。classification:陈述的分类 -Observation、Evaluation或Mixed。pure_observation_alternative:一个可选的替代版本,表示没有评价的纯粹观察。
数据分割
数据集包含一个 test 分割,旨在作为评估通用模型的基准,而非用于训练目的。
数据集创建
策划理由
该数据集旨在提供一种衡量语言模型在非暴力沟通(NVC)中区分观察和评价能力的指标,这是NVC的核心概念。
源数据
数据集中的所有样本均由大型语言模型生成。数据主要灵感来自马歇尔·罗森伯格的书籍《非暴力沟通:生活的语言》中的练习,并进一步通过《宋飞正传》剧本种子数据增强,以确保多样化和相关性强的陈述。
注释
注释由语言模型输出生成,并通过手动和自动审查及调整以确保质量和符合NVC原则。
使用数据的注意事项
数据集的社会影响
该数据集旨在积极促进能够理解和实践同理心和非暴力沟通原则的AI系统的发展,可能减少人际互动中的误解和冲突。
讨论偏见
由于数据集的合成性质,语言模型训练数据中肯定存在偏见,这可能影响分类。
其他已知限制
数据的合成生成可能无法捕捉人类情感表达和解释的全部复杂性和细微差别。此外,数据集中的分类未经NVC实践者审查,可能无法正确反映NVC原则。
附加信息
数据集策展人
数据集生成管道由Thomas Gauthier-Caron开发。
许可信息
数据集在Apache 2.0许可下发布。
引用信息
@misc{observation_or_evaluation_dataset_2024, author = {Gauthier-Caron, Thomas}, title = {Observation or evaluation dataset}, year = {2024}, howpublished = {url{https://thomasgauthier.dev/devlog/nvc}} }



