five

pranaydeeps/CAMEO

收藏
Hugging Face2023-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pranaydeeps/CAMEO
下载链接
链接失效反馈
官方服务:
资源简介:
CAMEO数据集是一个用于情感检测的文本分类数据集,包含50,000条从GoEmotions数据集中提取的记录,并自动标注了多种语言复杂性指标,如不完全依赖理论、依赖局部理论、嵌套名词距离等。该数据集用于支持EMNLP23会议的论文,探讨情感检测中的语言复杂性。

CAMEO数据集是一个用于情感检测的文本分类数据集,包含50,000条从GoEmotions数据集中提取的记录,并自动标注了多种语言复杂性指标,如不完全依赖理论、依赖局部理论、嵌套名词距离等。该数据集用于支持EMNLP23会议的论文,探讨情感检测中的语言复杂性。
提供机构:
pranaydeeps
原始信息汇总

数据集卡片 for CAMEO

数据集概述

该数据集伴随EMNLP23论文《Misery Loves Complexity: Exploring Linguistic Complexity in the Context of Emotion Detection》发布。

数据集详情

  • 数据来源:GoEmotions数据集的50,000子集
  • 自动标注的复杂度指标
    • idt: Incomplete Dependency Theory
    • dlt: Dependency Locality Theory
    • nnd: Nested-Nouns Distance
    • le: Left-embededness
    • percentage_polysyllable_words: 多音节词的百分比
    • avg_conn_doc: 每句平均连接词数量
    • number_of_uniq_entities: 唯一命名实体的数量
    • average_word_len: 平均词长
    • dale_word_frequency_score: DALE词频得分
    • avgtfidf: 基于背景语料库的所有词的平均TF-IDF
    • avgll: 基于背景语料库的所有词的平均对数似然
    • type_token_ratio_perc: 类型-标记比率百分比

参考文献

有关指标或其他信息的详细说明,请参阅论文。 有关情感标注的数据收集或注释的详细信息,请参阅原始的GoEmotions数据集

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作