pranaydeeps/CAMEO
收藏Hugging Face2023-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pranaydeeps/CAMEO
下载链接
链接失效反馈官方服务:
资源简介:
CAMEO数据集是一个用于情感检测的文本分类数据集,包含50,000条从GoEmotions数据集中提取的记录,并自动标注了多种语言复杂性指标,如不完全依赖理论、依赖局部理论、嵌套名词距离等。该数据集用于支持EMNLP23会议的论文,探讨情感检测中的语言复杂性。
CAMEO数据集是一个用于情感检测的文本分类数据集,包含50,000条从GoEmotions数据集中提取的记录,并自动标注了多种语言复杂性指标,如不完全依赖理论、依赖局部理论、嵌套名词距离等。该数据集用于支持EMNLP23会议的论文,探讨情感检测中的语言复杂性。
提供机构:
pranaydeeps
原始信息汇总
数据集卡片 for CAMEO
数据集概述
该数据集伴随EMNLP23论文《Misery Loves Complexity: Exploring Linguistic Complexity in the Context of Emotion Detection》发布。
数据集详情
- 数据来源:GoEmotions数据集的50,000子集
- 自动标注的复杂度指标:
- idt: Incomplete Dependency Theory
- dlt: Dependency Locality Theory
- nnd: Nested-Nouns Distance
- le: Left-embededness
- percentage_polysyllable_words: 多音节词的百分比
- avg_conn_doc: 每句平均连接词数量
- number_of_uniq_entities: 唯一命名实体的数量
- average_word_len: 平均词长
- dale_word_frequency_score: DALE词频得分
- avgtfidf: 基于背景语料库的所有词的平均TF-IDF
- avgll: 基于背景语料库的所有词的平均对数似然
- type_token_ratio_perc: 类型-标记比率百分比
参考文献
有关指标或其他信息的详细说明,请参阅论文。 有关情感标注的数据收集或注释的详细信息,请参阅原始的GoEmotions数据集。



