anonymizedauthor/paper_data
收藏Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anonymizedauthor/paper_data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了五个数据集的语言特征。这些特征包括标点符号使用、大写字母比例、词长、句长、词汇多样性、动词和代词的使用频率、情感词汇、句法结构等。此外,还包含了与挫折反应相关的特征。这些特征可以用于文本分析和自然语言处理任务。
该数据集包含了五个数据集的语言特征。这些特征包括标点符号使用、大写字母比例、词长、句长、词汇多样性、动词和代词的使用频率、情感词汇、句法结构等。此外,还包含了与挫折反应相关的特征。这些特征可以用于文本分析和自然语言处理任务。
提供机构:
anonymizedauthor
原始信息汇总
数据集概述
该数据集包含5个数据集的语言特征描述。
特征描述
基本特征
- punctuation_per_word: 标点符号数量 / 单词数量
- uppercase_rate: 大写字母数量 / 字符数量
- mean_word_len: 单词平均长度(字符)
- mean_sentence_len: 句子平均长度(单词)
- unique_words_rate: 独特单词数量 / 单词数量
动词特征
- verbs_1p_rate: 第一人称动词数量 / 动词数量
- verbs_2p_rate: 第二人称动词数量 / 动词数量
- verbs_3p_rate: 第三人称动词数量 / 动词数量
- verbs_past_tense_rate: 过去时态动词数量 / 动词数量
- infinitives_rate: 不定式动词数量 / 动词数量
代词特征
- pro_1p_rate: 第一人称代词数量 / 代词数量
- pro_1p_sing_rate: 第一人称单数代词数量 / 代词数量
- pro_1p_plural_rate: 第一人称复数代词数量 / 代词数量
- pro_2p_rate: 第二人称代词数量 / 代词数量
- pro_3p_rate: 第三人称代词数量 / 代词数量
其他语法特征
- trager_coef: 动词数量 / 形容词数量
- logical_coh_coef: (连词数量 + 粒子数量) / 句子数量 * 3
- verbs_per_nouns_coef: 动词数量 / 名词数量
- participles_gerunds_coef: 分词数量 / 动词数量
- negation_rate: 否定前缀数量 / 单词数量
词性标签特征
- postag_A: A词性标签数量 / 单词数量
- postag_ADV: ADV词性标签数量 / 单词数量
- postag_ADVPRO: ADVPRO词性标签数量 / 单词数量
- postag_ANUM: ANUM词性标签数量 / 单词数量
- postag_APRO: APRO词性标签数量 / 单词数量
- postag_COM: COM词性标签数量 / 单词数量
- postag_CONJ: CONJ词性标签数量 / 单词数量
- postag_INTJ: INTJ词性标签数量 / 单词数量
- postag_NUM: NUM词性标签数量 / 单词数量
- postag_PART: PART词性标签数量 / 单词数量
- postag_PR: PR词性标签数量 / 单词数量
- postag_S: S词性标签数量 / 单词数量
- postag_SPRO: SPRO词性标签数量 / 单词数量
- postag_V: V词性标签数量 / 单词数量
情感和情绪特征
- tgw_positive_assessment: 与积极评价相关的词汇字典
- tgw_positive_social: 与积极社交相关的词汇字典
- tgw_positive_emotions: 与积极情绪相关的词汇字典
- tgw_negative_assessment: 与消极评价相关的词汇字典
- tgw_negative_social: 与消极社交相关的词汇字典
- tgw_negative_emotions: 与消极情绪相关的词汇字典
- tgw_motivation_activity: 与动机、活动和紧张相关的词汇字典
- tgw_cognitive_communication: 与认知活动和沟通相关的词汇字典
- tgw_destructive_activity: 与破坏性活动相关的词汇字典
- tgw_affect_lex: 情感语言字典
- tgw_bodily_states_emotions: 与消极和被动情绪及身体状态相关的词汇字典
- tgw_invectives: 辱骂词汇字典
- tgw_soft_invectives: 温和辱骂词汇字典
- tgw_obscene_lex: 猥亵词汇字典
- tgw_youth_jargon: 青年俚语词汇字典
- tgw_hcs: 与住房和公共服务相关的词汇字典
- tgw_economics: 与经济学相关的词汇字典
- tgw_catastrophes: 与灾难相关的词汇字典
- tgw_security_structures: 与安全结构相关的词汇字典
- tgw_healthcare_demography_ecology: 与医疗、人口和生态相关的词汇字典
- tgw_authority: 与权威相关的词汇字典
- be_disgust: 厌恶的基本情绪字典
- be_shame: 羞耻的基本情绪字典
- be_anger: 愤怒的基本情绪字典
- be_fear: 恐惧的基本情绪字典
- be_sadness: 悲伤的基本情绪字典
- be_calm_excitement: 平静和兴奋的基本情绪字典
- be_happyness: 幸福的基本情绪字典
- be_wonder: 惊奇的基本情绪字典
- ew_positive: 积极情感词汇字典
- ew_negative: 消极情感词汇字典
- ew_ambivalent: 矛盾情感词汇字典
- ew_de_emotives: 去情感词汇字典
- sentiment_rate: 基于linis-crowd字典的情感评分
句法树特征
- max_synt_tree: 最大句法树长度
- min_synt_tree: 最小句法树长度
- mean_synt_tree: 平均句法树长度
UD关系特征
- flat:foreign: UD关系数量归一化 / 单词数量
- csubj: UD关系数量归一化 / 单词数量
- acl: UD关系数量归一化 / 单词数量
- acl:relcl: UD关系数量归一化 / 单词数量
- advcl: UD关系数量归一化 / 单词数量
- advmod: UD关系数量归一化 / 单词数量
- amod: UD关系数量归一化 / 单词数量
- appos: UD关系数量归一化 / 单词数量
- aux: UD关系数量归一化 / 单词数量
- aux:pass: UD关系数量归一化 / 单词数量
- case: UD关系数量归一化 / 单词数量
- cc: UD关系数量归一化 / 单词数量
- cc:preconj: UD关系数量归一化 / 单词数量
- ccomp: UD关系数量归一化 / 单词数量
- conj: UD关系数量归一化 / 单词数量
- cop: UD关系数量归一化 / 单词数量
- det: UD关系数量归一化 / 单词数量
- discourse: UD关系数量归一化 / 单词数量
- fixed: UD关系数量归一化 / 单词数量
- flat: UD关系数量归一化 / 单词数量
- goeswith: UD关系数量归一化 / 单词数量
- iobj: UD关系数量归一化 / 单词数量
- list: UD关系数量归一化 / 单词数量
- mark: UD关系数量归一化 / 单词数量
- nmod: UD关系数量归一化 / 单词数量
- nsubj: UD关系数量归一化 / 单词数量
- nsubj:pass: UD关系数量归一化 / 单词数量
- nummod: UD关系数量归一化 / 单词数量
- nummod:gov: UD关系数量归一化 / 单词数量
- obj: UD关系数量归一化 / 单词数量
- obl: UD关系数量归一化 / 单词数量
- orphan: UD关系数量归一化 / 单词数量
- parataxis: UD关系数量归一化 / 单词数量
- punct: UD关系数量归一化 / 单词数量
- root: UD关系数量归一化 / 单词数量
- xcomp: UD关系数量归一化 / 单词数量
- compound: UD关系数量归一化 / 单词数量
- flat:foreign: UD关系数量归一化 / 单词数量
挫折反应特征
- E_group: 挫折反应:E类型
- M_group: 挫折反应:M类型
- I_group: 挫折反应:I类型
- inf_group: 挫折反应:无反应



