five

anonymizedauthor/paper_data

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anonymizedauthor/paper_data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了五个数据集的语言特征。这些特征包括标点符号使用、大写字母比例、词长、句长、词汇多样性、动词和代词的使用频率、情感词汇、句法结构等。此外,还包含了与挫折反应相关的特征。这些特征可以用于文本分析和自然语言处理任务。

该数据集包含了五个数据集的语言特征。这些特征包括标点符号使用、大写字母比例、词长、句长、词汇多样性、动词和代词的使用频率、情感词汇、句法结构等。此外,还包含了与挫折反应相关的特征。这些特征可以用于文本分析和自然语言处理任务。
提供机构:
anonymizedauthor
原始信息汇总

数据集概述

该数据集包含5个数据集的语言特征描述。

特征描述

基本特征

  • punctuation_per_word: 标点符号数量 / 单词数量
  • uppercase_rate: 大写字母数量 / 字符数量
  • mean_word_len: 单词平均长度(字符)
  • mean_sentence_len: 句子平均长度(单词)
  • unique_words_rate: 独特单词数量 / 单词数量

动词特征

  • verbs_1p_rate: 第一人称动词数量 / 动词数量
  • verbs_2p_rate: 第二人称动词数量 / 动词数量
  • verbs_3p_rate: 第三人称动词数量 / 动词数量
  • verbs_past_tense_rate: 过去时态动词数量 / 动词数量
  • infinitives_rate: 不定式动词数量 / 动词数量

代词特征

  • pro_1p_rate: 第一人称代词数量 / 代词数量
  • pro_1p_sing_rate: 第一人称单数代词数量 / 代词数量
  • pro_1p_plural_rate: 第一人称复数代词数量 / 代词数量
  • pro_2p_rate: 第二人称代词数量 / 代词数量
  • pro_3p_rate: 第三人称代词数量 / 代词数量

其他语法特征

  • trager_coef: 动词数量 / 形容词数量
  • logical_coh_coef: (连词数量 + 粒子数量) / 句子数量 * 3
  • verbs_per_nouns_coef: 动词数量 / 名词数量
  • participles_gerunds_coef: 分词数量 / 动词数量
  • negation_rate: 否定前缀数量 / 单词数量

词性标签特征

  • postag_A: A词性标签数量 / 单词数量
  • postag_ADV: ADV词性标签数量 / 单词数量
  • postag_ADVPRO: ADVPRO词性标签数量 / 单词数量
  • postag_ANUM: ANUM词性标签数量 / 单词数量
  • postag_APRO: APRO词性标签数量 / 单词数量
  • postag_COM: COM词性标签数量 / 单词数量
  • postag_CONJ: CONJ词性标签数量 / 单词数量
  • postag_INTJ: INTJ词性标签数量 / 单词数量
  • postag_NUM: NUM词性标签数量 / 单词数量
  • postag_PART: PART词性标签数量 / 单词数量
  • postag_PR: PR词性标签数量 / 单词数量
  • postag_S: S词性标签数量 / 单词数量
  • postag_SPRO: SPRO词性标签数量 / 单词数量
  • postag_V: V词性标签数量 / 单词数量

情感和情绪特征

  • tgw_positive_assessment: 与积极评价相关的词汇字典
  • tgw_positive_social: 与积极社交相关的词汇字典
  • tgw_positive_emotions: 与积极情绪相关的词汇字典
  • tgw_negative_assessment: 与消极评价相关的词汇字典
  • tgw_negative_social: 与消极社交相关的词汇字典
  • tgw_negative_emotions: 与消极情绪相关的词汇字典
  • tgw_motivation_activity: 与动机、活动和紧张相关的词汇字典
  • tgw_cognitive_communication: 与认知活动和沟通相关的词汇字典
  • tgw_destructive_activity: 与破坏性活动相关的词汇字典
  • tgw_affect_lex: 情感语言字典
  • tgw_bodily_states_emotions: 与消极和被动情绪及身体状态相关的词汇字典
  • tgw_invectives: 辱骂词汇字典
  • tgw_soft_invectives: 温和辱骂词汇字典
  • tgw_obscene_lex: 猥亵词汇字典
  • tgw_youth_jargon: 青年俚语词汇字典
  • tgw_hcs: 与住房和公共服务相关的词汇字典
  • tgw_economics: 与经济学相关的词汇字典
  • tgw_catastrophes: 与灾难相关的词汇字典
  • tgw_security_structures: 与安全结构相关的词汇字典
  • tgw_healthcare_demography_ecology: 与医疗、人口和生态相关的词汇字典
  • tgw_authority: 与权威相关的词汇字典
  • be_disgust: 厌恶的基本情绪字典
  • be_shame: 羞耻的基本情绪字典
  • be_anger: 愤怒的基本情绪字典
  • be_fear: 恐惧的基本情绪字典
  • be_sadness: 悲伤的基本情绪字典
  • be_calm_excitement: 平静和兴奋的基本情绪字典
  • be_happyness: 幸福的基本情绪字典
  • be_wonder: 惊奇的基本情绪字典
  • ew_positive: 积极情感词汇字典
  • ew_negative: 消极情感词汇字典
  • ew_ambivalent: 矛盾情感词汇字典
  • ew_de_emotives: 去情感词汇字典
  • sentiment_rate: 基于linis-crowd字典的情感评分

句法树特征

  • max_synt_tree: 最大句法树长度
  • min_synt_tree: 最小句法树长度
  • mean_synt_tree: 平均句法树长度

UD关系特征

  • flat:foreign: UD关系数量归一化 / 单词数量
  • csubj: UD关系数量归一化 / 单词数量
  • acl: UD关系数量归一化 / 单词数量
  • acl:relcl: UD关系数量归一化 / 单词数量
  • advcl: UD关系数量归一化 / 单词数量
  • advmod: UD关系数量归一化 / 单词数量
  • amod: UD关系数量归一化 / 单词数量
  • appos: UD关系数量归一化 / 单词数量
  • aux: UD关系数量归一化 / 单词数量
  • aux:pass: UD关系数量归一化 / 单词数量
  • case: UD关系数量归一化 / 单词数量
  • cc: UD关系数量归一化 / 单词数量
  • cc:preconj: UD关系数量归一化 / 单词数量
  • ccomp: UD关系数量归一化 / 单词数量
  • conj: UD关系数量归一化 / 单词数量
  • cop: UD关系数量归一化 / 单词数量
  • det: UD关系数量归一化 / 单词数量
  • discourse: UD关系数量归一化 / 单词数量
  • fixed: UD关系数量归一化 / 单词数量
  • flat: UD关系数量归一化 / 单词数量
  • goeswith: UD关系数量归一化 / 单词数量
  • iobj: UD关系数量归一化 / 单词数量
  • list: UD关系数量归一化 / 单词数量
  • mark: UD关系数量归一化 / 单词数量
  • nmod: UD关系数量归一化 / 单词数量
  • nsubj: UD关系数量归一化 / 单词数量
  • nsubj:pass: UD关系数量归一化 / 单词数量
  • nummod: UD关系数量归一化 / 单词数量
  • nummod:gov: UD关系数量归一化 / 单词数量
  • obj: UD关系数量归一化 / 单词数量
  • obl: UD关系数量归一化 / 单词数量
  • orphan: UD关系数量归一化 / 单词数量
  • parataxis: UD关系数量归一化 / 单词数量
  • punct: UD关系数量归一化 / 单词数量
  • root: UD关系数量归一化 / 单词数量
  • xcomp: UD关系数量归一化 / 单词数量
  • compound: UD关系数量归一化 / 单词数量
  • flat:foreign: UD关系数量归一化 / 单词数量

挫折反应特征

  • E_group: 挫折反应:E类型
  • M_group: 挫折反应:M类型
  • I_group: 挫折反应:I类型
  • inf_group: 挫折反应:无反应
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作