CVCODE/big5_essays_ru

Name: CVCODE/big5_essays_ru
Creator: CVCODE
Published: 2023-05-08 08:18:28
License: 暂无描述

Hugging Face2023-05-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CVCODE/big5_essays_ru

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: '#AUTHID' dtype: string - name: TEXT dtype: string - name: extroversion dtype: int64 - name: neuroticism dtype: int64 - name: agreeableness dtype: int64 - name: conscientiousness dtype: int64 - name: openness dtype: int64 - name: TEXT_RU dtype: string splits: - name: train num_bytes: 21522844 num_examples: 2467 download_size: 11117157 dataset_size: 21522844 --- # Dataset Card for "big5_essays_ru" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- dataset_info: 特征字段: - 字段名: #AUTHID，数据类型: 字符串（string） - 字段名: TEXT，数据类型: 字符串 - 字段名: 外向性（extroversion），数据类型: 64位整数（int64） - 字段名: 神经质（neuroticism），数据类型: 64位整数（int64） - 字段名: 宜人性（agreeableness），数据类型: 64位整数（int64） - 字段名: 尽责性（conscientiousness），数据类型: 64位整数（int64） - 字段名: 开放性（openness），数据类型: 64位整数（int64） - 字段名: TEXT_RU，数据类型: 字符串数据划分: - 划分名称: train，字节数: 21522844，样本数量: 2467 下载大小: 11117157字节数据集总大小: 21522844字节 --- # 「big5_essays_ru」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

CVCODE

原始信息汇总

数据集概述

数据集名称

名称: big5_essays_ru

数据集特征

特征列表:
- #AUTHID: 数据类型为 string
- TEXT: 数据类型为 string
- extroversion: 数据类型为 int64
- neuroticism: 数据类型为 int64
- agreeableness: 数据类型为 int64
- conscientiousness: 数据类型为 int64
- openness: 数据类型为 int64
- TEXT_RU: 数据类型为 string

数据集分割

分割详情:
- train:
  - 数据量: 21522844 字节
  - 示例数量: 2467

数据集大小

下载大小: 11117157 字节
数据集大小: 21522844 字节

搜集汇总

数据集介绍

构建方式

在人格计算领域，CVCODE/big5_essays_ru数据集的构建体现了跨语言文本分析的严谨性。该数据集源自原始英文个人随笔文本，通过专业翻译流程转化为俄语版本，确保了语言转换的准确性与文化适应性。构建过程中，每篇文本均关联大五人格特质的多维评分，包括外向性、神经质、宜人性、尽责性和开放性，这些评分基于标准心理测量工具获得。数据集的整理侧重于保持文本与人格标签的对应关系，形成了包含训练集的完整结构，为跨语言人格预测研究提供了基础资源。

使用方法

在应用层面，CVCODE/big5_essays_ru数据集主要用于训练和评估跨语言人格预测模型。研究者可同时利用英文与俄语文本字段，开发多语言特征提取算法，探索人格特质在不同语言中的表达一致性。该数据集支持监督学习任务，以人格评分为目标变量，构建回归或分类模型。典型工作流程包括文本预处理、特征工程、模型训练及跨语言泛化能力测试，为个性化推荐、心理健康分析等应用提供实证基础。

背景与挑战

背景概述

在心理学与计算语言学交叉领域，人格特质分析一直是备受关注的研究方向。CVCODE/big5_essays_ru数据集由相关研究团队于近年构建，旨在通过俄语文本数据探索大五人格模型的自动评估方法。该数据集的核心研究问题聚焦于如何从非结构化的语言表达中，有效推断个体的外向性、神经质、宜人性、尽责性和开放性等特质，为跨文化人格计算提供了重要的数据基础，推动了心理健康评估、人机交互等领域的智能化发展。

当前挑战

该数据集致力于解决人格特质自动识别这一复杂领域问题，其挑战在于文本特征与人格维度间的映射关系往往具有高度非线性与主观性，且俄语的语言特性增加了模型泛化的难度。在构建过程中，研究人员面临数据标注的一致性保障、文化背景对语言表达的潜在影响，以及原始文本与人格得分间的噪声干扰等具体困难，这些因素共同制约了模型的精确性与鲁棒性。

常用场景

经典使用场景

在心理学与计算语言学交叉领域，CVCODE/big5_essays_ru数据集为研究者提供了探索文本与人格特质关联的宝贵资源。该数据集收录了数千篇俄语短文，并标注了作者在五大人格特质（外向性、神经质、宜人性、尽责性、开放性）上的得分，使得学者能够深入分析语言表达如何反映个体心理特征。经典使用场景包括构建人格预测模型，通过自然语言处理技术从文本中自动推断作者的人格倾向，为心理评估提供数据驱动的见解。

解决学术问题

该数据集有效解决了人格心理学中传统测量方法依赖主观问卷、耗时费力的问题，为自动化人格评估开辟了新途径。通过文本分析，研究者能够探究语言模式与人格维度之间的量化关系，验证诸如外向性与积极词汇使用频率相关等理论假设。其意义在于推动了计算心理学的实证研究，使大规模、非侵入式的人格分析成为可能，对理解人类行为与认知机制产生了深远影响。

实际应用

在实际应用中，CVCODE/big5_essays_ru数据集可服务于个性化推荐系统、人力资源管理和心理健康监测等领域。例如，企业可利用文本分析工具评估求职者的人格匹配度，提升招聘效率；教育机构则能通过学生作文识别其心理特质，实现个性化辅导。这些应用不仅优化了决策过程，还促进了人机交互的智能化发展，使技术更贴合人类心理需求。

数据集最近研究