holistic-ai/Personality_mypersonality|性格分析数据集|文本数据数据集

hugging_face2023-08-22 更新2024-06-15 收录

性格分析

文本数据

下载链接：

https://hf-mirror.com/datasets/holistic-ai/Personality_mypersonality

下载链接

链接失效反馈

资源简介：

--- dataset_info: features: - name: text dtype: string - name: answer dtype: string splits: - name: train num_bytes: 1060810.1672884945 num_examples: 7933 - name: test num_bytes: 265302.83271150547 num_examples: 1984 download_size: 644690 dataset_size: 1326113.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # Dataset Card for "Personality_mypersonality" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

holistic-ai

原始信息汇总

数据集概述

数据特征

text: 数据类型为字符串。
answer: 数据类型为字符串。

数据分割

train:
- 字节数: 1060810.1672884945
- 样本数: 7933
test:
- 字节数: 265302.83271150547
- 样本数: 1984

数据大小

下载大小: 644690 字节
数据集大小: 1326113.0 字节

配置

config_name: default
- data_files:
  - train: data/train-*
  - test: data/test-*

AI搜集汇总

数据集介绍

构建方式

在心理学研究领域，个性特质分析是重要的一环。该数据集Personality_mypersonality的构建，采取了对mypersonality项目中的用户数据进行筛选与处理的方式，旨在形成一份能够反映个人性格特质的数据集。数据集包含用户填写的问卷调查文本（text）以及对应的答案（answer），通过这些信息，研究者可以分析用户的个性特征。构建过程中，数据被划分为训练集与测试集，确保了模型的训练与验证的分离，提高了研究的可靠性。

特点

Personality_mypersonality数据集的特点在于，其数据来源于mypersonality项目的真实用户数据，具有较高的生态效度。数据集涵盖了7933条训练数据与1984条测试数据，规模适中，便于研究者进行有效的研究与验证。此外，数据以纯文本形式存储，易于处理和分析，也便于与其他数据集进行整合，增加了其适用性。

使用方法

使用Personality_mypersonality数据集时，用户首先需要通过HuggingFace的datasets库进行下载。下载后，用户可以根据数据集提供的train和test分割，进行模型的训练和测试。数据集的default配置提供了清晰的数据文件路径，用户可以直接加载并利用其中的文本和答案字段进行个性特质的分析与建模，进而开展相关领域的深入研究。

背景与挑战

背景概述

在心理学研究领域，个性特质的分析与建模始终是核心议题之一。'Personality_mypersonality'数据集，创建于21世纪初，由mypersonality项目团队携手多家研究机构共同研发。该数据集依托于大规模的在线问卷调查，旨在探索个体间的性格差异及其与行为模式的关系。其主要研究人员来自心理学、社会学和计算机科学领域，他们的工作为后续相关研究提供了宝贵的资源，对个性心理测量和计算社会科学产生了深远的影响。

当前挑战

尽管该数据集为个性研究提供了丰富的文本资料，但在实际应用中仍面临诸多挑战。首先，数据集构建过程中的隐私保护问题尤为突出，如何在确保用户隐私的前提下进行有效研究是一个重要议题。其次，数据标注的主观性可能导致模型偏差，影响研究结果的准确性。此外，随着社会语言的演变，数据集的时效性也是一个不容忽视的问题，需要不断更新以适应新的语言环境和文化背景。

常用场景

经典使用场景

在心理学研究领域，‘Personality_mypersonality’数据集被广泛用于个性特质分析。该数据集包含文本和相应的个性答案，研究者可通过机器学习模型训练，预测个体的个性特征，为心理测评提供数据支撑。

衍生相关工作

基于‘Personality_mypersonality’数据集，研究者们衍生出了众多相关工作，如个性预测模型、文本情感分析工具，以及结合个性特征的社交网络分析研究，推动了心理学与计算科学的交叉融合。

数据集最近研究

最新研究方向

在个性心理研究领域，‘holistic-ai/Personality_mypersonality’数据集的应用不断拓展。该数据集以其丰富的文本及对应的个性特征答案，为研究个体性格与行为模式之间的关联提供了宝贵的资源。近期研究集中于利用深度学习模型，从文本中准确识别和预测个体的性格特质，以期推动个性化推荐系统、心理健康评估等领域的发展。此类研究不仅深化了我们对人类性格的理解，也为构建更加智能化、个性化的社会服务提供了科学依据。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集，共计约1,0000,000轮，上亿级token，包含正式&非正式风格对话，使用偏口语化自然表达。覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上，DOTS-NLP-216包含了对真实场景的对话采集，及高度还原真实场景的模拟对话这两种方式，兼顾分布的代表性、多样性和样本规模。

魔搭社区收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

GID(Gaofen Image Dataset)

GID 是具有高分二号（GF-2）卫星图像的大规模土地覆盖数据集。这个新的数据集被命名为高分图像数据集（GID），由于其覆盖范围大、分布广、空间分辨率高，优于现有的土地覆盖数据集。 GID由两部分组成：大规模分类集和精细土地覆盖分类集。大规模分类集包含 150 个像素级标注的 GF-2 图像，精细分类集由 30,000 个多尺度图像块加上 10 个像素级标注的 GF-2 图像组成。分别基于 5 个类别的训练和验证图像收集和重新标记 15 个类别的训练和验证数据。

OpenDataLab 收录

FACED

FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建，包含从123名参与者收集的32通道EEG信号，用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建，旨在通过EEG信号分析情感状态。创建过程中，数据经过标准化和统一预处理，设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域，旨在解决情感计算中的分类问题，提高情感识别的准确性和效率。

arXiv 收录