profiles_dataset_200000_uniform_r17

Name: profiles_dataset_200000_uniform_r17
Creator: EleutherAI
Published: 2025-01-10 08:38:03
License: 暂无描述

Hugging Face2025-01-10 更新2025-01-12 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/profiles_dataset_200000_uniform_r17

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如姓名、索引、出生日期、出生城市、大学、雇主等，还包括多个结构化字段，如父母、孩子、最好的朋友、最坏的敌人等。每个结构化字段都包含姓名和索引两个子字段。数据集分为训练集，包含200,000个样本，总大小为121,817,049字节。

提供机构：

EleutherAI

创建时间：

2025-01-10

原始信息汇总

数据集概述

数据集基本信息

数据集名称: profiles_dataset_200000_uniform_r17
数据集地址: https://huggingface.co/datasets/EleutherAI/profiles_dataset_200000_uniform_r17
数据集大小: 121,817,049 字节
下载大小: 98,875,389 字节
样本数量: 200,000 个

数据集特征

name: 字符串类型，表示姓名。
index: 整数类型，表示索引。
birth_date: 时间戳类型，表示出生日期。
birth_city: 字符串类型，表示出生城市。
university: 字符串类型，表示大学。
employer: 字符串类型，表示雇主。
parent: 结构体类型，包含以下字段：
- name: 字符串类型，表示父母姓名。
- index: 整数类型，表示父母索引。
child: 结构体类型，包含以下字段：
- name: 字符串类型，表示子女姓名。
- index: 整数类型，表示子女索引。
best_friend: 结构体类型，包含以下字段：
- name: 字符串类型，表示最好的朋友姓名。
- index: 整数类型，表示最好的朋友索引。
worst_enemy: 结构体类型，包含以下字段：
- name: 字符串类型，表示最坏的敌人姓名。
- index: 整数类型，表示最坏的敌人索引。
sibling: 结构体类型，包含以下字段：
- name: 字符串类型，表示兄弟姐妹姓名。
- index: 整数类型，表示兄弟姐妹索引。
spouse: 结构体类型，包含以下字段：
- name: 字符串类型，表示配偶姓名。
- index: 整数类型，表示配偶索引。
cousin: 结构体类型，包含以下字段：
- name: 字符串类型，表示表亲姓名。
- index: 整数类型，表示表亲索引。
grandparent: 结构体类型，包含以下字段：
- name: 字符串类型，表示祖父母姓名。
- index: 整数类型，表示祖父母索引。
grandchild: 结构体类型，包含以下字段：
- name: 字符串类型，表示孙子女姓名。
- index: 整数类型，表示孙子女索引。
business_partner: 结构体类型，包含以下字段：
- name: 字符串类型，表示商业伙伴姓名。
- index: 整数类型，表示商业伙伴索引。
protege: 结构体类型，包含以下字段：
- name: 字符串类型，表示门徒姓名。
- index: 整数类型，表示门徒索引。
mentor: 结构体类型，包含以下字段：
- name: 字符串类型，表示导师姓名。
- index: 整数类型，表示导师索引。
betrayer: 结构体类型，包含以下字段：
- name: 字符串类型，表示背叛者姓名。
- index: 整数类型，表示背叛者索引。
debtor: 结构体类型，包含以下字段：
- name: 字符串类型，表示债务人姓名。
- index: 整数类型，表示债务人索引。
blackmailer: 结构体类型，包含以下字段：
- name: 字符串类型，表示敲诈者姓名。
- index: 整数类型，表示敲诈者索引。
hero: 结构体类型，包含以下字段：
- name: 字符串类型，表示英雄姓名。
- index: 整数类型，表示英雄索引。
evil_twin: 结构体类型，包含以下字段：
- name: 字符串类型，表示邪恶双胞胎姓名。
- index: 整数类型，表示邪恶双胞胎索引。
bio: 字符串类型，表示个人简介。

数据集分割

train: 包含 200,000 个样本，大小为 121,817,049 字节。

配置文件

config_name: default
- data_files:
  - split: train
  - path: data/train-*

搜集汇总

数据集介绍

构建方式

profiles_dataset_200000_uniform_r17数据集的构建基于大规模的社会关系网络数据，涵盖了20万个个体的详细信息。每个个体的数据包括姓名、出生日期、出生城市、教育背景、工作单位等基本信息，同时通过结构化的方式记录了其与父母、子女、朋友、敌人等多重社会关系的关联信息。数据集的构建过程注重数据的均匀分布，确保各类社会关系的代表性，并通过时间戳记录个体的出生日期，增强了数据的时效性和可追溯性。

特点

该数据集的特点在于其丰富的社会关系信息，涵盖了从家庭关系到职业伙伴的多种关系类型。每个个体的信息不仅包括基本属性，还通过嵌套结构详细记录了其与其他人物的复杂关系网络。数据集的结构化设计使得数据易于解析和处理，同时提供了高维度的分析可能性。此外，数据集的规模庞大且分布均匀，适合用于社会网络分析、关系预测等研究领域。

使用方法

使用profiles_dataset_200000_uniform_r17数据集时，研究者可以通过加载训练集文件进行数据分析。数据集以JSON格式存储，支持多种编程语言进行解析。研究者可以利用该数据集进行社会网络分析、关系预测、个体行为建模等任务。通过提取个体的基本信息和社会关系，可以构建复杂的社会网络模型，并进一步分析网络中的节点中心性、社区结构等特征。此外，数据集的时间戳信息可用于时间序列分析，探索社会关系的动态变化。

背景与挑战

背景概述

profiles_dataset_200000_uniform_r17数据集是一个包含20万条个人档案信息的大规模数据集，涵盖了姓名、出生日期、出生城市、教育背景、职业信息以及复杂的社会关系网络。该数据集由匿名研究团队于近期发布，旨在为社会科学、网络分析以及人工智能领域的研究提供高质量的数据支持。其核心研究问题聚焦于个体在社会网络中的角色定位及其对群体行为的影响。通过丰富的结构化数据，该数据集为研究者提供了探索社会关系动态、家族结构、职业网络等多维度问题的可能性，对相关领域的研究具有重要的推动作用。

当前挑战

该数据集在解决社会网络分析与个体行为建模问题时面临多重挑战。首先，社会关系的复杂性与多样性使得数据标注和关系定义变得极为困难，尤其是在处理诸如‘背叛者’、‘勒索者’等非传统关系时，数据的准确性与一致性难以保证。其次，数据构建过程中，如何确保个人隐私保护与数据公开之间的平衡是一个关键问题，尤其是在涉及敏感信息时。此外，数据的时间跨度与地域分布的多样性也对数据的标准化处理提出了更高的要求，如何在不同文化背景下统一数据格式与语义理解，是构建过程中亟待解决的难题。

常用场景

经典使用场景

在社交网络分析和人物关系研究中，profiles_dataset_200000_uniform_r17数据集被广泛用于构建复杂的人物关系网络。通过分析数据集中的家庭关系、朋友关系、职业关系等多维度信息，研究者能够深入探讨社会结构中的互动模式和影响力传播机制。

实际应用

在实际应用中，该数据集可用于构建智能推荐系统、社交网络分析工具以及人物关系图谱。例如，在社交媒体平台中，基于该数据集的关系网络分析可以帮助优化用户推荐算法，提升用户体验；在公共安全领域，该数据集可用于识别潜在的社会风险群体，辅助决策制定。

衍生相关工作

基于profiles_dataset_200000_uniform_r17数据集，许多经典研究工作得以展开。例如，研究者利用该数据集开发了高效的社会网络分析算法，提出了基于人物关系的社区发现方法，并进一步推动了图神经网络在社交网络分析中的应用。这些工作不仅丰富了社会网络分析的理论体系，也为相关领域的实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集