Splits!

Name: Splits!
Creator: 普渡大学计算机科学系
Published: 2025-04-07 07:17:07
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

https://github.com/eyloncaplan/splits

下载链接

链接失效反馈

官方服务：

资源简介：

Splits! 是一个大规模的数据集，由普渡大学计算机科学系创建，包含来自Reddit的超过8900万条帖子，这些帖子被分为6个人口统计学群体（种族、宗教、职业）。数据集的核心部分是经过话题分割的360万条帖子，涵盖200个中性话题。该数据集旨在支持一个新的任务——群体理论化任务，通过比较不同群体在讨论中性话题时的表达差异，生成关于群体表达的简洁理论。

**Splits!** is a large-scale dataset created by the Department of Computer Science at Purdue University. It contains over 89 million posts sourced from Reddit, which are categorized into six demographic groups covering race, religion, and occupation. The core part of the dataset consists of 3.6 million topic-segmented posts spanning 200 neutral topics. This dataset is designed to support a novel task: the group theorization task, which aims to generate concise theories about group expressions by comparing the differences in how different demographic groups express themselves when discussing neutral topics.

提供机构：

普渡大学计算机科学系

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

Splits!数据集通过精心设计的流程构建，主要基于Reddit平台的公开帖子。研究团队首先筛选了50,000个规模最大的子论坛(subreddit)，从中识别出与特定人口统计群体高度相关的种子子论坛。通过用户重叠度计算（余弦相似度和Jaccard指数）扩展种子集，确保数据代表性。随后采用基于BM25算法的主题检索方法，从200个中性主题（如体育、科技、旅行等）中提取相关帖子，并通过自识别短语验证用户群体归属。最终构建了包含360万帖子的主题分割子集，覆盖6个人口统计群体。

特点

该数据集的核心价值在于其独特的双重分割结构：既按人口统计特征（种族、宗教、职业）分类，又按内容中性主题划分。这种设计使研究者能够探究群体在非身份相关话题上的表达差异，避免了表面刻板印象。数据集规模庞大（360万帖子），且通过严格的群体归属验证机制确保数据质量。特别值得注意的是，所有主题均经过筛选以确保内容中性，这为研究群体表达的深层次文化差异提供了理想素材。

使用方法

Splits!数据集支持创新的群体理论化(Group Theorization)任务，要求模型基于未标记的校准帖子生成区分不同人口统计群体表达风格的理论。使用流程包括：1）提供两个人口统计群体和中性主题；2）输入混合的校准帖子集；3）生成区分理论；4）通过固定分类模型评估理论质量。数据集还附带标准化评估框架，研究者可实现自己的理论生成方法，而使用统一的评估流程比较性能。此外，该数据集也适用于文化对齐研究、偏见检测等多样化应用场景。

背景与挑战

背景概述

Splits! 是由普渡大学计算机科学系的Eylon Caplan、Tania Chakraborty和Dan Goldwasser团队于2025年提出的创新性数据集，旨在解决大语言模型（LLMs）在群体表达理论化（Group Theorization）任务中的评估难题。该数据集通过系统化组织Reddit平台上89万条按人口属性（如职业、宗教、种族）和中性话题（如体育、科技）分类的帖子，为研究者提供了探究群体语言表达差异的基准工具。其核心价值在于突破了传统身份分类任务的局限，转向对群体在非身份相关话题中表达风格的深层理论化分析，推动了计算社会科学与AI伦理交叉领域的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决LLMs对非西方主流群体表达模式的理论化能力不足问题，例如模型易生成刻板印象或无法捕捉少数群体的语言细微差异；在构建层面，存在数据清洗复杂性（如从海量帖子中过滤机器人账户和垃圾信息）、群体归属验证难题（需设计‘群体性’指标量化用户与目标人口属性的关联强度），以及中性话题划分的语义边界模糊性（需确保话题关键词集能准确反映非身份相关的讨论内容）。此外，匿名化处理后的校准集要求模型在隐藏群体身份的条件下推断表达差异，进一步增加了任务难度。

常用场景

经典使用场景

Splits!数据集在自然语言处理领域中被广泛应用于评估大型语言模型（LLMs）在群体表达差异上的推理能力。通过将Reddit帖子按中性主题和人口统计特征（如职业、宗教和种族）分类，该数据集为研究者提供了一个标准化的平台，用于测试模型生成关于不同群体表达风格的理论的能力。这一任务被称为群体理论化（Group Theorization, GT），要求模型在未标记的帖子基础上，生成能够区分不同人口统计群体表达风格的简洁理论。

解决学术问题

Splits!数据集解决了评估语言模型在社会属性推理上的关键问题，特别是在模型如何理解和表达不同人口统计群体的语言风格方面。通过提供大量按人口统计和主题分类的文本数据，该数据集帮助研究者识别和减少模型中的偏见，特别是在处理少数群体或非主流文化表达时的偏差。此外，该数据集还支持对模型生成理论的泛化能力进行量化评估，填补了现有研究中缺乏标准化评估工具的空白。

衍生相关工作

Splits!数据集已经催生了一系列相关研究，特别是在模型偏见检测和文化对齐领域。例如，一些研究利用该数据集开发了新的评估框架，用于量化模型在不同人口统计群体上的表现差异。其他工作则基于该数据集构建了增强型语言模型，这些模型在生成内容时能够更好地反映多样化的群体表达风格。此外，该数据集还被用于研究模型在跨文化沟通中的泛化能力，推动了自然语言处理领域对多样性和包容性的深入探讨。

以上内容由遇见数据集搜集并总结生成