Multimodal-PEH-Classification

Name: Multimodal-PEH-Classification
Creator: 圣母大学,美国;联合国大学澳门研究所,中国澳门特别行政区
Published: 2025-08-15 01:58:34
License: 暂无描述

arXiv2025-08-15 更新2025-08-22 收录

下载链接：

https://github.com/Homelessness-Project/Multimodal-PEH-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“Multimodal-PEH-Classification”，由圣母大学和联合国大学澳门研究所的研究人员创建。数据集包含来自Reddit、Twitter、新闻文章和市政会议记录的关于无家可归的讨论数据，覆盖了10个美国城市。数据集包含1702条数据，旨在帮助研究人员和政策制定者了解和解决针对无家可归者的社会偏见问题。

The dataset named 'Multimodal-PEH-Classification' was created by researchers from the University of Notre Dame and the United Nations University Institute in Macau. It contains discussions about homelessness sourced from Reddit, Twitter, news articles, and municipal meeting transcripts, covering 10 U.S. cities. Comprising 1,702 data entries, this dataset is designed to help researchers and policymakers understand and address social biases against people experiencing homelessness.

提供机构：

圣母大学,美国;联合国大学澳门研究所,中国澳门特别行政区

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在无家可归问题研究领域，Multimodal-PEH-Classification数据集通过系统化方法构建而成。研究人员选取美国10个具有代表性的城市，基于专业PEH词典从Reddit、X（原Twitter）、新闻文章和市议会会议记录四大渠道采集2015至2025年间的多模态数据。采用spaCy和pydeidentify工具对原始文本进行严格匿名化处理，消除所有个人身份信息，确保数据隐私合规性。通过分层抽样策略选取1702条样本，由三名标注者与领域专家合作完成人工标注，建立具有78.38%平均一致性的黄金标准数据集。

使用方法

该数据集主要服务于自然语言处理与社会计算的交叉研究。研究者可基于黄金标准标注开展无家可归偏见的自动检测模型训练，支持零样本和少样本学习范式。使用时应遵循多模态分析路径：分别处理社交媒体短文本与会议长文本的特性，利用16类别体系进行细粒度偏见映射。建议采用宏观F1分数作为主要评估指标，以平衡多数类和稀有类的检测性能。数据集支持跨城市对比分析、跨平台偏见传播研究以及政策干预效果评估，但需注意地理局限性并结合其他数据源进行补充验证。

背景与挑战

背景概述

Multimodal-PEH-Classification数据集由圣母大学与联合国大学澳门研究所于2025年联合创建，旨在通过多模态数据分析和大型语言模型技术，识别和量化针对无家可归者（PEH）的社会偏见。该数据集整合了Reddit、X（原Twitter）、新闻文章和市议会会议记录等多源文本，覆盖美国10个城市2015至2025年的数据，致力于解决社会 stigmatization 对无家可归者政策制定的阻碍，为计算社会科学与伦理人工智能研究提供了重要基础。

当前挑战

该数据集需解决无家可归者偏见分类中的多标签不平衡问题，例如“提供事实主张”类别占比超过70%，而“种族主义”类别不足1%。构建过程中面临多源数据异构性整合挑战，包括社交媒体非结构化文本与市议会会议半结构化记录的标准化处理，以及地理分布代表性局限（仅覆盖10个美国城市），同时需确保隐私保护下的有效匿名化处理。

常用场景

经典使用场景

在计算社会科学领域，Multimodal-PEH-Classification数据集被广泛应用于无家可归者偏见的自动检测与分类研究。该数据集通过整合来自Reddit、X（前Twitter）、新闻文章和市议会会议记录的多模态文本，为研究者提供了丰富的语言表达样本。其经典使用场景包括训练和评估大型语言模型在零样本和少样本学习设置下的偏见识别能力，特别是在低资源环境中本地LLM的性能验证。

解决学术问题

该数据集有效解决了社会计算研究中关于弱势群体偏见自动识别的关键学术问题。通过构建包含16种偏见类别的人工标注体系，它克服了传统单一平台数据源的局限性，为衡量数字空间中无家可归者污名化程度提供了量化工具。其重要意义在于建立了计算方法与社会科学研究的桥梁，使得大规模分析公众态度与政策制定之间的关联成为可能，推动了算法公平性在敏感社会议题中的应用研究。

实际应用

在实际应用层面，该数据集为政府机构和非营利组织提供了监测公众舆论的动态工具。通过分析不同城市和媒体平台中无家可归者偏见的分布模式，决策者能够制定更具针对性的反污名化政策。例如，市议会会议记录中的解决方案讨论与社交媒体中的有害概括形成鲜明对比，这种差异帮助政策制定者理解不同沟通渠道的特质，从而设计更有效的公共沟通策略。

数据集最近研究