MATCHED

Name: MATCHED
Creator: 马斯特里赫特大学
Published: 2024-12-18 20:39:01
License: 暂无描述

arXiv2024-12-18 更新2024-12-20 收录

下载链接：

https://dataverse.nl

下载链接

链接失效反馈

官方服务：

资源简介：

MATCHED数据集是由马斯特里赫特大学的Law & Tech Lab创建，专门用于多模态作者归属研究，旨在打击人口贩卖。该数据集包含27,619条独特的文本描述和55,115张图片，来源于Backpage escort平台，覆盖美国七个城市的广告数据。数据集的创建过程涉及从多个地理区域收集数据，并通过多任务训练框架进行处理，以提高分类和检索性能。MATCHED数据集主要应用于执法机构（LEAs），帮助其通过多模态分析识别和验证广告发布者，从而打击人口贩卖网络。

The MATCHED dataset was developed by the Law & Tech Lab at Maastricht University, specifically designed for multimodal author attribution research with the core goal of combating human trafficking. This dataset comprises 27,619 unique text descriptions and 55,115 images, sourced from the Backpage escort platform, and covers advertising data from seven U.S. cities. The construction of the dataset involves collecting data from multiple geographic regions and processing it via a multi-task training framework to enhance classification and retrieval performance. The MATCHED dataset is primarily applied to Law Enforcement Agencies (LEAs), assisting them in identifying and verifying ad publishers through multimodal analysis so as to combat human trafficking networks.

提供机构：

马斯特里赫特大学

创建时间：

2024-12-18

搜集汇总

数据集介绍

构建方式

MATCHED数据集通过从Backpage escort平台收集的27,619条独特的文本描述和55,115张独特的图像构建而成，涵盖了美国七个城市的广告数据，跨越四个地理区域。数据集的构建过程中，研究人员通过提取电话号码并使用NetworkX工具形成供应商社区，为每条广告分配唯一的供应商标签，从而为作者归属任务提供了真实标签。

特点

MATCHED数据集的核心特点在于其多模态性，结合了文本和图像数据，提供了丰富的上下文信息。此外，数据集具有显著的地理多样性，涵盖了美国多个城市的广告数据，确保了模型的泛化能力。数据集还包含了大量的图像数据，其中约56%的图像中包含人脸，这为视觉特征的分析提供了丰富的素材。

使用方法

MATCHED数据集可用于多模态作者归属任务，支持文本、视觉以及多模态模型的训练与评估。用户可以通过多任务联合训练框架，同时优化供应商识别和验证任务，提升分类和检索性能。数据集的文本和图像数据可以分别用于单模态模型的训练，也可以通过融合策略进行多模态模型的训练，从而捕捉文本和图像之间的互补信息，提升模型的整体性能。

背景与挑战

背景概述

MATCHED数据集由马斯特里赫特大学法律与技术实验室的研究团队创建，旨在应对在线陪护广告中多模态作者归属问题，以打击人口贩卖。该数据集包含27,619条独特的文本描述和55,115张独特的图片，收集自Backpage平台的七个美国城市的陪护广告，时间跨度为2015年12月至2016年4月。MATCHED数据集的核心研究问题是通过多模态数据（文本和图像）进行作者归属，以识别和验证广告发布者，从而帮助执法机构（LEAs）追踪和破坏人口贩卖网络。该数据集的引入填补了现有方法仅依赖文本分析的空白，展示了多模态数据在提升作者归属任务中的潜力。

当前挑战

MATCHED数据集面临的挑战主要集中在两个方面：一是解决多模态数据在作者归属任务中的整合问题，现有的方法往往忽视了图像数据在陪护广告中的重要性，导致模型性能受限；二是数据集构建过程中遇到的隐私和伦理问题，由于数据涉及敏感的陪护广告内容，如何在保护个人隐私的同时确保数据的可用性成为一大挑战。此外，数据集中存在大量的噪声和重复广告，增加了数据清洗和处理的复杂性。最后，如何确保模型在不同地理区域和广告平台上的泛化能力，也是该数据集面临的重要挑战。

常用场景

经典使用场景

MATCHED数据集的经典使用场景在于通过多模态分析（文本和图像）进行作者归属（Authorship Attribution, AA），特别是在打击人口贩卖（Human Trafficking, HT）的背景下。该数据集通过收集自Backpage平台的27,619条独特文本描述和55,115张独特图像，支持对在线陪护广告的发布者进行识别和验证。通过结合文本和图像的多模态特征，模型能够捕捉到发布者的语言风格和视觉特征，从而在缺乏直接标识符（如电话号码或电子邮件）的情况下，有效连接和识别发布者。

解决学术问题

MATCHED数据集解决了传统作者归属方法在处理在线陪护广告时面临的多个学术问题。首先，传统方法主要依赖文本分析，忽略了图像中包含的丰富信息，而MATCHED通过多模态分析填补了这一空白。其次，该数据集解决了在缺乏直接标识符的情况下，如何通过语言和视觉风格识别发布者的问题。此外，MATCHED还解决了模型在面对分布外（Out-of-Distribution, OOD）数据时的泛化能力问题，通过多任务训练和多模态融合，提升了模型在不同数据分布下的表现。

衍生相关工作

MATCHED数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的多模态作者归属（Multimodal Authorship Attribution, MAA）研究成为热点，推动了多模态融合技术的发展。其次，MATCHED的发布为多任务学习（Multitask Learning）提供了新的基准，特别是在同时优化发布者识别和验证任务方面。此外，MATCHED还启发了对文本-图像对齐策略的研究，尽管现有的CLIP和BLIP2等方法在处理陪护广告时表现不佳，但这一领域的研究仍在不断推进，旨在开发更鲁棒的多模态对齐技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集