HARPT
收藏arXiv2025-06-26 更新2025-06-28 收录
下载链接:
https://doi.org/10.7910/DVN/U6OF6F
下载链接
链接失效反馈官方服务:
资源简介:
HARPT是一个大规模的标注语料库,包含超过48万条移动健康应用商店评论,旨在推动用户隐私和信任研究。数据集包含七个类别,涵盖了应用程序信任、提供商信任和隐私问题等关键方面。创建HARPT涉及多个复杂性,如定义微妙的标签模式、从大量嘈杂数据中隔离相关内容,以及设计一个既可扩展又准确的标注策略。此外,还手动标注了一个精心策划的7,000条评论子集,以支持模型开发和评估。该数据集被发布为公共资源,以支持健康信息学、网络安全和自然语言处理等领域的工作。
HARPT is a large-scale annotated corpus containing over 480,000 mobile health (mHealth) app store reviews, aimed at advancing research on user privacy and trust. The dataset includes seven categories covering key aspects such as app trust, provider trust, and privacy concerns. The creation of HARPT involved multiple complexities, including defining nuanced labeling schemes, isolating relevant content from massive noisy datasets, and designing a scalable yet accurate annotation strategy. Additionally, a carefully curated subset of 7,000 reviews was manually annotated to support model development and evaluation. This dataset is released as a public resource to support research in fields including health informatics, cybersecurity, and natural language processing.
提供机构:
密苏里大学
创建时间:
2025-06-24
原始信息汇总
HARPT: A Corpus for Analyzing Consumers’ Trust and Privacy Concerns in Mobile Health Apps
数据集基本信息
- 标题: HARPT: A Corpus for Analyzing Consumers’ Trust and Privacy Concerns in Mobile Health Apps
- 版本: 1.0
- 发布日期: 2025-06-18
- 作者: Kelly, Timoteo (University of Missouri-Columbia)
- DOI: https://doi.org/10.7910/DVN/U6OF6F
- 许可协议: CC BY 4.0
数据集描述
- 内容概述: HARPT是一个大规模标注数据集,包含移动健康应用商店中关于隐私和信任的用户评论。数据集包含480,000条用户评论,分为七类,反映了隐私关注、应用信任和提供商信任的关键维度。
- 数据来源: 从Google Play Store的67个远程医疗和患者门户移动健康应用中抓取的2011-2025年的用户评论。
数据集文件
-
ground_truth.csv
- 格式: Comma Separated Values
- 大小: 1.1 MB
- 内容: 7,000条手动标注和数据增强的训练集。
- MD5: 165...ea5
-
HARPT.tab
- 格式: Tabular Data
- 大小: 133.0 MB
- 内容: 480,450条用户评论,包含14个变量。
- UNF: UNF:6:LPiZCP9g1mmX7x6zOUomww==
-
README.md
- 格式: Markdown Text
- 大小: 1.1 KB
- MD5: c61...fe3
主题分类
- Medicine, Health and Life Sciences
- Computer and Information Science
下载选项
- 原始格式: ZIP (125.7 MB)
- 归档格式: .tab ZIP (134.1 MB)
搜集汇总
数据集介绍

构建方式
HARPT数据集的构建过程体现了多模态数据整合的前沿方法。研究团队从Google Play商店爬取了约457,165条移动健康应用的用户评论,通过关键词过滤筛选出相关评论后,采用三阶段标注流程:首轮由标注员标记1,000条评论,再由两名独立评审进行复核,最终通过多数表决确定标签。为确保数据质量,研究采用Fleiss' Kappa系数评估标注者间一致性,达到0.877的高信度水平。针对类别不平衡问题,创新性地运用回译法进行数据增强,并通过BLEU分数验证语义保真度。为扩展数据集规模,研究基于XLNet模型对480,450条评论进行弱监督标注,构建了当前最全面的移动健康隐私与信任分析语料库。
特点
该数据集在移动健康领域具有显著特色。其包含480,450条用户评论,时间跨度从2011年至2025年,覆盖67款主流移动健康应用,包括患者门户(64.8%)和远程医疗(35.2%)两类平台。评论平均长度16.5词,真实反映了应用商店反馈的简洁特性。数据集创新性地定义了七维标注体系:数据控制、数据质量、风险、支持、可靠性、能力和道德性,全面捕捉用户对隐私和信任的多层次认知。特别值得注意的是,数据集同时包含7,000条人工精标数据和47万余条弱监督数据,为不同精度需求的研究提供了灵活选择。数据分布呈现典型的长尾特征,能力类占比44.3%,而道德性仅占1.3%,这种自然分布为研究类别不平衡问题提供了真实场景。
使用方法
该数据集为健康信息学领域研究提供了丰富可能性。研究者可通过Hugging Face平台获取预训练的XLNet模型,快速实现评论分类任务。对于精度要求较高的研究,建议使用7,000条人工标注数据作为基准测试集;大规模分析则可利用弱监督标注的完整数据集。数据集支持多种分析方法:传统机器学习方法可采用TF-IDF特征,深度学习方法则适合基于Transformer架构的模型微调。研究团队已发布包括随机森林(F1=93.96%)、DistilBERT(F1=91.27%)等基准模型性能,为后续研究提供参考。值得注意的是,数据集特别适合跨时段比较研究,其15年的时间跨度可用于分析用户隐私观念演变。在使用时应注意数据的情感分布特性,65.4%的五星评价与16.7%的一星评价形成鲜明对比,建议研究时考虑评分偏差的校正方法。
背景与挑战
背景概述
HARPT数据集由密苏里大学的研究团队于2025年创建,旨在分析移动健康应用中用户的隐私关注与信任问题。该数据集包含超过48万条用户评论,标注为七个类别,涵盖应用信任、提供者信任及隐私担忧等核心维度。作为首个大规模公开的移动健康应用评论数据集,HARPT填补了健康信息学、网络安全和自然语言处理领域的研究空白,为理解用户对敏感健康数据处理的认知提供了实证基础。其构建过程融合了规则过滤、多轮人工标注和基于Transformer的弱监督技术,理论框架整合了Mayer的组织信任模型和IUIPC隐私关注模型,具有显著的跨学科价值。
当前挑战
HARPT需解决移动健康领域特有的双重挑战:在领域层面,需同时捕捉技术系统信任(如应用可靠性)和医疗服务信任(如提供者伦理)的复杂交互,这对标注体系设计提出更高要求;在构建层面,面临医疗评论噪声大(如非结构化抱怨与专业术语混杂)、类别不平衡(积极评价占比65.4%)以及隐私表述隐含性(如间接表达担忧)等难题。研究团队通过设计七维细粒度标签体系、采用回译增强数据多样性、结合人工校验与弱监督分类器等创新方法应对这些挑战,最终实现标注者间Kappa系数0.877的高一致性。
常用场景
经典使用场景
在移动健康应用领域,HARPT数据集为研究者提供了一个独特的视角,通过分析用户评论中的隐私和信任问题,揭示了用户对健康数据处理的深层次关注。该数据集通过七种精细标注的类别,如数据控制、数据质量和风险等,使研究者能够深入探讨用户对移动健康应用的信任机制和隐私担忧。这种分析不仅有助于理解用户行为,还为设计更加安全和可信的健康应用提供了数据支持。
解决学术问题
HARPT数据集解决了移动健康应用中用户隐私和信任研究的核心问题。通过大规模的用户评论标注,研究者可以系统地分析用户对隐私保护的担忧和对应用及服务提供商的信任程度。这一数据集填补了现有研究中缺乏大规模公开数据的空白,为健康信息学、网络安全和自然语言处理领域的研究提供了宝贵的资源。其标注框架基于成熟的隐私和信任理论,确保了研究的科学性和可靠性。
衍生相关工作
HARPT数据集已经衍生出多项经典研究工作。例如,基于该数据集的文本分类模型在隐私和信任检测任务中表现出色,为后续研究提供了基准。此外,研究者利用HARPT数据集开发了多种自然语言处理技术,如情感分析和主题建模,进一步挖掘用户评论中的深层信息。这些工作不仅扩展了数据集的应用范围,还为移动健康领域的隐私和信任研究开辟了新的方向。
以上内容由遇见数据集搜集并总结生成



