five

RedditImpacts 2.0

收藏
arXiv2025-08-27 更新2025-08-29 收录
下载链接:
https://github.com/SumonKantiDey/Reddit_Impacts_NER
下载链接
链接失效反馈
官方服务:
资源简介:
RedditImpacts 2.0是一个高质量的、针对特定任务的、专注于第一人称披露的数据集,旨在支持从与鸦片类药物使用相关的社交媒体叙述中提取临床影响和社会影响。该数据集包括详细的标注指南和一致的范围,解决了先前工作中存在的关键限制。数据集由1378条第一人称叙述组成,其中包含831个社会影响实体和947个临床影响实体,总共有28.6K个tokens。该数据集的创建是为了帮助开发更有效的NLP系统,以自动识别Reddit叙述中的非医疗鸦片类药物使用的临床和社会影响。数据集的创建涉及两个有经验的标注者,他们使用由主题专家精心设计的详细标注手册进行标注,并通过迭代过程达成高度一致。该数据集适用于公共健康监测、干预规划和减少与物质相关过量使用流行病的负担等领域。

RedditImpacts 2.0 is a high-quality, task-specific dataset focused on first-person disclosures, designed to support the extraction of clinical and social impacts from social media narratives related to opioid use. This dataset includes detailed annotation guidelines and a consistent scope, addressing critical limitations present in prior work. The dataset consists of 1,378 first-person narratives, containing 831 social impact entities and 947 clinical impact entities, with a total of 28.6K tokens. This dataset was created to aid the development of more effective NLP systems for automatically identifying the clinical and social impacts of non-medical opioid use in Reddit narratives. The dataset’s creation involved two experienced annotators, who performed annotation using a detailed annotation manual meticulously designed by subject matter experts, and achieved high inter-annotator agreement through an iterative process. This dataset is applicable to fields such as public health monitoring, intervention planning, and reducing the burden of the substance-related overdose epidemic.
提供机构:
埃默里大学医学院
创建时间:
2025-08-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称:Reddit_Impacts_NER
  • 研究主题:命名实体识别(NER)中领域专业知识与机器智能的推理差距
  • 数据内容:与物质使用相关的数据集

数据集获取

  • 数据集将根据合理请求提供,可能需要遵守数据使用协议

数据集结构

  • ./new_data:包含所有数据集相关文件
  • ./results:存储测试数据集的评估结果
  • ./notebooks:包含数据预处理和探索的笔记本
  • ./src:包含使用LLMs和PLMs进行命名实体识别的源代码

相关资源

  • 方法示意图:https://github.com/SumonKantiDey/Reddit_Impacts_NER/raw/main/figs/method.png
  • 结果示意图:https://github.com/SumonKantiDey/Reddit_Impacts_NER/raw/main/figs/results.png
  • 实体级别示意图:https://github.com/SumonKantiDey/Reddit_Impacts_NER/raw/main/figs/entity-level.png
搜集汇总
数据集介绍
main_image_url
构建方式
RedditImpacts 2.0数据集的构建基于Reddit平台上关于阿片类药物非医疗使用的第一人称叙述,采用迭代式标注流程。两名经过语言学训练的标注员依据详细标注指南,对社交媒体文本中的临床影响(如戒断症状、抑郁)和社会影响(如失业、家庭破裂)实体进行识别。初始阶段通过独立标注10%的数据子集并讨论分歧以优化指南,随后达到95%以上的一致性后分工完成剩余标注。最终标注者间一致性Cohen's Kappa达到0.81,确保了标注的高可靠性。
使用方法
RedditImpacts 2.0适用于命名实体识别任务,尤其适合微调预训练语言模型(如DeBERTa、BERT)或评估大语言模型的少样本学习能力。使用者可加载数据集进行序列标注训练,采用交叉熵损失和CRF层优化标签一致性。评估时推荐使用松弛F1分数以处理部分匹配的实体边界。该数据集还可用于分析模型在隐式实体、否定结构及领域术语上的表现,支持成瘾监测和公共卫生NLP工具的开发。
背景与挑战
背景概述
RedditImpacts 2.0数据集由埃默里大学生物医学信息学部门与宾夕法尼亚大学急诊医学系合作,于2025年推出,旨在通过自然语言处理技术从Reddit平台的第一人称叙述中识别非医疗用阿片类药物使用的临床与社会影响。该数据集聚焦于命名实体识别任务,专门标注ClinicalImpacts(如戒断症状、抑郁)和SocialImpacts(如失业、家庭破裂)两类实体,以补充传统医疗系统中未被充分记录的信息,推动成瘾监测与公共卫生干预策略的发展。
当前挑战
该数据集解决的领域问题挑战包括:社交媒体文本的非结构化、语境依赖性强及术语模糊性,导致模型难以准确区分临床与社会影响实体;构建过程中的挑战涉及标注一致性维护,需处理第一人称叙述的情感表达与隐含语义,并通过迭代标注流程和专家指导确保标注质量,同时克服标注者对领域专业知识的高依赖性和标注成本限制。
常用场景
经典使用场景
在药物滥用监测研究中,RedditImpacts 2.0数据集被广泛用于命名实体识别任务,专门从社交媒体文本中提取自我报告的阿片类药物使用后果。研究者通过微调预训练语言模型如DeBERTa-large,能够高效识别临床影响(如抑郁、戒断症状)和社会影响(如失业、家庭关系破裂)两类实体,为公共卫生分析提供结构化数据支撑。
解决学术问题
该数据集解决了生物医学自然语言处理领域中对非结构化社交媒体文本进行细粒度实体识别的难题。通过提供高质量的第一人称标注数据,它显著提升了模型在领域特异性实体(如临床与社会影响)上的识别精度,并揭示了领域专家知识与通用NLP模型之间的性能差距,推动了领域自适应方法的发展。
实际应用
RedditImpacts 2.0在公共卫生监测中具有重要应用价值,可用于实时追踪阿片类药物滥用的临床与社会后果。卫生机构可通过分析社交媒体中的自我报告数据,及时发现区域性的药物滥用趋势、评估干预措施效果,并为高风险群体提供定向支持服务,从而辅助公共卫生决策与资源分配。
数据集最近研究
最新研究方向
在药物滥用监测领域,RedditImpacts 2.0数据集正推动命名实体识别技术向细粒度社会临床影响分析方向发展。该数据集通过精炼的第一人称叙事标注,聚焦阿片类药物使用导致的临床症状(如戒断反应、抑郁)和社会后果(如失业、家庭关系破裂)的提取。当前研究热点集中于探索领域特异性微调模型与大型语言模型在低资源环境下的性能差异,DeBERTa-large模型在精确度和边界识别方面显著优于GPT-4o等通用模型,凸显了专业领域知识融合的重要性。这一进展对公共卫生监测具有深远意义,为实时发现药物滥用趋势、开发危机干预系统提供了可靠的技术支撑,同时促进了临床自然语言处理模型在敏感社会议题中的负责任部署。
相关研究论文
  • 1
    Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset埃默里大学医学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作