five

SMM4H

收藏
arXiv2025-09-30 收录
下载链接:
https://data.mendeley.com/datasets/rxwfb3tysd/2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是针对2020年SMM4H挑战赛第三项任务——不良事件(AE)规范化的公开数据集。它包含了以高度非正式语言报告不良事件的推文,这些推文被映射到了一个PT/LLT(药理作用/低水平术语)上。此外,该数据集中“非目标”样本的比例较高,这为测试模型的泛化能力带来了挑战。数据集规模为2,367条推文,其中1,442个样本,任务是对不良事件进行规范化。

This is a public dataset for Task 3 of the 2020 SMM4H Challenge, focused on adverse event (AE) normalization. It comprises tweets reporting adverse events in highly informal language, which have been mapped to PT/LLT (Pharmacological Action/Low-Level Term). Additionally, the dataset features a high proportion of "non-target" samples, presenting challenges for evaluating the generalization capability of models. The dataset consists of 2,367 tweets in total, with 1,442 of them serving as the samples for the adverse event normalization task.
提供机构:
SMM4H Challenge
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SMM4H数据集是用于SMM4H-2017共享任务的评估数据,专注于从Twitter社交媒体中提取药物相关文本,进行文本分类和概念标准化。该数据集应用于医疗健康领域,包括药物不良反应监测、自然语言处理和机器学习等方向,旨在支持流行病学和健康信息学研究。数据集包含多个子任务文件,采用CC BY 4.0许可证,最新版本为V2,发布于2018年。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作