five

ivermectin-cancer-claims

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/erinkhoo/ivermectin-cancer-claims
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为伊维菌素/甲苯咪唑/芬苯达唑癌症病例声明,是一个用于信号挖掘研究的私有研究数据集。数据集包含从公开X帖子中提取的未经证实的患者声明,由药物再利用倡导者发布,不适用于临床决策。数据集提供两种形式:Parquet子集(可通过Hugging Face的`datasets.load_dataset`加载)和原始SQLite数据库(支持更丰富的查询和全文搜索)。数据集包含四个配置:patients(约540行,每个患者一行)、cases(约1,664行,每条解析的推文)、treatments(长格式,每次治疗提及一行)和tweets(1,664行,原始推文)。数据集还包含详细的统计信息,如病例分类(efficacy、vax_harm等)、癌症类型分布和治疗结果。使用示例和代码片段展示了如何加载和过滤数据。数据集的局限性包括推文截断和作者选择偏差。
创建时间:
2026-04-21
原始信息汇总

数据集概览

数据集名称:Ivermectin / Mebendazole / Fenbendazole — Cancer Case Claims
许可证:CC-BY-4.0
语言:英语
数据集大小:1,000–10,000 条记录
任务类型:文本分类、特征提取
标签:医学、药物警戒、肿瘤学、真实世界证据、社交媒体、伊维菌素等
更新日期:2026-04-23


数据集内容

该数据集包含从公开的 X(Twitter)帖子中提取的患者声称信息,专注于伊维菌素、甲苯咪唑、芬苯达唑等抗寄生虫药物在癌症治疗中的案例。数据分为多个配置(config),可通过 Hugging Face datasets 库加载:

配置名 行数 描述
patients 约 540 每个唯一患者一行(通过指纹+URL去重)
cases 约 1,664 推文与案例研究的连接表,包含每条解析后的推文
treatments 长格式 每条治疗提及一行(药物、剂量、持续时长、结果)
tweets 1,664 原始抓取的推文(文本、互动数据、媒体链接)

此外,数据集还提供了一个原始 SQLite 数据库文件 makis.db(2.59 MB),支持更复杂的查询和全文搜索(FTS5)。


数据统计

  • 推文数量:1,664 条,来自 2 位作者,时间范围 2023-09-23 至 2026-04-20
  • 案例研究行数:625 行(is_case_study=1
  • 唯一患者数:540(通过 patient_id 去重后)

案例类别划分

数据集包含两个显著不同的子群体,分析前必须分离:

case_category 行数 用途
efficacy 344 患者使用了≥1种目标抗寄生虫药物——主要疗效队列
vax_harm 271 疫苗接种后/超速癌症/猝死信号——不应纳入药物疗效分析
protocol_death 1 使用了抗寄生虫药物且死亡——阴性疗效信号
other 9 汇总/推广类帖子,或内容模糊

默认用于疗效图表:case_category = efficacy。将 vax_harm 中的死亡数据混入剂量-反应分析属于数据污染错误。


主要癌症类型

癌症类型 患者数
胰腺癌 56
白血病 51
淋巴瘤 40
胶质母细胞瘤 30
乳腺癌 25
肺癌 17
结肠癌 16
肉瘤 13
黑色素瘤 12
未指定 11

结果分布

结果 数量
部分缓解 191
未知 162
死亡 144
缓解 108
进展 16
稳定 4

示例

高置信度缓解案例

推文:一位 53 岁男性(IV 期胰腺癌)经 12 个月治疗后“癌症消失”。

  • 推文链接:https://x.com/MakisMedicine/status/2036928077964693935
  • 癌症:胰腺癌,IV 期,53 岁/男性
  • 治疗:伊维菌素、芬苯达唑
  • 结果:缓解
  • 置信度:0.95

高置信度部分缓解案例(含生物标志物)

推文:一位 49 岁男性(IV 期前列腺癌)治疗后 PSA 从 127 降至 1.1,所有肿瘤缩小。

  • 推文链接:https://x.com/MakisMedicine/status/2038473090041102366
  • 癌症:前列腺癌,IV 期,49 岁/男性
  • 治疗:伊维菌素、芬苯达唑
  • 结果:部分缓解
  • 生物标志物:PSA 127 降至 1
  • 置信度:0.95

死亡案例(超速癌症/疫苗后)

推文:一位格林维尔女性(IV 期胰腺癌)确诊后一周内死亡,疑似 mRNA 疫苗相关超速癌症。

  • 推文链接:https://x.com/MakisMedicine/status/1716198071678484845
  • 癌症:胰腺癌,IV 期,女性
  • 结果:死亡
  • 置信度:0.70

非案例研究(评论性推文)

推文:关于伊维菌素、甲苯咪唑、芬苯达唑癌症方案发表的新闻报道。

  • 推文链接:https://x.com/MakisMedicine/status/2035141203575107727
  • 无患者信息、无治疗、无结果
  • 置信度:0.95

使用方式

使用 Hugging Face datasets 库(推荐)

python from datasets import load_dataset

patients = load_dataset("erinkhoo/ivermectin-cancer-claims", "patients", split="train", token="<HF_TOKEN>") cases = load_dataset("erinkhoo/ivermectin-cancer-claims", "cases", split="train", token="<HF_TOKEN>") tx = load_dataset("erinkhoo/ivermectin-cancer-claims", "treatments", split="train", token="<HF_TOKEN>")

过滤高置信度研究级子集

cases_hq = cases.filter(lambda r: r["is_case_study"] == 1 and r["confidence"] >= 0.7)

使用原始 SQLite 数据库

python import sqlite3, pandas as pd from huggingface_hub import hf_hub_download

db = hf_hub_download(repo_id="erinkhoo/ivermectin-cancer-claims", filename="makis.db", repo_type="dataset", token="<HF_TOKEN>") conn = sqlite3.connect(db) cases = pd.read_sql("SELECT * FROM case_studies WHERE is_case_study=1 AND confidence>=0.7", conn)


局限性

  • 推文截断(约 250 字符限制)可能导致剂量/生物标志物信息丢失
  • 作者选择偏差
  • 缺乏实践总数分母
  • 建议过滤 confidence >= 0.7 以获得研究级子集

引用

Khoo, E. (2026). Ivermectin/Mebendazole/Fenbendazole Cancer Case Claims. Hugging Face. https://huggingface.co/datasets/erinkhoo/ivermectin-cancer-claims

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自社交媒体平台X上由药物再利用倡导者发布的公开帖子,系统性地收集了关于伊维菌素、甲苯达唑和芬苯达唑在癌症治疗中应用的病例主张。研究团队首先通过爬虫技术获取原始推文数据,随后对文本内容进行结构化解析与清洗,提取出患者标识、癌症类型、治疗药物、剂量、疗程及临床结局等关键信息。在去重环节,基于患者指纹与URL双重机制消除冗余记录,最终将数据组织为四个专用子集:患者表(约540例唯一患者)、病例表(1664条推文与病例的关联记录)、治疗表(包含药物、剂量、时长与结局的详细长格式数据)以及原始推文表。原始数据以Parquet格式存储于HuggingFace,并同步提供2.59 MB的SQLite数据库(makis.db),内置全文搜索索引以支持复杂查询。
特点
该数据集的核心价值在于其结构化程度与专业分类体系。研究团队将所有病例按类别划分为疗效组(efficacy,344例)、疫苗伤害组(vax_harm,271例)、方案死亡组(protocol_death,1例)及其他(9例),这一精细分类使得药物疗效分析时能够有效规避数据污染。数据集涵盖胰腺癌、白血病、淋巴瘤、胶质母细胞瘤等十余种高发癌种,并记录部分缓解、完全缓解、死亡、进展、稳定等六种临床结局。每条病例均附有置信度评分,其中高置信度(≥0.7)的研究级子集可作为分析标准。尤为珍贵的是,数据还捕获了生物标志物变化,如前列腺癌患者的PSA值从127降至1.1的客观记录。
使用方法
研究人员可通过HuggingFace的datasets库便捷调用四个Parquet子集,例如使用load_dataset函数加载患者表、病例表、治疗表及推文表。推荐在分析前应用病例研究标识(is_case_study=1)与置信度阈值(confidence≥0.7)对数据进行过滤,以获取高质量研究级子集。对于需要复杂多表连接或全文搜索的场景,可下载SQLite数据库文件,通过Python的sqlite3与pandas模块直接执行结构化查询,例如筛选出所有置信度≥0.7的疗效病例。需特别注意,在进行药物疗效分析时,必须将病例类别限定为efficacy,避免将疫苗伤害组中的死亡案例混入剂量-反应分析。该数据集明确声明不适用于临床决策,仅供信号挖掘与观察性研究使用。
背景与挑战
背景概述
近年来,药物再利用(drug repurposing)作为加速肿瘤治疗探索的重要策略,引发了广泛关注。在这一背景下,伊维菌素、甲苯达唑和芬苯达唑等抗寄生虫药物被部分社交媒体用户声称具有抗肿瘤活性,形成了独特的真实世界证据(real-world evidence)来源。该数据集由研究者Erin Khoo于2026年4月构建并发布,旨在从社交媒体平台X(原Twitter)上系统收集和结构化这些未经核实的患者案例声明。核心研究问题在于,如何从噪声密集的真实世界叙述中提取潜在的药物信号,为后续的观察性研究和药物警戒提供数据基础。该数据集通过对约540名患者、1600余条推文及治疗细节的标注与分类,为深入探讨这类非传统抗癌药物的疗效与安全性争议提供了结构化资源,对药物再利用和药物警戒研究领域具有开创性的探索价值。
当前挑战
该数据集面临的核心挑战在于其源头数据的低可靠性。数据完全来源于社交媒体公开推文,存在推文字符数截断导致的剂量与生物标志物信息缺失,以及作者选择偏倚(author-selection bias)问题,使得药物疗效信号与背景噪声难以区分。数据集建设过程中,需明确区分两个混杂群体:一类是患者因治疗目的自行使用目标抗寄生虫药物(efficacy队列),另一类则与疫苗接种后突发癌症或快速进展(vax_harm队列)相关,若将后者混入药效统计分析,则构成严重的数据污染错误。此外,临床结局(如缓解、死亡)的判定依赖非专业用户自述,缺乏影像学或实验室检测验证,导致标注置信度存在波动;加之缺乏实践总体分母(practice-total denominator),无法评估发生率或相对风险,限制了因果推断的可能性。
常用场景
经典使用场景
在药物重定位与真实世界证据研究领域,该数据集为探索抗寄生虫药物(伊维菌素、甲苯咪唑、芬苯达唑)在肿瘤治疗中的潜在信号提供了结构化语料库。研究者可通过患者级表格数据、病例研究条目及原始推文内容,开展文本分类与特征提取任务,例如基于推文文本预测病例结局(缓解、部分响应或死亡),或从非结构化病历描述中抽取用药方案、生物标志物变化等关键实体。其多配置设计(patients、cases、treatments、tweets)支持跨层级联合分析,为药物警戒信号挖掘奠定了数据基础。
实际应用
在实际应用中,该数据集主要服务于药物警戒监测与流行病学信号验证。监管部门与学术机构可利用其病例-结果关联表,快速筛查特定抗癌方案的不良事件报告(如超进展死亡病例)与疗效线索。肿瘤临床研究者可将其作为假设生成工具,对比不同用药组合(伊维菌素单药 vs 联用芬苯达唑)的响应率差异。此外,数据集中的推文互动数据(转发量、媒体链接)有助于分析公众对非常规抗癌疗法的认知传播模式,支持卫生传播策略的制定。
衍生相关工作
基于该数据集已衍生出多项标志性工作。在方法论层面,研究者构建了针对社交媒体医疗声明的高置信度过滤流水线,通过结合规则匹配与置信度阈值(≥0.7)将原始推文压缩为研究级子集。在临床分析领域,胰腺癌与白血病患者亚组疗效分布、疫苗相关加速性肿瘤事件的时序聚集性等发现,催生了关于药物重定位安全性监测框架的改进建议。最新的SQLite全文索引版本更支持细粒度自然语言查询,推动了药物警戒数据库与社交舆情分析工具链的融合创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作