ivermectin-cancer-claims
收藏数据集概览
数据集名称:Ivermectin / Mebendazole / Fenbendazole — Cancer Case Claims
许可证:CC-BY-4.0
语言:英语
数据集大小:1,000–10,000 条记录
任务类型:文本分类、特征提取
标签:医学、药物警戒、肿瘤学、真实世界证据、社交媒体、伊维菌素等
更新日期:2026-04-23
数据集内容
该数据集包含从公开的 X(Twitter)帖子中提取的患者声称信息,专注于伊维菌素、甲苯咪唑、芬苯达唑等抗寄生虫药物在癌症治疗中的案例。数据分为多个配置(config),可通过 Hugging Face datasets 库加载:
| 配置名 | 行数 | 描述 |
|---|---|---|
patients |
约 540 | 每个唯一患者一行(通过指纹+URL去重) |
cases |
约 1,664 | 推文与案例研究的连接表,包含每条解析后的推文 |
treatments |
长格式 | 每条治疗提及一行(药物、剂量、持续时长、结果) |
tweets |
1,664 | 原始抓取的推文(文本、互动数据、媒体链接) |
此外,数据集还提供了一个原始 SQLite 数据库文件 makis.db(2.59 MB),支持更复杂的查询和全文搜索(FTS5)。
数据统计
- 推文数量:1,664 条,来自 2 位作者,时间范围 2023-09-23 至 2026-04-20
- 案例研究行数:625 行(
is_case_study=1) - 唯一患者数:540(通过
patient_id去重后)
案例类别划分
数据集包含两个显著不同的子群体,分析前必须分离:
case_category |
行数 | 用途 |
|---|---|---|
efficacy |
344 | 患者使用了≥1种目标抗寄生虫药物——主要疗效队列 |
vax_harm |
271 | 疫苗接种后/超速癌症/猝死信号——不应纳入药物疗效分析 |
protocol_death |
1 | 使用了抗寄生虫药物且死亡——阴性疗效信号 |
other |
9 | 汇总/推广类帖子,或内容模糊 |
默认用于疗效图表:case_category = efficacy。将 vax_harm 中的死亡数据混入剂量-反应分析属于数据污染错误。
主要癌症类型
| 癌症类型 | 患者数 |
|---|---|
| 胰腺癌 | 56 |
| 白血病 | 51 |
| 淋巴瘤 | 40 |
| 胶质母细胞瘤 | 30 |
| 乳腺癌 | 25 |
| 肺癌 | 17 |
| 结肠癌 | 16 |
| 肉瘤 | 13 |
| 黑色素瘤 | 12 |
| 未指定 | 11 |
结果分布
| 结果 | 数量 |
|---|---|
| 部分缓解 | 191 |
| 未知 | 162 |
| 死亡 | 144 |
| 缓解 | 108 |
| 进展 | 16 |
| 稳定 | 4 |
示例
高置信度缓解案例
推文:一位 53 岁男性(IV 期胰腺癌)经 12 个月治疗后“癌症消失”。
- 推文链接:https://x.com/MakisMedicine/status/2036928077964693935
- 癌症:胰腺癌,IV 期,53 岁/男性
- 治疗:伊维菌素、芬苯达唑
- 结果:缓解
- 置信度:0.95
高置信度部分缓解案例(含生物标志物)
推文:一位 49 岁男性(IV 期前列腺癌)治疗后 PSA 从 127 降至 1.1,所有肿瘤缩小。
- 推文链接:https://x.com/MakisMedicine/status/2038473090041102366
- 癌症:前列腺癌,IV 期,49 岁/男性
- 治疗:伊维菌素、芬苯达唑
- 结果:部分缓解
- 生物标志物:PSA 127 降至 1
- 置信度:0.95
死亡案例(超速癌症/疫苗后)
推文:一位格林维尔女性(IV 期胰腺癌)确诊后一周内死亡,疑似 mRNA 疫苗相关超速癌症。
- 推文链接:https://x.com/MakisMedicine/status/1716198071678484845
- 癌症:胰腺癌,IV 期,女性
- 结果:死亡
- 置信度:0.70
非案例研究(评论性推文)
推文:关于伊维菌素、甲苯咪唑、芬苯达唑癌症方案发表的新闻报道。
- 推文链接:https://x.com/MakisMedicine/status/2035141203575107727
- 无患者信息、无治疗、无结果
- 置信度:0.95
使用方式
使用 Hugging Face datasets 库(推荐)
python from datasets import load_dataset
patients = load_dataset("erinkhoo/ivermectin-cancer-claims", "patients", split="train", token="<HF_TOKEN>") cases = load_dataset("erinkhoo/ivermectin-cancer-claims", "cases", split="train", token="<HF_TOKEN>") tx = load_dataset("erinkhoo/ivermectin-cancer-claims", "treatments", split="train", token="<HF_TOKEN>")
过滤高置信度研究级子集
cases_hq = cases.filter(lambda r: r["is_case_study"] == 1 and r["confidence"] >= 0.7)
使用原始 SQLite 数据库
python import sqlite3, pandas as pd from huggingface_hub import hf_hub_download
db = hf_hub_download(repo_id="erinkhoo/ivermectin-cancer-claims", filename="makis.db", repo_type="dataset", token="<HF_TOKEN>") conn = sqlite3.connect(db) cases = pd.read_sql("SELECT * FROM case_studies WHERE is_case_study=1 AND confidence>=0.7", conn)
局限性
- 推文截断(约 250 字符限制)可能导致剂量/生物标志物信息丢失
- 作者选择偏差
- 缺乏实践总数分母
- 建议过滤
confidence >= 0.7以获得研究级子集
引用
Khoo, E. (2026). Ivermectin/Mebendazole/Fenbendazole Cancer Case Claims. Hugging Face. https://huggingface.co/datasets/erinkhoo/ivermectin-cancer-claims




