filipino-scam-final-shards
收藏数据集概述
该数据集用于微调 Qwen3-VL-4B-Instruct 模型,以检测菲律宾短格式视频中的诈骗内容。数据集以 CoT(思维链)格式的 pickle 分片形式提供。
数据集下载与使用
- 数据集地址:TamAko783/filipino-scam-final-shards
- 来源:基于 Kaggle 上的 菲律宾诈骗数据集 构建。
数据划分
数据集包含三个 pickle 分片文件,用于训练、验证和评估:
| 文件 | 样本数 | 用途 |
|---|---|---|
Training.pkl |
1600 | 训练集 |
Validate.pkl |
198 | 验证集(用于早停和最佳检查点选择) |
Evaluate.pkl |
202 | 测试集(用于最终无偏指标评估) |
Validate和Evaluate分片是原始 Kaggle 测试集的分层对半划分,每个类别(crypto、ewallet、giftcard、giveaway、p2e、task)中正负样本比例均为 50/50,使用随机种子 seed=42。
数据格式
每个样本以 pickle.dump 存储,字典结构如下:
id:字符串,原始视频 ID(格式:youtube_<id>)。platform:字符串,视频来源平台(tiktok、youtube 或 fb)。category:字符串,诈骗类别(crypto、ewallet、giftcard、giveaway、p2e 或 task)。label:字符串,标签(legitimate 或 scam)。messages:列表,包含三个角色消息:- system:系统消息,包含诈骗政策和菲律宾背景的文本提示。
- user:用户消息,包含:
- 33-60 帧 PIL 图像(RGB 格式)。
- 文本部分,包含音频转录、标题、描述,以及要求模型在
<think>...</think>标签内进行推理的指令。
- assistant:助手消息,包含目标输出——V8 CoT-with-think 格式的思维链。
数据清洗
- 去除 OCR 时间文本块:原始数据中每秒一个单词的片段及其频繁错读被移除(每样本约 600 个 token 的噪声)。
- 替换图像占位符:将
<image>占位符替换为 PIL 图像条目。 - 附加推理指令:在用户提示中添加
<think>指令。 - 调整助手目标格式:将助手目标格式化为 V8 思维链结构。
V8 CoT-with-think 目标格式
采用 DeepSeek-R1 风格的输出格式,包含推理过程和结构化 JSON 判决:
<think> Evidence: <基于帧、音频及标题/描述的单行观察> Criteria hits (C1-C7): <C1到C7的命中列表及其推理,或"none"> </think> {"verdict": "Yes", "confidence": 0.95, "category": "Crypto Investment"}
该格式的优势包括:
- 推理真实地影响判决:符合 Anthropic 2023/2025 和 RFEval 2026 对真正 CoT 的要求。
</think>作为硬语法边界:模型可靠输出此标签,防止推理重复崩溃。- JSON 输出易于解析:即使思考模块失控,健壮的解析器也能处理。
- 与 Qwen3-VL-Thinking 原生模板匹配:在小数据集上实现最小分布偏移。
判决解析
提供以下 Python 代码用于从模型输出中提取判决:
python import re, json JSON_VERDICT_RE = re.compile(r"verdict"s*:s*"(Yes|No)", re.IGNORECASE) LEGACY_RE = re.compile(r(?:Scams*)?Verdicts*:s*(Yes|No), re.IGNORECASE) FALLBACK_RE = re.compile(r(Yes|No), re.IGNORECASE)
def parse_verdict(text): text_after = text.split(</think>, 1)[1] if </think> in text else text for r in (JSON_VERDICT_RE, LEGACY_RE, FALLBACK_RE): m = r.search(text_after) or r.search(text) if m: return m.group(1).lower() return None




