filipino-scam-final-shards

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/TamAko783/filipino-scam-final-shards

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Filipino Scam — Final Shards，专为Qwen3-VL-4B-Instruct LoRA微调设计，用于菲律宾短格式视频诈骗检测。数据集包含训练集（1600个样本）、验证集（198个样本）和测试集（202个样本），均来自Kaggle原始测试集的分层平衡子集，涵盖六种诈骗类别（加密货币、电子钱包、礼品卡、赠品、游戏赚钱、任务）。每个样本以pickle格式存储，包含视频ID、平台、类别、标签及多角色对话内容（系统、用户、助手），其中用户内容包含图像帧和音频转录文本。数据集经过清洗和格式化处理，采用V8 Chain-of-Thought-with-think结构，确保推理过程真实影响判决结果，并便于解析。适用于多模态诈骗内容检测和生成式AI微调任务。

创建时间：

2026-04-29

原始信息汇总

数据集概述

该数据集用于微调 Qwen3-VL-4B-Instruct 模型，以检测菲律宾短格式视频中的诈骗内容。数据集以 CoT（思维链）格式的 pickle 分片形式提供。

数据集下载与使用

数据集地址：TamAko783/filipino-scam-final-shards
来源：基于 Kaggle 上的菲律宾诈骗数据集构建。

数据划分

数据集包含三个 pickle 分片文件，用于训练、验证和评估：

文件	样本数	用途
`Training.pkl`	1600	训练集
`Validate.pkl`	198	验证集（用于早停和最佳检查点选择）
`Evaluate.pkl`	202	测试集（用于最终无偏指标评估）

Validate 和 Evaluate 分片是原始 Kaggle 测试集的分层对半划分，每个类别（crypto、ewallet、giftcard、giveaway、p2e、task）中正负样本比例均为 50/50，使用随机种子 seed=42。

数据格式

每个样本以 pickle.dump 存储，字典结构如下：

id：字符串，原始视频 ID（格式：youtube_<id>）。
platform：字符串，视频来源平台（tiktok、youtube 或 fb）。
category：字符串，诈骗类别（crypto、ewallet、giftcard、giveaway、p2e 或 task）。
label：字符串，标签（legitimate 或 scam）。
messages：列表，包含三个角色消息：
- system：系统消息，包含诈骗政策和菲律宾背景的文本提示。
- user：用户消息，包含：
  - 33-60 帧 PIL 图像（RGB 格式）。
  - 文本部分，包含音频转录、标题、描述，以及要求模型在 <think>...</think> 标签内进行推理的指令。
- assistant：助手消息，包含目标输出——V8 CoT-with-think 格式的思维链。

数据清洗

去除 OCR 时间文本块：原始数据中每秒一个单词的片段及其频繁错读被移除（每样本约 600 个 token 的噪声）。
替换图像占位符：将 <image> 占位符替换为 PIL 图像条目。
附加推理指令：在用户提示中添加 <think> 指令。
调整助手目标格式：将助手目标格式化为 V8 思维链结构。

V8 CoT-with-think 目标格式

采用 DeepSeek-R1 风格的输出格式，包含推理过程和结构化 JSON 判决：

<think> Evidence: <基于帧、音频及标题/描述的单行观察> Criteria hits (C1-C7): <C1到C7的命中列表及其推理，或"none"> </think> {"verdict": "Yes", "confidence": 0.95, "category": "Crypto Investment"}

该格式的优势包括：

推理真实地影响判决：符合 Anthropic 2023/2025 和 RFEval 2026 对真正 CoT 的要求。
</think> 作为硬语法边界：模型可靠输出此标签，防止推理重复崩溃。
JSON 输出易于解析：即使思考模块失控，健壮的解析器也能处理。
与 Qwen3-VL-Thinking 原生模板匹配：在小数据集上实现最小分布偏移。

判决解析

提供以下 Python 代码用于从模型输出中提取判决：

python import re, json JSON_VERDICT_RE = re.compile(r"verdict"s*:s*"(Yes|No)", re.IGNORECASE) LEGACY_RE = re.compile(r(?:Scams*)?Verdicts*:s*(Yes|No), re.IGNORECASE) FALLBACK_RE = re.compile(r(Yes|No), re.IGNORECASE)

def parse_verdict(text): text_after = text.split(</think>, 1)[1] if </think> in text else text for r in (JSON_VERDICT_RE, LEGACY_RE, FALLBACK_RE): m = r.search(text_after) or r.search(text) if m: return m.group(1).lower() return None

搜集汇总

数据集介绍

构建方式

该数据集源自Kaggle平台上发布的菲律宾诈骗检测数据集，经过精心预处理与格式转换而成。原始JSONL文件经由`prepare_data.py`脚本处理，剔除了OCR时间文本块这一高噪声特征，这些片段每样本约含600标记的逐字错误识别内容。随后，将原始图像占位符替换为实际的PIL图像对象，并在用户提示后附加了<think>指令。最终，每条样本以pickle格式序列化存储，形成训练集（1600条）、验证集（198条）和测试集（202条）三个分片。其中验证集与测试集通过对Kaggle原始测试集进行分层抽样获得，每类别内保持50/50的正负样本均衡，并固定随机种子为42以保证可重复性。

特点

该数据集最显著的特点在于其采用的V8链式思维辅助目标格式，灵感源自DeepSeek-R1架构。每条样本的助手回复包含一个<think>块，内部记录从视频帧、音频转录、标题及描述中提取的单一证据行，以及命中的C1至C7评估标准列表；随后是一个包含判决、置信度和类别的JSON对象。这一设计基于多项前沿研究，确保推理过程真实地约束最终判决，而非事后合理化。硬语法边界</think>有效防止了理由重复导致的崩溃，而JSON输出即便思考块出现偏差也能被稳健解析。该格式与Qwen3-VL-Thinking原生模板高度契合，在少量数据上最小化分布偏移。

使用方法

使用该数据集时，可直接通过Python的pickle模块加载各分片文件，每条样本为包含id、平台、类别、标签及符合ChatML格式的多轮消息字典。训练时需确保PIL图像已正确嵌入用户内容列表。解析模型输出时，建议采用提供的三层正则表达式解析器：优先提取</think>后的JSON判决字段，若失败则回退至'Verdict: Yes/No'格式，最终以纯文本中的Yes/No作为兜底策略。该数据集专为Qwen3-VL-4B-Instruct模型的LoRA微调设计，可直接用于构建最终版检测系统。

背景与挑战

背景概述

随着短视频平台的迅猛发展，菲律宾语场景下的网络诈骗日益猖獗，成为数字安全领域亟待解决的严峻问题。filipino-scam-final-shards数据集由此应运而生，由TamAko783团队于近期构建，旨在为菲律宾语短视频诈骗检测提供高质量的微调数据。该数据集从Kaggle菲律宾诈骗数据集出发，经过精心清洗与格式化，最终以pickle分片形式呈现，专门用于Qwen3-VL-4B-Instruct模型的LoRA微调。其核心研究问题聚焦于利用多模态信息（视频帧、音频转录、标题与描述）自动识别加密货币、电子钱包、礼品卡、赠品、游戏赚取及任务类六大诈骗类别，对推动低资源语言环境下的视觉语言模型安全应用具有重要价值。

当前挑战

该数据集所解决的领域问题挑战在于，菲律宾语短视频诈骗形式多样且隐蔽，传统基于文本的检测方法难以捕捉帧与音频中隐含的欺诈线索，亟需多模态融合推理能力。构建过程中面临的挑战尤为突出：原始数据中包含大量OCR时间戳文本碎片，每样本约600个token的噪声严重干扰模型学习，需彻底剔除；同时，为确保推理的因果性而非事后合理化，需设计符合DeepSeek-R1风格的链式思考（CoT）结构，使模型在输出判决前显式推理证据，这对小样本微调下的分布对齐与结构稳定性构成严峻考验。此外，数据集的类别平衡、多模态内容对齐以及JSON判决格式的鲁棒解析，均是实现可靠诈骗检测的关键难点。

常用场景

经典使用场景

在移动互联网高度渗透的菲律宾，短格式视频平台上涌现出大量以加密货币投资、电子钱包诈骗、礼品卡套现、抽奖欺诈、边玩边赚陷阱以及任务刷单骗局为代表的多样化金融诈骗内容。该数据集正是针对这一现实挑战，将经过精细清洗和链式思维标注的1600条训练样本、198条验证样本及202条测试样本封装为标准化的pickle分片，旨在支撑多模态大语言模型在菲律宾语境下对短格式视频欺诈进行检测。研究者可基于该数据集对Qwen3-VL-4B-Instruct等模型开展低秩适配微调，从而构建兼顾画面帧序列、音频转录文本及标题描述的高鲁棒性诈骗视频分类器，为核心欺诈内容审核提供可复现的基准实验方案。

衍生相关工作

围绕该数据集已涌现一批具有代表性的衍生工作，其中之一是构建于相同训练流水线之上的TamAko783/Scam-Qwen3-VL-4B-final-lora全参数微调模型，该系统在保持Qwen3-VL-4B-Instruct原生推理解码模板的同时进一步适配菲律宾语种和短视频语义。在数据工程层面，研究团队开发了V8链式思维目标格式与四层容错解析器（JSON正则、遗留模式正则、后备正则及默认值），确保了即使推理模块产生偏离，下游判决提取的鲁棒性仍不受影响。此外，清洗流程中对OCR时序文本块（约600令牌/样本的逐秒单词碎片干扰）的移除策略，以及用PIL图像实体替换<image>占位符的做法，已被后续同类多模态微调工作视作标准预处理范式加以复现，推动了低资源语言场景下视频欺诈检测数据基础设施的规范化。

数据集最近研究