ViClickbait-2025 Dataset

github2025-07-14 更新2025-07-25 收录

下载链接：

https://github.com/blanatole/ViClickbait-2025-A-Comprehensive-Dataset-for-Vietnamese-Clickbait-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

ViClickbait-2025是一个越南语数据集，旨在支持在线新闻中点击诱饵检测的研究。它包含从8个主要越南新闻门户网站收集的3,414条新闻标题，并标注为点击诱饵或非点击诱饵。该数据集旨在反映越南数字媒体中多样的新闻风格、类别和时间段。

ViClickbait-2025 is a Vietnamese-language dataset designed to support research on clickbait detection in online news. It contains 3,414 news titles collected from eight major Vietnamese news portals, annotated as either clickbait or non-clickbait. This dataset aims to reflect the diverse news styles, categories, and temporal spans present in Vietnamese digital media.

创建时间：

2025-07-14

原始信息汇总

ViClickbait-2025 数据集概述

基本信息

名称: ViClickbait-2025
语言: 越南语
数据量: 3,414 条新闻标题
标注类型: 点击诱饵（clickbait） / 非点击诱饵（non-clickbait）
数据来源: 8 个越南主要新闻门户网站（包括 Báo Mới、VnExpress、Thanh Niên 等）

关键特征

标注数据: 每条新闻标题均标注为点击诱饵或非点击诱饵
元数据字段: 类别、发布时间、导语段落
数据预处理: 经过清理和标准化处理，适用于自然语言处理任务
多样性: 涵盖多种新闻风格、类别和时间段

用途

点击诱饵分类: 二元分类任务
特征提取与语言分析: 支持语言学特征研究
越南语NLP模型评估: 适用于评估 PhoBERT、Vistral、LLMs 等模型
教育与基准测试: 用于学术研究和模型性能比较

许可信息

许可证类型: 计划发布为 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可证
使用限制: 仅限学术和非商业用途
引用要求: 使用时需给予适当署名

状态说明

当前状态: 正在审核中，尚未正式发布
DOI信息: 暂未分配，将在数据文章正式发表后更新

联系方式

获取方式: 如需提前获取（用于同行评审或研究合作），请联系仓库维护者

搜集汇总

数据集介绍

构建方式

在越南数字媒体生态系统的研究背景下，ViClickbait-2025数据集的构建采用了系统化抽样方法，从8家主流新闻门户中采集了3,414条新闻标题。这些数据经过严格的清洗和标准化处理，并由专业团队根据预定义的标注准则进行人工标注，确保每个标题被准确分类为点击诱饵或非点击诱饵类别。数据集还整合了类别、发布时间和导语段落等元数据，为后续分析提供了丰富的上下文信息。

特点

作为越南语领域首个专注于点击诱饵检测的标注数据集，ViClickbait-2025的突出特点体现在其语言特异性和数据多样性上。数据集不仅覆盖了政治、社会、娱乐等多类新闻主题，还囊括了不同时期和写作风格的文本样本。每条数据都经过严格的文本规范化处理，消除了拼写变异和特殊字符干扰，特别适合越南语自然语言处理模型的训练与评估。

使用方法

该数据集主要服务于越南语点击诱饵检测模型的开发与基准测试。研究人员可直接加载预处理后的文本数据，利用PhoBERT或Vistral等预训练模型进行特征提取和分类任务。数据集的标准划分建议采用80-10-10的比例进行训练、验证和测试，其丰富的元数据字段支持多维度分析，包括时间趋势研究和跨媒体平台比较。使用前需注意遵守CC BY 4.0许可协议的要求。

背景与挑战

背景概述

ViClickbait-2025数据集是针对越南语在线新闻点击诱饵检测研究而构建的专业语料库，由越南多家主流新闻平台采集的3,414条新闻标题组成。该数据集由数字媒体信息质量研究项目组于2025年创建，旨在通过机器学习模型自动识别点击诱饵内容，从而提升越南数字媒体的信息可信度。数据集涵盖八家主流越南新闻门户的多时段、多类别新闻标题，并经过严格的清洗与标注处理，为越南语自然语言处理研究提供了重要基准。其多源异构的语料特征显著推动了东南亚语言信息可信度评估领域的发展。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，越南语复杂的方言变体和丰富的修辞手法使点击诱饵的语义边界判定存在困难，传统基于关键词的检测方法难以适应其语言特性；在构建过程层面，新闻标题的语境依赖性导致标注一致性难以保证，且不同新闻平台的内容风格差异显著，需设计动态采样策略确保数据代表性。此外，越南语特有的音节组合规律和拉丁字母变音符号，对文本预处理和特征提取提出了特殊要求。

常用场景

经典使用场景

在越南语数字媒体领域，ViClickbait-2025数据集为点击诱饵检测研究提供了标准化评估平台。该数据集通过收录8个主流新闻平台的3414条标注标题，构建了反映越南网络新闻多样性的语料库，研究者可基于此开展越南语自然语言处理模型的性能验证，特别是针对标题文本的二分类任务。其精心设计的元数据结构支持从语言学特征到时间分布的多维度分析，成为该领域方法开发的基准测试床。

衍生相关工作

该数据集催生了越南语预训练模型的优化研究，如基于PhoBERT架构的ClickPho检测系统。相关论文在ACL-SEA等区域顶会形成专题研讨，衍生出针对标题情感极性与内容可信度的多任务学习框架。部分团队进一步扩展了跨语言对比研究，将越南语点击诱饵特征与英语、汉语同类现象进行关联分析，推动了东南亚语言信息质量评估方法论的发展。

数据集最近研究