five

afk-news-fr-classification-202601

收藏
Hugging Face2026-01-17 更新2026-01-18 收录
下载链接:
https://huggingface.co/datasets/afk-live/afk-news-fr-classification-202601
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含法文新闻标题,分为12个类别,涵盖政治、技术、科学、文化等多个领域。每个类别都有ID、标签、描述以及是否在AFK.live上显示的标记。数据集总样本数为931个,其中训练集720个样本(每个类别60个),测试集211个样本。

This dataset contains French news headlines, which are divided into 12 distinct categories spanning a wide range of domains including politics, technology, science, culture and more. Each category is associated with an ID, a label, a descriptive note, and a flag indicating whether it is showcased on AFK.live. The dataset has a total of 931 samples, including 720 training samples (60 samples per category) and 211 test samples.
创建时间:
2026-01-17
原始信息汇总

AFK French News Classification 数据集概述

数据集基本信息

  • 数据集名称:AFK French News Classification
  • 托管地址:https://huggingface.co/datasets/afk-live/afk-news-fr-classification-202601
  • 语言:法语 (fr)
  • 许可证:MIT
  • 数据规模:1K<n<10K
  • 任务类别:文本分类
  • 标签:text-classification, news, french, setfit, afk
  • 最后更新日期:2026-01-17

数据集描述

该数据集包含法文新闻标题,用于SetFit微调,是AFK.live项目的一部分。新闻标题被分为12个类别,涵盖政治、技术、科学、文化等领域。

分类体系(12个类别)

ID 标签 描述 是否在AFK.live上显示
1 Politique FR, EU, Québec 国内法语区政治:法国、比利时、瑞士、魁北克、欧盟机构 Yes
2 Géopolitique mondiale 法语区以外的国际关系、冲突、外交 Yes
3 Economie & Marchés & Business Tech 纯金融、宏观经济、非科技公司、银行、市场 Yes
4 Société Yes
5 Science & Environnement 研究发现、气候、生物多样性、健康研究(非标题党) Yes
6 Culture 文化作品与事件:电影、音乐、书籍、戏剧、视觉艺术、电子游戏 Yes
7 Sport 所有体育新闻(比赛、转会、结果) Yes
8 Faits divers & Actualité locale 事故、无全国相关性的地方新闻 Yes
10 Gadgets, pub, articles sponsorisés 时尚、烹饪、旅行、健康、产品评测、优惠 Yes
11 Météo 天气预报、每日天气报告 Yes
12 Rediffusion, replay, programme TV 电视节目表、重播公告、节目单 Yes
13 Code & Infrastructure 面向开发者的技术内容:编程、机器学习工程、DevOps、软件架构 Yes

:“是否在AFK.live上显示”列中,“Yes”表示该类别在AFK.live上显示,“No”表示被过滤掉(本数据集中所有类别均为“Yes”)。

数据集统计

  • 总样本数:931
  • 训练集:720个样本(每个类别60个)
  • 测试集:211个样本

按类别划分的样本数

类别 训练集 测试集
Code & Infrastructure 60 15
Culture 60 16
Economie & Marchés & Business Tech 60 18
Faits divers & Actualité locale 60 17
Gadgets, pub, articles sponsorisés 60 19
Géopolitique mondiale 60 15
Météo 60 17
Politique FR, EU, Québec 60 23
Rediffusion, replay, programme TV 60 19
Science & Environnement 60 16
Société 60 17
Sport 60 19

使用方法

数据集可通过Hugging Face datasets库加载,并支持使用SetFit进行训练。

引用

如果使用此数据集,请引用AFK.live项目。

搜集汇总
数据集介绍
main_image_url
构建方式
在法语新闻分类研究领域,该数据集通过精心设计的采集流程构建而成。其内容源自AFK.live项目,涵盖政治、科技、科学、文化等十二个类别,每个类别均经过人工标注与验证。数据划分遵循均衡原则,训练集包含720条样本,测试集包含211条样本,确保每个类别在训练集中拥有60条数据,以支持模型在多样主题上的泛化能力。
使用方法
利用该数据集进行模型训练时,研究者可通过Hugging Face的datasets库直接加载,便捷获取训练与测试分割。数据集特别适配SetFit框架,支持使用预训练的法语语言模型进行高效微调。典型工作流程包括加载数据集、初始化模型、配置训练器并进行训练,整个过程代码简洁,便于快速实验与迭代,适用于新闻分类、内容过滤等实际应用。
背景与挑战
背景概述
随着自然语言处理技术的飞速发展,多语言文本分类任务日益受到学术界与工业界的关注。AFK法语新闻分类数据集于2026年由AFK.live项目团队构建,旨在为法语新闻标题的细粒度分类提供高质量的标注资源。该数据集涵盖了政治、科技、经济、文化、体育等12个语义类别,精准反映了当代法语新闻媒体的内容生态。其核心研究问题聚焦于如何利用有限的标注样本,通过高效的少样本学习框架如SetFit,实现跨领域新闻文本的准确分类,从而推动法语自然语言处理模型在实际应用场景中的性能提升。
当前挑战
该数据集致力于解决法语新闻标题的多类别文本分类问题,其挑战在于新闻标题通常高度凝练且语义模糊,不同类别间存在显著的内容重叠,例如经济与商业科技类别的边界不易界定。此外,数据集的构建过程面临标注一致性的难题,需要确保12个类别在语义上的互斥性与完备性,同时克服法语中方言变体与专业术语带来的标注歧义。数据规模相对有限,如何在少量样本下实现模型的稳健泛化,亦是该数据集应用中的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,多语言文本分类任务日益受到重视,尤其是针对法语这类资源相对有限的语言。AFK French News Classification数据集为研究者提供了一个精心标注的法语新闻标题分类基准,其经典使用场景在于利用SetFit等少样本学习框架进行模型微调。通过该数据集,研究者能够高效地训练分类器,将新闻标题自动归类到政治、科技、文化等12个精细定义的类别中,这不仅提升了分类的准确性,还显著降低了标注数据的需求量,为法语文本分析提供了实用工具。
解决学术问题
该数据集直接应对了学术研究中法语自然语言处理资源匮乏的挑战,为多语言文本分类模型的发展提供了关键支持。它解决了传统方法中因标注数据不足而导致的模型泛化能力弱的问题,通过少样本学习范式,促进了跨语言迁移学习的研究。此外,数据集涵盖的广泛类别有助于探索细粒度分类和领域适应性问题,推动了新闻领域文本理解技术的进步,对法语信息处理社区的学术发展具有深远意义。
实际应用
在实际应用层面,AFK French News Classification数据集被广泛应用于新闻聚合平台、内容推荐系统和媒体监测工具中。例如,在AFK.live项目中,它用于自动过滤和分类实时新闻流,帮助用户快速获取感兴趣领域的资讯。媒体机构也可借助该数据集构建智能分类系统,提升新闻编辑和分发的效率,同时为法语地区的数字内容管理提供了可靠的技术基础,增强了信息服务的个性化和自动化水平。
数据集最近研究
最新研究方向
在法语新闻分类领域,AFK数据集为小样本学习提供了重要支持,尤其推动了SetFit等高效微调方法的应用。当前研究聚焦于跨语言迁移学习,探索如何将英语预训练模型的知识有效迁移至法语新闻分类任务,以缓解法语标注数据稀缺的挑战。同时,结合多模态信息融合成为热点,研究者尝试整合新闻标题与图像或元数据,提升对文化、科技等复杂类别的识别精度。该数据集还促进了领域自适应研究,针对政治、经济等动态性强的类别开发实时更新机制,以应对新闻内容的快速演变。这些方向不仅推动了法语自然语言处理技术的发展,也为多语言新闻聚合与个性化推荐系统提供了实践基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作