five

openeurollm/propella-annotations

收藏
Hugging Face2026-05-08 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/openeurollm/propella-annotations
下载链接
链接失效反馈
官方服务:
资源简介:
propella annotations数据集包含由propella-1-4b模型生成的多语言文档注释,覆盖六个主要类别:核心内容、分类、质量与价值、受众与目的、安全与合规、地理相关性。这些注释可用于大规模筛选、选择和整理LLM训练数据。数据集包含多个子集,如fineweb-2、finepdfs、hplt-3等,每个子集都有详细的注释数量和语言分布。数据集还提供了使用示例、许可证信息(CC-BY-4.0)、引用和致谢部分。

The propella annotations dataset contains document annotations produced with propella-1-4b, a small multilingual LLM that annotates text documents across six categories: core content, classification, quality & value, audience & purpose, safety & compliance, and geographic relevance. The annotations can be used to filter, select, and curate LLM training data at scale. The dataset includes multiple subsets such as fineweb-2, finepdfs, hplt-3, etc., each with detailed annotation counts and language distributions. The README also provides usage examples, license information (CC-BY-4.0), citation, and acknowledgments.
提供机构:
openeurollm
搜集汇总
数据集介绍
main_image_url
构建方式
在大规模语言模型训练数据的构建中,数据质量的高效筛选与精细化标注是决定模型性能的关键环节。本数据集利用 ellamind 团队研发的轻量级多语言语言模型 propella-1-4b,对来自 FineWeb-2、FinePDFs、HPLT 3.0、FineWiki、SYNTH、Nemotron-CC、ClimbMix、MixtureVitae-v1、German Commons、French Science Commons、Dolci 及 Common Pile 等众多知名语料库中的文档进行自动化标注。标注过程覆盖六大类别下的十八个属性,包括核心内容、分类、质量与价值、受众与目的、安全合规性以及地理相关性,每个文档均被赋予结构化的元信息,从而为后续的数据筛选与语料精炼提供系统化支撑。
特点
本数据集具备显著的多语言覆盖能力,涵盖六十余种语言变体,总标注规模超过数十亿文档,尤其在德语、法语、意大利语、西班牙语及瑞典语等欧洲语言上具有丰富积累。其独特性在于对文档的细粒度属性刻画,例如教育价值、推理指标、内容安全等,使得研究者能够超越简单的质量打分,实现基于特定教学价值或安全合规性等复合维度的精准数据筛选。此外,数据集以 Parquet 格式高效存储,支持按语种与来源灵活加载,便于下游任务灵活调用。
使用方法
使用者可通过 Hugging Face Datasets 库便捷加载指定语言与来源的标注数据,例如加载 FineWeb-2 德语子集的标注后,即可基于教育价值等属性快速筛选出高价值文档的唯一标识符。随后,这些标识符可用于过滤原始语料库,实现大规模语料的精细化精选。数据集同时支持流式加载,能够高效处理超大规模数据。此外,多分片配置设计允许研究者按需选择特定语种或来源的标注,极大降低了存储与计算开销,为多语言大模型的训练数据治理提供了低成本、高效率的解决方案。
背景与挑战
背景概述
随着大规模语言模型(LLM)的蓬勃发展,训练数据的质量与多样性成为决定模型性能的关键因素。然而,来自网络的海量文本数据往往混杂着低质内容、噪声及有害信息,亟需高效的自动化质量筛选与标注机制。在此背景下,propella-annotations数据集由ellamind团队联合Maximilian Idahl等研究者于2026年创建,旨在通过其轻量级多语言语言模型propella-1-4b,为大规模文本语料提供多维度的文档级标注。该数据集覆盖58种语言,规模超过10亿条,横跨FineWeb-2、FinePDFs、HPLT等多个知名语料库,并整合了Nemotron-CC、ClimbMix等混合来源。其核心研究问题聚焦于如何以可扩展且细粒度的方式自动化评估文档的核心内容、分类、质量、受众适配性、安全合规性及地理相关性,从而为LLM训练数据的过滤、筛选与精加工提供坚实的支撑。该数据集作为OpenEuroLLM等欧洲大型项目的基础设施,对推动多语言、高质量、负责任的模型训练具有深远影响。
当前挑战
构建propella-annotations所面临的挑战贯穿于数据全生命周期。在领域问题层面,如何超越简单的文本分类,实现对文档质量、教育价值、推理指标、商业偏见及时间敏感性等六类共18个属性的自动化精准标注,是自然语言处理中的复杂语义理解难题。多语言场景下,不同语种的文化背景与表达习惯进一步加剧了标签的一致性与鲁棒性挑战。在构建过程中,数据集需整合来自FineWeb-2、FinePDFs、HPLT等异构语料源,处理其规模差异与格式不统一问题,并设计高效的并行化推理流程以应对数十亿文档的标注需求。此外,确保安全合规维度的标注可靠性,杜绝潜在的有害内容与个人身份信息(PII)遗漏,同时平衡计算资源消耗与标注覆盖范围,构成了工程实现与伦理考量上的双重考验。
常用场景
经典使用场景
在自然语言处理与大规模语言模型训练领域,数据质量直接决定着模型的最终表现。propella-annotations数据集正是为应对这一挑战而生,其经典的使用场景在于为海量无标注文本提供高质量的、多维度的属性标注。借助propella-1.4B小型多语言模型,该数据集对来自FineWeb-2、FinePDFs、HPLT等多个流行语料库的数十亿文档,进行了涵盖核心内容、分类、质量与价值、受众与目的、安全合规及地理相关性共六大类别、十八项细粒度属性的系统评估。研究者可以利用这些预计算的标注结果,高效地对原始语料进行筛选、过滤与精炼,例如仅保留教育价值高或信息密度大的文档,从而为后续的模型预训练或指令微调构建出更纯净、更有价值的训练子集。
实际应用
在实际产业应用中,训练数据的精炼是一项至关重要的工程挑战。propella-annotations数据集为此提供了可直接落地的技术方案。例如,在构建专注于教育领域的问答系统时,开发者只需基于该数据集的“教育价值”(educational_value)字段进行简单过滤,即可从庞大的网络语料中快速提取出适合教学的文本片段。类似地,当需要训练一个面向特定行业(如法律或医疗)的垂直领域模型时,可以依据“商业领域”(business_sector)或“技术内容”(technical_content)属性进行筛选。在内容安全监管方面,通过“内容安全性”(content_safety)与“个人身份信息”(PII)标注,企业能够更高效地识别并剔除不合规的语料,从而降低模型部署的合规风险。这种以标注驱动的高效数据筛选流水线,显著缩短了从原始数据到高质量训练集的构建周期。
衍生相关工作
propella-annotations数据集的发布催生了一系列围绕其构建的衍生工作与生态。最直接的,它作为核心数据支撑,与propella-1.4B标注模型本身形成了“模型-数据”的闭环,研究者可以基于此数据集的标注结果来训练或评估更高效的数据筛选模型。此外,该数据集覆盖了来自ClimbMix、MixtureVitae、Dolci指令数据集等多种来源的文档,为研究不同数据源的质量分布提供了统一的标注基准。例如,结合nemotron-cc数据集的标注,可以分析不同质量档次的英文文档在推理指标上的差异。未来,基于该数据集的标注特征训练出的分类器,有望被集成到数据爬取与处理管线中,实现训练数据的实时质量评估,从而推动新一代具备主动数据选择能力的模型训练框架的诞生。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作