lmnop-routing-gt

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/charbelraffoul/lmnop-routing-gt

下载链接

链接失效反馈

官方服务：

资源简介：

LMNOP路由基准真值数据集是一个多语言新闻事件标注数据集，专为商品领域分类任务设计。它包含421个样本，覆盖石油、液化天然气、谷物和航运四个商品领域。标注信息包括121个人工标注的基准真值和300个由Claude Sonnet 4.6模型生成的“预言机”标注。此外，数据集提供了GPT-4o模型的路由预测结果及其置信度（分为HIGH和MEDIUM级别）。每个样本包含字段：唯一标识符、新闻标题、事件批次日期、来源领域、基准真值领域、基准真值推理过程、基准真值置信度、路由预测领域和路由预测置信度。数据集仅包含一个训练集划分，适用于自然语言处理中的多标签分类、领域路由和模型预测评估任务。

The LMNOP Routing Ground-Truth Dataset is a multilingual news event annotation dataset designed for commodity domain classification tasks. It contains 421 samples specifically categorized into four commodity domains: oil, liquefied natural gas (LNG), grain, and shipping. The annotation information of this dataset originates from two sources: 121 samples are manually annotated ground-truth, while the remaining 300 samples are "oracle" annotations generated by the Claude Sonnet 4.6 model. Additionally, the dataset provides the router predictions and their confidence levels (divided into two tiers: HIGH and MEDIUM) for these samples generated by the GPT-4o model. Each data sample includes the following fields: unique identifier (id), news title (title), event batch date (date), source domains (string sequence), ground-truth domains (gt_domains, string sequence), ground-truth reasoning (gt_reasoning), ground-truth confidence (gt_confidence), router prediction domains (router_domains, string sequence), and router prediction confidence (router_confidence). The dataset only has one training split (train), with a total of 421 examples. This dataset is suitable for tasks including multi-label classification, domain routing, and model prediction evaluation in natural language processing.

创建时间：

2026-05-24

原始信息汇总

数据集概述

数据集名称：LMNOP Routing Ground Truth
语言：英语（en）
许可协议：MIT
标签：commodity, routing, nlp, multi-label
简介：包含421条多语言新闻事件数据，用于商品领域分类（石油、液化天然气、谷物、航运）。

数据特征

特征名	数据类型	描述
id	string	事件唯一标识
title	string	事件标题
date	string	事件日期
source_domains	字符串序列	源领域
gt_domains	字符串序列	真实标签领域（121条手工标注 + 300条Claude Sonnet 4.6 oracle标注）
gt_reasoning	string	真实标签推理过程
gt_confidence	string	真实标签置信度（HIGH / MEDIUM）
router_domains	字符串序列	GPT-4o路由器预测的领域
router_confidence	string	路由器预测置信度

数据集划分

划分	样本数
train	421

标注说明

真实标签（ground-truth labels）：共421条，其中121条为手工标注，300条为Claude Sonnet 4.6 oracle标注。
路由器预测：由GPT-4o生成。
置信度等级：HIGH（高）或 MEDIUM（中）。
事件批次日期：Sun May 24 13:52:37 WEDT 2026。

搜集汇总

数据集介绍

构建方式

该数据集名为lmnop-routing-gt，专注于商品领域路由任务，共包含421条多语言新闻事件样本。数据集构建通过两条途径完成：其中121条样本由领域专家手工标注，确保标注的精确性与权威性；其余300条样本则借助Claude Sonnet 4.6模型作为预言机（oracle）自动生成标注，以提升数据规模与覆盖广度。每条样本均包含唯一标识符、标题、日期、来源域、真实域、推理过程、置信度以及由GPT-4o模型预测的路由域及其置信度，形成完整的多标签结构化数据。

特点

数据集最显著的特点在于其多维度标签体系与跨语言新闻事件的结合，覆盖石油、液化天然气、谷物及航运四大关键商品类别。每条样本不仅提供真实域标签及其推理逻辑，还包含GPT-4o模型的预测输出与置信度评估，其中置信度分为高、中两个等级，便于研究者衡量预测可靠性。此外，数据集特别标注了事件批次日期，为时间序列分析与路由策略回溯提供支持。这种精细的标注结构使其适用于评估和优化商品新闻路由系统。

使用方法

该数据集的使用十分直观，研究者可直接加载JSON格式数据，按训练集（共421条）进行模型训练或评估。典型应用场景包括基于标题与日期信息的多标签分类任务，以及路由模型性能比较：利用真实域标签与GPT-4o预测结果的对照，可计算精确率、召回率等指标。同时，推理字段与置信度信息可作为可解释性分析的基础，帮助改进商品新闻路由算法的透明度与鲁棒性。数据以开源MIT协议发布，便于学术与工业界复用。

背景与挑战

背景概述

在全球化商品贸易与物流网络日益复杂的背景下，精准的新闻事件分类对于市场分析、风险管控及决策支持具有关键意义。LMNOP-Routing-GT数据集由研究团队于2026年创建，聚焦于商品领域分类任务，涵盖石油、液化天然气、谷物及航运四大核心类别。该数据集包含421个多语言新闻事件样本，其中121条由人工标注、300条经由Claude Sonnet 4.6 oracle模型生成，旨在为多标签文本分类与路由系统提供高质量的基准测试资源。其引入的置信度分级机制（HIGH/MEDIUM）及路由预测对比字段，为评估自动化分类系统的鲁棒性与可解释性开辟了新路径，对自然语言处理在商品情报领域的研究具有显著的推动价值。

当前挑战

该数据集所面临的挑战集中于两大维度。其一，在领域问题层面，商品新闻事件常涉及复杂语境与专业术语，多标签分类需同时处理跨类别关联与语义歧义，例如一篇报道可能同时关联石油运输与航运延误，对模型的多任务泛化能力构成严峻考验。其二，在构建过程中，人工标注成本高昂且难以覆盖大规模多语言场景，而依赖大语言模型生成标注存在幻觉风险与领域知识偏差，需通过置信度评估与路由预测结果对比来验证标注可靠性。此外，样本规模有限（421条），如何在低资源条件下抑制过拟合、提升跨域迁移能力，成为当前研究亟需突破的瓶颈。

常用场景

经典使用场景

在商品市场分析与新闻事件分类的研究中，LMNOP-Routing-GT 数据集被广泛用于构建和评估面向大宗商品领域的新闻路由系统。该数据集包含421条多语言新闻事件，每条样本均标注了商品领域标签（如石油、液化天然气、谷物、航运），为研究者提供了高质量的地面真值。其最经典的用途是训练和验证多标签文本分类模型，使模型能够将新闻准确路由至对应的商品类别，从而实现对全球商品市场动态的高效监测与自动化处理。

实际应用

在实际应用中，LMNOP-Routing-GT 数据集支撑了智能商品新闻聚合与分发系统的开发。例如，大宗商品交易平台可借助基于该数据集训练的模型，自动从海量多语种新闻中筛选出与石油、液化天然气等品种相关的信息，并优先推送高置信度事件。物流与供应链管理企业也能利用其路由能力，实时跟踪航运市场动态以优化调度决策。此外，该数据集还被用于风险评估系统的构建，帮助金融机构快速识别影响商品价格的突发新闻。

衍生相关工作

基于该数据集，研究者衍生出多项经典工作。例如，有工作提出了结合领域知识图谱的商品新闻路由框架，利用实体关系增强多标签分类性能。另一项代表性研究探索了在大语言模型输出中融入置信度校准机制，以提升路由模型的可靠性。此外，还有团队基于该数据扩展了跨语言迁移学习任务，验证了模型在非英语新闻上的泛化能力。这些工作共同推动了商品智能路由领域从规则驱动向数据驱动范式的转变，为后续研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集