LMCMark
收藏github2026-02-22 更新2026-02-26 收录
下载链接:
https://github.com/flozxwer/FreeCite
下载链接
链接失效反馈官方服务:
资源简介:
LMCMark是一个严格的人工标注双语数据集,通过三阶段流程(源收集、响应生成和细粒度标注)构建。它包含5,858个查询-响应对,涵盖21个不同主题(如法律、金融、学术),包含超过40,000个经过验证的引用标记,涵盖英语(10,000个引用)和中文(30,418个引用)。该数据集由27名专家评分员在45天的密集标注活动中策划,每个实例由三名评分员独立标注,最终标签由多数投票决定。
LMCMark is a rigorously manually annotated bilingual dataset constructed via a three-stage pipeline: source collection, response generation, and fine-grained annotation. It consists of 5,858 query-response pairs spanning 21 distinct topics (e.g., law, finance, academia), and includes over 40,000 validated citation tokens, covering English (10,000 citations) and Chinese (30,418 citations). This dataset was curated by 27 expert annotators over a 45-day intensive annotation campaign, with each instance independently annotated by three annotators, and the final label determined via majority voting.
创建时间:
2026-02-06
原始信息汇总
FreeCite 数据集概述
数据集基本信息
- 数据集名称: FreeCite (LMCMark)
- 核心任务: 用于评估大型语言模型细粒度引用能力的无裁判基准,将引用评估重构为确定性的上下文条件引用预测任务。
- 评估方法: 采用教师强制策略,将引用逻辑与生成质量解耦,确保引用放置评估的确定性和可复现性。
- 关联论文: FreeCite: A Judge-Free Benchmark for Granular Citation Evaluation in Large Language Models。
数据集 (LMCMark) 详情
- 数据规模: 包含 5,858 个查询-响应对,涵盖超过 40,000 个经过验证的引用标记。
- 语言: 双语数据集,包含英语(约10,000个引用)和中文(约30,418个引用)。
- 主题覆盖: 涵盖 21 个多样化主题,例如法律、金融、学术、教育、天气等。
- 数据来源: 基于可验证的双语新闻源和学术论文语料库构建。
- 构建流程: 通过三阶段流程(源收集、响应生成、细粒度标注)构建。
- 标注信息: 由 27 名专家评分员在为期 45天 的密集标注活动中完成。每个实例由三名评分员独立标注,最终标签由多数投票决定。
评估结果摘要
- 评估范围: 在FreeCite上对 20 个大型语言模型和四个引用流水线进行了基准测试。
- 相关性: 在模型层面与人类判断的皮尔逊相关性达到 0.8431,显著超过ALCE(0.4951)和LongCite(0.6308)等基线。
- 模型表现: 在评估的模型中,GPT-4-turbo(59.87%)保持显著领先,而领先的开源模型(如DeepSeek-v3)已有效缩小与主流商业模型的差距。
- 揭示问题: FreeCite暴露了诸如干扰项敏感性等常被聚合指标掩盖的关键失败模式。
数据示例结构
数据以JSON格式组织,每个示例包含以下关键字段:
category: 示例所属主题类别(如"Education"、"Weather")。output: 包含内联引用标记(格式为[ID])的模型响应文本。prompt: 包含系统指令、用户任务描述和参考材料列表的完整提示词。response: 与output中引用标记对应的引用源ID。
发布与获取
- 数据集地址: https://huggingface.co/datasets/flozxwer/LMCMark
- 发布内容: 数据集与评估工具包均已发布,旨在推进可验证的检索增强生成研究。
- 许可证: Apache 2.0 许可证。
搜集汇总
数据集介绍
构建方式
在检索增强生成技术日益成为自然语言处理领域研究热点的背景下,LMCMark数据集通过严谨的三阶段流水线构建而成。首先,从可验证的双语新闻源和学术论文语料库中系统性地收集原始资料,确保数据来源的权威性与多样性。随后,基于这些资料生成查询-响应对,为后续的细粒度标注奠定基础。最后,由27位专家评审员在为期45天的密集标注活动中,对超过40,000个引文标记进行独立验证,并通过多数投票机制确定最终标签,从而保证了数据标注的高质量与一致性。
特点
LMCMark数据集的核心特点在于其严格的标注规范与广泛的主题覆盖。该数据集囊括了5,858个查询-响应对,横跨法律、金融、学术等21个多样化主题领域,同时涵盖英语与中文两种语言,其中包含超过10,000个英文引文标记和30,418个中文引文标记。每个数据实例均由三位评审员独立标注,并通过共识机制形成最终结果,这种设计显著提升了标注的可靠性与客观性。数据集将引文评估重构为确定性的上下文条件引文预测任务,有效解耦了引文逻辑与生成质量,为可验证的生成研究提供了精准的评估基础。
使用方法
该数据集主要用于评估大型语言模型在细粒度引文生成任务上的性能。研究人员可以将其作为基准测试工具,通过教师强制策略,要求模型在给定上下文和参考材料的前提下,预测应在响应中插入的引文标记及其具体位置。使用过程涉及加载数据集中的查询-响应对及对应的引文标注,利用模型生成带有引文的响应,并通过对比预测引文与人工标注的真实引文,计算精确率、召回率等指标,从而系统性地评估模型在引文放置准确性、对干扰项的敏感性等方面的能力,推动检索增强生成技术的进步。
背景与挑战
背景概述
在大型语言模型(LLM)与检索增强生成(RAG)技术快速发展的背景下,如何精确评估模型在生成文本中放置引用的能力,已成为确保信息可验证性与可靠性的核心研究问题。为此,研究团队于2024年提出了LMCMark数据集,作为FreeCite基准的核心组成部分。该数据集由专业研究机构构建,通过严格的三阶段流程(源收集、响应生成与细粒度标注)创建,旨在解决上下文条件引用预测这一确定性任务,从而将引用逻辑与生成质量解耦。LMCMark包含超过40,000个经过验证的引用标记,涵盖5,858个查询-响应对,涉及法律、金融、学术等21个多样主题,且兼具英文与中文双语内容。其通过27位专家标注员历时45天完成标注,并采用多数投票机制确定最终标签,为LLM的引用行为评估提供了坚实、可复现的数据基础,显著推动了可验证RAG研究的前沿进展。
当前挑战
LMCMark数据集致力于解决大型语言模型在细粒度引用评估中的核心挑战,即如何客观、量化地衡量模型在生成文本中准确、恰当地插入引用标记的能力,而非仅仅评估文本的流畅性或事实准确性。在构建过程中,研究团队面临多重具体挑战:首先,需确保数据源的可靠性与可验证性,因此严格筛选了双语新闻与学术论文语料;其次,设计并实施一套能够精确标注引用位置与对应源ID的细粒度标注体系,要求标注员深入理解文本语义与引用逻辑;此外,协调大规模标注活动(涉及27位标注员与45天密集工作)并保证标注一致性,通过独立三方标注与多数投票机制以控制主观偏差;最后,创建涵盖多领域、多语言的平衡数据分布,以全面评估模型在不同上下文与语言环境下的引用性能。
常用场景
经典使用场景
在检索增强生成(RAG)系统的评估领域,LMCMark数据集以其严谨的双语标注和细粒度引用标记,成为评估大型语言模型引用准确性的黄金标准。该数据集通过上下文条件引用预测任务,将引用评估从生成质量中解耦,使得研究人员能够精确衡量模型在给定上下文中放置引用的能力。其经典使用场景包括对GPT-4、DeepSeek-v3等20余种主流模型进行系统性基准测试,揭示模型在跨领域、跨语言情境下的引用行为差异,为模型优化提供可量化的性能指标。
解决学术问题
LMCMark数据集有效解决了自然语言处理领域中长期存在的引用评估难题,即如何客观、可复现地衡量生成文本中引用的准确性与恰当性。传统评估方法往往受限于主观判断或与文本生成质量耦合,而该数据集通过教师强制策略和确定性评估范式,将引用逻辑独立出来,显著提升了评估的信度与效度。其高达0.8431的皮尔逊相关系数表明,该评估框架与人类判断高度一致,为验证性RAG研究提供了坚实的实证基础,推动了可解释人工智能的发展。
衍生相关工作
围绕LMCMark数据集,学术界衍生出一系列关于细粒度引用评估的创新研究。例如,基于其构建的FreeCite基准框架,启发了对ALCE、LongCite等传统评估方法的系统性比较与改进。相关研究进一步探索了模型在干扰项敏感性、跨领域泛化能力等维度的失败模式,推动了如动态上下文检索、多轮对话引用等新任务的提出。这些工作共同深化了对大型语言模型引用机制的理解,为下一代可验证生成模型的架构设计提供了理论依据与实践指导。
以上内容由遇见数据集搜集并总结生成



