mteb/legalbench_corporate_lobbying
收藏Hugging Face2025-05-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mteb/legalbench_corporate_lobbying
下载链接
链接失效反馈官方服务:
资源简介:
Legalbench_corporate_lobbying数据集包含与企业游说相关的法案标题和法案摘要。查询集由法案标题组成,而语料库集则由法案摘要组成。数据集包含三个配置:default、corpus和queries,每个配置都有特定的特征和分割。default配置包含查询ID、语料库ID和分数特征,测试分割有340个例子。corpus配置包含ID、标题和文本特征,语料库分割有319个例子。queries配置包含ID和文本特征,查询分割有340个例子。
Legalbench_corporate_lobbying数据集包含与企业游说相关的法案标题和法案摘要。查询集由法案标题组成,而语料库集则由法案摘要组成。数据集包含三个配置:default、corpus和queries,每个配置都有特定的特征和分割。default配置包含查询ID、语料库ID和分数特征,测试分割有340个例子。corpus配置包含ID、标题和文本特征,语料库分割有319个例子。queries配置包含ID和文本特征,查询分割有340个例子。
提供机构:
mteb
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 多语言性: 单语
- 任务类别: 文本检索
- 任务ID: 文档检索
- 配置名称: corpus
- 标签: 文本检索
数据集详情
-
配置名称: default
- 特征:
query-id: 字符串corpus-id: 字符串score: 浮点数
- 分割:
test: 340个样本
- 特征:
-
配置名称: corpus
- 特征:
_id: 字符串title: 字符串text: 字符串
- 分割:
corpus: 319个样本
- 特征:
-
配置名称: queries
- 特征:
_id: 字符串text: 字符串
- 分割:
queries: 340个样本
- 特征:
数据文件
- 配置名称: default
test:qrels/test.jsonl
- 配置名称: corpus
corpus:corpus.jsonl
- 配置名称: queries
queries:queries.jsonl
数据集内容
- 查询集: 包含法案标题
- 文集集: 包含法案摘要
- 主题: 企业游说相关
搜集汇总
数据集介绍

构建方式
在日益复杂的法律与商业交叉领域中,企业游说活动对政策制定具有深远影响。LegalBenchCorporateLobbying数据集作为MTEB基准测试的一部分,专为文本检索任务设计,聚焦于企业游说相关的法律文本。该数据集源自LegalBench项目,通过整合法案标题与法案摘要构建而成,涵盖了319篇文档与340个查询,形成了一对一的精准匹配关系。其构建方式体现了对法律文本检索场景的深入理解,确保了数据在领域内的代表性与实用性。
特点
该数据集的核心特点在于其高度专业化的法律领域属性与精细化的数据组织。所有样本均来自真实的企业游说相关法律文本,包括法案标题与摘要,这使其在语义复杂度与术语专业性上远超通用数据集。数据分为corpus、queries与default三个配置,分别存储文档、查询及相关性评分,结构清晰。测试集包含659个样本,文档平均长度约为1158个字符,查询平均长度约178个字符,展现了法律文本的简洁与精准,同时保证了检索任务的可操作性。
使用方法
使用该数据集进行模型评估时,开发者可借助MTEB工具链实现高效集成。通过调用mteb.get_tasks函数加载LegalBenchCorporateLobbying任务,再使用mteb.MTEB初始化评估器,即可将自定义的嵌入模型传入并执行评估。这一流程简化了从数据加载到结果输出的全链路操作,使研究者能够专注于模型性能的优化。数据集以JSONL格式存储,便于直接解析与处理,适用于文本嵌入模型的检索能力测试。
背景与挑战
背景概述
在法律文本挖掘与自然语言处理交叉领域,如何精准检索并理解复杂的法律文档一直是核心研究问题。mteb/legalbench_corporate_lobbying数据集由斯坦福大学Neel Guha、Daniel E. Ho等研究人员于2023年构建,作为LegalBench基准的重要组成部分,专门聚焦企业游说相关的法案标题与摘要。该数据集依托Massive Text Embedding Benchmark(MTEB)框架,旨在评估文本嵌入模型在法律领域的文档检索能力,填补了针对企业政治活动法律文本的标准化评测空白。其发布为法律人工智能研究提供了稀缺的标注资源,推动了法律推理与信息检索技术的实证进展。
当前挑战
该数据集面临的核心挑战在于法律文本固有的高度专业性与领域特异性。首先,企业游说法案标题与摘要充斥着晦涩术语、交叉引用及复杂句式,这对模型的语义理解与长文本编码能力构成严峻考验。其次,文档检索任务要求模型在319份法案文档中精准匹配340条查询,且每项查询仅对应单一相关文档,这种高精度的单跳检索场景对嵌入表征的区分性提出了极高要求。此外,构建过程中需从海量法律语料中筛选并标注具有游说关联性的内容,确保数据质量与领域覆盖的平衡,同时克服法律文本版权与可获取性限制,这些均构成数据集开发与后续应用中的持续性技术壁垒。
常用场景
经典使用场景
LegalBenchCorporateLobbying数据集聚焦于企业游说领域的法律文本检索任务,其核心应用场景在于通过查询(如法案标题或摘要)精准匹配相关的法律文件。该数据集包含319篇文档和340条查询,每条查询对应单一相关文档,构成典型的文本到文本(t2t)检索基准。研究者常利用该数据集评估嵌入模型在专业法律文本上的语义理解能力,特别是处理企业游说这类高度领域化、术语密集的文本时的检索精度与鲁棒性。
解决学术问题
该数据集有效填补了法律自然语言处理领域中企业游说子方向检索基准的空白。传统法律NLP研究多聚焦于合同审查、隐私政策或司法判决,而游说活动作为影响立法进程的关键环节,其文本分析长期缺乏标准化评估工具。LegalBenchCorporateLobbying为量化模型在法案与游说文件间的语义关联能力提供了可靠测试平台,推动研究者探索法律文本中隐含的利益关系与权力结构,深化对立法影响机制的计算理解。
衍生相关工作
作为LegalBench基准套件的一部分,该数据集催生了多项法律文本嵌入模型的评估工作。MTEB(大规模文本嵌入基准)将其纳入标准化测试套件,推动了对Sentence-BERT、Instructor等模型在法律领域检索性能的系统性比较。后续研究还基于该数据集开发了针对企业游说领域的专用微调策略,并探索了多任务学习框架下法律推理与检索能力的联合优化路径,为法律NLP的跨任务泛化研究提供了实证基础。
以上内容由遇见数据集搜集并总结生成



