five

MULTILEGALPILE|多语言法律语料库数据集|NLP预训练数据集

收藏
arXiv2024-05-19 更新2024-06-21 收录
多语言法律语料库
NLP预训练
下载链接:
https://huggingface.co/datasets/joelniklaus/Multi_Legal_Pile
下载链接
链接失效反馈
资源简介:
MULTILEGALPILE是一个包含24种语言和17个司法管辖区的689GB大规模多语言法律语料库。该数据集由伯尔尼大学等机构创建,涵盖了多种法律数据源,支持在公平使用原则下预训练NLP模型。数据集主要采用宽松许可,适用于法律领域的文本分析和理解。MULTILEGALPILE的应用领域包括法律文本的预训练模型开发,旨在提高法律语言处理的准确性和效率,特别是在多语言和跨司法管辖区的法律文本分析中。
提供机构:
伯尔尼大学
创建时间:
2023-06-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
MULTILEGALPILE数据集的构建,旨在解决当前大型语言模型在法律等关键专业领域训练数据不足的问题。研究者们从17个司法管辖区搜集了涵盖24种语言的689GB法律文本,其中包括法律条文、案例法和其他法律数据来源。为了确保数据集的质量和专业性,研究人员使用了正则表达式和人工审核的方法从大型多语言网络爬取语料库mC4中筛选出法律相关内容,并通过多次迭代改进筛选算法。此外,还从多个来源直接抓取了法律文本数据,包括Eurlex资源、Pile of Law等。所有数据被转换成xz压缩的JSON Lines (JSONL)格式,以便高效地处理和读取大型数据集。
特点
MULTILEGALPILE数据集的主要特点包括其多语言性和多样性。数据集包含了来自不同法律体系和语言的丰富法律文本,为训练能够理解和处理多种法律语言的语言模型提供了宝贵的资源。此外,数据集的大部分内容都拥有宽松的许可,允许在公平使用的原则下进行NLP模型的预训练。在模型预训练方面,研究者们基于XLM-R模型进行了多语言和多语言模型预训练,并在LEXTREME和LexGLUE等法律基准测试中取得了最先进的性能。数据集还包含了24种语言的单一语言模型,其中一些模型在某些语言上达到了最先进的性能。
使用方法
MULTILEGALPILE数据集的使用方法主要涉及NLP模型的预训练。研究者们使用XLM-R模型作为基础模型,并在MULTILEGALPILE数据集上进行预训练。预训练过程中,研究者们采用了多种最佳实践,包括从原始XLM-R检查点中启动模型、使用新的分词器、在训练数据集上进行多次迭代等。此外,还使用了Longformer模型进行长文本的预训练,以提高模型在处理法律文本时的性能。预训练完成后,模型在LEXTREME和LexGLUE等法律基准测试中进行了评估,结果显示,MULTILEGALPILE数据集预训练的模型在多个任务和语言上取得了最先进的性能。
背景与挑战
背景概述
在自然语言处理(NLP)领域,大型、高质量的数据集对于训练大型语言模型(LLMs)至关重要。然而,在诸如法律等特定关键领域,大型数据集的可用性相对较低,且现有数据集往往规模较小且仅限于英语。为了填补这一空白,Joel Niklaus、Veton Matoshi、Matthias Stürmer、Ilias Chalkidis和Daniel E. Ho等研究人员共同创建并发布了MULTILEGALPILE数据集。该数据集包含来自17个司法管辖区、覆盖24种语言的689GB多语言法律语料库。MULTILEGALPILE数据集的发布为法律文本分析、理解和LLMs的训练提供了宝贵的资源,对相关领域产生了深远的影响。
当前挑战
MULTILEGALPILE数据集面临的主要挑战包括: 1) 法律领域的特殊性:法律文本通常包含大量的专业术语和复杂的句子结构,这给NLP模型的训练和理解带来了挑战。 2) 多语言处理:由于涉及多种语言,需要考虑不同语言之间的差异和相互影响,以及如何有效地利用多语言数据进行训练。 3) 数据质量:尽管MULTILEGALPILE数据集规模庞大,但仍需确保数据的质量和准确性,以避免引入噪声或错误。 4) 版权问题:在处理公共机构(如法院和行政部门)产生的法律文本时,可能涉及版权问题,需要谨慎处理。
常用场景
经典使用场景
在法律领域,MULTILEGALPILE数据集被广泛应用于预训练大型语言模型(LLMs),以提升模型在处理法律文本时的性能。该数据集的多语言特性使得模型能够更好地理解和生成不同法律体系的文本。此外,MULTILEGALPILE也被用于法律文本的分类、实体识别和预测判决等任务,为法律专业人士提供智能化辅助。
解决学术问题
MULTILEGALPILE数据集解决了法律领域缺乏大规模预训练语料库的问题。现有的法律数据集往往规模较小,且仅限于英语。MULTILEGALPILE包含了来自17个司法管辖区、24种语言的689GB法律文本,填补了这一空白。此外,该数据集的开放许可使得研究人员可以自由地使用和分享数据,推动了法律文本分析领域的研究和发展。
衍生相关工作
基于MULTILEGALPILE数据集,研究人员开发了多个预训练语言模型,如Legal-XLM-R和Legal-mono-R。这些模型在多个法律基准测试中取得了最先进的性能,为法律文本分析领域的研究提供了重要的工具和资源。此外,MULTILEGALPILE的开放许可也促进了其他相关数据集和模型的开发,如LexFiles和LegalLlama。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录