LengClaro2023
收藏arXiv2025-06-06 更新2025-06-10 收录
下载链接:
https://github.com/baguera001/LengClaro2023
下载链接
链接失效反馈官方服务:
资源简介:
LengClaro2023是一个包含西班牙法律行政文本的数据集,它基于西班牙社会保障网站上最常用的程序,为每个文本创建了两个简化的等价版本。第一个版本遵循arText claro的建议。第二个版本纳入了来自清晰语言指南的额外建议,以探索系统中的进一步潜在改进。本工作创建的语言资源可用于评估西班牙语自动文本简化(ATS)系统。
LengClaro2023 is a dataset comprising Spanish legal and administrative texts. Built upon the most frequently used procedures on the Spanish Social Security website, two simplified equivalent versions were created for each text. The first version follows the recommendations of arText claro. The second version incorporates additional recommendations from clear language guidelines to explore further potential improvements in such systems. The linguistic resources created in this work can be used to evaluate Spanish automatic text simplification (ATS) systems.
提供机构:
巴斯克大学
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
LengClaro2023数据集的构建基于西班牙社会保障网站上最常用的法律行政文本,每个原始文本生成了两个简化版本。第一个版本遵循arText claro工具提供的建议,第二个版本则进一步结合了简明语言指南的额外建议。文本内容通过Linux命令'wget'从网页提取,并转换为HTML格式,确保数据的一致性和功能性。数据集包含原始文本、arText claro简化文本和LengClaro简化文本三个版本,每个文件按文档编号和版本标签命名。
特点
LengClaro2023数据集的特点在于其专注于西班牙语法律行政文本的简化,旨在提高公众对复杂行政文本的理解。数据集包含多样化的文本类型,如最低生活收入、儿童护理和债务支付等,覆盖了公民日常生活中的关键行政程序。每个文本的简化版本通过不同的语言学策略生成,包括句子结构调整、词汇替换和语法简化,从而提供了丰富的语言学资源用于自动文本简化系统的评估和改进。
使用方法
LengClaro2023数据集可用于评估和改进西班牙语自动文本简化(ATS)系统。研究人员可以将原始文本与简化版本进行对比,分析简化策略的有效性。数据集的结构设计允许将文本对(如原始-arText或原始-LengClaro)作为复杂-简单对用于机器学习模型的训练和测试。此外,该数据集还可用于研究法律行政语言的特性及其简化方法,为公共行政领域的语言清晰化提供实践指导。
背景与挑战
背景概述
LengClaro2023是由巴斯克大学UPV/EHU的研究人员Belén Agüera-Marco和Itziar Gonzalez-Dios于2023年创建的一个西班牙语法律行政文本数据集。该数据集基于西班牙社会保障网站中最常用的程序,为每个原始文本生成了两个简化版本。第一个版本遵循arText claro工具提供的建议,第二个版本则进一步融合了简明语言指南的额外建议。LengClaro2023旨在评估西班牙语自动文本简化(ATS)系统的性能,提升法律行政文本的可读性和可理解性,从而帮助公民更好地理解其权利和义务。该数据集的创建不仅推动了西班牙语文本简化领域的研究,也为公共行政沟通的透明化和包容性做出了贡献。
当前挑战
LengClaro2023面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集致力于解决法律行政文本的复杂性问题,这类文本通常包含冗长的句子、被动语态、专业术语和复杂的语法结构,使得普通公民难以理解。构建过程中的挑战包括:1)文本选择的代表性,需确保所选文本涵盖社会保障领域的关键主题;2)简化标准的制定,需平衡信息保留与语言简化;3)技术工具(如arText claro)的局限性,例如无法准确识别段落边界或复杂被动结构;4)多版本对齐的复杂性,需确保原始文本与简化版本在语义上的一致性。此外,数据集的扩展性和多语言适应性也是未来需要解决的挑战。
常用场景
经典使用场景
LengClaro2023数据集主要用于评估西班牙语自动文本简化(ATS)系统的性能。该数据集包含西班牙社会保障网站上的法律行政文本及其两个简化版本,分别基于arText claro工具的建议和更广泛的简明语言指南。研究人员可以利用该数据集来训练和测试ATS模型,以提高其在处理复杂法律行政文本时的简化效果。
实际应用
在实际应用中,LengClaro2023数据集可以帮助政府机构和公共服务部门简化法律行政文本,使其更易于公众理解。例如,社会保障信息的简化可以提高公民对自身权利和义务的认识,减少因语言障碍导致的误解和错误申请。此外,该数据集还可用于开发面向公众的在线工具,提供实时文本简化服务。
衍生相关工作
LengClaro2023数据集衍生了多项相关研究和工作,包括对arText claro工具的改进建议和新的简明语言指南的开发。此外,该数据集还被用于测试大型语言模型(如ChatGPT和Phi-2-LC)在文本简化任务中的表现,推动了提示工程(prompt engineering)领域的发展。未来,该数据集有望扩展为更大规模的语料库,包括更多类型的行政文本和手动对齐的句子级数据。
以上内容由遇见数据集搜集并总结生成



