Admin-It

github2022-11-23 更新2024-05-31 收录

下载链接：

https://github.com/Unipisa/admin-It

下载链接

链接失效反馈

官方服务：

资源简介：

Admin-It是一个用于自动可读性评估和意大利行政语言文本简化的平行语料库，包含736对原始-简化句子，根据不同的简化类型分为三个子集。

Admin-It is a parallel corpus designed for automatic readability assessment and text simplification of Italian administrative language. It comprises 736 pairs of original-simplified sentences, categorized into three subsets based on different simplification types.

创建时间：

2022-09-29

原始信息汇总

数据集概述

名称: Admin-It

类型: 平行语料库

语言: 意大利语

领域: 行政语言

用途: 自动可读性评估（ARA）和自动文本简化（ATS）

组成: 包含736对原始-简化句子对，分为三个子集：

Operations (OP): 588对句子，来自Simpitiki语料库的行政领域部分，通过单一简化操作（如分割、重新排序、合并、词汇替换）简化。
Rewritten Sents (RS): 100对原始-简化句子，原始句子选自意大利市镇网站和Pawac语料库，手动在词汇和句法层面简化。
Rewritten Docs (RD): 48对句子，从Cortelazzo收集的行政文档中选出并手动对齐，根据语言简化及沟通效果标准重写。

引用信息

若在研究中使用Admin-It，请引用以下文献：

Martina Miliani, Serena Auriemma, Fernando Alva-Manchego and Alessandro Lenci. 2022. Neural Readability Pairwise Ranking for Sentences in Italian Administrative Language. In Proceedings of the 2nd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 12th International Joint Conference on Natural Language Processing, pages 849–866, Online. Association for Computational Linguistics.

搜集汇总

数据集介绍

构建方式

Admin-It数据集的构建基于意大利行政语言中的句子，旨在支持自动可读性评估（ARA）和自动文本简化（ATS）任务。该数据集包含736对原始-简化句子对，分为三个子集：Operations（OP）、Rewritten Sents（RS）和Rewritten Docs（RD）。OP子集来源于Simpitiki语料库，通过单一简化操作生成；RS子集从意大利市政网站和Pawac语料库中选取，经过人工在词汇和句法层面的简化；RD子集则基于Cortelazzo等人收集的行政文档，依据语言简化和沟通效果标准进行重写。

使用方法

Admin-It数据集可用于自动可读性评估和文本简化任务的研究。研究者可以通过对比不同子集的简化策略，分析简化操作对文本可读性的影响。该数据集还可用于训练和评估神经网络模型，特别是在跨语言和跨领域场景下的性能表现。使用该数据集时，建议引用相关文献，并遵循数据集的划分方式，以确保实验结果的科学性和可重复性。

背景与挑战

背景概述

Admin-It数据集是一个专注于意大利行政语言的平行语料库，旨在支持自动可读性评估（ARA）和自动文本简化（ATS）研究。该数据集由736对原始-简化句子组成，分为三个子集，分别基于不同的简化策略：单一操作简化、句子级重写和文档级重写。数据集的核心研究问题在于如何通过自动化手段提升行政文本的可读性，从而增强公众对行政信息的理解与获取。该数据集由Martina Miliani等研究人员于2022年发布，并在AACL会议上首次公开。其构建参考了多个早期语料库资源，如Simpitiki和Pawac Corpus，并结合了Cortelazzo等人关于行政语言简化的研究成果。Admin-It的发布为意大利行政语言的可读性研究提供了重要的数据支持，推动了自然语言处理领域在特定语言和场景下的应用。

当前挑战

Admin-It数据集在解决行政语言可读性评估和文本简化问题时面临多重挑战。首先，行政语言通常具有复杂的句法结构和专业术语，如何准确评估其可读性并生成易于理解的简化版本是一个技术难题。其次，数据集的构建过程中需要处理不同来源的文本，并确保简化后的句子在语义和语法上保持一致，这对人工标注和自动化工具提出了较高要求。此外，由于行政语言的多样性和领域特殊性，如何在有限的标注数据上训练出泛化能力强的模型也是一个重要挑战。最后，数据集的规模相对较小，如何在数据稀缺的情况下提升模型的性能，尤其是在跨语言和跨领域场景中的应用，仍需进一步探索。

常用场景

经典使用场景

Admin-It数据集在自动可读性评估（ARA）和自动文本简化（ATS）领域具有广泛的应用。该数据集包含736对意大利行政语言的原句和简化句，分为三个子集，分别对应不同的简化策略。研究人员可以利用这些数据对文本简化模型进行训练和评估，特别是在处理行政文本时，能够有效提升文本的可读性和信息传达效果。

解决学术问题

Admin-It数据集解决了自动可读性评估和文本简化领域中的关键问题，尤其是在行政语言这一特定领域。通过提供多种简化策略的平行语料，该数据集为研究人员提供了丰富的实验数据，帮助他们开发更精确的模型来评估和简化复杂文本。此外，该数据集还支持跨语言和跨领域的实验，进一步推动了自然语言处理技术在行政文本中的应用。

实际应用

Admin-It数据集在实际应用中具有重要价值，特别是在政府机构和公共服务领域。通过使用该数据集训练的模型，可以自动简化复杂的行政文本，使其更易于公众理解，从而提高信息的可访问性和透明度。这对于提升公民参与度和政府服务的效率具有重要意义。

数据集最近研究