AIMS.au
收藏arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://www.australianmodernslaveryregister.gov.au/
下载链接
链接失效反馈官方服务:
资源简介:
AIMS.au数据集是由Mila - Quebec AI Institute和The Queensland University of Technology共同创建的,包含5731份来自澳大利亚现代奴隶制度登记处的现代奴隶声明,这些声明经过人工标注,以句子为单位进行标注。该数据集旨在帮助评估和微调大型语言模型,用于分析和总结公司声明中的现代奴隶制度对策。数据集涵盖了从2019年到2023年的7270个澳大利亚实体的声明,包含了超过800,000个标注句子。
The AIMS.au dataset was co-created by the Mila - Quebec AI Institute and the Queensland University of Technology. It contains 5,731 modern slavery statements sourced from the Australian Modern Slavery Registry, which have been manually annotated at the sentence level. This dataset is designed to assist in the evaluation and fine-tuning of large language models (LLMs) for the analysis and summarization of modern slavery countermeasures outlined in corporate statements. The dataset covers statements from 7,270 Australian entities spanning the period from 2019 to 2023, with a total of over 800,000 annotated sentences.
提供机构:
Mila - Quebec AI Institute, The Queensland University of Technology
创建时间:
2025-02-11
搜集汇总
数据集介绍
构建方式
AIMS.AU数据集的构建过程严谨而细致。数据集收集了澳大利亚现代奴隶制注册中心发布的5731份现代奴隶制声明,并进行了句子级别的标注。首先,从注册中心获取已发布的PDF格式声明,并对文本进行预处理,包括将文本分割成句子并去除非句子元素。然后,设计了一套详细的标注规范,将澳大利亚现代奴隶制法案的七个强制性内容标准分解为十一个问题,以便标注人员能够准确地识别相关信息。最后,通过雇佣标注公司进行标注,并设置了质量保证流程,包括标注人员的培训和选择、一致性目标的设定以及标注结果的审查。
特点
AIMS.AU数据集具有以下特点:1)规模庞大,包含5731份现代奴隶制声明,涵盖了7270个澳大利亚实体在2019年至2023年间的信息;2)标注精细,每个句子都被标注为与法案的强制性内容标准相关的“相关”或“不相关”;3)覆盖面广,数据集涵盖了多个行业和实体类型;4)质量可靠,通过雇佣专业标注公司进行标注,并设置了严格的质量保证流程。
使用方法
AIMS.AU数据集可用于训练和评估机器学习模型,以从公司现代奴隶制声明中提取相关信息。数据集以HDF5和Activeloop DeepLake两种格式提供,方便研究人员使用。研究人员可以使用数据集中的标注信息来训练模型,以识别和提取声明中的相关信息,从而评估公司是否满足澳大利亚现代奴隶制法案的强制性报告要求。此外,数据集还可以用于开发其他工具和平台,以促进对现代奴隶制声明的自动分析和理解。
背景与挑战
背景概述
随着澳大利亚反现代奴隶法(Australian Modern Slavery Act)的实施,企业每年需提交数千份声明,以详细说明其在运营和供应链中打击现代奴隶制的努力。这为监管机构带来了巨大的审查压力,因为缺乏有效的工具来自动分析和总结这些声明。为了应对这一挑战,研究人员开发了AIMS.au数据集,该数据集包含了从澳大利亚现代奴隶制注册处收集的5,731份现代奴隶制声明,并进行了句子级别的标注。这一数据集的创建旨在帮助评估和微调大型语言模型(LLMs),以便更准确地分析和总结企业声明,并识别其中所采取的具体现代奴隶制应对措施。AIMS.au数据集为机器学习研究提供了宝贵的资源,有助于开发能够自动识别和提取相关信息的模型,从而提高监管效率并促进企业透明度。
当前挑战
AIMS.au数据集的构建和利用面临多方面的挑战。首先,现代奴隶制声明中的信息往往含糊不清,且充满干扰性,这使得从声明中提取相关信息的任务变得复杂。其次,构建过程中,研究人员需要确保标注的一致性和准确性,以避免因标注者的主观判断而引入偏差。此外,如何从PDF格式的声明中准确提取文本,以及如何处理包含在图表或表格中的相关信息,也是需要克服的技术难题。最后,为了使模型能够在不同法律框架下应用,需要进一步研究和调整,以适应不同国家的现代奴隶制报告法规。
常用场景
经典使用场景
AIMS.au数据集为现代奴隶制对策分析提供了一个宝贵的资源。该数据集由5,731个来自澳大利亚现代奴隶制登记处的现代奴隶制声明组成,这些声明已按句子级别进行标注。这使得数据集成为开发提取过程的关键工具,这些提取过程能够准确识别并使立法要求的所有相关信息可访问。该数据集的经典使用场景包括使用机器学习方法检测句子与澳大利亚现代奴隶制法规定的强制性报告要求的相关性。
解决学术问题
AIMS.au数据集解决了在监督和零样本学习设置中检测和提取公司声明中与强制性立法要求相关的信息这一挑战。该数据集通过提供大规模、高质量的标注数据,使研究人员能够训练和评估语言模型,以便更有效地分析公司声明并识别与立法要求相关的具体行动。此外,该数据集还解决了从大型语言模型中区分实质性披露和非相关内容的挑战。
衍生相关工作
AIMS.au数据集的发布催生了多项相关研究,这些研究旨在开发更精确、更有效的模型,以分析公司声明并识别与立法要求相关的信息。例如,一些研究利用该数据集开发零样本学习方法,以在没有特定领域知识的情况下分析公司声明。此外,其他研究利用该数据集开发监督学习方法,以训练模型以识别与澳大利亚现代奴隶制法规定的强制性报告要求相关的句子。这些相关工作表明,AIMS.au数据集为现代奴隶制对策分析研究做出了重要贡献,并为开发更精确、更有效的模型提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成



