PFSA-ID

github2024-03-07 更新2024-05-31 收录

下载链接：

https://github.com/sigit-purnomo/pfsa-id

下载链接

链接失效反馈

官方服务：

资源简介：

本研究旨在开发一个印尼语公共人物声明归属的语料库和一个基准模型，用于归属提取，以促进印尼语信息提取的研究。该语料库达到了90.06%的注释者和专家之间的一致性水平，并可作为黄金标准语料库。此外，基准模型预测了大多数标签，并达到了82.026%的F分数。

This study aims to develop a corpus of public figure statement attribution in Indonesian and a benchmark model for attribution extraction, to advance research in Indonesian information extraction. This corpus achieves an inter-annotator and expert agreement rate of 90.06%, and can serve as a gold-standard corpus. Furthermore, the benchmark model predicted most labels and achieved an F-score of 82.026%.

创建时间：

2022-04-07

原始信息汇总

数据集概述

数据集名称

PFSA-ID: An Annotated Indonesian Corpus and Baseline Model of Public Figures Statements Attributions

目的

本研究旨在开发一个印尼语公共人物声明归属的标注语料库及一个基准模型，以促进印尼语信息提取的研究。

设计/方法/途径

研究方法分为语料库开发和提取模型开发两部分。语料库开发包括数据收集和标注，提取模型开发涉及特征提取、模型架构定义、参数选择与配置、模型训练与评估以及模型选择。

发现

印尼语公共人物声明归属的标注语料库达到了90.06%的注释者与专家之间的一致性，可作为黄金标准语料库。基准模型在大多数标签上预测准确，达到了82.026%的F-score。

原创性/价值

据作者所知，该语料库是首个针对印尼语公共人物声明归属的语料库，对印尼语归属提取研究具有重要意义。该语料库和基准模型可作为进一步研究的基准。其他研究者可以采用本研究中提出的方法来开发新语料库和基准模型。

引用方式

如需扩展或使用此工作，请引用以下文献： bibtex @article{2022pfsaid, author = {Yohanes Sigit Purnomo W.P., Yogan Jaya Kumar, Nur Zareen Zulkarnain}, title = {PFSA-ID: An Annotated Indonesian Corpus and Baseline Model of Public Figures Statements Attributions}, journal = {Global Knowledge, Memory and Communication}, year = {2022}, volume = {-}, number = {-}, pages = {-}, url = {https://doi.org/10.1108/GKMC-04-2022-0091} }

搜集汇总

数据集介绍

构建方式

在构建PFSA-ID数据集的过程中，研究团队采用了系统化的方法论，涵盖了语料库开发与提取模型开发两个主要阶段。语料库开发阶段，团队通过数据收集与标注，确保了数据的多样性与准确性。提取模型开发阶段，则涉及特征提取、模型架构定义、参数选择与配置、模型训练与评估以及模型选择等步骤，确保了模型的科学性与实用性。

特点

PFSA-ID数据集作为印尼语中首个针对公众人物声明归属的标注语料库，其独特之处在于其高标注一致性与广泛的应用前景。该数据集在标注者与专家之间达到了90.06%的一致性水平，为相关研究提供了黄金标准。此外，其基线模型在预测大多数标签时表现优异，F-score达到了82.026%，为后续研究奠定了坚实的基础。

使用方法

PFSA-ID数据集的使用方法简便而高效，研究者可通过引用相关论文获取数据集，并利用其进行信息提取研究。该数据集不仅可作为印尼语中公众人物声明归属研究的基准，还可为其他语言的类似研究提供方法论参考。通过遵循论文中提出的方法，研究者可开发新的语料库与基线模型，推动信息提取领域的进一步发展。

背景与挑战

背景概述

在信息抽取领域，尤其是针对特定语言的引用抽取和引用归属任务，高质量的数据集是推动研究进展的关键。PFSA-ID数据集由Yohanes Sigit Purnomo W.P.、Yogan Jaya Kumar和Nur Zareen Zulkarnain等研究人员于2022年创建，旨在填补印尼语在公众人物声明归属任务中的研究空白。该数据集不仅是首个专注于印尼语公众人物声明归属的语料库，还提供了一个基线模型，为相关研究提供了基准。通过标注语料库和开发基线模型，PFSA-ID为印尼语信息抽取领域的研究奠定了重要基础，并推动了跨语言信息抽取技术的发展。

当前挑战

PFSA-ID数据集在构建过程中面临多重挑战。首先，印尼语公众人物声明归属任务的复杂性要求语料库具备高精度标注，这对标注人员的专业性和一致性提出了极高要求。其次，印尼语的语言特性，如丰富的形态变化和复杂的句法结构，增加了模型训练的难度。此外，由于印尼语在自然语言处理领域的研究相对较少，缺乏成熟的工具和资源，进一步加大了数据集的构建难度。尽管基线模型在预测标签方面取得了82.026%的F-score，但在处理复杂语境和多义性时仍存在改进空间，这为后续研究提供了重要方向。

常用场景

经典使用场景

PFSA-ID数据集在自然语言处理领域中被广泛应用于引述提取和引述归属任务。该数据集通过提供印尼语中公众人物声明的标注语料库，为研究人员提供了一个标准化的基准，用于开发和评估引述提取模型。其经典使用场景包括训练和测试机器学习模型，以自动识别和归类印尼语文本中的引述及其归属。

实际应用

在实际应用中，PFSA-ID数据集被用于开发自动化工具，帮助新闻机构、社交媒体平台和研究人员快速识别和归类公众人物的声明。这些工具可以用于事实核查、舆论分析和信息管理，提升信息处理的效率和准确性。

衍生相关工作

PFSA-ID数据集衍生了一系列相关研究，包括基于该数据集的引述提取模型的改进和优化。研究人员利用该数据集开发了多种深度学习模型，进一步提升了引述提取的准确性和鲁棒性。此外，该数据集还激发了其他语言引述提取语料库的开发，推动了跨语言信息提取研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集