An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers

github2022-05-02 更新2024-05-31 收录

下载链接：

https://github.com/Alab-NII/FECFevalDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个tsv文件集，用于评估英语学术论文中句子交流功能的识别。详细的使用说明在相关论文中提供。

This dataset comprises three sets of tsv files designed for evaluating the recognition of communicative functions in sentences within English academic papers. Detailed usage instructions are provided in the associated research paper.

创建时间：

2019-11-11

原始信息汇总

数据集名称

An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers

数据集组成

数据集包含三个部分的tsv文件：

human_evaluation
- ID
- Targeted sentence [s0]
- Correct choice [s1]
- Wrong choice [s2]
- Core FE for s0
- Core FE for s1
- Core FE for s2
- Communicative function for s0 and s1
- Communicative function for s2
- Paper/sentence ID for s0
- Paper/sentence ID for s1
- Paper/sentence ID for s2
- Accuracy of human annotation
sentences
- Communicative function
- The core FE
- Sentence
- Sentence ID (PaperID_SentID; identical to the ID in AASC)

许可证

本数据集根据Creative Commons BY-NC-SA 3.0许可证发布。使用时需引用相关论文。

引用信息

Iwatsuki, K., Boudin, F., & Aizawa, A. (2020). An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers. In Proceedings of The 12th Language Resources and Evaluation Conference, 1712–1720.

搜集汇总

数据集介绍

构建方式

该数据集构建于ACL Anthology Sentence Corpus（AASC）基础之上，旨在评估英语学术论文中句子的交际功能识别。数据集包含两组tsv文件，分别为human_evaluation和sentences。human_evaluation文件通过人工标注的方式，提供了目标句子、正确选项、错误选项及其对应的核心框架元素和交际功能，确保了数据的高质量和可靠性。sentences文件则直接列出了句子的交际功能、核心框架元素及其对应的句子ID，便于研究者进行深入分析。

使用方法

使用该数据集时，研究者可以通过加载tsv文件，获取句子的交际功能和核心框架元素信息。human_evaluation文件可用于评估模型在识别句子交际功能时的表现，而sentences文件则可用于训练和测试模型。数据集的使用需遵循Creative Commons BY-NC-SA 3.0许可协议，并在使用时引用相关论文。通过结合ACL Anthology Sentence Corpus，研究者可以进一步扩展数据集的应用范围，探索更多语言学问题。

背景与挑战

背景概述

《An Evaluation Dataset for Identifying Communicative Functions of Sentences in English Scholarly Papers》数据集由Kenichi Iwatsuki、Florian Boudin和Akiko Aizawa等研究人员于2020年创建，旨在为英语学术论文中句子的交际功能识别提供评估基准。该数据集基于ACL Anthology Sentence Corpus（AASC），涵盖了1979年至2018年间计算语言学领域的学术论文。通过标注句子的核心框架元素（Core FE）及其交际功能，该数据集为自然语言处理领域的研究者提供了重要的资源，特别是在学术文本理解和自动摘要生成等任务中具有广泛的应用前景。该数据集的研究成果发表于第12届语言资源与评估会议（LREC 2020），并获得了学术界的广泛关注。

当前挑战

该数据集的核心挑战在于准确识别和分类学术论文中句子的交际功能。学术文本通常具有复杂的语言结构和多样的表达方式，这使得自动识别句子的交际功能变得尤为困难。此外，构建过程中还面临数据标注一致性的挑战，因为不同标注者可能对同一句子的交际功能存在主观理解差异。为了确保数据质量，研究人员采用了人工评估机制，但仍需解决标注过程中的歧义问题。另一个挑战是如何将数据集扩展到更多领域和语言，以提升其通用性和适用性。这些挑战不仅反映了学术文本处理的复杂性，也为未来的研究提供了重要的方向。

常用场景

经典使用场景

该数据集主要用于评估和识别英语学术论文中句子的交际功能。通过提供详细的句子标注信息，研究人员可以训练和测试自然语言处理模型，以自动识别句子在学术文本中的具体功能，如假设陈述、方法描述或结果讨论。这一过程对于提高学术文本的自动理解和生成能力具有重要意义。

解决学术问题

该数据集解决了学术文本自动分析中的一个关键问题，即如何准确识别句子在学术论文中的交际功能。通过提供丰富的标注数据，研究人员能够开发出更精确的模型，用于自动分类和理解学术文本中的句子功能。这不仅提升了学术文本的自动处理能力，还为学术写作辅助工具的开发提供了基础。

实际应用

在实际应用中，该数据集被广泛用于开发学术写作辅助工具和学术文本分析系统。例如，研究人员可以利用该数据集训练模型，自动生成学术论文的摘要或帮助作者优化论文结构。此外，该数据集还可用于教育领域，帮助学生和研究人员更好地理解学术写作中的句子功能。

数据集最近研究