Survey Item Linking (SIL) Dataset

Name: Survey Item Linking (SIL) Dataset
Creator: 曼海姆大学
Published: 2024-12-20 20:14:33
License: 暂无描述

arXiv2024-12-20 更新2024-12-24 收录

下载链接：

https://github.com/e-tornike/SIL

下载链接

链接失效反馈

官方服务：

资源简介：

Survey Item Linking (SIL) Dataset是由曼海姆大学创建的高质量双语数据集，包含20,454条来自100篇完全标注的英德社会科学出版物的句子，涵盖了多样化的主题。数据集的创建过程通过区分变量级和问题级提及，减少了标注过程中的歧义，并显著提高了标注者间的一致性。该数据集主要用于社会科学研究中的调查项目链接任务，旨在解决在社会科学出版物中自动识别和链接调查项目的问题，从而提高研究的FAIR（可查找、可访问、可互操作、可重用）原则的实现。

Survey Item Linking (SIL) Dataset is a high-quality bilingual dataset created by the University of Mannheim. It contains 20,454 sentences extracted from 100 fully annotated English-German social science publications, covering diverse thematic areas. The dataset construction process differentiates between variable-level and question-level mentions to reduce annotation ambiguity and significantly enhance inter-annotator agreement. This dataset is primarily utilized for the survey item linking task in social science research, aiming to address the problem of automatically identifying and linking survey items in social science publications, thereby advancing the implementation of the FAIR (Findable, Accessible, Interoperable, Reusable) principles for research.

提供机构：

曼海姆大学

创建时间：

2024-12-20

搜集汇总

数据集介绍

构建方式

Survey Item Linking (SIL) Dataset 通过从100篇完全标注的英德社会科学出版物中提取20,454条句子构建而成。该数据集的构建过程包括两个主要阶段：提及检测和实体消歧。为了提高标注的准确性和一致性，研究者重新定义了调查项提及的概念，区分了变量级提及和问题级提及，从而减少了标注过程中的模糊性，并将标注者间的一致性提高了35%。每个标注的提及还附带语义标签，以便进行更细粒度的评估。

使用方法

SIL数据集可用于评估和训练调查项链接任务的模型，包括提及检测和实体消歧两个阶段。研究者可以通过该数据集对模型进行基准测试，评估其在不同任务上的表现。此外，数据集的细粒度标注和语义标签为模型的诊断性评估提供了丰富的信息，帮助研究者更好地理解模型的性能和改进方向。数据集的代码和数据已在GitHub上公开，方便研究者进行复现和进一步研究。

背景与挑战

背景概述

Survey Item Linking (SIL) Dataset 是由德国曼海姆大学的 Data and Web Science Group 创建的，旨在解决社会科学研究中调查项目链接的挑战。该数据集的核心研究问题是如何自动解析和链接研究文献中隐含提及的调查项目，以提供更精细的引用。由于现有数据集规模小且质量低，无法有效评估 SIL 任务的性能，因此研究团队创建了一个高质量、丰富标注的双语数据集，包含 20,454 条英语和德语句子。该数据集的创建标志着在社会科学领域中，通过自然语言处理技术实现调查项目自动链接的可行性研究迈出了重要一步。

当前挑战

SIL 数据集面临的挑战主要集中在两个方面：一是解决领域问题，即如何从社会科学文献中自动识别和链接调查项目，这一任务的复杂性在于研究者通常通过隐含提及而非显式引用来描述调查项目；二是数据集构建过程中遇到的挑战，包括任务定义不精确、现有数据集规模小且标注模糊，导致标注时间长且标注者间一致性低。此外，模型在处理需要多句上下文的提及时表现较差，这进一步增加了任务的难度。未来研究可以通过结合文档级上下文和端到端系统来缓解这些问题，同时通过收集更多多样化的数据和提升知识库质量来减少错误。

常用场景

经典使用场景

Survey Item Linking (SIL) Dataset 的经典使用场景主要集中在社会科学研究领域，特别是通过自动化的方式解析和链接研究文献中隐含提及的调查项目。该数据集通过两阶段的任务模型（提及检测和实体消歧），帮助研究人员在比较相关工作时更精确地定位感兴趣的调查项目。通过将这些隐含提及与知识库中的调查项目进行匹配，研究人员可以获得更细粒度的引用信息，从而提升研究的透明度和可重复性。

解决学术问题

SIL 数据集解决了社会科学研究中一个常见的学术问题，即在文献中引用调查项目时缺乏标准化，导致难以自动识别和链接相关调查项目。传统上，研究人员通过文本中的隐含提及来引用调查项目，这使得在比较不同研究时难以准确定位相关项目。SIL 数据集通过提供高质量、多语言的标注数据，解决了这一问题，使得自动化系统能够更准确地检测和链接调查项目，从而推动了社会科学研究的透明化、可访问性和可重复性。

实际应用

SIL 数据集的实际应用场景广泛，特别是在社会科学研究的数据管理和信息检索领域。例如，研究人员可以使用该数据集来构建自动化工具，帮助他们在大量文献中快速定位和引用相关的调查项目。此外，该数据集还可以用于开发智能信息系统，帮助社会科学家更高效地访问和分析调查数据。在数据共享和重用方面，SIL 数据集的标注信息可以促进遵循 FAIR（可查找、可访问、可互操作、可重用）原则的数据管理实践。

数据集最近研究