Wiki-Quantities 和 Wiki-Measurements

Name: Wiki-Quantities 和 Wiki-Measurements
Creator: 尤利希研究中心, 亚琛工业大学
Published: 2025-03-18 18:09:10
License: 暂无描述

arXiv2025-03-18 更新2025-03-20 收录

下载链接：

https://zenodo.org/records/14858280

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki-Quantities是一个基于英语维基百科的超过120万条注释数量的数据集，Wiki-Measurements则是一个包含38738条注释数量的数据集。这两个数据集均基于维基百科和Wikidata构建，旨在识别量及其测量背景。Wiki-Quantities通过{{convert}}模板调用标注数量，而Wiki-Measurements则通过将Wikidata事实与维基百科文章对应起来进行标注。数据集经过去重、平衡和部分人工校对，以支持测量提取系统的开发和评估。

Wiki-Quantities is a dataset containing over 1.2 million annotated quantity instances built on English Wikipedia. Wiki-Measurements, by contrast, is a dataset with 38,738 annotated quantity entries. Both datasets are constructed based on Wikipedia and Wikidata, aiming to identify quantities and their measurement contexts. Wiki-Quantities performs annotation by invoking the {{convert}} template, while Wiki-Measurements conducts annotation by aligning Wikidata facts with Wikipedia articles. The datasets have undergone deduplication, balancing, and partial manual proofreading to support the development and evaluation of measurement extraction systems.

提供机构：

尤利希研究中心, 亚琛工业大学

创建时间：

2025-03-18

搜集汇总

数据集介绍

构建方式

Wiki-Quantities 和 Wiki-Measurements 数据集的构建基于维基百科和维基数据的自动化处理。Wiki-Quantities 数据集通过解析维基百科中的 {{convert}} 模板调用，自动标注了超过120万条数量信息。Wiki-Measurements 数据集则通过将维基数据中的定量事实与维基百科文章对齐，标注了38,738条数量及其测量上下文。为确保数据质量，研究团队对部分数据进行了手动验证，并发布了用于生成数据集的代码，以便其他研究者能够复现或扩展该工作。

特点

Wiki-Quantities 数据集的特点在于其大规模的数量标注，涵盖了广泛的单位和数值类型，适用于数量识别任务。Wiki-Measurements 数据集则进一步扩展了数量标注的上下文信息，包括测量实体、属性和可选限定词，适用于测量上下文的提取任务。两个数据集均通过严格的过滤规则和手动验证确保了较高的标注精度，Wiki-Quantities 的验证精度达到100%，而 Wiki-Measurements 的验证精度在84%至94%之间。

使用方法

Wiki-Quantities 和 Wiki-Measurements 数据集可用于自然语言处理中的测量提取任务，尤其是基于监督学习的数量识别和上下文提取。Wiki-Quantities 适用于训练模型识别文本中的数量信息，而 Wiki-Measurements 则可用于提取数量的测量上下文。数据集提供了预处理的版本，可直接用于序列标注和问答任务。此外，研究团队还发布了生成数据集的代码和Snakemake工作流，支持其他语言的扩展和自定义数据处理。

背景与挑战

背景概述

Wiki-Quantities 和 Wiki-Measurements 是两个基于维基百科和维基数据的开源数据集，旨在解决自然语言处理领域中定量信息提取的挑战。这两个数据集由德国于利希研究中心和亚琛工业大学的研究团队于2025年创建，核心研究问题是如何从文本中自动识别数量及其测量上下文。Wiki-Quantities 包含超过120万条英语维基百科中的数量标注，而 Wiki-Measurements 则包含38,738条带有测量实体、属性和可选修饰符的数量标注。这些数据集的发布填补了定量信息提取领域高质量数据集的空白，推动了基于监督学习的测量提取系统的发展。

当前挑战

Wiki-Quantities 和 Wiki-Measurements 在构建和应用过程中面临多重挑战。首先，定量信息提取本身具有复杂性，尤其是当数量与其上下文（如测量实体、属性、修饰符等）需要同时识别时，模型容易受到噪声和歧义的影响。其次，数据集的构建依赖于维基百科的{{convert}}模板和维基数据的定量事实，这些数据源的自动对齐过程容易引入错误，尤其是在处理隐式属性和近似匹配时。此外，数据集中某些单位（如米、千克）和实体类别（如城市、河流）的过度代表性可能导致模型在训练时偏向这些常见类别，影响其泛化能力。最后，尽管数据集经过手动验证，但仍存在一定比例的标注错误，尤其是在处理复杂上下文时，模型的性能可能受到限制。

常用场景

经典使用场景

Wiki-Quantities 和 Wiki-Measurements 数据集在自然语言处理领域中被广泛用于测量提取任务。这些数据集通过提供大量标注的数值及其测量上下文，支持从文本中自动识别和提取数量信息。经典的使用场景包括科学文献的自动化分析，特别是在自然和工程科学领域，研究人员可以通过这些数据集训练模型，以从海量文献中提取关键的数量信息，如温度、长度、重量等。

衍生相关工作

基于 Wiki-Quantities 和 Wiki-Measurements 数据集，衍生出了许多相关的研究工作。例如，一些研究利用这些数据集开发了新的测量提取模型，进一步提升了数量识别的准确性和上下文提取的精度。此外，这些数据集还被用于构建更复杂的知识图谱，支持跨领域的知识推理和问答系统。其他相关工作还包括将这些数据集与其他领域的数据集结合，开发出更通用的信息提取框架，应用于金融、医疗等多个领域。

数据集最近研究