distribution-over-quantities

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/distribution-over-quantities

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含名词、动词和形容词的测量分布元组。它描述了如狮子体重、身高、人们通常吃早餐的时间以及音乐会时长等常识性问题的量化分布。数据集通过聚合测量和相应的提及值来表征大小、持续时间、重量等属性的量化分布。

This dataset comprises measurement distribution tuples of nouns, verbs, and adjectives. It delineates the quantitative distributions of common-sense queries such as the weight and height of lions, the usual times people have breakfast, and the duration of concerts. The dataset characterizes the quantitative distributions of attributes like size, duration, and weight by aggregating measurements and their corresponding mentioned values.

创建时间：

2019-05-31

原始信息汇总

数据集概述

数据集名称

distribution-over-quantities

数据集内容

该数据集包含名词、动词和形容词的测量分布元组。数据集旨在描述如大小、持续时间、重量等属性的量化分布，通过聚合测量和相应的提及值来实现。

数据格式

每个数据条目包含以下字段：

obj: 对象
head: 头部
dim: 维度
mean: 均值
perc_5: 5th 百分位测量值
perc_25: 25th 百分位测量值
median: 中位数
perc_75: 75th 百分位测量值
perc_95: 95th 百分位测量值
std: 标准差

引用信息

若在您的研究中使用或讨论此数据集，请引用以下论文：

@InProceedings{DOQ, title = {How Large Are Lions? Inducing Distributions over Quantitative Attributes}, author = "Yanai Elazar, Abhijit Mahabal, Deepak Ramachandran, Tania Bedrax-Weiss, Dan Roth}, booktitle = {Proceedings of ACL 2019}, year = {2019}

搜集汇总

数据集介绍

构建方式

在自然语言理解领域，量化属性的分布信息对于提升问答系统和文本推理能力至关重要。distribution-over-quantities数据集的构建基于对文本中提及的量化属性（如尺寸、持续时间、重量等）的统计分析。研究者通过聚合名词、形容词和动词的测量值及其对应的量化属性，生成了每个实体的分布数据。具体而言，每个数据条目包含对象、属性维度、均值、百分位数（如第5、25、50、75、95百分位）以及标准差等信息。数据集的构建过程详细记录在ACL 2019发表的论文中，确保了其科学性和可复现性。

特点

distribution-over-quantities数据集以其对量化属性分布的全面刻画而著称。数据集涵盖了多种属性维度，如尺寸、重量和持续时间等，并通过百分位数和标准差等统计量提供了丰富的分布信息。每个条目以结构化的形式呈现，便于研究者直接提取和分析。此外，数据集的属性维度经过标准化处理，确保了数据的一致性和可比性。这种对量化属性的细致描述为自然语言理解系统提供了重要的常识知识支持，使其能够更准确地回答与量化属性相关的问题。

使用方法

distribution-over-quantities数据集可通过Google Cloud Platform访问，用户可自由下载并使用。数据集以结构化格式存储，每个条目包含对象、属性维度及其统计量，便于直接导入分析工具进行处理。研究者可利用该数据集训练或评估自然语言理解模型，特别是在问答系统和文本推理任务中，量化属性的分布信息能够显著提升模型的性能。使用该数据集时，建议引用相关论文以尊重研究者的贡献。数据集以“AS IS”形式提供，用户需自行承担使用风险。

背景与挑战

背景概述

在自然语言处理领域，理解文本中提及的定量属性分布对于提升问答系统和文本推理能力至关重要。2019年，由Yanai Elazar、Abhijit Mahabal、Deepak Ramachandran、Tania Bedrax-Weiss和Dan Roth等研究人员在ACL会议上发布了名为‘distribution-over-quantities’的数据集。该数据集旨在捕捉名词、动词和形容词在文本中关于尺寸、持续时间、重量等属性的定量分布。通过聚合这些属性的测量值及其对应的提及值，该数据集为自然语言理解系统提供了丰富的定量知识支持，极大地推动了相关领域的研究进展。

当前挑战

构建‘distribution-over-quantities’数据集面临多重挑战。首先，如何从海量文本中准确提取并量化属性值是一个复杂的问题，需要处理文本中的模糊表达和上下文依赖。其次，数据集的构建过程中需确保测量值的归一化处理，以便在不同维度之间进行有效比较。此外，如何将提取的定量信息与自然语言理解任务紧密结合，以提升问答系统和文本推理的准确性，也是一个亟待解决的难题。这些挑战不仅考验了数据集的构建技术，也对后续的应用研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，distribution-over-quantities数据集被广泛应用于问答系统和文本推理任务中。通过提供名词、动词和形容词的测量分布，该数据集帮助模型理解文本中提到的数量属性，如大小、持续时间、重量等。这种理解对于生成准确的回答和进行有效的文本推理至关重要。

衍生相关工作

基于distribution-over-quantities数据集，研究人员开发了一系列相关的工作，包括改进的问答系统、增强的文本推理模型以及更智能的对话系统。这些工作不仅推动了自然语言处理技术的发展，还为其他领域如教育、医疗等提供了新的工具和方法。

数据集最近研究