HEADLINES

Name: HEADLINES
Creator: 哈佛大学
Published: 2023-08-24 09:22:36
License: 暂无描述

arXiv2023-08-24 更新2024-06-21 收录

下载链接：

https://huggingface.co/datasets/dell-research-harvard/headlines-semantic-similarity

下载链接

链接失效反馈

官方服务：

资源简介：

HEADLINES数据集是由哈佛大学和国家经济研究局的研究人员创建，包含近4亿条从1920年至1989年的历史英语报纸中提取的语义相似性数据对。该数据集利用了新数字化的美国地方报纸文章，通过深度神经网络方法识别来自同一来源的文章，构建了大规模的语义相似性数据集。HEADLINES数据集不仅规模庞大，而且覆盖了长时间跨度，适用于训练和评估旨在捕捉抽象相似性的模型，如聚类、最近邻检索和语义搜索。此外，该数据集还能用于评估动态语言模型处理持续演变的文本内容的能力，以及大型语言模型处理历史文本的适应性。

The HEADLINES dataset was created by researchers from Harvard University and the National Bureau of Economic Research. It contains nearly 400 million semantic similarity data pairs extracted from historical English newspapers spanning from 1920 to 1989. This dataset leverages newly digitized articles from U.S. local newspapers, employing deep neural network methodologies to identify articles from the same source, thereby constructing a large-scale semantic similarity dataset. Boasting a massive scale and a long temporal coverage, the HEADLINES dataset is suitable for training and evaluating models designed to capture abstract similarity, such as clustering, nearest neighbor retrieval, and semantic search. Furthermore, this dataset can also be used to evaluate the capability of dynamic language models to process continuously evolving textual content, as well as the adaptability of large language models when handling historical texts.

提供机构：

哈佛大学

创建时间：

2023-07-01

搜集汇总

数据集介绍

构建方式

HEADLINES数据集的构建采用了对1920年至1989年间美国地方报纸的数字化文章进行语义相似度配对的方法。研究人员首先将报纸的首页进行数字化，并使用OCR技术识别文本内容。然后，通过结合文档布局信息和语言理解，将文章与其标题进行关联。接下来，使用深度学习方法识别出源自同一新闻来源的文章，尽管存在大量噪音和缩略。最后，这些复制的文章标题形成正面的语义相似度配对。HEADLINES数据集包含近4亿个高质量的语义相似度配对，覆盖了70年的广泛时间跨度。

特点

HEADLINES数据集具有几个显著的特点。首先，它是一个大规模的语义相似度数据集，包含近4亿个高质量配对，远远超过大多数现有的语义相似度数据集。其次，它覆盖了一个很长的时间跨度，从1920年到1989年，这为研究语义随时间和空间的变化提供了丰富的数据。此外，HEADLINES数据集的配对具有高度的抽象相似性，因为它们是对同一文本内容的摘要。最后，数据集采用了Creative Commons CC-BY许可证，鼓励广泛的用途，并且可以通过Huggingface平台免费获取。

使用方法

HEADLINES数据集可以用于多种自然语言处理任务，包括语义相似度模型的训练和评估。由于其时间跨度长，它还可以用于评估动态语言模型处理持续演变的内容的能力，以及如何将大型语言模型适应处理历史内容。此外，它可用于训练或评估预测文本撰写地区或年份的模型。HEADLINES数据集以JSON格式提供，每年分为一个单独的文件，每个文件包含该年的所有头条及其相关元数据。数据集通过Huggingface的datasets库提供，用户可以通过指定数据文件轻松下载特定年份的数据。

背景与挑战

背景概述

在自然语言处理（NLP）领域中，语义相似度数据集对于训练语言模型至关重要。尽管存在多种语义相似度数据集，但它们要么是从现代网络数据构建的，要么是由人工标注者在过去十年中创建的相对较小的数据集。HEADLINES数据集通过利用新数字化的、无版权的、来自美国地方报纸的文章，创建了一个跨越70年（从1920年到1989年）的大型语义相似度数据集，包含近4亿个正语义相似度对。该数据集的核心研究问题是提供一个大型的、时间跨度长的语义相似度数据集，以促进对比训练的语义相似度模型在多种任务中的应用，包括研究语义随时间和空间的变化。

当前挑战

HEADLINES数据集面临的挑战主要包括：1) 所解决的领域问题，即创建一个大规模的、时间跨度长的语义相似度数据集，以解决现有数据集规模小、时间跨度短的问题；2) 构建过程中所遇到的挑战，包括文章和标题的关联、OCR识别错误以及文章内容的噪声和缩减。为了解决这些挑战，研究人员利用文档布局和语言理解将文章和标题进行关联，并使用深度学习方法来检测来自同一来源的文章，即使存在噪声和缩减。此外，他们还使用了一套规则来生成高质量的训练数据，并通过神经网络模型提高了文章关联的准确率。

常用场景

经典使用场景

HEADLINES数据集主要用于自然语言处理(NLP)领域中的语义相似度模型训练。通过对比训练，模型能够学习到低频词在超球面上的异向性，从而提高语义相似文本之间的对齐和性能。该数据集包含近4亿个高质量的语义相似度对，跨越了70年的时间，覆盖了广泛的主题，为研究语义变化和动态语言模型提供了宝贵的数据资源。

衍生相关工作

HEADLINES数据集的衍生工作包括：1) 使用数据集中的语义相似度对训练语义相似度模型；2) 研究语义变化和动态语言模型，处理历史文本；3) 开发和评估基准模型，用于历史文档的主题分类等任务。

数据集最近研究