five

HEADLINES|历史文本分析数据集|语义相似性数据集

收藏
arXiv2023-08-24 更新2024-06-21 收录
历史文本分析
语义相似性
下载链接:
https://huggingface.co/datasets/dell-research-harvard/headlines-semantic-similarity
下载链接
链接失效反馈
资源简介:
HEADLINES数据集是由哈佛大学和国家经济研究局的研究人员创建,包含近4亿条从1920年至1989年的历史英语报纸中提取的语义相似性数据对。该数据集利用了新数字化的美国地方报纸文章,通过深度神经网络方法识别来自同一来源的文章,构建了大规模的语义相似性数据集。HEADLINES数据集不仅规模庞大,而且覆盖了长时间跨度,适用于训练和评估旨在捕捉抽象相似性的模型,如聚类、最近邻检索和语义搜索。此外,该数据集还能用于评估动态语言模型处理持续演变的文本内容的能力,以及大型语言模型处理历史文本的适应性。
提供机构:
哈佛大学
创建时间:
2023-07-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
HEADLINES数据集的构建采用了对1920年至1989年间美国地方报纸的数字化文章进行语义相似度配对的方法。研究人员首先将报纸的首页进行数字化,并使用OCR技术识别文本内容。然后,通过结合文档布局信息和语言理解,将文章与其标题进行关联。接下来,使用深度学习方法识别出源自同一新闻来源的文章,尽管存在大量噪音和缩略。最后,这些复制的文章标题形成正面的语义相似度配对。HEADLINES数据集包含近4亿个高质量的语义相似度配对,覆盖了70年的广泛时间跨度。
特点
HEADLINES数据集具有几个显著的特点。首先,它是一个大规模的语义相似度数据集,包含近4亿个高质量配对,远远超过大多数现有的语义相似度数据集。其次,它覆盖了一个很长的时间跨度,从1920年到1989年,这为研究语义随时间和空间的变化提供了丰富的数据。此外,HEADLINES数据集的配对具有高度的抽象相似性,因为它们是对同一文本内容的摘要。最后,数据集采用了Creative Commons CC-BY许可证,鼓励广泛的用途,并且可以通过Huggingface平台免费获取。
使用方法
HEADLINES数据集可以用于多种自然语言处理任务,包括语义相似度模型的训练和评估。由于其时间跨度长,它还可以用于评估动态语言模型处理持续演变的内容的能力,以及如何将大型语言模型适应处理历史内容。此外,它可用于训练或评估预测文本撰写地区或年份的模型。HEADLINES数据集以JSON格式提供,每年分为一个单独的文件,每个文件包含该年的所有头条及其相关元数据。数据集通过Huggingface的datasets库提供,用户可以通过指定数据文件轻松下载特定年份的数据。
背景与挑战
背景概述
在自然语言处理(NLP)领域中,语义相似度数据集对于训练语言模型至关重要。尽管存在多种语义相似度数据集,但它们要么是从现代网络数据构建的,要么是由人工标注者在过去十年中创建的相对较小的数据集。HEADLINES数据集通过利用新数字化的、无版权的、来自美国地方报纸的文章,创建了一个跨越70年(从1920年到1989年)的大型语义相似度数据集,包含近4亿个正语义相似度对。该数据集的核心研究问题是提供一个大型的、时间跨度长的语义相似度数据集,以促进对比训练的语义相似度模型在多种任务中的应用,包括研究语义随时间和空间的变化。
当前挑战
HEADLINES数据集面临的挑战主要包括:1) 所解决的领域问题,即创建一个大规模的、时间跨度长的语义相似度数据集,以解决现有数据集规模小、时间跨度短的问题;2) 构建过程中所遇到的挑战,包括文章和标题的关联、OCR识别错误以及文章内容的噪声和缩减。为了解决这些挑战,研究人员利用文档布局和语言理解将文章和标题进行关联,并使用深度学习方法来检测来自同一来源的文章,即使存在噪声和缩减。此外,他们还使用了一套规则来生成高质量的训练数据,并通过神经网络模型提高了文章关联的准确率。
常用场景
经典使用场景
HEADLINES数据集主要用于自然语言处理(NLP)领域中的语义相似度模型训练。通过对比训练,模型能够学习到低频词在超球面上的异向性,从而提高语义相似文本之间的对齐和性能。该数据集包含近4亿个高质量的语义相似度对,跨越了70年的时间,覆盖了广泛的主题,为研究语义变化和动态语言模型提供了宝贵的数据资源。
衍生相关工作
HEADLINES数据集的衍生工作包括:1) 使用数据集中的语义相似度对训练语义相似度模型;2) 研究语义变化和动态语言模型,处理历史文本;3) 开发和评估基准模型,用于历史文档的主题分类等任务。
数据集最近研究
最新研究方向
基于历史英文的语义相似度数据集HEADLINES,研究人员正在探索如何利用大规模语义相似度数据集进行自然语言处理(NLP)任务的训练和评估。HEADLINES数据集包含了近4亿个高质量的语义相似度对,跨越了从1920年到1989年的70年时间。该数据集的独特之处在于,它基于历史上美国地方报纸的摘要,这些摘要由编辑根据从新闻专线(如美联社)复制的内容撰写。这种结构使得HEADLINES成为了研究语义变化、历史文本处理以及大规模语言模型如何适应历史内容的宝贵资源。此外,HEADLINES数据集还可以用于训练或评估模型,以预测文本的出版地区或年份,以及用于对大量历史和档案文档进行主题分类等下游任务。HEADLINES数据集的发布为NLP领域的研究提供了新的可能性,特别是在处理历史文本和语义变化的研究方向上。
相关研究论文
  • 1
    A Massive Scale Semantic Similarity Dataset of Historical English哈佛大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录