five

DHPLT

收藏
arXiv2026-02-12 更新2026-02-15 收录
下载链接:
https://data.hplt-project.org/three/diachronic/
下载链接
链接失效反馈
官方服务:
资源简介:
DHPLT是一个多语言历时语料库,由奥斯陆大学和康奈尔大学的研究团队创建,旨在解决语义变化建模中多语言历时数据缺乏的问题。该数据集基于HPLT项目的网络爬取数据,包含41种语言,每种语言三个时间段共300万文档,总计约59亿词。数据通过爬取时间戳近似标记文档创建时间,并经过清洗和标准化处理。DHPLT为语义变化研究提供了丰富的多语言历时文本资源,支持词嵌入、词汇替换等多种语义表示方法,适用于计算语言学、历史语言学等领域的研究。
提供机构:
奥斯陆大学; 康奈尔大学
创建时间:
2026-02-12
原始信息汇总

DHPLT:大规模多语言历时语料库与词表示(用于语义变化建模)

数据集概述

DHPLT 是一个包含 41 种不同语言的历时语料库的开放集合。该集合基于网络爬取的 HPLT 数据集,利用网络爬取的时间戳作为文档创建时间的近似信号。该集合涵盖三个时间段:2011-2015 年、2020-2021 年以及 2024 年至今(每种语言每个时间段包含 100 万份文档)。此外,我们还为选定的目标词提供了预计算的词类型和词例嵌入以及词汇替换,同时也为其他研究人员使用相同数据集提出自己的目标词留出了空间。

目标与意义

DHPLT 旨在填补当前语义变化建模领域缺乏多语言历时语料库(超越十几种高资源语言)的空白。它为这一领域的各种新实验设置开辟了道路。

涵盖语言列表

  • als_Latn/
  • arb_Arab/
  • bos_Latn/
  • bul_Cyrl/
  • cat_Latn/
  • ces_Latn/
  • cmn_Hans/
  • dan_Latn/
  • deu_Latn/
  • ekk_Latn/
  • ell_Grek/
  • eng_Latn/
  • fin_Latn/
  • fra_Latn/
  • heb_Hebr/
  • hrv_Latn/
  • hun_Latn/
  • hye_Armn/
  • ind_Latn/
  • ita_Latn/
  • jpn_Jpan/
  • kat_Geor/
  • kor_Hang/
  • lit_Latn/
  • lvs_Latn/
  • mkd_Cyrl/
  • nld_Latn/
  • nob_Latn/
  • pol_Latn/
  • por_Latn/
  • ron_Latn/
  • rus_Cyrl/
  • slk_Latn/
  • slv_Latn/
  • spa_Latn/
  • swe_Latn/
  • tam_Taml/
  • tha_Thai/
  • tur_Latn/
  • ukr_Cyrl/
  • vie_Latn/

许可证

这些数据集根据以下许可方案发布:

  • 我们不拥有从中提取这些数据集的任何文本。
  • 我们根据 Creative Commons CC0 许可证 提供 HPLT 数据集的实际打包文件。

通知与下架政策

通知: 如果您认为我们的数据包含您拥有的材料,因此不应在此处复制,请:

  • 明确您的身份,并提供详细的联系数据,例如可以联系到您的地址、电话号码或电子邮件地址。
  • 明确声称被侵权的受版权保护的作品。
  • 明确声称侵权的材料,并提供足够的信息以便我们定位该材料。
  • 您可以通过 hplt-datasets@ufal.mff.cuni.cz 与我们联系。

下架: 我们将遵守合法要求,从语料库的下一个版本中删除受影响的来源。

搜集汇总
数据集介绍
main_image_url
构建方式
在历时语义变化建模领域,构建大规模多语言历时语料库一直面临资源稀缺的挑战。DHPLT数据集巧妙利用了HPLT项目(High-Performance Language Technologies)的第三代网络爬取数据,通过将网页抓取时间戳作为文档创建时间的近似信号,构建了覆盖41种语言的历时语料集合。具体而言,研究者从HPLT v3.0数据集中,为每种语言筛选出三个时间区间(2011-2015年、2020-2021年以及2024年至今)的文档,每个区间随机采样约一百万份文档,最终形成总计约170GB的标准化语料。这种基于网络爬虫时间戳的构建方法,尽管在时间精度上与传统人工标注历时语料存在差异,却为多语言语义变化研究提供了前所未有的数据规模与覆盖广度。
特点
DHPLT数据集的核心特点在于其大规模、多语言与历时性的三重属性。该数据集涵盖了来自12个不同语系的41种语言,显著突破了以往语义变化检测研究仅局限于少数高资源语言的瓶颈。每个语言均包含三个明确划分的时间段语料,确保了历时对比的可行性。此外,数据集不仅提供了原始的历时文本,还预先计算了针对特定目标词的多种语义表示,包括静态词嵌入、上下文词嵌入以及词汇替代项,极大降低了研究者进行实验的计算门槛。这种将原始语料与预处理表征相结合的设计,既支持自由探索,也提供了即用的分析基础,为历时语言变化研究开辟了新的实验范式。
使用方法
研究者可利用DHPLT数据集开展多语言历时语义变化检测与发现研究。使用方式具有高度的灵活性:一方面,可以直接利用其提供的预计算语义表征(如对齐后的静态词嵌入、T5或GPT-BERT模型的上下文嵌入及词汇替代项),快速对预设目标词进行跨时期语义相似度计算或变化量化分析。另一方面,得益于原始历时文本的开放获取,用户能够根据自身研究问题,重新定义目标词集合,或利用整个语料库进行全词汇的语义变化探索。数据集文件采用JSONL格式存储,并包含文档标识、爬取时间戳及文本内容等字段,便于进行定制化的时间区间划分与数据处理。
背景与挑战
背景概述
在计算语言学的演进历程中,词汇语义变化建模作为一项核心任务,旨在追踪词语意义随时间的动态演变。然而,该领域长期面临多语言历时语料库资源匮乏的挑战,现有研究多集中于少数高资源语言,限制了语义变化研究的广度与深度。为应对这一局限,奥斯陆大学与康奈尔大学的研究团队于2026年推出了DHPLT数据集,该资源基于HPLT项目的网络爬取数据,构建了涵盖41种语言、跨越三个时间段的标准化历时语料库。DHPLT不仅提供了大规模的文本数据,还预计算了目标词的语义表示,为多语言语义变化检测研究开辟了新的实验路径,显著促进了语言变化建模领域的多样性与包容性。
当前挑战
DHPLT数据集致力于解决多语言词汇语义变化检测中的核心挑战,即如何在大规模、多语言的背景下准确捕捉词语意义的历时演变。这一领域问题的复杂性体现在语义变化的细微性与语言间的差异性,要求模型能够区分噪声与真实的语义漂移。在构建过程中,数据集面临两大主要挑战:其一,时间信号的获取依赖于网络爬取时间戳而非文档创建时间,这可能导致时间分期存在模糊性,影响历时分析的精确度;其二,数据质量与代表性受到网络文档异构性的制约,需通过严格的清洗与筛选流程确保语料库的可靠性与一致性,同时平衡计算资源与存储空间的限制。
常用场景
经典使用场景
在计算语言学领域,历时语义变化建模旨在追踪词汇意义随时间推移的演变轨迹。DHPLT数据集作为覆盖41种语言的大规模历时语料库,其经典使用场景在于为多语言语义变化检测研究提供标准化、可比较的文本数据基础。研究者可利用其划分的三个时间段(2011-2015、2020-2021、2024至今),通过静态词嵌入或上下文词嵌入技术,量化分析目标词语义在不同时期的相似性与差异性,从而揭示语言演变的动态规律。
实际应用
DHPLT的实际应用场景延伸至社会文化变迁监测与语言技术优化。例如,通过分析“远程工作”或“人工智能”等词汇在新冠疫情前后及近年来的语义漂移,可洞察技术概念与社会实践的互动关系。此外,其预计算的词表示与词汇替代数据可直接用于训练跨语言语义变化模型,为机器翻译、信息检索等自然语言处理系统提供历时感知的语言表示,增强其对新兴词汇与语义演变的适应能力。
衍生相关工作
DHPLT的发布促进了多语言语义变化检测领域的系列经典工作。基于其语料,研究者可复现或扩展如SemEval 2020任务1的评估框架,开发针对低资源语言的语义变化发现算法。同时,其提供的静态词嵌入对齐模型启发了跨时间词向量空间映射研究,而预计算的上下文嵌入与词汇替代数据则支撑了基于掩码语言建模的语义变化量化方法,如Card(2023)与Umarova等人(2025)所提出的替代检测技术,进一步丰富了历时语言计算的工具箱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作