five

leipzig-frequency

收藏
Hugging Face2026-04-14 更新2026-04-15 收录
下载链接:
https://huggingface.co/datasets/ClueSurf/leipzig-frequency
下载链接
链接失效反馈
官方服务:
资源简介:
Leipzig Corpora 频率数据集包含来自莱比锡语料库集合的词频列表和共现数据,已转换为 Parquet 格式。该数据集涵盖数百种语言的新闻、网络、维基百科和混合来源的语料。每个语料库包括词频、来源信息和统计共现对。数据以分片形式存储,每个分片约 200-400 MB。数据集文件包括元数据 JSON 文件、词频 Parquet 文件、来源 Parquet 文件以及句子内和相邻词共现的 Parquet 文件。词频文件包含单词和标点符号的频率统计,共现文件记录同一句子或相邻位置出现的词对及其频率和显著性。数据集使用 ISO 639-3 语言代码标识,部分语言带有地区后缀。该数据集适用于语言学研究、自然语言处理任务如词频分析、语言模型训练等。数据来源为莱比锡大学莱比锡语料库集合,采用 CC-BY-4.0 许可协议。
创建时间:
2026-04-13
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Leipzig Corpora Frequency Data
  • 数据集标识: ClueSurf/leipzig-frequency
  • 许可证: CC-BY-4.0
  • 标签: 语言、频率、语料库、语言学、自然语言处理

数据内容

该数据集包含来自莱比锡语料库集合的词频列表和共现数据,已转换为Parquet格式。数据涵盖数百种语言,来源包括新闻、网络、维基百科和混合来源。每个语料库都包含词元频率、来源出处和统计共现对。

文件结构

数据存储在 base/ 目录下,结构如下:

base/ <language>/ <source>-<date>-<size>/ metadata.json string.0001.parquet source.0001.parquet cooccurrence.sentence.0001.parquet cooccurrence.neighbor.0001.parquet

分片大小约为200-400 MB。小型语料库可能只有一个分片,大型语料库则有多个(例如 0001.parquet0002.parquet 等)。语言使用ISO 639-3代码,有时带有地区后缀(例如 ara-eg 表示埃及阿拉伯语)。

文件详情

每个语料库包含以下文件:

文件名 格式 描述
metadata.json JSON 包含语言、来源类型、日期、大小和原始文件名的元数据
string.NNNN.parquet Parquet 词元频率列表(包含单词和标点符号)
source.NNNN.parquet Parquet 来源文章的URL和日期
cooccurrence.sentence.NNNN.parquet Parquet 出现在同一句子中的词对
cooccurrence.neighbor.NNNN.parquet Parquet 出现在彼此相邻位置的词对

Parquet文件使用ZSTD压缩,比等效的JSONL文件小约4倍,并支持按列读取以实现快速过滤。

数据模式

metadata.json

json { "language": "afr", "source": "news", "date": "2020", "size": "30K", "file": "afr_news_2020_30K" }

string.NNNN.parquet

列名 类型
id int32
text string
frequency int64

source.NNNN.parquet

列名 类型
id int32
url string
date string

cooccurrence.sentence.NNNN.parquet

列名 类型
string_1_id int32
string_2_id int32
frequency int64
significance float64

cooccurrence.neighbor.NNNN.parquet

模式与 cooccurrence.sentence.NNNN.parquet 相同,但针对的是相邻出现的词,而非同一句子中的词。

使用方法

使用 datasets 库加载

python from datasets import load_dataset ds = load_dataset("cluesurf/leipzig-frequency")

使用 DuckDB 直接查询

sql SELECT text, frequency FROM base/afr/news-2020-30K/string.*.parquet ORDER BY frequency DESC LIMIT 20;

数据来源

数据下载自莱比锡大学的 Leipzig Corpora Collection。原始存档为 .tar.gz 文件,包含遵循Wortschatz数据库模式的制表符分隔的 .txt 数据。

参考文献

搜集汇总
数据集介绍
main_image_url
构建方式
在语料库语言学领域,构建大规模多语言资源是推动自然语言处理研究的基础。Leipzig Corpora Frequency Data 源自莱比锡大学 Wortschatz 项目,其构建过程系统性地采集了新闻、网络、维基百科及混合来源的文本,覆盖数百种语言。原始数据经过预处理,提取词频及共现信息,并转换为高效的 Parquet 格式,每个语料库均包含元数据、词频列表、来源信息及句子内与相邻词对的共现统计,确保了数据的结构化和可扩展性。
特点
该数据集以其广泛的语言覆盖和精细的统计信息而著称,不仅提供基本的词频列表,还包含标点符号等非词汇单元,拓展了语言分析的维度。数据以列式存储的 Parquet 文件组织,采用 ZSTD 压缩,显著提升了存储与查询效率。共现数据区分句子内与相邻词对,并附有统计显著性指标,为词汇语义和句法研究提供了丰富资源,支持跨语言的比较分析。
使用方法
研究人员可通过 Hugging Face 的 datasets 库直接加载数据集,或利用 DuckDB 进行高效的 SQL 查询,灵活检索特定语言的词频或共现模式。数据集的模块化结构允许用户按需访问元数据、词频或共现文件,适用于词汇分布分析、语言模型训练及跨语言研究。这种设计兼顾了易用性与性能,使得大规模语料库的探索变得直观而高效。
背景与挑战
背景概述
莱比锡语料库频率数据集源于莱比锡大学自21世纪初启动的Wortschatz项目,该项目由D. Goldhahn、T. Eckart和U. Quasthoff等研究人员主导,旨在构建大规模、多语言的单语词典资源。该数据集的核心研究问题聚焦于为自然语言处理与计算语言学领域提供跨语言的词汇频率与共现统计基础,覆盖数百种语言的新闻、网络、维基百科及混合来源文本。自2012年相关研究成果在LREC会议上发表以来,该数据集已成为语言建模、词向量训练及跨语言比较研究的重要基准,显著推动了语料库语言学与多语言NLP技术的发展。
当前挑战
该数据集致力于解决多语言环境下词汇统计与语言建模的挑战,其核心问题在于如何准确捕捉不同语言中词汇的分布规律与上下文关联,以支持机器翻译、信息检索等应用。在构建过程中,研究人员面临诸多挑战:首先,需整合来自异构来源(如新闻、网络)的文本数据,确保语料代表性并处理格式差异;其次,对数百种语言进行标准化处理(如采用ISO 639-3编码)与质量控制,以维护数据一致性;此外,原始数据规模庞大,转换至Parquet格式并应用ZSTD压缩时,需平衡存储效率与查询性能;最后,共现统计的计算涉及复杂的邻接与句子级关系提取,对算法设计与计算资源提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,词频和共现数据是构建语言模型和进行词汇分析的基础。Leipzig Corpora Frequency Data 以其覆盖数百种语言、包含新闻、网络和维基百科等多种来源的语料库,成为语言学家和计算语言学家研究词汇分布和语言使用模式的经典资源。该数据集通过提供详细的词频列表和句子内及相邻词汇的共现统计,支持词向量训练、语言模型预训练以及跨语言比较研究,为大规模语言分析提供了标准化和高效的数据基础。
衍生相关工作
基于该数据集衍生的经典工作包括多语言词向量模型(如 fastText 和 GloVe 的扩展版本),这些模型利用其共现数据提升了低资源语言的表示能力。在学术研究中,Goldhahn 等人关于 Leipzig Corpora Collection 的原始论文为大规模语料库构建设立了标准。后续研究进一步利用该数据进行了语言类型学分析、词汇网络构建以及跨语言信息检索系统的开发,推动了语料库语言学与计算方法的深度融合,成为自然语言处理领域的重要参考文献。
数据集最近研究
最新研究方向
在自然语言处理领域,大规模多语言语料库资源正推动着跨语言模型与语言理解的前沿探索。Leipzig Corpora Frequency Data以其覆盖数百种语言的词频与共现数据,成为低资源语言建模与语言演化分析的关键基础。当前研究热点聚焦于利用其精细的共现统计信息,增强预训练语言模型的词汇语义表示,特别是在处理形态丰富或数据稀缺语言时,通过句内与相邻词对的显著性度量,优化上下文嵌入的生成。该数据集支持的语言多样性也促进了语言类型学比较与数字人文研究,例如通过历时语料追踪词汇使用变迁,为全球化背景下的语言技术公平性提供了实证依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作