leipzig-frequency
收藏数据集概述
基本信息
- 数据集名称: Leipzig Corpora Frequency Data
- 数据集标识: ClueSurf/leipzig-frequency
- 许可证: CC-BY-4.0
- 标签: 语言、频率、语料库、语言学、自然语言处理
数据内容
该数据集包含来自莱比锡语料库集合的词频列表和共现数据,已转换为Parquet格式。数据涵盖数百种语言,来源包括新闻、网络、维基百科和混合来源。每个语料库都包含词元频率、来源出处和统计共现对。
文件结构
数据存储在 base/ 目录下,结构如下:
base/ <language>/ <source>-<date>-<size>/ metadata.json string.0001.parquet source.0001.parquet cooccurrence.sentence.0001.parquet cooccurrence.neighbor.0001.parquet
分片大小约为200-400 MB。小型语料库可能只有一个分片,大型语料库则有多个(例如 0001.parquet、0002.parquet 等)。语言使用ISO 639-3代码,有时带有地区后缀(例如 ara-eg 表示埃及阿拉伯语)。
文件详情
每个语料库包含以下文件:
| 文件名 | 格式 | 描述 |
|---|---|---|
metadata.json |
JSON | 包含语言、来源类型、日期、大小和原始文件名的元数据 |
string.NNNN.parquet |
Parquet | 词元频率列表(包含单词和标点符号) |
source.NNNN.parquet |
Parquet | 来源文章的URL和日期 |
cooccurrence.sentence.NNNN.parquet |
Parquet | 出现在同一句子中的词对 |
cooccurrence.neighbor.NNNN.parquet |
Parquet | 出现在彼此相邻位置的词对 |
Parquet文件使用ZSTD压缩,比等效的JSONL文件小约4倍,并支持按列读取以实现快速过滤。
数据模式
metadata.json
json { "language": "afr", "source": "news", "date": "2020", "size": "30K", "file": "afr_news_2020_30K" }
string.NNNN.parquet
| 列名 | 类型 |
|---|---|
| id | int32 |
| text | string |
| frequency | int64 |
source.NNNN.parquet
| 列名 | 类型 |
|---|---|
| id | int32 |
| url | string |
| date | string |
cooccurrence.sentence.NNNN.parquet
| 列名 | 类型 |
|---|---|
| string_1_id | int32 |
| string_2_id | int32 |
| frequency | int64 |
| significance | float64 |
cooccurrence.neighbor.NNNN.parquet
模式与 cooccurrence.sentence.NNNN.parquet 相同,但针对的是相邻出现的词,而非同一句子中的词。
使用方法
使用 datasets 库加载
python from datasets import load_dataset ds = load_dataset("cluesurf/leipzig-frequency")
使用 DuckDB 直接查询
sql SELECT text, frequency FROM base/afr/news-2020-30K/string.*.parquet ORDER BY frequency DESC LIMIT 20;
数据来源
数据下载自莱比锡大学的 Leipzig Corpora Collection。原始存档为 .tar.gz 文件,包含遵循Wortschatz数据库模式的制表符分隔的 .txt 数据。
参考文献
- Leipzig Corpora Collection
- Wortschatz project
- D. Goldhahn, T. Eckart, U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages. In: Proceedings of LREC, 2012.




