Google Books Ngram Corpus

github2023-08-15 更新2024-05-31 收录

下载链接：

https://github.com/orgtre/google-books-ngram-frequency

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库提供Google Books Ngram Corpus（版本3/20200217，包含所有语言）中最频繁的单词和n-gram（n个单词序列）的清洗列表，包括一些英文翻译，以及可自定义的Python代码以重现这些列表。数据集按语言和n值分别提供最频繁的n-gram列表，涵盖中文（简体）、英语、英语小说、法语、德语、希伯来语、意大利语、俄语和西班牙语。n值范围从1到5。列表中语言子语料库限制在2010-2019年出版的书籍，Python代码中可以调整这些参数和最频繁n-gram的数量。

This repository provides a curated list of the most frequent words and n-grams (sequences of n words) from the Google Books Ngram Corpus (Version 3/20200217, encompassing all languages), including some English translations, along with customizable Python code to reproduce these lists. The dataset offers the most frequent n-gram lists by language and n-value, covering Chinese (Simplified), English, English Fiction, French, German, Hebrew, Italian, Russian, and Spanish. The n-values range from 1 to 5. The language sub-corpora in the lists are limited to books published between 2010 and 2019, and the Python code allows for adjustments to these parameters and the number of most frequent n-grams.

创建时间：

2022-08-21

原始信息汇总

数据集概述

名称: Google Books n-gram frequency lists

描述: 本数据集提供了经过清洗的常用单词和n-gram（n个单词序列）列表，包括一些英文翻译，源自Google Books Ngram Corpus（版本3/20200217，所有语言），并附带可定制的Python代码以重现这些列表。

数据集内容

语言和n-gram范围: 数据集包含简体中文、英语、英语小说、法语、德语、希伯来语、意大利语、俄语和西班牙语的n-gram列表。n的范围从1到5。
频率列表:
- 除希伯来语外，其他语言提供：
  - 10,000个最常见的1-gram（单词）
  - 5,000个最常见的2-gram
  - 3,000个最常见的3-gram
  - 1,000个最常见的4-gram和5-gram
- 希伯来语提供：
  - 200个最常见的4-gram
  - 80个最常见的5-gram
数据字段:
- 每个n-gram的频率（freq列）
- 1-gram额外包含：
  - cumshare：每个单词的累积频率占比
  - en：英文翻译（仅限非英语语言）

数据集用途

语言学习: 数据集用于开发语言学习材料，通过学习最常用的单词和短语来提高语言理解能力。
语言研究: 数据集中的未清洗版本可供语言学家研究使用，包括原始n-gram、无词性标签的n-gram等。

数据集来源

基础数据: 基于Google Books Ngram Corpus版本3（20200217版），该数据集是Google根据光学字符识别和元数据质量筛选的书籍子集。
数据量:
- 所有语言的单词总数巨大，例如英语包含近2万亿个单词。
- 2010-2019年出版的书籍中，每个语言子集的单词数超过150亿。

Python代码支持

代码位置: 位于python目录中，每个.py文件都是可从命令行运行的脚本。
功能:
- 下载和提取最频繁的n-gram
- 收集和清洗n-gram列表
- 使用Google Cloud Translate API添加英文翻译
- 生成频率分布图

数据集限制

未完成工作: 需要完成希伯来语的最终手动清洗和n > 1的n-gram列表的清洗。
存在的问题: 某些列表中包含逗号作为单词，可能需要进一步处理。

许可证

授权: 本数据集内容遵循Creative Commons Attribution 3.0 Unported License。

搜集汇总

数据集介绍

构建方式

Google Books Ngram Corpus 数据集的构建基于Google Books Ngram Corpus Version 3（版本标识符20200217），该版本由Google提供，并作为n-gram列表公开。数据集通过从Google Books中提取的文本数据，经过光学字符识别（OCR）和元数据质量筛选，最终形成一个包含多种语言的n-gram频率列表。数据集的构建过程包括从原始数据中提取最常见的n-gram，并进行多层次的清理和翻译处理，以确保数据的准确性和实用性。

特点

Google Books Ngram Corpus 数据集的特点在于其广泛的覆盖范围和精细的语言处理。数据集涵盖了多种语言（如中文、英语、法语等），并提供了从1-gram到5-gram的频率列表。每个n-gram列表都包含其在语料库中的出现频率，并且对于1-gram，还提供了累积频率和英文翻译。此外，数据集还提供了未经清理和部分清理的版本，以满足不同研究需求。数据集的规模庞大，尤其是在2010-2019年间的书籍数据，为语言学研究提供了丰富的资源。

使用方法

Google Books Ngram Corpus 数据集的使用方法灵活多样，适用于语言学习、语言学研究和自然语言处理等领域。用户可以通过提供的Python脚本下载、提取和清理数据，生成所需的n-gram列表。数据集中的频率列表可用于开发语言学习材料，帮助学习者优先掌握高频词汇。此外，数据集还支持通过Google Cloud Translate API进行翻译，用户可以根据需要调整翻译设置。对于研究人员，数据集提供了详细的清理步骤和手动修正，确保数据的准确性和可靠性。

背景与挑战

背景概述

Google Books Ngram Corpus 是由Google于2020年发布的第三版大规模语料库，涵盖了多种语言的书籍文本数据。该数据集基于Google Books的数字化书籍，通过光学字符识别（OCR）技术提取文本，并经过质量筛选，最终形成了包含约6%已出版书籍的语料库。该数据集的核心研究问题在于通过n-gram模型分析语言的使用频率和变化趋势，为语言学研究、自然语言处理以及语言学习提供了重要的数据支持。其影响力不仅体现在语言学领域，还为文化研究、历史分析等跨学科研究提供了丰富的数据资源。

当前挑战

Google Books Ngram Corpus 在解决语言频率分析和语言学习问题时面临多重挑战。首先，语料库的规模庞大，尽管经过筛选，但仍包含大量噪声数据，如OCR错误、非标准词汇等，这对数据的清洗和处理提出了极高的要求。其次，语料库的代表性存在局限，仅包含书籍文本，缺乏口语、期刊等其他语言形式，可能无法全面反映语言的实际使用情况。此外，构建过程中还面临数据格式复杂、多语言处理难度大等问题，尤其是在处理希伯来语等小语种时，数据稀疏性进一步增加了分析的复杂性。这些挑战使得数据集的构建和应用需要高度的技术支持和精细的后期处理。

常用场景

经典使用场景

Google Books Ngram Corpus 数据集在语言学和自然语言处理领域中被广泛用于分析词汇和短语的使用频率及其随时间的变化趋势。研究者可以通过该数据集探索不同语言中词汇的演变、文化变迁对语言的影响，以及特定词汇在不同历史时期的流行度变化。例如，通过分析1-gram到5-gram的频率，研究者可以揭示语言中的常见表达模式及其在不同语境中的使用规律。

衍生相关工作

基于Google Books Ngram Corpus，许多经典研究工作得以展开。例如，研究者利用该数据集开发了多种语言模型，用于预测词汇的使用频率和语言演变趋势。此外，该数据集还催生了许多跨学科研究，如文化历史分析、社会语言学研究和数字人文领域的探索。相关的工作还包括对特定语言或文化背景下的词汇使用进行深入分析，进一步推动了语言学和计算语言学的交叉研究。

数据集最近研究