Google Books Ngram Corpus|语言学研究数据集|文本分析数据集
收藏Google Books words 数据集概述
数据集内容
- 目标:创建包含所有语言的Google Books Ngram Corpus(版本3/20200217)中所有单词的数据集,并提供额外的元数据,如词性标签和词族信息。
- 特点:与现有数据集(如hackerb9/gwordlist和orgtre/google-books-ngram-frequency)不同,本数据集旨在提供更全面的单词信息,以支持语言学习材料的开发。
数据集结构
- 文件类型:CSV文件,每个语言一个文件。
- 文件内容:包含以下列:
word
:单词本身。freq
:单词在语料库中的频率,单位为每10亿词次。freq50
:1970年后出版书籍中的单词频率。freq10
:2010年后出版书籍中的单词频率。nvol
:单词出现的书籍比例。pos
:Google分配的词性标签。rel
:每个词性标签的相对频率(百分比)。
数据处理
- 代码位置:所有处理代码位于
src
目录中。 - 处理流程:使用
google-books-words.py
脚本下载源数据,解析并生成各语言的单词数据集。 - 依赖管理:使用Poetry管理依赖,详细依赖列表见
pyproject.toml
。 - 内存需求:处理英文子语料库时,16GB RAM的计算机可能需要进行交换操作,但处理其他语言时不会出现此问题。
数据集状态
- 当前状态:数据集文件因过大尚未上传。
- 最终输出:文件后缀为
_2b
,已去除非单词字符,合并了大小写和词性标签不同的相同单词。

- Google Books Ngram Corpus首次公开发布,标志着大规模文本数据分析的新时代开始。
- Google发布了一篇详细介绍Ngram数据集的论文,详细阐述了其构建方法和潜在应用。
- Google Books Ngram Viewer上线,用户可以通过该工具在线查询和分析Ngram数据,极大地促进了数据集的应用和研究。
- 学术界开始广泛使用Google Books Ngram Corpus进行语言学、文化历史和社会科学研究,发表了大量基于该数据集的研究成果。
- Google更新了Ngram数据集,增加了更多的书籍和语言版本,进一步丰富了数据内容。
- Google Books Ngram Corpus被应用于多个跨学科研究项目,包括但不限于语言演变、文化趋势分析和历史事件研究。
- 随着数据科学和人工智能的发展,Google Books Ngram Corpus成为自然语言处理和机器学习领域的重要资源,推动了相关技术的进步。
- 1Quantitative Analysis of Culture Using Millions of Digitized BooksHarvard University, Google · 2010年
- 2The Google Books Ngram Viewer: A Tool for Exploring Large-Scale Cultural TrendsUniversity of Oxford · 2018年
- 3Cultural Evolution of Textual Entropy in the Google Books CorpusUniversity of Vermont · 2019年
- 4The Evolution of Popularity in the Google Books Ngram CorpusUniversity of California, Berkeley · 2017年
- 5The Google Books Ngram Corpus: A New Tool for Historical LinguisticsUniversity of Pennsylvania · 2013年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
Global Climate Risk Index (CRI)
全球气候风险指数(CRI)是一个评估各国气候变化相关风险的指数。该数据集提供了各国在特定年份内因极端天气事件(如洪水、干旱、风暴等)所遭受的经济损失、死亡人数以及受影响人口的数据。此外,还包括了各国应对气候变化的能力和脆弱性分析。
www.germanwatch.org 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
Cultural Dimensions Dataset
该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。
geerthofstede.com 收录