Google Books Ngram Corpus|语言学研究数据集|文本分析数据集
收藏Google Books words 数据集概述
数据集内容
- 目标:创建包含所有语言的Google Books Ngram Corpus(版本3/20200217)中所有单词的数据集,并提供额外的元数据,如词性标签和词族信息。
- 特点:与现有数据集(如hackerb9/gwordlist和orgtre/google-books-ngram-frequency)不同,本数据集旨在提供更全面的单词信息,以支持语言学习材料的开发。
数据集结构
- 文件类型:CSV文件,每个语言一个文件。
- 文件内容:包含以下列:
word
:单词本身。freq
:单词在语料库中的频率,单位为每10亿词次。freq50
:1970年后出版书籍中的单词频率。freq10
:2010年后出版书籍中的单词频率。nvol
:单词出现的书籍比例。pos
:Google分配的词性标签。rel
:每个词性标签的相对频率(百分比)。
数据处理
- 代码位置:所有处理代码位于
src
目录中。 - 处理流程:使用
google-books-words.py
脚本下载源数据,解析并生成各语言的单词数据集。 - 依赖管理:使用Poetry管理依赖,详细依赖列表见
pyproject.toml
。 - 内存需求:处理英文子语料库时,16GB RAM的计算机可能需要进行交换操作,但处理其他语言时不会出现此问题。
数据集状态
- 当前状态:数据集文件因过大尚未上传。
- 最终输出:文件后缀为
_2b
,已去除非单词字符,合并了大小写和词性标签不同的相同单词。

- Google Books Ngram Corpus首次公开发布,标志着大规模文本数据分析的新时代开始。
- Google发布了一篇详细介绍Ngram数据集的论文,详细阐述了其构建方法和潜在应用。
- Google Books Ngram Viewer上线,用户可以通过该工具在线查询和分析Ngram数据,极大地促进了数据集的应用和研究。
- 学术界开始广泛使用Google Books Ngram Corpus进行语言学、文化历史和社会科学研究,发表了大量基于该数据集的研究成果。
- Google更新了Ngram数据集,增加了更多的书籍和语言版本,进一步丰富了数据内容。
- Google Books Ngram Corpus被应用于多个跨学科研究项目,包括但不限于语言演变、文化趋势分析和历史事件研究。
- 随着数据科学和人工智能的发展,Google Books Ngram Corpus成为自然语言处理和机器学习领域的重要资源,推动了相关技术的进步。
- 1Quantitative Analysis of Culture Using Millions of Digitized BooksHarvard University, Google · 2010年
- 2The Google Books Ngram Viewer: A Tool for Exploring Large-Scale Cultural TrendsUniversity of Oxford · 2018年
- 3Cultural Evolution of Textual Entropy in the Google Books CorpusUniversity of Vermont · 2019年
- 4The Evolution of Popularity in the Google Books Ngram CorpusUniversity of California, Berkeley · 2017年
- 5The Google Books Ngram Corpus: A New Tool for Historical LinguisticsUniversity of Pennsylvania · 2013年
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
高精度负荷预测
超短期统调负荷预测 短期统调负荷预测 D+45统调负荷预测
郑州数据交易中心 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录