Google Books Ngrams|语言学数据集|文本分析数据集

aws亚马逊开源数据集2024-03-07 收录

语言学

文本分析

下载链接：

https://registry.opendata.aws/google-ngrams

下载链接

链接失效反馈

资源简介：

N-grams are fixed size tuples of items. In this case the items are words extracted from the Google Books corpus. The n specifies the number of elements in the tuple, so a 5-gram contains five words or characters. The n-grams in this dataset were produced by passing a sliding window of the text of books and outputting a record for each new token.

提供机构：

Not managed

AI搜集汇总

数据集介绍

构建方式

Google Books Ngrams数据集是通过对Google Books项目中数百万本图书的全文进行扫描和分析构建而成。该数据集涵盖了从16世纪至今的广泛文本，通过自然语言处理技术，提取出每个单词及其出现频率，并记录其在不同年份的分布情况。这一过程不仅包括英文文本，还涉及多种其他语言，从而形成了一个庞大的语言使用历史数据库。

特点

Google Books Ngrams数据集的显著特点在于其规模庞大且时间跨度长，提供了丰富的语言使用历史数据。该数据集不仅记录了单词的出现频率，还包括短语和句子的使用情况，为语言学、历史学和文化研究提供了宝贵的资源。此外，其多语言覆盖特性使得跨文化比较研究成为可能，极大地拓展了研究的应用领域。

使用方法

使用Google Books Ngrams数据集时，研究者可以通过查询特定单词或短语在不同年份的出现频率，分析语言的演变趋势。该数据集支持多种语言的查询，适用于跨文化研究。此外，研究者还可以利用其提供的API接口，进行更复杂的统计分析和可视化展示，从而深入挖掘语言使用的历史规律和文化变迁。

背景与挑战

背景概述

Google Books Ngrams数据集，由Google Research团队于2008年推出，是一项基于大规模书籍文本的语料库研究。该数据集包含了从1500年至2008年间出版的书籍中提取的5000亿个词汇，涵盖了多种语言和文化背景。这一数据集的创建旨在为语言学、历史学和社会科学研究提供丰富的文本资源，帮助学者们分析语言的演变、文化趋势以及社会变迁。Google Books Ngrams的发布极大地推动了相关领域的研究进展，使得大规模文本分析成为可能，为学术界提供了前所未有的数据支持。

当前挑战

尽管Google Books Ngrams数据集在文本分析领域具有革命性意义，但其构建过程中也面临诸多挑战。首先，数据集的庞大规模和多样性使得数据清洗和标准化成为一项艰巨任务，需要处理大量的噪声和错误。其次，由于书籍文本的版权问题，部分数据无法公开，限制了数据集的完整性和可用性。此外，跨语言和文化背景的文本分析需要克服语言差异和文化偏见，确保分析结果的客观性和准确性。最后，随着时间的推移，数据集的更新和维护也是一个持续的挑战，需要不断纳入新的文本数据以保持其时效性和代表性。

发展历史

创建时间与更新

Google Books Ngrams数据集创建于2008年，由Google Research团队开发，旨在通过分析数百万本书籍中的词汇使用情况，揭示语言的演变和文化的变迁。该数据集自创建以来，经历了多次更新，最新的版本涵盖了截至2020年的书籍数据，确保了数据的时效性和全面性。

重要里程碑

Google Books Ngrams数据集的重要里程碑之一是其在2010年的公开发布，这一举措极大地推动了语言学、文化研究和社会科学领域的研究进展。通过提供大规模的文本数据，该数据集使得研究人员能够进行深入的语言模式分析和历史趋势研究。此外，Google Books Ngrams还促进了自然语言处理技术的发展，为机器学习和人工智能领域提供了宝贵的资源。

当前发展情况

当前，Google Books Ngrams数据集已成为语言学和数据科学领域的重要工具，广泛应用于语言模型训练、文化趋势分析和历史研究等多个方面。其持续的更新和扩展，确保了数据集的广泛适用性和研究价值。该数据集不仅推动了学术研究的前沿，还为商业应用如搜索引擎优化和内容推荐系统提供了基础数据支持。未来，随着技术的进步和数据资源的进一步丰富，Google Books Ngrams有望在更多领域发挥其独特作用，继续引领语言数据分析的发展方向。

发展历程

Google Books Ngrams数据集首次发布，包含从1500年至2008年间的书籍文本数据，涵盖了超过5000亿个单词。
2008年
Google Books Ngrams在线查询工具正式上线，用户可以通过该工具查询特定词汇或短语在历史文本中的使用频率。
2010年
Google Books Ngrams数据集扩展至涵盖多种语言，包括英语、法语、德语、西班牙语和俄语等。
2012年
学术界开始广泛使用Google Books Ngrams数据集进行语言学、历史学和文化研究，发表了大量基于该数据集的研究论文。
2013年
Google Books Ngrams数据集进一步更新，增加了更多的书籍文本数据，数据量达到超过1万亿个单词。
2016年

常用场景

经典使用场景

在语言学和计算语言学领域，Google Books Ngrams数据集被广泛用于研究词汇使用频率的长期变化趋势。通过分析大规模文本数据中的词汇出现频率，研究者能够揭示语言随时间演变的模式，如特定词汇的兴起与衰落，以及文化和社会变迁对语言使用的影响。

解决学术问题

Google Books Ngrams数据集解决了语言学研究中长期存在的数据获取和分析难题。它使得研究者能够在大规模语料库中进行定量分析，从而验证或推翻关于语言演变的假设。例如，通过分析特定词汇的使用频率，研究者可以探讨文化变迁、技术进步或社会运动对语言的影响，为语言学理论提供实证支持。

衍生相关工作

Google Books Ngrams数据集的发布催生了大量相关研究工作。例如，研究者利用该数据集开发了新的语言模型和算法，以提高自然语言处理的准确性。此外，该数据集还激发了对大规模文本数据分析方法的探索，推动了计算语言学和数据科学的发展。许多学术论文和研究项目都基于此数据集，进一步扩展了其在学术界的影响力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录