ChineseDiachronicCorpus

github2021-01-10 更新2024-05-31 收录

下载链接：

https://github.com/yanshanjing/ChineseDiachronicCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文历时语料库，横跨六十余年，包括腾讯历时新闻2009-2016，人民日报历时语料1946-2003，参考消息历时语料1957-2002。基于历时流通语料库，可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

The Chinese Diachronic Corpus spans over six decades and includes the Tencent Diachronic News from 2009 to 2016, the People's Daily Diachronic Corpus from 1946 to 2003, and the Reference News Diachronic Corpus from 1957 to 2002. Based on the diachronic circulation corpus, it can be used to provide fundamental corpus support for research on diachronic language change, language monitoring, and socio-cultural transformation.

创建时间：

2021-01-10

原始信息汇总

ChineseDiachronicCorpus 数据集概述

数据集内容

腾讯新闻: 时间跨度为2009-2016年，数据大小约5GB。
人民日报: 时间跨度为1946-2003年，数据大小约3.44GB。
参考消息: 时间跨度为1957-2002年，数据大小约1.1GB。

数据集用途

该数据集可用于以下六个方面的研究：

用途名称	技术手段	应用场景
词语考察	分词、词频统计	通用词表等编写
语义计算	共现词、MI搭配、依存搭配	搭配等语义词典编写
热度计算	流通度计算、术语提取	流行语等发布
文化计算	颜色计算、性别计算	文化变迁
媒体对比	媒体差异计算	传播学研究
语法研究	语法模式检索	语法教材与词典编写

数据集获取

数据集已发布至百度网盘，具体获取方式如下：

数据名称	时间跨度	数据大小	获取链接及密码
腾讯新闻	2009-2016	5GB	链接:https://pan.baidu.com/s/16VMV1JioSrKGUQ0T7YfIGw 密码:57ux
人民日报	1946-2003	3.44GB	链接:https://pan.baidu.com/s/1vUwt7hpoQLx-vgzsZjaBlw 密码:jyvo
参考消息	1957-2002	1.1GB	链接:https://pan.baidu.com/s/1Ux_WCpkLqtfE60jXfGD3ow 密码:6ekf

搜集汇总

数据集介绍

构建方式

ChineseDiachronicCorpus历时语料库的构建依托于公开渠道的广泛收集，涵盖了腾讯新闻、人民日报和参考消息三大主流媒体的历时数据。这些数据横跨六十余年，从1946年至2016年，通过系统化的整理与分类，形成了具有时间连续性的语料库。该语料库的构建不仅考虑了数据的广泛性，还注重了时间跨度的完整性，为历时语言变化的研究提供了坚实的基础。

特点

ChineseDiachronicCorpus历时语料库的显著特点在于其时间跨度的广泛性和数据来源的多样性。语料库涵盖了从1946年至2016年的新闻数据，能够反映不同历史时期的社会语言变化。此外，语料库的数据来源包括腾讯新闻、人民日报和参考消息，这些媒体在不同历史阶段具有代表性，能够为研究者提供多维度的语言使用视角。语料库的开放性和非商用性质也使其成为学术研究的宝贵资源。

使用方法

ChineseDiachronicCorpus历时语料库的使用方法多样，适用于多种语言学研究场景。研究者可以通过分词、词频统计等技术手段进行词语考察，分析词语在不同时间周期中的使用变化。此外，语义计算、热度计算和文化计算等方法可用于探索语言与社会文化的互动关系。语料库还支持媒体对比和语法研究，为传播学和语言学领域的研究提供了丰富的素材。数据可通过百度网盘获取，便于研究者下载和使用。

背景与挑战

背景概述

ChineseDiachronicCorpus，中文历时语料库，由中国科学院软件研究所的刘焕勇等人构建，旨在通过收集腾讯新闻、人民日报和参考消息的历时语料，为历时语言变化计算、语言监测及社会文化变迁研究提供基础性支持。该语料库横跨六十余年，涵盖了从1946年至2016年的广泛时间范围，反映了中国社会语言使用的演变。此项目不仅填补了中文历时语料库的空白，也为语言学家和社会学家提供了宝贵的研究资源，推动了语言计算与社会计算领域的发展。

当前挑战

ChineseDiachronicCorpus面临的主要挑战包括数据收集的广泛性与代表性。由于语料来源主要为新闻媒体，可能无法全面反映社会各阶层的语言使用情况。此外，历时语料的处理和分析需要高效的算法来处理大规模数据，同时确保数据的准确性和一致性。在构建过程中，如何确保语料的连续性和完整性，以及如何处理不同时间段内语言使用的变化，都是需要解决的技术难题。这些挑战不仅考验着数据处理技术，也对语言学研究方法提出了新的要求。

常用场景

经典使用场景

ChineseDiachronicCorpus数据集在历时语言变化研究中扮演着核心角色。通过分析腾讯新闻、人民日报和参考消息的历时语料，研究者能够追踪特定词汇或表达方式在不同历史时期的使用频率和语义变化。这种分析不仅揭示了语言本身的演变，还反映了社会文化、政治经济等多方面的变迁。

实际应用

在实际应用中，ChineseDiachronicCorpus被广泛用于媒体对比研究、流行语发布、文化变迁分析等领域。例如，媒体机构可以利用该数据集分析不同媒体在同一历史事件中的报道差异，从而评估媒体的立场和影响力。此外，教育机构也可利用该数据集编写语法教材和词典，提升语言教学的准确性和时效性。

衍生相关工作

基于ChineseDiachronicCorpus，许多经典研究工作得以展开。例如，研究者通过该数据集构建了中文历时词表，揭示了词汇使用的历时变化规律。此外，该数据集还催生了多项关于社会文化变迁的研究，如年度关键词分析、流行语演变研究等，为理解社会动态提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集