Alpha Modern Chinese Corpus (AMC Corpus)

github2024-08-20 更新2024-08-23 收录

汉语语料

自然语言处理

数据链接：

https://github.com/corpustalk/Alpha_Modern_Chinese_Corpus 数据链接链接失效反馈

官方服务：

资源简介：

Alpha现代汉语语料库（AMC语料库）是一个包含“干净”现代汉语句子的语料库。所谓“干净”句子，是指语料库中的句子几乎没有数字、非中文字母或特殊符号。AMC语料库的数据主要来源于公开的在线数据，包含非虚构、虚构、科学文章和对话四种文本类型，适用于语言研究、汉语教学和自然语言处理等领域。

Alpha Modern Chinese Corpus (AMC Corpus) is a corpus containing "clean" Modern Chinese sentences. The term "clean" sentences here refers to sentences that contain almost no numerals, non-Chinese alphabetic characters or special symbols. The data of the AMC Corpus is primarily derived from publicly available online data, covering four text types: non-fiction, fiction, scientific articles and dialogues. It is applicable to fields including linguistic research, Chinese language teaching and natural language processing.

创建时间：

2024-08-20

原始信息汇总

阿尔法现代汉语语料库（AMC语料库）

简介

阿尔法现代汉语语料库（The Alpha Modern Chinese Corpus，简称AMC语料库）是一个包含“干净”现代汉语句子的语料库。所谓“干净”的句子，是指该语料库中的句子尽可能少地包含数字、非汉字字母或特殊符号。

AMC语料库中的数据主要来源于公开的在线数据，这些数据受版权保护。为了避免版权问题，我们仅提供句子而不是完整文本。该语料库仅限于研究和教育用途，禁止用于任何商业目的。

AMC语料库涵盖四种类型的文本：非虚构文本、小说、学术论文和对话。

语料库大小

我们提供了四个不同大小的 AMC 语料库版本：迷你版、基础版、标准版和完整版。每个版本的 AMC 语料库包含的句子数量如下：

版本	非虚构	小说	学术文章	对话
迷你版	100K	100K	100K	100K
基础版	500K	500K	200K	500K
标准版	1M	1M	500K	1M
完整版	2M	2M	800K	2M
总计	3.6M	3.6M	1.6M	3.6M

语料库开发

为了开发AMC语料库，我们从源数据中提取数据，并通过以下步骤进行清理：

下载数据；
使用 Python 工具：hanzidentifier 删除繁体中文行/句；
删除包含敏感词的行/句，尤其是包含色情/成人内容的句子；
删除重复的行/句；
按照表格1所述的句子数量进行抽样；
随机打乱句子顺序。

数据来源

非虚构文本

非虚构文本的数据由chinese_clean_passages_80m 数据集中抽样的句子组成，该数据集本身是从ClueCorpus 2020数据集中抽样所得。

小说

小说部分包括三种体裁的文本：中国作者的小说、外国作者的译著以及中国作者的网络小说。数据来源于在线资料和“中文网络小说”数据集。

学术论文

学术论文部分的数据来自于“中文学术文献”数据集，该数据集包含了来自各个学科的摘要句子。

对话

对话部分的数据取自“大规模清洁中文对话”数据集（LCCC），该数据集中的原始对话数据来自于微博和其他自发对话。

应用

AMC语料库的应用范围包括：

语言学研究：分析汉语的细微差别。
语言教学：为第二语言/外语学习者提供真实的汉语教学材料。
自然语言处理：训练和评估文本生成和情感分析等任务的算法。

搜集汇总

数据集介绍

Alpha Modern Chinese Corpus (AMC Corpus) 数据集图片

构建方式

阿尔法现代汉语语料库（AMC Corpus）的构建过程严谨而系统。首先，数据来源于公开的在线资源，包括新闻、维基百科文章、问答平台和电商评论等。为确保语料的纯净性，构建过程中采用了多种数据清洗技术，如使用Python工具hanzidentifier去除繁体中文句子，以及根据敏感词列表过滤掉包含不适宜内容的句子。此外，还进行了去重处理和随机打乱句子顺序，以确保语料的多样性和随机性。最终，根据不同需求，提供了迷你版、基础版、标准版和完整版四个不同大小的语料库版本，以满足不同研究需求。

特点

AMC语料库的显著特点在于其内容的多样性和纯净性。该语料库涵盖了非虚构文本、小说、学术论文和对话四种主要体裁，每种体裁均经过精心筛选和处理，确保句子中不含或少含数字、非汉字字母及特殊符号。此外，AMC语料库提供了四个不同大小的版本，从迷你版到完整版，以适应不同研究需求和计算资源。这种多样化的体裁和灵活的版本选择，使得AMC语料库成为研究现代汉语的宝贵资源。

使用方法

AMC语料库的使用方法简便且灵活。用户可以根据研究需求选择合适的版本进行下载，从迷你版到完整版，每个版本均提供了详细的句子数量、字符数和单词数信息。下载后，用户可以直接导入语料库进行语言学研究、汉语教学材料开发或自然语言处理算法的训练与评估。由于语料库的纯净性和多样性，它特别适用于需要高质量文本数据的任务，如文本生成、情感分析和语言模型预训练等。需要注意的是，AMC语料库仅限于研究和教育用途，禁止用于任何商业目的。

背景与挑战

背景概述

阿尔法现代汉语语料库（AMC Corpus）是由上海外国语大学的雷蕾和赵宁开发的，旨在为现代汉语研究提供一个多体裁、平衡的语料资源。该语料库包含非虚构文本、小说、学术论文和对话四种体裁的文本，涵盖了广泛的应用领域，包括语言学研究、汉语教学和自然语言处理。AMC Corpus的创建时间可追溯至其首次公开发布，其核心研究问题在于如何构建一个高质量、多体裁的现代汉语语料库，以支持多方面的语言研究需求。该语料库的发布对汉语语言学、教育及自然语言处理领域产生了深远影响，成为相关研究的重要资源。

当前挑战

AMC Corpus在构建过程中面临多项挑战。首先，数据来源的多样性带来了版权和数据清洗的复杂性，需确保所有数据仅用于研究和教育目的，避免商业用途。其次，语料库的体裁平衡要求在不同类型的文本中进行精确抽样，以确保各体裁的代表性和语料库的多样性。此外，数据清洗过程中需处理繁体中文、敏感词汇及重复句子，确保语料库的“干净”和高质量。这些挑战不仅影响了语料库的构建效率，也对其应用范围和研究价值提出了更高的要求。

常用场景

经典使用场景

阿尔法现代汉语语料库（AMC Corpus）因其多样化的文本类型和高质量的句子集合，成为语言学研究中的经典工具。该语料库涵盖非虚构文本、小说、学术论文和对话四种主要体裁，为研究者提供了丰富的语料资源。在语言学研究中，AMC Corpus常用于分析现代汉语的语法结构、词汇使用和语义变化，帮助学者深入理解汉语的语言特征。此外，该语料库在自然语言处理（NLP）领域也具有广泛应用，如用于训练和评估文本生成、情感分析等算法，提升NLP技术的准确性和效率。

实际应用

在实际应用中，AMC Corpus为汉语教学提供了丰富的真实语料，帮助第二语言学习者更好地理解和掌握现代汉语。教师可以利用该语料库中的对话和非虚构文本，设计更具针对性的教学材料和练习，提升学生的语言应用能力。同时，AMC Corpus在NLP技术的商业应用中也展现出巨大潜力，如在智能客服、文本翻译和情感分析等领域的应用，通过提供高质量的训练数据，提升系统的性能和用户体验。

衍生相关工作

AMC Corpus的发布激发了大量相关研究工作，特别是在汉语语言学和NLP领域。基于该语料库，研究者们开发了多种语言模型和算法，用于文本生成、情感分析和机器翻译等任务。例如，一些研究团队利用AMC Corpus的数据进行预训练，提升了语言模型的表现。此外，AMC Corpus还促进了跨学科的研究合作，如语言学与计算机科学的结合，推动了汉语自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成