Alpha Modern Chinese Corpus (AMC Corpus)
收藏github2024-08-20 更新2024-08-23 收录
下载链接:
https://github.com/corpustalk/Alpha_Modern_Chinese_Corpus
下载链接
链接失效反馈资源简介:
Alpha现代汉语语料库(AMC语料库)是一个包含“干净”现代汉语句子的语料库。所谓“干净”句子,是指语料库中的句子几乎没有数字、非中文字母或特殊符号。AMC语料库的数据主要来源于公开的在线数据,包含非虚构、虚构、科学文章和对话四种文本类型,适用于语言研究、汉语教学和自然语言处理等领域。
Alpha Modern Chinese Corpus (AMC Corpus) is a corpus containing "clean" Modern Chinese sentences. The term "clean" sentences here refers to sentences that contain almost no numerals, non-Chinese alphabetic characters or special symbols. The data of the AMC Corpus is primarily derived from publicly available online data, covering four text types: non-fiction, fiction, scientific articles and dialogues. It is applicable to fields including linguistic research, Chinese language teaching and natural language processing.
创建时间:
2024-08-20
原始信息汇总
阿尔法现代汉语语料库(AMC语料库)
简介
阿尔法现代汉语语料库(The Alpha Modern Chinese Corpus,简称AMC语料库)是一个包含“干净”现代汉语句子的语料库。所谓“干净”的句子,是指该语料库中的句子尽可能少地包含数字、非汉字字母或特殊符号。
AMC语料库中的数据主要来源于公开的在线数据,这些数据受版权保护。为了避免版权问题,我们仅提供句子而不是完整文本。该语料库仅限于研究和教育用途,禁止用于任何商业目的。
AMC语料库涵盖四种类型的文本:非虚构文本、小说、学术论文和对话。
语料库大小
我们提供了四个不同大小的 AMC 语料库版本:迷你版、基础版、标准版和完整版。每个版本的 AMC 语料库包含的句子数量如下:
| 版本 | 非虚构 | 小说 | 学术文章 | 对话 |
|---|---|---|---|---|
| 迷你版 | 100K | 100K | 100K | 100K |
| 基础版 | 500K | 500K | 200K | 500K |
| 标准版 | 1M | 1M | 500K | 1M |
| 完整版 | 2M | 2M | 800K | 2M |
| 总计 | 3.6M | 3.6M | 1.6M | 3.6M |
语料库开发
为了开发AMC语料库,我们从源数据中提取数据,并通过以下步骤进行清理:
- 下载数据;
- 使用 Python 工具:hanzidentifier 删除繁体中文行/句;
- 删除包含敏感词的行/句,尤其是包含色情/成人内容的句子;
- 删除重复的行/句;
- 按照表格1所述的句子数量进行抽样;
- 随机打乱句子顺序。
数据来源
非虚构文本
非虚构文本的数据由chinese_clean_passages_80m 数据集中抽样的句子组成,该数据集本身是从ClueCorpus 2020数据集中抽样所得。
小说
小说部分包括三种体裁的文本:中国作者的小说、外国作者的译著以及中国作者的网络小说。数据来源于在线资料和“中文网络小说”数据集。
学术论文
学术论文部分的数据来自于“中文学术文献”数据集,该数据集包含了来自各个学科的摘要句子。
对话
对话部分的数据取自“大规模清洁中文对话”数据集(LCCC),该数据集中的原始对话数据来自于微博和其他自发对话。
应用
AMC语料库的应用范围包括:
- 语言学研究:分析汉语的细微差别。
- 语言教学:为第二语言/外语学习者提供真实的汉语教学材料。
- 自然语言处理:训练和评估文本生成和情感分析等任务的算法。
搜集汇总
数据集介绍

构建方式
阿尔法现代汉语语料库(AMC Corpus)的构建过程严谨而系统。首先,数据来源于公开的在线资源,包括新闻、维基百科文章、问答平台和电商评论等。为确保语料的纯净性,构建过程中采用了多种数据清洗技术,如使用Python工具hanzidentifier去除繁体中文句子,以及根据敏感词列表过滤掉包含不适宜内容的句子。此外,还进行了去重处理和随机打乱句子顺序,以确保语料的多样性和随机性。最终,根据不同需求,提供了迷你版、基础版、标准版和完整版四个不同大小的语料库版本,以满足不同研究需求。
特点
AMC语料库的显著特点在于其内容的多样性和纯净性。该语料库涵盖了非虚构文本、小说、学术论文和对话四种主要体裁,每种体裁均经过精心筛选和处理,确保句子中不含或少含数字、非汉字字母及特殊符号。此外,AMC语料库提供了四个不同大小的版本,从迷你版到完整版,以适应不同研究需求和计算资源。这种多样化的体裁和灵活的版本选择,使得AMC语料库成为研究现代汉语的宝贵资源。
使用方法
AMC语料库的使用方法简便且灵活。用户可以根据研究需求选择合适的版本进行下载,从迷你版到完整版,每个版本均提供了详细的句子数量、字符数和单词数信息。下载后,用户可以直接导入语料库进行语言学研究、汉语教学材料开发或自然语言处理算法的训练与评估。由于语料库的纯净性和多样性,它特别适用于需要高质量文本数据的任务,如文本生成、情感分析和语言模型预训练等。需要注意的是,AMC语料库仅限于研究和教育用途,禁止用于任何商业目的。
背景与挑战
背景概述
阿尔法现代汉语语料库(AMC Corpus)是由上海外国语大学的雷蕾和赵宁开发的,旨在为现代汉语研究提供一个多体裁、平衡的语料资源。该语料库包含非虚构文本、小说、学术论文和对话四种体裁的文本,涵盖了广泛的应用领域,包括语言学研究、汉语教学和自然语言处理。AMC Corpus的创建时间可追溯至其首次公开发布,其核心研究问题在于如何构建一个高质量、多体裁的现代汉语语料库,以支持多方面的语言研究需求。该语料库的发布对汉语语言学、教育及自然语言处理领域产生了深远影响,成为相关研究的重要资源。
当前挑战
AMC Corpus在构建过程中面临多项挑战。首先,数据来源的多样性带来了版权和数据清洗的复杂性,需确保所有数据仅用于研究和教育目的,避免商业用途。其次,语料库的体裁平衡要求在不同类型的文本中进行精确抽样,以确保各体裁的代表性和语料库的多样性。此外,数据清洗过程中需处理繁体中文、敏感词汇及重复句子,确保语料库的“干净”和高质量。这些挑战不仅影响了语料库的构建效率,也对其应用范围和研究价值提出了更高的要求。
常用场景
经典使用场景
阿尔法现代汉语语料库(AMC Corpus)因其多样化的文本类型和高质量的句子集合,成为语言学研究中的经典工具。该语料库涵盖非虚构文本、小说、学术论文和对话四种主要体裁,为研究者提供了丰富的语料资源。在语言学研究中,AMC Corpus常用于分析现代汉语的语法结构、词汇使用和语义变化,帮助学者深入理解汉语的语言特征。此外,该语料库在自然语言处理(NLP)领域也具有广泛应用,如用于训练和评估文本生成、情感分析等算法,提升NLP技术的准确性和效率。
实际应用
在实际应用中,AMC Corpus为汉语教学提供了丰富的真实语料,帮助第二语言学习者更好地理解和掌握现代汉语。教师可以利用该语料库中的对话和非虚构文本,设计更具针对性的教学材料和练习,提升学生的语言应用能力。同时,AMC Corpus在NLP技术的商业应用中也展现出巨大潜力,如在智能客服、文本翻译和情感分析等领域的应用,通过提供高质量的训练数据,提升系统的性能和用户体验。
衍生相关工作
AMC Corpus的发布激发了大量相关研究工作,特别是在汉语语言学和NLP领域。基于该语料库,研究者们开发了多种语言模型和算法,用于文本生成、情感分析和机器翻译等任务。例如,一些研究团队利用AMC Corpus的数据进行预训练,提升了语言模型的表现。此外,AMC Corpus还促进了跨学科的研究合作,如语言学与计算机科学的结合,推动了汉语自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成



