five

Alpha Modern Chinese Corpus (AMC Corpus)|汉语语料库数据集|自然语言处理数据集

收藏
github2024-08-20 更新2024-08-23 收录
汉语语料库
自然语言处理
下载链接:
https://github.com/corpustalk/Alpha_Modern_Chinese_Corpus
下载链接
链接失效反馈
资源简介:
Alpha现代汉语语料库(AMC语料库)是一个包含“干净”现代汉语句子的语料库。所谓“干净”句子,是指语料库中的句子几乎没有数字、非中文字母或特殊符号。AMC语料库的数据主要来源于公开的在线数据,包含非虚构、虚构、科学文章和对话四种文本类型,适用于语言研究、汉语教学和自然语言处理等领域。
创建时间:
2024-08-20
原始信息汇总

阿尔法现代汉语语料库(AMC语料库)

简介

阿尔法现代汉语语料库(The Alpha Modern Chinese Corpus,简称AMC语料库)是一个包含“干净”现代汉语句子的语料库。所谓“干净”的句子,是指该语料库中的句子尽可能少地包含数字、非汉字字母或特殊符号。

AMC语料库中的数据主要来源于公开的在线数据,这些数据受版权保护。为了避免版权问题,我们仅提供句子而不是完整文本。该语料库仅限于研究和教育用途,禁止用于任何商业目的。

AMC语料库涵盖四种类型的文本:非虚构文本、小说、学术论文和对话。

语料库大小

我们提供了四个不同大小的 AMC 语料库版本:迷你版、基础版、标准版和完整版。每个版本的 AMC 语料库包含的句子数量如下:

版本 非虚构 小说 学术文章 对话
迷你版 100K 100K 100K 100K
基础版 500K 500K 200K 500K
标准版 1M 1M 500K 1M
完整版 2M 2M 800K 2M
总计 3.6M 3.6M 1.6M 3.6M

语料库开发

为了开发AMC语料库,我们从源数据中提取数据,并通过以下步骤进行清理:

  1. 下载数据;
  2. 使用 Python 工具:hanzidentifier 删除繁体中文行/句;
  3. 删除包含敏感词的行/句,尤其是包含色情/成人内容的句子;
  4. 删除重复的行/句;
  5. 按照表格1所述的句子数量进行抽样;
  6. 随机打乱句子顺序。

数据来源

非虚构文本

非虚构文本的数据由chinese_clean_passages_80m 数据集中抽样的句子组成,该数据集本身是从ClueCorpus 2020数据集中抽样所得。

小说

小说部分包括三种体裁的文本:中国作者的小说、外国作者的译著以及中国作者的网络小说。数据来源于在线资料和“中文网络小说”数据集。

学术论文

学术论文部分的数据来自于“中文学术文献”数据集,该数据集包含了来自各个学科的摘要句子。

对话

对话部分的数据取自“大规模清洁中文对话”数据集(LCCC),该数据集中的原始对话数据来自于微博和其他自发对话。

应用

AMC语料库的应用范围包括:

  1. 语言学研究:分析汉语的细微差别。
  2. 语言教学:为第二语言/外语学习者提供真实的汉语教学材料。
  3. 自然语言处理:训练和评估文本生成和情感分析等任务的算法。
AI搜集汇总
数据集介绍
main_image_url
构建方式
阿尔法现代汉语语料库(AMC Corpus)的构建过程严谨而系统。首先,数据来源于公开的在线资源,包括新闻、维基百科文章、问答平台和电商评论等。为确保语料的纯净性,构建过程中采用了多种数据清洗技术,如使用Python工具hanzidentifier去除繁体中文句子,以及根据敏感词列表过滤掉包含不适宜内容的句子。此外,还进行了去重处理和随机打乱句子顺序,以确保语料的多样性和随机性。最终,根据不同需求,提供了迷你版、基础版、标准版和完整版四个不同大小的语料库版本,以满足不同研究需求。
特点
AMC语料库的显著特点在于其内容的多样性和纯净性。该语料库涵盖了非虚构文本、小说、学术论文和对话四种主要体裁,每种体裁均经过精心筛选和处理,确保句子中不含或少含数字、非汉字字母及特殊符号。此外,AMC语料库提供了四个不同大小的版本,从迷你版到完整版,以适应不同研究需求和计算资源。这种多样化的体裁和灵活的版本选择,使得AMC语料库成为研究现代汉语的宝贵资源。
使用方法
AMC语料库的使用方法简便且灵活。用户可以根据研究需求选择合适的版本进行下载,从迷你版到完整版,每个版本均提供了详细的句子数量、字符数和单词数信息。下载后,用户可以直接导入语料库进行语言学研究、汉语教学材料开发或自然语言处理算法的训练与评估。由于语料库的纯净性和多样性,它特别适用于需要高质量文本数据的任务,如文本生成、情感分析和语言模型预训练等。需要注意的是,AMC语料库仅限于研究和教育用途,禁止用于任何商业目的。
背景与挑战
背景概述
阿尔法现代汉语语料库(AMC Corpus)是由上海外国语大学的雷蕾和赵宁开发的,旨在为现代汉语研究提供一个多体裁、平衡的语料资源。该语料库包含非虚构文本、小说、学术论文和对话四种体裁的文本,涵盖了广泛的应用领域,包括语言学研究、汉语教学和自然语言处理。AMC Corpus的创建时间可追溯至其首次公开发布,其核心研究问题在于如何构建一个高质量、多体裁的现代汉语语料库,以支持多方面的语言研究需求。该语料库的发布对汉语语言学、教育及自然语言处理领域产生了深远影响,成为相关研究的重要资源。
当前挑战
AMC Corpus在构建过程中面临多项挑战。首先,数据来源的多样性带来了版权和数据清洗的复杂性,需确保所有数据仅用于研究和教育目的,避免商业用途。其次,语料库的体裁平衡要求在不同类型的文本中进行精确抽样,以确保各体裁的代表性和语料库的多样性。此外,数据清洗过程中需处理繁体中文、敏感词汇及重复句子,确保语料库的“干净”和高质量。这些挑战不仅影响了语料库的构建效率,也对其应用范围和研究价值提出了更高的要求。
常用场景
经典使用场景
阿尔法现代汉语语料库(AMC Corpus)因其多样化的文本类型和高质量的句子集合,成为语言学研究中的经典工具。该语料库涵盖非虚构文本、小说、学术论文和对话四种主要体裁,为研究者提供了丰富的语料资源。在语言学研究中,AMC Corpus常用于分析现代汉语的语法结构、词汇使用和语义变化,帮助学者深入理解汉语的语言特征。此外,该语料库在自然语言处理(NLP)领域也具有广泛应用,如用于训练和评估文本生成、情感分析等算法,提升NLP技术的准确性和效率。
实际应用
在实际应用中,AMC Corpus为汉语教学提供了丰富的真实语料,帮助第二语言学习者更好地理解和掌握现代汉语。教师可以利用该语料库中的对话和非虚构文本,设计更具针对性的教学材料和练习,提升学生的语言应用能力。同时,AMC Corpus在NLP技术的商业应用中也展现出巨大潜力,如在智能客服、文本翻译和情感分析等领域的应用,通过提供高质量的训练数据,提升系统的性能和用户体验。
衍生相关工作
AMC Corpus的发布激发了大量相关研究工作,特别是在汉语语言学和NLP领域。基于该语料库,研究者们开发了多种语言模型和算法,用于文本生成、情感分析和机器翻译等任务。例如,一些研究团队利用AMC Corpus的数据进行预训练,提升了语言模型的表现。此外,AMC Corpus还促进了跨学科的研究合作,如语言学与计算机科学的结合,推动了汉语自然语言处理技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

EV Charging Network Data

该数据集包含了电动汽车充电网络的相关信息,包括充电站的位置、充电桩的数量、充电速度、运营商信息等。数据集旨在帮助研究人员和开发者分析和优化电动汽车充电网络的布局和效率。

afdc.energy.gov 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录