Alpha Modern Chinese Corpus (AMC Corpus)|汉语语料库数据集|自然语言处理数据集
收藏阿尔法现代汉语语料库(AMC语料库)
简介
阿尔法现代汉语语料库(The Alpha Modern Chinese Corpus,简称AMC语料库)是一个包含“干净”现代汉语句子的语料库。所谓“干净”的句子,是指该语料库中的句子尽可能少地包含数字、非汉字字母或特殊符号。
AMC语料库中的数据主要来源于公开的在线数据,这些数据受版权保护。为了避免版权问题,我们仅提供句子而不是完整文本。该语料库仅限于研究和教育用途,禁止用于任何商业目的。
AMC语料库涵盖四种类型的文本:非虚构文本、小说、学术论文和对话。
语料库大小
我们提供了四个不同大小的 AMC 语料库版本:迷你版、基础版、标准版和完整版。每个版本的 AMC 语料库包含的句子数量如下:
版本 | 非虚构 | 小说 | 学术文章 | 对话 |
---|---|---|---|---|
迷你版 | 100K | 100K | 100K | 100K |
基础版 | 500K | 500K | 200K | 500K |
标准版 | 1M | 1M | 500K | 1M |
完整版 | 2M | 2M | 800K | 2M |
总计 | 3.6M | 3.6M | 1.6M | 3.6M |
语料库开发
为了开发AMC语料库,我们从源数据中提取数据,并通过以下步骤进行清理:
- 下载数据;
- 使用 Python 工具:hanzidentifier 删除繁体中文行/句;
- 删除包含敏感词的行/句,尤其是包含色情/成人内容的句子;
- 删除重复的行/句;
- 按照表格1所述的句子数量进行抽样;
- 随机打乱句子顺序。
数据来源
非虚构文本
非虚构文本的数据由chinese_clean_passages_80m 数据集中抽样的句子组成,该数据集本身是从ClueCorpus 2020数据集中抽样所得。
小说
小说部分包括三种体裁的文本:中国作者的小说、外国作者的译著以及中国作者的网络小说。数据来源于在线资料和“中文网络小说”数据集。
学术论文
学术论文部分的数据来自于“中文学术文献”数据集,该数据集包含了来自各个学科的摘要句子。
对话
对话部分的数据取自“大规模清洁中文对话”数据集(LCCC),该数据集中的原始对话数据来自于微博和其他自发对话。
应用
AMC语料库的应用范围包括:
- 语言学研究:分析汉语的细微差别。
- 语言教学:为第二语言/外语学习者提供真实的汉语教学材料。
- 自然语言处理:训练和评估文本生成和情感分析等任务的算法。

CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
EV Charging Network Data
该数据集包含了电动汽车充电网络的相关信息,包括充电站的位置、充电桩的数量、充电速度、运营商信息等。数据集旨在帮助研究人员和开发者分析和优化电动汽车充电网络的布局和效率。
afdc.energy.gov 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录