NER dataset (English), NER dataset (Chinese), Machine Translation (Chinese-English)

github2020-09-29 更新2024-05-31 收录

下载链接：

https://github.com/zongxiangli/nlp-public-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

中英文实体识别数据集，中英文机器翻译数据集

Chinese-English entity recognition dataset, Chinese-English machine translation dataset

创建时间：

2020-06-01

原始信息汇总

数据集概述

NER数据集（英语）

CoNLL-2003: 用于命名实体识别的数据集。
OntoNotes-5.0: 包含NER标注的数据集。
Wikigold: 提供命名实体识别的黄金标准数据集。
Twitter: 包含Twitter文本的NER数据集。
kaggle: 一个包含实体标注的语料库。
MUC6: 用于信息抽取任务的数据集。
MUC7: 另一个信息抽取任务的数据集。

NER数据集（中文）

RenMinRiBao: 人民日报的NER数据集。
MSRA: 微软亚洲研究院提供的NER数据集。
Boson: 包含中文文本的NER数据集。
Weibo: 微博文本的NER数据集。

机器翻译（中文-英语）

WMT 2018: 用于机器翻译任务的数据集。
AI challenger: 口语领域英中双语对照数据集，规模最大。
UM-Corpus: 一个大型英汉平行语料库。
OpenSubtitles2016: 包含电影字幕的平行语料库。
MultiUN: 联合国文件的多语言平行语料库。

搜集汇总

数据集介绍

构建方式

该数据集涵盖了多个领域和语言的命名实体识别（NER）和机器翻译任务。英文NER数据集主要来源于公开的学术竞赛和社交媒体平台，如CoNLL-2003、OntoNotes-5.0、Twitter等，这些数据集通过人工标注或半自动标注的方式构建。中文NER数据集则包括人民日报、MSRA、Boson等，主要通过新闻、社交媒体等文本进行标注。机器翻译数据集则从WMT 2018、AI challenger等国际竞赛和开放语料库中收集，涵盖了大规模的中英双语对照数据。

特点

该数据集的特点在于其多样性和广泛性。英文NER数据集覆盖了从新闻、社交媒体到学术文本的多种语料，标注标准统一且质量较高。中文NER数据集则包含了丰富的新闻和社交媒体文本，反映了中文语言环境的复杂性。机器翻译数据集则提供了大规模的双语对照数据，涵盖了从正式文本到口语的多种语言风格，适合用于训练和评估翻译模型。

使用方法

该数据集的使用方法较为灵活。对于NER任务，用户可以直接加载数据集进行实体识别模型的训练和评估，支持BIO标注格式。对于机器翻译任务，用户可以通过下载双语对照数据，使用常见的翻译框架（如Transformer）进行模型训练。数据集提供了详细的文档和示例代码，便于用户快速上手。此外，用户还可以根据需求对数据集进行进一步的处理和扩展，以适应特定的研究或应用场景。

背景与挑战

背景概述

NER（命名实体识别）数据集在自然语言处理领域扮演着至关重要的角色，尤其是在信息提取和语义理解方面。CoNLL-2003和OntoNotes-5.0等英文NER数据集自2003年发布以来，已成为该领域的基准数据集，广泛应用于学术研究和工业应用中。中文NER数据集如RenMinRiBao和MSRA则针对中文语言特性，提供了丰富的标注数据，推动了中文信息处理技术的发展。机器翻译数据集如WMT 2018和AI challenger则为中英双语翻译任务提供了大规模、高质量的平行语料，促进了跨语言沟通技术的进步。这些数据集的创建和研究主要由知名学术机构和研究团队主导，如CoNLL会议、OntoNotes项目组以及WMT组织等。

当前挑战

NER数据集的构建面临诸多挑战。首先，命名实体的多样性和复杂性使得标注过程极为繁琐，尤其是在多语言环境下，实体边界和类别定义的不一致性增加了标注难度。其次，数据集的规模和质量直接影响模型的性能，但获取大规模、高质量的标注数据成本高昂。此外，机器翻译数据集的构建需要处理语言间的文化差异和表达习惯，这对语料的选择和标注提出了更高要求。构建过程中，数据清洗、对齐和标注的一致性也是技术难点，尤其是在处理非结构化文本时，如何确保数据的准确性和完整性成为关键挑战。

常用场景

经典使用场景

NER数据集（命名实体识别）在自然语言处理领域中扮演着至关重要的角色，尤其是在信息抽取和文本理解任务中。这些数据集通常用于训练和评估模型，以识别文本中的人名、地名、组织名等实体。例如，CoNLL-2003和OntoNotes-5.0数据集广泛用于英文NER任务，而RenMinRiBao和MSRA则常用于中文NER任务。这些数据集通过提供高质量的标注数据，帮助研究人员构建和优化NER模型。

实际应用

NER数据集在实际应用中具有广泛的价值，特别是在信息检索、问答系统和机器翻译等领域。例如，在信息检索系统中，NER技术可以帮助识别用户查询中的关键实体，从而提高搜索结果的准确性。在机器翻译中，NER技术可以确保源语言和目标语言中的实体名称得到正确翻译。此外，NER数据集还被广泛应用于社交媒体分析，帮助识别和跟踪热点话题中的关键实体。

衍生相关工作

NER数据集的广泛应用催生了许多经典的研究工作。例如，基于CoNLL-2003数据集的研究成果被广泛应用于各种NER模型的开发，如BiLSTM-CRF和BERT-based模型。在中文NER领域，MSRA数据集的研究成果推动了中文实体识别技术的发展，许多基于深度学习的模型在该数据集上取得了显著成果。此外，这些数据集还为跨语言NER和多任务学习等新兴研究方向提供了宝贵的数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集