NER dataset (English), NER dataset (Chinese), Machine Translation (Chinese-English)
收藏github2020-12-01 更新2024-05-31 收录
下载链接:
https://github.com/CHNicelee/nlp-public-dataset
下载链接
链接失效反馈官方服务:
资源简介:
中英文实体识别数据集,中英文机器翻译数据集
Chinese-English Entity Recognition Dataset, Chinese-English Machine Translation Dataset
创建时间:
2020-09-08
原始信息汇总
数据集概述
NER数据集(英语)
- CoNLL-2003
- OntoNotes-5.0
- Wikigold
- kaggle
- MUC6
- MUC7
NER数据集(中文)
- RenMinRiBao
- MSRA
- Boson
机器翻译(中文-英语)
- WMT 2018
- AI challenger
- UM-Corpus
- OpenSubtitles2016
- MultiUN
搜集汇总
数据集介绍

构建方式
NER数据集(英文和中文)以及机器翻译数据集的构建均基于广泛的语料来源。英文NER数据集如CoNLL-2003和OntoNotes-5.0,主要从新闻文本、社交媒体和学术文献中提取实体标注信息。中文NER数据集如RenMinRiBao和MSRA,则主要来源于新闻媒体和社交媒体平台。机器翻译数据集如WMT 2018和AI challenger,通过收集大规模的双语对照文本,涵盖新闻、口语和开放字幕等多种领域。
特点
NER数据集(英文和中文)具有多样化的实体类型和丰富的上下文信息,能够有效支持命名实体识别任务。英文数据集如CoNLL-2003和Twitter,覆盖了人名、地名、组织名等多种实体类型;中文数据集如RenMinRiBao和Weibo,则包含了新闻和社交媒体中的复杂实体表达。机器翻译数据集如WMT 2018和UM-Corpus,提供了高质量的双语对照文本,支持跨语言的翻译模型训练。
使用方法
NER数据集(英文和中文)可用于训练和评估命名实体识别模型,支持从文本中提取特定类型的实体信息。机器翻译数据集则适用于训练和测试翻译模型,支持中英双语之间的自动翻译任务。用户可通过GitHub或相关平台下载数据集,并按照标注格式进行数据处理和模型训练。
背景与挑战
背景概述
NER数据集(命名实体识别)和机器翻译数据集是自然语言处理领域中的关键资源,广泛应用于信息抽取、语义理解及跨语言通信等任务。NER数据集(英文)如CoNLL-2003和OntoNotes-5.0,由多个研究机构在2000年代初创建,旨在解决文本中实体类别的自动识别问题。NER数据集(中文)如MSRA和RenMinRiBao,则聚焦于中文文本的实体识别,为中文自然语言处理提供了重要支持。机器翻译数据集如WMT 2018和UM-Corpus,由国际研究团队构建,致力于提升中英双语翻译的准确性和流畅性。这些数据集推动了自然语言处理技术的快速发展,并在学术界和工业界产生了深远影响。
当前挑战
NER数据集的构建面临实体标注一致性和领域适应性的挑战。不同标注者的主观判断可能导致标注不一致,而领域特定术语的识别也增加了数据集的复杂性。此外,机器翻译数据集的挑战主要在于双语对齐的质量和规模。高质量的双语语料需要人工校对,成本高昂;而大规模语料的构建则需应对数据噪声和领域偏差问题。同时,跨语言文化差异和语言表达的多样性进一步增加了翻译任务的难度,要求数据集在覆盖广泛语言现象的同时保持高精度。
常用场景
经典使用场景
NER数据集(包括英文和中文)在自然语言处理领域中被广泛应用于命名实体识别任务。这些数据集通常用于训练和评估模型,以识别文本中的人名、地名、组织名等实体。例如,CoNLL-2003和MSRA数据集常被用于学术研究中,以测试模型在新闻文本中的实体识别能力。
解决学术问题
NER数据集解决了自然语言处理中命名实体识别的核心问题,即如何从非结构化文本中自动提取出有意义的实体信息。这些数据集为研究者提供了标准化的标注数据,使得不同模型之间的性能比较成为可能,推动了NER技术的发展。
衍生相关工作
NER数据集的广泛应用催生了许多经典的研究工作,如基于深度学习的BiLSTM-CRF模型和Transformer架构的BERT模型。这些模型在CoNLL-2003和OntoNotes-5.0等数据集上取得了显著的性能提升,进一步推动了NER技术的进步。
以上内容由遇见数据集搜集并总结生成



