five

NER dataset (English), NER dataset (Chinese), Machine Translation (Chinese-English)

收藏
github2020-12-01 更新2024-05-31 收录
下载链接:
https://github.com/CHNicelee/nlp-public-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
中英文实体识别数据集,中英文机器翻译数据集

Chinese-English Entity Recognition Dataset, Chinese-English Machine Translation Dataset
创建时间:
2020-09-08
原始信息汇总

数据集概述

NER数据集(英语)

  • CoNLL-2003
  • OntoNotes-5.0
  • Wikigold
  • Twitter
  • kaggle
  • MUC6
  • MUC7

NER数据集(中文)

  • RenMinRiBao
  • MSRA
  • Boson
  • Weibo

机器翻译(中文-英语)

  • WMT 2018
  • AI challenger
  • UM-Corpus
  • OpenSubtitles2016
  • MultiUN
搜集汇总
数据集介绍
main_image_url
构建方式
NER数据集(英文和中文)以及机器翻译数据集的构建均基于广泛的语料来源。英文NER数据集如CoNLL-2003和OntoNotes-5.0,主要从新闻文本、社交媒体和学术文献中提取实体标注信息。中文NER数据集如RenMinRiBao和MSRA,则主要来源于新闻媒体和社交媒体平台。机器翻译数据集如WMT 2018和AI challenger,通过收集大规模的双语对照文本,涵盖新闻、口语和开放字幕等多种领域。
特点
NER数据集(英文和中文)具有多样化的实体类型和丰富的上下文信息,能够有效支持命名实体识别任务。英文数据集如CoNLL-2003和Twitter,覆盖了人名、地名、组织名等多种实体类型;中文数据集如RenMinRiBao和Weibo,则包含了新闻和社交媒体中的复杂实体表达。机器翻译数据集如WMT 2018和UM-Corpus,提供了高质量的双语对照文本,支持跨语言的翻译模型训练。
使用方法
NER数据集(英文和中文)可用于训练和评估命名实体识别模型,支持从文本中提取特定类型的实体信息。机器翻译数据集则适用于训练和测试翻译模型,支持中英双语之间的自动翻译任务。用户可通过GitHub或相关平台下载数据集,并按照标注格式进行数据处理和模型训练。
背景与挑战
背景概述
NER数据集(命名实体识别)和机器翻译数据集是自然语言处理领域中的关键资源,广泛应用于信息抽取、语义理解及跨语言通信等任务。NER数据集(英文)如CoNLL-2003和OntoNotes-5.0,由多个研究机构在2000年代初创建,旨在解决文本中实体类别的自动识别问题。NER数据集(中文)如MSRA和RenMinRiBao,则聚焦于中文文本的实体识别,为中文自然语言处理提供了重要支持。机器翻译数据集如WMT 2018和UM-Corpus,由国际研究团队构建,致力于提升中英双语翻译的准确性和流畅性。这些数据集推动了自然语言处理技术的快速发展,并在学术界和工业界产生了深远影响。
当前挑战
NER数据集的构建面临实体标注一致性和领域适应性的挑战。不同标注者的主观判断可能导致标注不一致,而领域特定术语的识别也增加了数据集的复杂性。此外,机器翻译数据集的挑战主要在于双语对齐的质量和规模。高质量的双语语料需要人工校对,成本高昂;而大规模语料的构建则需应对数据噪声和领域偏差问题。同时,跨语言文化差异和语言表达的多样性进一步增加了翻译任务的难度,要求数据集在覆盖广泛语言现象的同时保持高精度。
常用场景
经典使用场景
NER数据集(包括英文和中文)在自然语言处理领域中被广泛应用于命名实体识别任务。这些数据集通常用于训练和评估模型,以识别文本中的人名、地名、组织名等实体。例如,CoNLL-2003和MSRA数据集常被用于学术研究中,以测试模型在新闻文本中的实体识别能力。
解决学术问题
NER数据集解决了自然语言处理中命名实体识别的核心问题,即如何从非结构化文本中自动提取出有意义的实体信息。这些数据集为研究者提供了标准化的标注数据,使得不同模型之间的性能比较成为可能,推动了NER技术的发展。
衍生相关工作
NER数据集的广泛应用催生了许多经典的研究工作,如基于深度学习的BiLSTM-CRF模型和Transformer架构的BERT模型。这些模型在CoNLL-2003和OntoNotes-5.0等数据集上取得了显著的性能提升,进一步推动了NER技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作