five

NER dataset (English), NER dataset (Chinese), Machine Translation (Chinese-English)

收藏
github2020-09-29 更新2024-05-31 收录
下载链接:
https://github.com/zongxiangli/nlp-public-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
中英文实体识别数据集,中英文机器翻译数据集

Chinese-English entity recognition dataset, Chinese-English machine translation dataset
创建时间:
2020-06-01
原始信息汇总

数据集概述

NER数据集(英语)

  • CoNLL-2003: 用于命名实体识别的数据集。
  • OntoNotes-5.0: 包含NER标注的数据集。
  • Wikigold: 提供命名实体识别的黄金标准数据集。
  • Twitter: 包含Twitter文本的NER数据集。
  • kaggle: 一个包含实体标注的语料库。
  • MUC6: 用于信息抽取任务的数据集。
  • MUC7: 另一个信息抽取任务的数据集。

NER数据集(中文)

  • RenMinRiBao: 人民日报的NER数据集。
  • MSRA: 微软亚洲研究院提供的NER数据集。
  • Boson: 包含中文文本的NER数据集。
  • Weibo: 微博文本的NER数据集。

机器翻译(中文-英语)

  • WMT 2018: 用于机器翻译任务的数据集。
  • AI challenger: 口语领域英中双语对照数据集,规模最大。
  • UM-Corpus: 一个大型英汉平行语料库。
  • OpenSubtitles2016: 包含电影字幕的平行语料库。
  • MultiUN: 联合国文件的多语言平行语料库。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集涵盖了多个领域和语言的命名实体识别(NER)和机器翻译任务。英文NER数据集主要来源于公开的学术竞赛和社交媒体平台,如CoNLL-2003、OntoNotes-5.0、Twitter等,这些数据集通过人工标注或半自动标注的方式构建。中文NER数据集则包括人民日报、MSRA、Boson等,主要通过新闻、社交媒体等文本进行标注。机器翻译数据集则从WMT 2018、AI challenger等国际竞赛和开放语料库中收集,涵盖了大规模的中英双语对照数据。
特点
该数据集的特点在于其多样性和广泛性。英文NER数据集覆盖了从新闻、社交媒体到学术文本的多种语料,标注标准统一且质量较高。中文NER数据集则包含了丰富的新闻和社交媒体文本,反映了中文语言环境的复杂性。机器翻译数据集则提供了大规模的双语对照数据,涵盖了从正式文本到口语的多种语言风格,适合用于训练和评估翻译模型。
使用方法
该数据集的使用方法较为灵活。对于NER任务,用户可以直接加载数据集进行实体识别模型的训练和评估,支持BIO标注格式。对于机器翻译任务,用户可以通过下载双语对照数据,使用常见的翻译框架(如Transformer)进行模型训练。数据集提供了详细的文档和示例代码,便于用户快速上手。此外,用户还可以根据需求对数据集进行进一步的处理和扩展,以适应特定的研究或应用场景。
背景与挑战
背景概述
NER(命名实体识别)数据集在自然语言处理领域扮演着至关重要的角色,尤其是在信息提取和语义理解方面。CoNLL-2003和OntoNotes-5.0等英文NER数据集自2003年发布以来,已成为该领域的基准数据集,广泛应用于学术研究和工业应用中。中文NER数据集如RenMinRiBao和MSRA则针对中文语言特性,提供了丰富的标注数据,推动了中文信息处理技术的发展。机器翻译数据集如WMT 2018和AI challenger则为中英双语翻译任务提供了大规模、高质量的平行语料,促进了跨语言沟通技术的进步。这些数据集的创建和研究主要由知名学术机构和研究团队主导,如CoNLL会议、OntoNotes项目组以及WMT组织等。
当前挑战
NER数据集的构建面临诸多挑战。首先,命名实体的多样性和复杂性使得标注过程极为繁琐,尤其是在多语言环境下,实体边界和类别定义的不一致性增加了标注难度。其次,数据集的规模和质量直接影响模型的性能,但获取大规模、高质量的标注数据成本高昂。此外,机器翻译数据集的构建需要处理语言间的文化差异和表达习惯,这对语料的选择和标注提出了更高要求。构建过程中,数据清洗、对齐和标注的一致性也是技术难点,尤其是在处理非结构化文本时,如何确保数据的准确性和完整性成为关键挑战。
常用场景
经典使用场景
NER数据集(命名实体识别)在自然语言处理领域中扮演着至关重要的角色,尤其是在信息抽取和文本理解任务中。这些数据集通常用于训练和评估模型,以识别文本中的人名、地名、组织名等实体。例如,CoNLL-2003和OntoNotes-5.0数据集广泛用于英文NER任务,而RenMinRiBao和MSRA则常用于中文NER任务。这些数据集通过提供高质量的标注数据,帮助研究人员构建和优化NER模型。
实际应用
NER数据集在实际应用中具有广泛的价值,特别是在信息检索、问答系统和机器翻译等领域。例如,在信息检索系统中,NER技术可以帮助识别用户查询中的关键实体,从而提高搜索结果的准确性。在机器翻译中,NER技术可以确保源语言和目标语言中的实体名称得到正确翻译。此外,NER数据集还被广泛应用于社交媒体分析,帮助识别和跟踪热点话题中的关键实体。
衍生相关工作
NER数据集的广泛应用催生了许多经典的研究工作。例如,基于CoNLL-2003数据集的研究成果被广泛应用于各种NER模型的开发,如BiLSTM-CRF和BERT-based模型。在中文NER领域,MSRA数据集的研究成果推动了中文实体识别技术的发展,许多基于深度学习的模型在该数据集上取得了显著成果。此外,这些数据集还为跨语言NER和多任务学习等新兴研究方向提供了宝贵的数据资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作