Resume|命名实体识别数据集|自然语言处理数据集

github2018-07-01 更新2025-02-08 收录

命名实体识别

自然语言处理

下载链接：

https://github.com/jiesutd/LatticeLSTM

下载链接

链接失效反馈

资源简介：

Resume数据集是利用新浪财经的多份简历资料编制而成的。数据集的创建者对八类不同的命名实体进行了人工标注，涵盖国籍、教育背景、地理位置、个人姓名、组织名称、专业领域、民族和职业职称。

The Resume dataset is compiled from multiple resumes provided by Sina Finance. The dataset creators have manually annotated eight different types of named entities, including nationality, educational background, geographic location, personal names, organization names, professional fields, ethnicity, and job titles.

提供机构：

Singapore University of Technology and Design

创建时间：

2018-07-01

原始信息汇总

数据集概述

基本信息

名称: Chinese NER Using Lattice LSTM
用途: 中文命名实体识别（NER）
模型: 基于字符的LSTM，输入为Lattice嵌入
性能: 在MSRA数据集上达到93.18%的F1值，为当时中文NER任务的最先进结果
相关论文: Chinese NER Using Lattice LSTM（ACL 2018）

输入格式

格式: CoNLL格式（推荐使用BIOES标签方案）
示例:

美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER

我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O

预训练嵌入

字符嵌入: gigaword_chn.all.a2b.uni.ite50.vec
- Google Drive
- Baidu Pan
词嵌入: ctb.50d.vec
- Google Drive
- Baidu Pan

运行要求

Python: 2.7
PyTorch: 0.3.0（对于0.3.1版本，请参考issue#8进行修改）

运行步骤

下载字符嵌入和词嵌入，放入data文件夹。
修改run_main.py或run_demo.py，添加训练/开发/测试文件的目录。
运行sh run_main.py或sh run_demo.py。

其他数据

简历数据: 从新浪财经爬取，包含中国股市上市公司高管的简历。

引用

bibtex @article{zhang2018chinese,
title={Chinese NER Using Lattice LSTM},
author={Yue Zhang and Jie Yang},
booktitle={Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2018}
}

AI搜集汇总

数据集介绍

构建方式

Resume数据集的构建基于中国股市上市公司高层管理人员的简历，这些数据来源于新浪财经的爬取。该数据集通过采用字符级LSTM模型，并引入格子嵌入（Lattice embeddings）作为输入，构建了一套适用于中文命名实体识别（NER）的深度学习模型。数据集的构建包含了预训练的字符和词嵌入，这些嵌入向量与RichWordSegmentor基线模型中的向量相同，确保了模型对中文语言特性的深刻理解。

使用方法

使用Resume数据集，首先需要将预训练的字符和词嵌入向量下载并放置在`data`文件夹中。随后，修改`run_main.py`或`run_demo.py`文件，添加训练、开发及测试文件的目录。最后，通过执行`sh run_main.py`或`sh run_demo.py`脚本来启动模型的训练或演示。详细的操作指南和代码修改说明都在数据集的GitHub页面中有所阐述。

背景与挑战

背景概述

Resume数据集是在自然语言处理领域中，针对中文命名实体识别（NER）任务构建的。该数据集由Yue Zhang和Jie Yang等研究人员创建于2018年，旨在通过利用Lattice LSTM模型解决中文NER问题，并在MSRA数据集上取得了93.18%的F1值，这一结果在当时处于领先水平。数据来源于新浪财经，包含了来自中国股市上市公司高层管理人员的简历信息，为相关研究提供了重要的实验基础。

当前挑战

Resume数据集在构建过程中面临的主要挑战包括：1) 中文NER任务的挑战，即如何准确识别中文文本中的命名实体；2) 数据的获取与处理，从互联网爬取的简历数据需要进行有效的清洗和格式化；3) 模型构建的挑战，传统的LSTM模型在处理中文NER任务时存在局限性，而Lattice LSTM模型的引入提高了识别的准确性。此外，模型训练过程中对预训练字向量与词向量的依赖，也增加了数据集构建的复杂性。

常用场景

经典使用场景

在自然语言处理领域，尤其是命名实体识别（NER）任务中，Resume数据集因其独特的字符级Lattice LSTM模型而备受关注。该数据集通过字符级LSTM网络与Lattice嵌入相结合，对中文文本进行实体识别，其应用场景主要集中于训练和评估模型在中文NER任务上的性能，进而推动相关领域的研究进展。

解决学术问题

该数据集有效解决了中文NER任务中的标注不一致、实体边界模糊等难题，通过Lattice LSTM模型实现了对字符级别的精细处理，提升了实体识别的准确度和召回率。其研究成果对于推动中文信息处理技术的发展具有重要意义，为后续研究提供了新的视角和思路。

实际应用

在实际应用中，Resume数据集所训练的模型能够应用于简历解析、文本挖掘、信息抽取等场景，有助于自动化处理和分析海量文本数据，挖掘出有价值的信息，为人力资源管理、商业智能分析等领域提供技术支持。

数据集最近研究

最新研究方向

在自然语言处理领域，尤其是中文命名实体识别（NER）任务中，基于字符的LSTM模型已经取得了显著进展。近期，Resume数据集被用于训练Lattice LSTM模型，该模型通过结合字符级LSTM与格子嵌入，在MSRA数据集上取得了93.18%的F1值，领先于当时的其他方法。此研究不仅推动了中文NER任务的进展，而且对于简历解析、信息抽取等应用场景具有深远影响。相关成果已在ACL 2018上发表，为后续研究提供了新的视角和基线。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录