five

Resume

收藏
github2018-07-01 更新2025-02-08 收录
下载链接:
https://github.com/jiesutd/LatticeLSTM
下载链接
链接失效反馈
资源简介:
Resume数据集是利用新浪财经的多份简历资料编制而成的。数据集的创建者对八类不同的命名实体进行了人工标注,涵盖国籍、教育背景、地理位置、个人姓名、组织名称、专业领域、民族和职业职称。

The Resume dataset is compiled from multiple resumes provided by Sina Finance. The dataset creators have manually annotated eight different types of named entities, including nationality, educational background, geographic location, personal names, organization names, professional fields, ethnicity, and job titles.
提供机构:
Singapore University of Technology and Design
创建时间:
2018-07-01
原始信息汇总

数据集概述

基本信息

  • 名称: Chinese NER Using Lattice LSTM
  • 用途: 中文命名实体识别(NER)
  • 模型: 基于字符的LSTM,输入为Lattice嵌入
  • 性能: 在MSRA数据集上达到93.18%的F1值,为当时中文NER任务的最先进结果
  • 相关论文: Chinese NER Using Lattice LSTM(ACL 2018)

输入格式

  • 格式: CoNLL格式(推荐使用BIOES标签方案)

  • 示例:

    美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER

    我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O

预训练嵌入

运行要求

  • Python: 2.7
  • PyTorch: 0.3.0(对于0.3.1版本,请参考issue#8进行修改)

运行步骤

  1. 下载字符嵌入和词嵌入,放入data文件夹。
  2. 修改run_main.pyrun_demo.py,添加训练/开发/测试文件的目录。
  3. 运行sh run_main.pysh run_demo.py

其他数据

  • 简历数据: 从新浪财经爬取,包含中国股市上市公司高管的简历。

引用

bibtex @article{zhang2018chinese,
title={Chinese NER Using Lattice LSTM},
author={Yue Zhang and Jie Yang},
booktitle={Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2018}
}

搜集汇总
数据集介绍
main_image_url
构建方式
Resume数据集的构建基于中国股市上市公司高层管理人员的简历,这些数据来源于新浪财经的爬取。该数据集通过采用字符级LSTM模型,并引入格子嵌入(Lattice embeddings)作为输入,构建了一套适用于中文命名实体识别(NER)的深度学习模型。数据集的构建包含了预训练的字符和词嵌入,这些嵌入向量与RichWordSegmentor基线模型中的向量相同,确保了模型对中文语言特性的深刻理解。
使用方法
使用Resume数据集,首先需要将预训练的字符和词嵌入向量下载并放置在`data`文件夹中。随后,修改`run_main.py`或`run_demo.py`文件,添加训练、开发及测试文件的目录。最后,通过执行`sh run_main.py`或`sh run_demo.py`脚本来启动模型的训练或演示。详细的操作指南和代码修改说明都在数据集的GitHub页面中有所阐述。
背景与挑战
背景概述
Resume数据集是在自然语言处理领域中,针对中文命名实体识别(NER)任务构建的。该数据集由Yue Zhang和Jie Yang等研究人员创建于2018年,旨在通过利用Lattice LSTM模型解决中文NER问题,并在MSRA数据集上取得了93.18%的F1值,这一结果在当时处于领先水平。数据来源于新浪财经,包含了来自中国股市上市公司高层管理人员的简历信息,为相关研究提供了重要的实验基础。
当前挑战
Resume数据集在构建过程中面临的主要挑战包括:1) 中文NER任务的挑战,即如何准确识别中文文本中的命名实体;2) 数据的获取与处理,从互联网爬取的简历数据需要进行有效的清洗和格式化;3) 模型构建的挑战,传统的LSTM模型在处理中文NER任务时存在局限性,而Lattice LSTM模型的引入提高了识别的准确性。此外,模型训练过程中对预训练字向量与词向量的依赖,也增加了数据集构建的复杂性。
常用场景
经典使用场景
在自然语言处理领域,尤其是命名实体识别(NER)任务中,Resume数据集因其独特的字符级Lattice LSTM模型而备受关注。该数据集通过字符级LSTM网络与Lattice嵌入相结合,对中文文本进行实体识别,其应用场景主要集中于训练和评估模型在中文NER任务上的性能,进而推动相关领域的研究进展。
解决学术问题
该数据集有效解决了中文NER任务中的标注不一致、实体边界模糊等难题,通过Lattice LSTM模型实现了对字符级别的精细处理,提升了实体识别的准确度和召回率。其研究成果对于推动中文信息处理技术的发展具有重要意义,为后续研究提供了新的视角和思路。
实际应用
在实际应用中,Resume数据集所训练的模型能够应用于简历解析、文本挖掘、信息抽取等场景,有助于自动化处理和分析海量文本数据,挖掘出有价值的信息,为人力资源管理、商业智能分析等领域提供技术支持。
数据集最近研究
最新研究方向
在自然语言处理领域,尤其是中文命名实体识别(NER)任务中,基于字符的LSTM模型已经取得了显著进展。近期,Resume数据集被用于训练Lattice LSTM模型,该模型通过结合字符级LSTM与格子嵌入,在MSRA数据集上取得了93.18%的F1值,领先于当时的其他方法。此研究不仅推动了中文NER任务的进展,而且对于简历解析、信息抽取等应用场景具有深远影响。相关成果已在ACL 2018上发表,为后续研究提供了新的视角和基线。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作