Resume|命名实体识别数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 名称: Chinese NER Using Lattice LSTM
- 用途: 中文命名实体识别(NER)
- 模型: 基于字符的LSTM,输入为Lattice嵌入
- 性能: 在MSRA数据集上达到93.18%的F1值,为当时中文NER任务的最先进结果
- 相关论文: Chinese NER Using Lattice LSTM(ACL 2018)
输入格式
-
格式: CoNLL格式(推荐使用BIOES标签方案)
-
示例:
美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER
我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O
预训练嵌入
- 字符嵌入: gigaword_chn.all.a2b.uni.ite50.vec
- 词嵌入: ctb.50d.vec
运行要求
- Python: 2.7
- PyTorch: 0.3.0(对于0.3.1版本,请参考issue#8进行修改)
运行步骤
- 下载字符嵌入和词嵌入,放入
data
文件夹。 - 修改
run_main.py
或run_demo.py
,添加训练/开发/测试文件的目录。 - 运行
sh run_main.py
或sh run_demo.py
。
其他数据
- 简历数据: 从新浪财经爬取,包含中国股市上市公司高管的简历。
引用
bibtex
@article{zhang2018chinese,
title={Chinese NER Using Lattice LSTM},
author={Yue Zhang and Jie Yang},
booktitle={Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL)},
year={2018}
}

UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录