ResumeNER|中文简历数据集|命名实体识别数据集
收藏数据集概述
数据集名称
中文命名实体识别
数据集描述
本数据集用于中文命名实体识别任务,采用了论文ACL 2018《Chinese NER using Lattice LSTM》中收集的简历数据。数据格式为每行包含一个字及其对应的标注,标注集采用BIOES,句子之间通过空行分隔。
数据集结构
-
数据集文件位于项目目录下的
ResumeNER
文件夹。 -
数据格式示例:
美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O
数据集应用
本项目尝试使用多种模型(HMM, CRF, Bi-LSTM, Bi-LSTM+CRF)解决中文命名实体识别问题,并通过Ensemble方法结合这些模型的预测结果。
模型性能
- 各模型性能指标如下:
HMM CRF BiLSTM BiLSTM+CRF Ensemble 召回率 91.22% 95.43% 95.32% 95.72% 95.65% 准确率 91.49% 95.43% 95.37% 95.74% 95.69% F1分数 91.30% 95.42% 95.32% 95.70% 95.64%
数据集使用
- 数据集用于训练和评估模型,具体操作包括安装依赖项、训练模型、评估模型等。
- 模型训练和评估的命令包括:
python3 main.py
用于训练和评估模型。python3 test.py
用于加载并评估模型。
未来工作
- 计划在更大的数据集上测试BI-LSTM+CRF模型的效果。
- 尝试更复杂的模型,如参考论文《Chinese NER using Lattice LSTM》。
- 提供更详细的评估结果,包括混淆矩阵和各类别的性能指标。

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录