科学术语命名实体识别数据集
收藏魔搭社区2025-11-27 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/kazgu314/CSciNER
下载链接
链接失效反馈官方服务:
资源简介:
## LEAF: A Less Expert Annotation Framework with Active Learning
CSciNER数据集是面向计算机领域的中文命名实体识别数据集。
## 数据集简介
本数据集实体类型:
任务:TASK :519
问题:PROBLEM 321
方法:METHOD 1083
材料:MATERIAL 276
通用:GENERIC 435
评价指标:METRIC 213
其他科学术语类型:OTHER TERM 552
### Baseline Bert+BiLSTM+CRF,F1~0.91 ,具体的看论文。
```
本 O
文 O
尝 O
试 O
将 O
知 B_MATERIAL
识 I_MATERIAL
图 I_MATERIAL
谱 I_MATERIAL
相 O
关 O
技 B_GENERIC
术 I_GENERIC
应 O
用 O
到 O
制 O
造 O
企 O
业 O
所 O
拥 O
有 O
的 O
典 O
型 O
知 O
识 O
— O
— O
专 B_OTHERSCIENTIFICTERM
利 I_OTHERSCIENTIFICTERM
文 O
本 O
的 O
检 B_TASK
索 I_TASK
中 O
, O
开 O
展 O
如 O
下 O
研 B_GENERIC
究 I_GENERIC
工 O
作 O
两 O
者 O
彼 O
此 O
融 B_METHOD
合 I_METHOD
带 O
来 O
了 O
律 O
师 O
行 O
业 O
的 O
又 O
一 O
波 O
发 B_GENERIC
展 I_GENERIC
浪 O
潮 O
获 O
取 O
到 O
的 O
病 O
虫 O
害 O
数 O
据 O
```
```bib
@inproceedings{DBLP:conf/pakdd/MaoliniyaziMMP24,
author = {Aishan Maoliniyazi and
Chaohong Ma and
Xiaofeng Meng and
Yingtao Peng},
title = {{LEAF:} {A} Less Expert Annotation Framework with Active Learning},
series = {Lecture Notes in Computer Science},
volume = {14647},
pages = {369--384},
publisher = {Springer},
year = {2024},
url = {https://doi.org/10.1007/978-981-97-2259-4\_28},
doi = {10.1007/978-981-97-2259-4\_28},
timestamp = {Fri, 31 May 2024 21:05:19 +0200},
biburl = {https://dblp.org/rec/conf/pakdd/MaoliniyaziMMP24.bib}
}
```
LEAF:融合主动学习的低专家依赖标注框架
CSciNER数据集是面向计算机领域的中文命名实体识别数据集。
## 数据集简介
本数据集实体类型如下:
任务(TASK):519
问题(PROBLEM):321
方法(METHOD):1083
材料(MATERIAL):276
通用(GENERIC):435
评价指标(METRIC):213
其他科学术语类型(OTHER TERM):552
### 基准模型采用Bert+BiLSTM+CRF,F1值约为0.91,具体细节请参阅相关论文。
本 O
文 O
尝 O
试 O
将 O
知 B_MATERIAL
识 I_MATERIAL
图 I_MATERIAL
谱 I_MATERIAL
相 O
关 O
技 B_GENERIC
术 I_GENERIC
应 O
用 O
到 O
制 O
造 O
企 O
业 O
所 O
拥 O
有 O
的 O
典 O
型 O
知 O
识 O
— O
— O
专 B_OTHERSCIENTIFICTERM
利 I_OTHERSCIENTIFICTERM
文 O
本 O
的 O
检 B_TASK
索 I_TASK
中 O
, O
开 O
展 O
如 O
下 O
研 B_GENERIC
究 I_GENERIC
工 O
作 O
两 O
者 O
彼 O
此 O
融 B_METHOD
合 I_METHOD
带 O
来 O
了 O
律 O
师 O
行 O
业 O
的 O
又 O
一 O
波 O
发 B_GENERIC
展 I_GENERIC
浪 O
潮 O
获 O
取 O
到 O
的 O
病 O
虫 O
害 O
数 O
据 O
bib
@inproceedings{DBLP:conf/pakdd/MaoliniyaziMMP24,
author = {Aishan Maoliniyazi and
Chaohong Ma and
Xiaofeng Meng and
Yingtao Peng},
title = {{LEAF:} {A} Less Expert Annotation Framework with Active Learning},
series = {Lecture Notes in Computer Science},
volume = {14647},
pages = {369--384},
publisher = {Springer},
year = {2024},
url = {https://doi.org/10.1007/978-981-97-2259-4_28},
doi = {10.1007/978-981-97-2259-4_28},
timestamp = {Fri, 31 May 2024 21:05:19 +0200},
biburl = {https://dblp.org/rec/conf/pakdd/MaoliniyaziMMP24.bib}
}
提供机构:
maas
创建时间:
2024-08-05
搜集汇总
数据集介绍

背景与挑战
背景概述
CSciNER是一个面向计算机领域的中文命名实体识别数据集,包含任务、问题、方法、材料、通用、评价指标和其他科学术语类型等七种实体,共计3399个标注实例。该数据集采用主动学习框架进行构建,旨在支持科学术语的识别任务。
以上内容由遇见数据集搜集并总结生成



