slotreck/pickle
收藏Hugging Face2023-12-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/slotreck/pickle
下载链接
链接失效反馈官方服务:
资源简介:
PICKLE数据集是与论文《In a PICKLE: A gold standard entity and relation corpus for the molecular plant sciences》相关的数据集。该数据集包含250篇科学论文的摘要,这些摘要来自搜索关键词“赤霉素”和“茉莉酸”的结果。数据集被分为68%的训练集、12%的开发集和20%的测试集。整个数据集包含6,245个实体和2,149个关系注释。
PICKLE is a gold standard entity and relation corpus associated with molecular plant sciences, containing 250 abstracts from scientific papers related to gibberellic acid and jasmonic acid. The dataset is split into 68%/12%/20% train/dev/test, with 6,245 entity and 2,149 relation annotations.
提供机构:
slotreck
原始信息汇总
PICKLE 数据集
概述
PICKLE 数据集是与论文 In a PICKLE: A gold standard entity and relation corpus for the molecular plant sciences 相关联的数据集。该数据集用于生物学、植物学、命名实体识别和关系抽取等领域。
格式规范
该数据集遵循 DyGIE++ 架构的数据规范。需要注意的是,当前数据集在使用 load_datasets 时会抛出 JSONDecodeError(参见 #6460 on datasets)。在此期间,可以通过直接下载 .jsonl 文件并使用以下代码导入 Python:
python
import jsonlines
with jsonlines.open(train.jsonl) as reader:
train = []
for obj in reader:
train.append(obj)
数据集详情
数据集包含 250 篇文档,分为 68%/12%/20% 的训练/开发/测试集。每篇文档是关于 "gibberellic acid" 和 "jasmonic acid" 的科学论文摘要。数据集中共有 6,245 个实体和 2,149 个关系标注。



