Chemical Exposure Information Corpus

github2020-01-09 更新2024-05-31 收录

下载链接：

https://github.com/sb895/chemical-exposure-information-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

化学暴露信息语料库包含3661篇PubMed出版物摘要，由专家根据分类法手动标注。该分类法包含32个类别，每个句子根据分类法被分配零个或多个类别标签。标签文件位于labels目录下，分词文本位于text目录下，文件名对应PubMed ID。

The Chemical Exposure Information Corpus comprises 3,661 PubMed publication abstracts, manually annotated by experts according to a taxonomy. This taxonomy includes 32 categories, with each sentence assigned zero or more category labels based on the taxonomy. The label files are located in the 'labels' directory, and the tokenized texts are in the 'text' directory, with filenames corresponding to PubMed IDs.

创建时间：

2018-09-19

原始信息汇总

Chemical Exposure Information Corpus Summary

数据集概述

名称: Chemical Exposure Information (CEI) Corpus
内容: 包含3661篇PubMed出版物摘要，由专家根据分类法手动标注。
分类法: 包含32个类别的层次结构。
标注方式: 每个句子可能被分配零个或多个类别标签。
数据结构:
- 标签文件位于 "labels" 目录下。
- 分词文本位于 "text" 目录下。
- 文件名对应PubMed ID (PMID)。

数据集用途

目的: 用于化学风险评估中的暴露评估，特别是通过生物监测和暴露途径进行分类。
分类法分支:
- 生物监测
- 暴露途径

引用信息

推荐引用:
- 文章标题: Text mining for improved exposure assessment
- 作者: Larsson, Kristin 等
- 发表期刊: PloS one, 2017
- DOI: 10.1371/journal.pone.0173132

搜集汇总

数据集介绍

构建方式

Chemical Exposure Information Corpus（CEI Corpus）是由专家根据特定分类体系对3661篇PubMed出版物摘要进行手动注释而构建的。该分类体系包含32个层次分类，每个句子可根据其内容被赋予零个或多个标签。数据集的标签存储在'labels'目录下，而分词后的文本则存储在'text'目录下，文件名对应PubMed ID（PMID）。

特点

CEI Corpus针对暴露评估领域，具有独特新颖的分类体系，该体系主要分为生物监测和暴露途径两大分支，能够为化学物质暴露风险评估提供重要支持。数据集的构建，不仅涵盖了多种化学物质的暴露途径和生物监测信息，而且通过专家的人工标注，保证了标签的准确性和可靠性。

使用方法

使用CEI Corpus时，用户可根据需要引用相关文献，遵循数据集的使用规范。数据集以目录形式组织，通过PubMed ID进行文件索引，便于用户快速定位和检索相关文本及其对应的标签信息。用户可基于该数据集开展文本分类任务，进一步促进化学物质暴露风险评估的研究与应用。

背景与挑战

背景概述

Chemical Exposure Information Corpus（CEI Corpus）是一个针对文本分类的化学暴露信息数据集，创建于2017年，由Larsson等研究人员构建。该数据集汇集了3661篇PubMed出版物摘要，并由专家根据特定的分类法进行了手动注释。该分类法包含32个类别的层次结构，每个句子可分配零个或多个类标签。CEI Corpus旨在为化学风险评估中的暴露评估提供支持，其独特的分类法使得该数据集在相关领域具有显著影响力。

当前挑战

CEI Corpus在构建过程中面临了诸多挑战。首先，化学暴露信息的复杂性导致了分类法的构建困难，需要精确地定义和区分各个类别。其次，由于化学暴露相关的文献量庞大，手动注释工作量大，对专家的知识和经验要求较高。在研究领域问题上，CEI Corpus解决了化学风险评估中的暴露评估问题，但如何提高分类准确性和自动化程度，以及如何处理不断涌现的新化学物质信息，是该数据集面临的挑战。

常用场景

经典使用场景

在化学暴露风险评估领域，Chemical Exposure Information Corpus数据集成为文本分类任务中的经典资源。该数据集通过专家对PubMed上发表的3661篇文献摘要进行手动标注，构建了一个包含32个类别的层级化分类体系。此数据集的使用者往往致力于从科学文献中提取有关化学暴露的信息，以辅助化学风险评价的各个环节。

衍生相关工作

Chemical Exposure Information Corpus数据集衍生出了一系列相关研究工作，如文本挖掘算法的改进、化学暴露评估模型的构建等。这些研究不仅提升了化学风险评价的技术水平，还拓展了数据集的应用范围，使得该数据集成为化学风险评估和毒理学研究中不可或缺的资源。

数据集最近研究