batterydata/paper-abstracts
收藏Hugging Face2022-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/batterydata/paper-abstracts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含29,472篇电池相关论文和17,191篇非电池相关论文,总计46,663篇论文。这些论文根据所属期刊进行了手动标注,选定了14种电池期刊和1,044种非电池期刊来构建此数据库。数据集分为训练集、验证集和测试集,分别包含不同数量的电池和非电池论文。
This dataset contains 29,472 battery-related papers and 17,191 non-battery-related papers, totaling 46,663 papers. These papers were manually annotated based on their affiliated journals, and 14 battery-focused journals and 1,044 non-battery journals were selected to construct this database. The dataset is split into training, validation and test sets, which respectively contain varying quantities of battery-related and non-battery-related papers.
提供机构:
batterydata
原始信息汇总
Battery Abstracts Dataset
概述
- 语言: 英语
- 许可证: Apache 2.0
- 任务类别: 文本分类
- 数据集名称: Battery Abstracts Dataset
数据集详情
- 总论文数: 46,663篇
- 电池相关论文: 29,472篇
- 非电池相关论文: 17,191篇
- 数据来源: 14个电池相关期刊和1,044个非电池相关期刊
数据分割
- 训练数据 (training_data.csv):
- 电池相关论文: 20,629篇
- 非电池相关论文: 12,034篇
- 总计: 32,663篇
- 验证数据 (val_data.csv):
- 电池相关论文: 5,895篇
- 非电池相关论文: 3,438篇
- 总计: 9,333篇
- 测试数据 (test_data.csv):
- 电池相关论文: 2,948篇
- 非电池相关论文: 1,719篇
- 总计: 4,667篇
使用方法
python from datasets import load_dataset
dataset = load_dataset("batterydata/paper-abstracts")
引用
plaintext @article{huang2022batterybert, title={BatteryBERT: A Pretrained Language Model for Battery Database Enhancement}, author={Huang, Shu and Cole, Jacqueline M}, journal={J. Chem. Inf. Model.}, year={2022}, doi={10.1021/acs.jcim.2c00035}, url={DOI:10.1021/acs.jcim.2c00035}, pages={DOI: 10.1021/acs.jcim.2c00035}, publisher={ACS Publications} }
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含电池和非电池相关的论文摘要,总计46,663篇,用于文本分类任务。数据集已划分为训练、验证和测试集,适用于机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成



