five

batterydata/paper-abstracts

收藏
Hugging Face2022-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/batterydata/paper-abstracts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含29,472篇电池相关论文和17,191篇非电池相关论文,总计46,663篇论文。这些论文根据所属期刊进行了手动标注,选定了14种电池期刊和1,044种非电池期刊来构建此数据库。数据集分为训练集、验证集和测试集,分别包含不同数量的电池和非电池论文。

This dataset contains 29,472 battery-related papers and 17,191 non-battery-related papers, totaling 46,663 papers. These papers were manually annotated based on their affiliated journals, and 14 battery-focused journals and 1,044 non-battery journals were selected to construct this database. The dataset is split into training, validation and test sets, which respectively contain varying quantities of battery-related and non-battery-related papers.
提供机构:
batterydata
原始信息汇总

Battery Abstracts Dataset

概述

  • 语言: 英语
  • 许可证: Apache 2.0
  • 任务类别: 文本分类
  • 数据集名称: Battery Abstracts Dataset

数据集详情

  • 总论文数: 46,663篇
    • 电池相关论文: 29,472篇
    • 非电池相关论文: 17,191篇
  • 数据来源: 14个电池相关期刊和1,044个非电池相关期刊

数据分割

  • 训练数据 (training_data.csv):
    • 电池相关论文: 20,629篇
    • 非电池相关论文: 12,034篇
    • 总计: 32,663篇
  • 验证数据 (val_data.csv):
    • 电池相关论文: 5,895篇
    • 非电池相关论文: 3,438篇
    • 总计: 9,333篇
  • 测试数据 (test_data.csv):
    • 电池相关论文: 2,948篇
    • 非电池相关论文: 1,719篇
    • 总计: 4,667篇

使用方法

python from datasets import load_dataset

dataset = load_dataset("batterydata/paper-abstracts")

引用

plaintext @article{huang2022batterybert, title={BatteryBERT: A Pretrained Language Model for Battery Database Enhancement}, author={Huang, Shu and Cole, Jacqueline M}, journal={J. Chem. Inf. Model.}, year={2022}, doi={10.1021/acs.jcim.2c00035}, url={DOI:10.1021/acs.jcim.2c00035}, pages={DOI: 10.1021/acs.jcim.2c00035}, publisher={ACS Publications} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含电池和非电池相关的论文摘要,总计46,663篇,用于文本分类任务。数据集已划分为训练、验证和测试集,适用于机器学习模型的训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作