five

Zihao-Li/IEA_Energy_Dataset

收藏
Hugging Face2024-05-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Zihao-Li/IEA_Energy_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集涉及能源相关主题,涵盖石油、煤炭、风能、氢能、生物能源、电动汽车、供暖、建筑围护结构、甲烷减排和化学品等内容。数据来源于国际能源署(IEA)的网站,通过爬取免费公开的报告并利用Llama 3模型提取有用文本。数据处理包括去除过短句子和使用Monocleaner工具检测不流畅句子并进行过滤。

许可证:MIT许可证 任务类别:文本生成 语言:英语 样本规模区间:10万至100万条 # IEA能源数据集 ## 数据集详情 ### 数据集描述 本数据集为能源领域相关数据集,涵盖**石油(Oil)、煤炭(Coal)、风能(Wind)、氢能(Hydrogen)、生物能源(Bioenergy)、电动汽车(Electric vehicles)、供暖(Heating)、建筑围护结构(Building envelopes)、甲烷减排(Methane abatement)以及化工品(Chemicals)**等主题。 ## 数据集构建 ### 源数据来源 本数据集的源数据均来自国际能源署(International Energy Agency,IEA)官方网站(https://www.iea.org/)发布的报告。 ### 数据收集与处理 我们从国际能源署官网的分析板块(https://www.iea.org/analysis)爬取了免费公开的PDF格式报告,随后使用Llama 3模型提取其中的有效文本。 在获取原始文本后,我们开展了两项后续处理步骤: 1. 剔除长度过短的句子(例如字符长度小于100的句子); 2. 使用Monocleaner工具(https://github.com/bitextor/monocleaner)检测语句流畅度,为每个句子赋予0~1的评分,并通过设置阈值完成过滤。
提供机构:
Zihao-Li
原始信息汇总

IEA_Energy_Dataset 概述

数据集描述

内容覆盖

  • 主题包括:石油、煤炭、风能、氢能、生物能源、电动汽车、供暖、建筑围护结构、甲烷减排和化学品。

数据集创建

数据来源

  • 数据源自国际能源署(IEA)网站的公开报告。

数据收集与处理

  • 通过网络爬虫从IEA网站收集PDF格式的报告。
  • 使用Llama 3模型提取文本信息。
  • 数据处理步骤:
    1. 移除长度小于100的短句。
    2. 使用Monocleaner工具评估句子流畅性,并根据设定的阈值过滤。

数据集属性

许可

  • MIT许可

任务类别

  • 文本生成

语言

  • 英语

数据集大小

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作