Zihao-Li/IEA_Energy_Dataset
收藏Hugging Face2024-05-24 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/Zihao-Li/IEA_Energy_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集涉及能源相关主题,涵盖石油、煤炭、风能、氢能、生物能源、电动汽车、供暖、建筑围护结构、甲烷减排和化学品等内容。数据来源于国际能源署(IEA)的网站,通过爬取免费公开的报告并利用Llama 3模型提取有用文本。数据处理包括去除过短句子和使用Monocleaner工具检测不流畅句子并进行过滤。
许可证:MIT许可证
任务类别:文本生成
语言:英语
样本规模区间:10万至100万条
# IEA能源数据集
## 数据集详情
### 数据集描述
本数据集为能源领域相关数据集,涵盖**石油(Oil)、煤炭(Coal)、风能(Wind)、氢能(Hydrogen)、生物能源(Bioenergy)、电动汽车(Electric vehicles)、供暖(Heating)、建筑围护结构(Building envelopes)、甲烷减排(Methane abatement)以及化工品(Chemicals)**等主题。
## 数据集构建
### 源数据来源
本数据集的源数据均来自国际能源署(International Energy Agency,IEA)官方网站(https://www.iea.org/)发布的报告。
### 数据收集与处理
我们从国际能源署官网的分析板块(https://www.iea.org/analysis)爬取了免费公开的PDF格式报告,随后使用Llama 3模型提取其中的有效文本。
在获取原始文本后,我们开展了两项后续处理步骤:
1. 剔除长度过短的句子(例如字符长度小于100的句子);
2. 使用Monocleaner工具(https://github.com/bitextor/monocleaner)检测语句流畅度,为每个句子赋予0~1的评分,并通过设置阈值完成过滤。
提供机构:
Zihao-Li
原始信息汇总
IEA_Energy_Dataset 概述
数据集描述
内容覆盖
- 主题包括:石油、煤炭、风能、氢能、生物能源、电动汽车、供暖、建筑围护结构、甲烷减排和化学品。
数据集创建
数据来源
- 数据源自国际能源署(IEA)网站的公开报告。
数据收集与处理
- 通过网络爬虫从IEA网站收集PDF格式的报告。
- 使用Llama 3模型提取文本信息。
- 数据处理步骤:
- 移除长度小于100的短句。
- 使用Monocleaner工具评估句子流畅性,并根据设定的阈值过滤。
数据集属性
许可
- MIT许可
任务类别
- 文本生成
语言
- 英语
数据集大小
- 100K<n<1M



