NetSpec-LLM
收藏数据集概述
概述
该数据集包含欧洲电信标准协会(ETSI)文档的全面集合,经过系统下载、处理和组织,以便于访问和分析。每个ETSI文档都附有相应的元数据,确保信息的完整管理。
数据处理流程
数据处理涉及两个主要脚本,用于自动化下载和组织ETSI文档:
-
下载文档:
- 脚本:
organize_etsi_documents.py - 功能:
- 从
ETSICatalog.csv文件中提取文档信息和下载链接。 - 从提供的链接下载每个PDF文档。
- 为每个文档保存相应的元数据文件
_metadata.txt。 - 实现暂停和恢复功能,以高效处理大量下载。
- 从
- 脚本:
-
按工作组组织:
- 脚本:
organize_by_working_group.py - 功能:
- 从
Grouped_ETSI_Documents_with_Document_Number_by_Working_Group.csv文件中映射每个文档到其相应的工作组(如GR、GS)。 - 验证每个文档的PDF和元数据文件的存在性。
- 在
data/目录中为每个工作组创建专用文件夹。 - 将PDF和元数据文件移动到相应的工作组文件夹中。
- 记录任何缺失或有问题的文件以供审查。
- 从
- 脚本:
目录结构
├── data/ │ ├── GR/ │ │ ├── 64372.pdf │ │ ├── 64372_metadata.txt │ │ ├── 61992.pdf │ │ ├── 61992_metadata.txt │ │ └── ... │ ├── GS/ │ │ ├── 63040.pdf │ │ ├── 63040_metadata.txt │ │ ├── 62010.pdf │ │ ├── 62010_metadata.txt │ │ └── ... │ └── ... ├── ETSICatalog.csv ├── Grouped_ETSI_Documents_with_Document_Number_by_Working_Group.csv ├── organize_etsi_documents.py ├── organize_by_working_group.py ├── requirements.txt ├── missing_files.log ├── organize_by_working_group.log └── README.md
- data/:包含所有下载的PDF及其相应的元数据文件,按工作组(如
GR、GS等)组织到子目录中。 - ETSICatalog.csv:包含ETSI文档元数据和下载链接的原始CSV文件。
- Grouped_ETSI_Documents_with_Document_Number_by_Working_Group.csv:按工作组和概念分类文档的CSV文件。
- organize_etsi_documents.py:用于下载ETSI文档并生成元数据文件的Python脚本。
- organize_by_working_group.py:用于将下载的文档组织到工作组文件夹中的Python脚本。
- requirements.txt:列出运行脚本所需的Python依赖项。
- missing_files.log:记录在组织过程中遇到的任何缺失或有问题的文件。
- organize_by_working_group.log:
organize_by_working_group.py脚本执行的详细日志。 - README.md:此文档文件。
使用方法
1. 下载和组织ETSI文档
确保ETSICatalog.csv放置在仓库的根目录中。
bash python organize_etsi_documents.py
2. 按工作组分类文档
确保Grouped_ETSI_Documents_with_Document_Number_by_Working_Group.csv和process-ETSI.ipynb正确格式化并放置在根目录中。
运行Jupyter笔记本中的相应单元格,按工作组对文档进行分组。
3. 检查结果
-
检查组织目录:
- 导航到
data/目录,查看每个工作组(如GR、GS等)的子文件夹,其中包含相关文件。
- 导航到
-
检查日志文件:
organize_by_working_group.log:包含脚本执行的详细日志,包括移动的文件和任何错误。missing_files.log:记录在移动过程中遇到的任何缺失文件或问题。
许可证
该项目根据Creative Commons Attribution Non Commercial 4.0许可证授权。




