SergioMadridF/prueba
收藏Hugging Face2023-05-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/SergioMadridF/prueba
下载链接
链接失效反馈官方服务:
资源简介:
!pip install PyPDF2
import PyPDF2
archivo_pdf = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.pdf', 'rb')
lector_pdf = PyPDF2.PdfReader(archivo_pdf)
contenido_texto = ""
for pagina in lector_pdf.pages:
contenido_texto += pagina.extract_text()
archivo_pdf.close()
archivo_texto = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt', 'w')
archivo_texto.write(contenido_texto)
archivo_texto.close()
### 数据集文本提取脚本
本脚本用于从指定路径的PDF文件中提取全文本并保存为TXT格式文件,具体实现步骤如下:
1. 安装依赖库:执行以下命令安装PyPDF2库
bash
!pip install PyPDF2
2. 导入PyPDF2库:
python
import PyPDF2
3. 以二进制只读模式打开目标PDF文件:
python
pdf_file = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.pdf', 'rb')
4. 初始化PyPDF2的PDF阅读器对象,关联已打开的PDF文件:
python
pdf_reader = PyPDF2.PdfReader(pdf_file)
5. 初始化空字符串变量,用于存储提取的全部文本内容:
python
full_text = ""
6. 遍历PDF文件的所有页面,提取每页文本并追加至存储变量中:
python
for page in pdf_reader.pages:
full_text += page.extract_text()
7. 关闭已打开的PDF文件:
python
pdf_file.close()
8. 以写入模式打开目标TXT文件,用于存储提取的文本:
python
text_file = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt', 'w')
9. 将提取的全部文本写入目标TXT文件:
python
text_file.write(full_text)
10. 关闭已打开的TXT文件:
python
text_file.close()
提供机构:
SergioMadridF
原始信息汇总
数据集概述
数据集来源
- 文件名:RAC 1 - Definiciones.pdf
- 来源链接:[https://www.aerocivil.gov.co/normatividad/RAC/RAC 1 - Definiciones.pdf](https://www.aerocivil.gov.co/normatividad/RAC/RAC 1 - Definiciones.pdf)
数据处理
- 使用PyPDF2库从PDF文件中提取文本内容。
- 提取的文本内容保存为文本文件:RAC 1 - Definiciones.txt
存储位置
- 文本文件存储路径:/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt



