five

SergioMadridF/prueba

收藏
Hugging Face2023-05-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/SergioMadridF/prueba
下载链接
链接失效反馈
官方服务:
资源简介:
!pip install PyPDF2 import PyPDF2 archivo_pdf = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.pdf', 'rb') lector_pdf = PyPDF2.PdfReader(archivo_pdf) contenido_texto = "" for pagina in lector_pdf.pages: contenido_texto += pagina.extract_text() archivo_pdf.close() archivo_texto = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt', 'w') archivo_texto.write(contenido_texto) archivo_texto.close()

### 数据集文本提取脚本 本脚本用于从指定路径的PDF文件中提取全文本并保存为TXT格式文件,具体实现步骤如下: 1. 安装依赖库:执行以下命令安装PyPDF2库 bash !pip install PyPDF2 2. 导入PyPDF2库: python import PyPDF2 3. 以二进制只读模式打开目标PDF文件: python pdf_file = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.pdf', 'rb') 4. 初始化PyPDF2的PDF阅读器对象,关联已打开的PDF文件: python pdf_reader = PyPDF2.PdfReader(pdf_file) 5. 初始化空字符串变量,用于存储提取的全部文本内容: python full_text = "" 6. 遍历PDF文件的所有页面,提取每页文本并追加至存储变量中: python for page in pdf_reader.pages: full_text += page.extract_text() 7. 关闭已打开的PDF文件: python pdf_file.close() 8. 以写入模式打开目标TXT文件,用于存储提取的文本: python text_file = open('/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt', 'w') 9. 将提取的全部文本写入目标TXT文件: python text_file.write(full_text) 10. 关闭已打开的TXT文件: python text_file.close()
提供机构:
SergioMadridF
原始信息汇总

数据集概述

数据集来源

  • 文件名:RAC 1 - Definiciones.pdf
  • 来源链接:[https://www.aerocivil.gov.co/normatividad/RAC/RAC 1 - Definiciones.pdf](https://www.aerocivil.gov.co/normatividad/RAC/RAC 1 - Definiciones.pdf)

数据处理

  • 使用PyPDF2库从PDF文件中提取文本内容。
  • 提取的文本内容保存为文本文件:RAC 1 - Definiciones.txt

存储位置

  • 文本文件存储路径:/content/drive/MyDrive/FULL-Seminario/Proyectos/rac_gpt/notebooks/pruebas/https___www.aerocivil.gov.co_normatividad_RAC_RAC 1 - Definiciones.txt
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作