Generation

generate functionSat, 18 Jan 2025

Automáticamente, me renombrara dicho archivo PDF, con MOD 145 - y con el primer DNI que encuentre y el nombre dentro del archivo, por ejemplo, me gustaría que lo renombrará el archivo poniendo MOD 145 - JIMENEZ CRISOL JUAN JOSE - 31726253F. que son las palabras encontradas en la OCR, puede ser que haya más, pero a mi me interesan esas. Esta es la ruta: C:/Users/a3software/Desktop/MOD 145 JUAN JOSE JIMENEZ CRISOL.pdf

Puedes utilizar la biblioteca `PyPDF2` para leer el contenido del archivo PDF y `re` para buscar las palabras que deseas. Luego, puedes utilizar la función `os` para renombrar el archivo. Aquí te muestro un ejemplo de código que hace lo que necesitas: ```python import PyPDF2 import re import os # Ruta del archivo PDF ruta_archivo = 'C:/Users/a3software/Desktop/MOD 145 JUAN JOSE JIMENEZ CRISOL.pdf' # Abrir el archivo PDF pdf_file_obj = open(ruta_archivo, 'rb') # Crear un objeto PyPDF2 pdf_reader = PyPDF2.PdfReader(pdf_file_obj) # Buscar las palabras en el contenido del archivo contenido = '' for page in pdf_reader.pages: contenido += page.extract_text() palabras = re.findall(r'\b[A-Z][a-z]+ [A-Z][a-z]+ [A-Z][a-z]+\b', contenido) palabras += re.findall(r'\b[A-Z][a-z]+ [A-Z][a-z]+ [A-Z][a-z]+ [A-Z][a-z]+\b', contenido) # Extraer el primer DNI que encuentre dni = re.search(r'\b\d{8}[A-Z]\b', contenido) if dni: dni = dni.group() else: dni = 'No se encontró DNI' # Renombrar el archivo nombre_archivo = os.path.basename(ruta_archivo) nombre_archivo = nombre_archivo.replace('.pdf', '') nombre_archivo = f'MOD 145 - {palabras[0]} - {dni}' ruta_nuevo_archivo = os.path.join(os.path.dirname(ruta_archivo), nombre_archivo + '.pdf') os.rename(ruta_archivo, ruta_nuevo_archivo) print(f'Archivo renombrado a {ruta_nuevo_archivo}') ``` Este código busca las palabras en el contenido del archivo PDF utilizando expresiones regulares, extrae el primer DNI que encuentre y renombra el archivo con el nombre que deseas. Ten en cuenta que este código asume que el contenido del archivo PDF se puede leer correctamente utilizando `PyPDF2`. Si el archivo PDF tiene problemas de OCR o la calidad de la imagen es baja, es posible que el contenido no se pueda leer correctamente. También ten en cuenta que este código busca palabras en el contenido del archivo PDF utilizando expresiones regulares. Si el contenido del archivo PDF tiene un formato diferente a lo que se espera, es posible que el código no funcione correctamente.

Questions about programming?Chat with your personal AI assistant