Cómo realizar OCR en PDF
El Reconocimiento Óptico de Caracteres (OCR) te permite extraer texto editable de imágenes o documentos PDF escaneados. Con Tenorshare PDNob, puedes realizar fácilmente OCR en archivos PDF para hacerlos buscables y editables. Esta guía proporciona un tutorial sencillo, paso a paso, sobre cómo instalar la función de OCR y usarla en tus PDFs.
1. ¿Qué es OCR?
OCR (Reconocimiento Óptico de Caracteres) es una tecnología que convierte imágenes escaneadas o archivos PDF basados en imágenes en texto editable y buscable. Es especialmente útil cuando se trata de documentos escaneados o materiales impresos en forma digital.
2. Descargar e instalar OCR
- Inicia Tenorshare PDNob en tu computadora.
- En la interfaz principal, haz clic en "OCR PDF".
- Selecciona los archivos que deseas de tu computadora, luego haz clic en "Abrir" para cargarlos en PDNob.
- Haz clic en el botón de "Descargar" para descargar la funcionalidad de OCR si se te solicita.
3. Cómo realizar OCR en PDFs
- Una vez que la función de OCR esté instalada, haz clic en "OCR" en la barra de herramientas superior para iniciar el proceso de OCR.
- Se abrirá una ventana de configuración. Revisa los ajustes según sea necesario, luego haz clic en "Realizar OCR" para comenzar el proceso de reconocimiento de caracteres.
- Después de que el OCR esté realizado, podrás copiar y usar el texto extraído del PDF.
4. Configuración avanzada de OCR (compatible con PDNob 2.0)
PDNob 2.0 presenta la configuración avanzada de OCR, que permite a los usuarios optimizar los resultados del reconocimiento. Activar estas opciones puede mejorar la precisión, aunque es posible que reduzca la velocidad de procesamiento del OCR.
Para acceder a estas opciones, abre el panel de configuración de OCR y haz clic en "Configuración avanzada". Desde allí, puedes activar o desactivar funciones específicas de procesamiento de imágenes y detección de texto. Consulta la captura de pantalla a continuación para ver la ubicación exacta de esta entrada.
Aprende más sobre estas configuraciones en esta sección.
- Recortar página automáticamente: Detecta automáticamente el área de contenido válido en la imagen y recorta los bordes innecesarios, haciendo la página más compacta y mejorando la precisión del reconocimiento OCR.
- Enderezar página automáticamente: Corrige automáticamente las páginas inclinadas basándose en la orientación del texto en la imagen, alineando el texto horizontalmente y mejorando la precisión del reconocimiento OCR.
- Mejorar contraste local: Mejora el contraste y la nitidez en áreas locales de la imagen para aumentar la claridad del texto borroso y elevar la tasa de éxito del OCR. Esto puede afectar ligeramente los colores originales.
- Eliminar manchas oscuras: Detecta y elimina automáticamente pequeños puntos de ruido oscuro en la imagen, dejando la página más limpia y mejorando la pulcritud de los resultados del OCR.
- Eliminar ruido: Filtra motas blancas y otro ruido en la imagen, reduciendo interferencias y definiendo los bordes del texto para mejorar la calidad del reconocimiento OCR.
- Detectar texto en imágenes: Cuando está activada, el OCR también reconocerá y extraerá texto de las regiones de imagen, capturando contenido textual incrustado en las figuras.