Cómo comprimir un PDF escaneado para reducir su tamaño
Los PDFs escaneados son los archivos PDF más grandes que existen, y también los que más potencial tienen de reducción de tamaño. Un escáner típico configurado en 300 DPI a color puede generar imágenes de 5-15 MB por página. Un documento de 20 páginas puede llegar a pesar 200-300 MB, lo que hace imposible enviarlo por correo electrónico o subirlo a cualquier plataforma con límites normales. La razón de este tamaño extremo es que un PDF escaneado no contiene texto — contiene imágenes fotográficas de páginas de papel. Cada página es literalmente una foto del documento físico, almacenada sin comprimir o con compresión mínima. La buena noticia es que comprimir estas imágenes puede reducir el tamaño del archivo en un 80-95% con una pérdida de calidad apenas perceptible para lectura en pantalla. En esta guía veremos las técnicas específicas para comprimir PDFs escaneados, que son diferentes a las que se usan con PDFs generados digitalmente. También cubriremos cómo combinar compresión con OCR para obtener un PDF de texto buscable que además sea ligero.
Comprimir un PDF escaneado con LazyPDF
LazyPDF utiliza Ghostscript en el servidor para comprimir PDFs escaneados, lo que permite reducciones drásticas de tamaño manteniendo la legibilidad.
- 1Abre LazyPDF y selecciona 'Comprimir PDF'.
- 2Sube tu PDF escaneado — puede tardar más que los PDFs normales si es muy grande.
- 3Selecciona el nivel de compresión 'Alta compresión' para obtener la máxima reducción.
- 4Haz clic en 'Comprimir PDF' y espera el procesamiento (puede tardar 1-3 minutos para documentos escaneados grandes).
- 5Descarga el resultado y verifica que el texto sigue siendo legible al 100% de zoom.
- 6Compara el tamaño antes y después para verificar la reducción obtenida.
Comprimir PDFs escaneados en blanco y negro (documentos de texto)
Los documentos escaneados en blanco y negro (cartas, contratos, formularios) pueden comprimirse todavía más que los escaneados en color, usando compresión JBIG2 o compresión de umbralización binaria. Con Ghostscript, el siguiente comando es especialmente efectivo para PDFs escaneados en blanco y negro: ```bash gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 \ -dPDFSETTINGS=/screen \ -dNOPAUSE -dQUIET -dBATCH \ -sColorConversionStrategy=Gray \ -dProcessColorModel=/DeviceGray \ -sOutputFile=resultado_bw.pdf escaneado.pdf ``` Este comando convierte las imágenes en color escaneadas a escala de grises y aplica la máxima compresión. Para un documento que solo tiene texto en papel blanco, esto puede reducir el tamaño en un 95% o más. Alternativamente, si el original se escaneó en color pero el contenido es texto negro sobre papel blanco, convertir a escala de grises reduce el tamaño a una tercera parte (los datos de color son 3 veces más grandes que los de escala de grises) antes de aplicar cualquier compresión adicional.
Combinar compresión con OCR para resultados óptimos
Además de comprimir el PDF escaneado, aplicar OCR (reconocimiento óptico de caracteres) tiene dos ventajas adicionales: 1. Hace el PDF buscable: puedes usar Ctrl+F para buscar palabras dentro del documento, lo que es invaluable para documentos largos. 2. Permite hacer más pequeño el resultado: los motores de OCR modernos como Tesseract pueden generar una capa de texto invisible sobre las imágenes, y herramientas avanzadas como pdf2searchable pueden comprimir las imágenes de fondo agresivamente mientras mantienen el texto OCR perfectamente legible. El flujo de trabajo óptimo para documentos escaneados es: 1. Aplicar OCR con LazyPDF para hacer el texto buscable 2. Comprimir el resultado con LazyPDF o Ghostscript para reducir el tamaño de las imágenes de fondo Este proceso puede producir PDFs de 10-20 veces más pequeños que el original, completamente buscables y con texto que se puede copiar y pegar.
Factores que afectan el resultado de la compresión en escaneados
No todos los PDFs escaneados se comprimen igual. Estos factores influyen en el resultado: Resolución original del escáner: un escáner a 600 DPI produce imágenes 4 veces más grandes que uno a 300 DPI. La reducción a 72-150 DPI es mucho más significativa desde 600 DPI que desde 300 DPI. Color vs. escala de grises: un escáner en color produce imágenes 3 veces más grandes que en escala de grises para el mismo contenido. Si el documento no tiene color significativo (texto negro, algunos gráficos simples), reescanearlo en escala de grises o blanco y negro antes de comprimir da mejores resultados. Calidad del papel y del original: papeles amarillentos, documentos con manchas o fondos con textura dificultan la compresión porque el algoritmo no puede simplificar el ruido de fondo tan efectivamente como una página blanca y limpia. Cantidad de imágenes vs. texto: las páginas con mucho texto en negro sobre fondo blanco se comprimen mucho mejor que las páginas con fotografías o gráficos en color.
Preguntas frecuentes
¿Un PDF escaneado de 100 páginas puede bajar de 200 MB a 20 MB?
Sí, es completamente posible y es un resultado realista para documentos de texto escaneados a 300 DPI o más. La compresión de Ghostscript con nivel /screen o /ebook puede reducir escaneados de documentos de texto (texto negro sobre fondo blanco) en un 85-95%. Para escaneados en color con mucho contenido visual, la reducción puede ser del 70-85%. Para llegar a menos de 20 MB desde 200 MB, usa el nivel /screen y compresión en escala de grises si el documento no tiene color importante.
¿La compresión de PDFs escaneados afecta al OCR ya aplicado?
Depende del tipo de OCR. Si el OCR está almacenado como texto invisible sobre las imágenes (el método estándar), la compresión solo afecta a las imágenes de fondo, preservando la capa de texto OCR intacta. Después de comprimir, el PDF seguirá siendo buscable. Si el PDF fue creado con un motor OCR que convirtió las imágenes a texto vectorial, la compresión prácticamente no afectará al resultado.
¿Cuál es la resolución mínima aceptable para un escaneado comprimido?
Para lectura en pantalla, 72-96 DPI es suficiente para que el texto sea legible. Para impresión ocasional de baja calidad (impresoras domésticas), 120-150 DPI produce resultados aceptables. Para impresión de calidad media (documentos de oficina), 200-300 DPI es necesario. La resolución mínima absoluta para que el texto sea legible en cualquier escenario razonable es 72 DPI — por debajo de este valor, el texto puede verse borroso en pantalla.