Paperless NGX: documentos digitales organizados y bajo control
Este post forma parte de la serie Home Lab Hay un momento concreto en el que te das cuenta de que tienes un problema con el papel: cuando necesitas una factura de hace dos años y pasas veinte minutos buscándola en carpetas, cajones y descargas del correo, y aun así no aparece. Me ha pasado demasiadas veces. Paperless NGX resuelve eso.
Qué es Paperless NGX
Paperless NGX es un sistema de gestión de documentos de código abierto. Transforma tus documentos físicos en un archivo digital, totalmente local, sin suscripciones, sin servicios en la nube. Lo de “NGX” es porque es la versión nueva del proyecto original “Paperless”. El desarrollo sigue activo y la comunidad detrás es bastante seria.
Para qué sirve
Básicamente, para esto:
- Escanear y digitalizar documentos
- Hacer que sean buscables por texto completo (OCR)
- Organizarlos por etiquetas, tipos, remitentes
- Encontrar cualquier documento en segundos
- Tener siempre una copia de seguridad
Características principales
OCR automático
Paperless NGX usa Tesseract para reconocer el texto de tus documentos. Escaneas PDFs, imágenes, lo que sea, y después puedes buscar por cualquier palabra. ¿El recibo de la luz de hace dos años? Lo encuentras en segundos. Sin abrir carpetas, sin recordar dónde lo guardaste.
Etiquetado automático
Creas las reglas una vez y Paperless lo hace solo. Por ejemplo: “si el documento contiene la palabra ‘factura’ y el importe es mayor de 500 euros, etiquétalo como gasto importante”. Y desde hace un tiempo usa aprendizaje automático para sugerir etiquetas basándose en cómo ya has clasificado documentos similares. Con el tiempo, prácticamente se clasifica solo.
Tipos de documentos
Clasifica por facturas, recibos, contratos, estados de cuenta, garantías. Lo que necesites.
Remitentes
Guarda quién envía o recibe cada documento: empresas, administración, particulares. Así puedes filtrar por remitente y ver todo lo que tienes de Hacienda, por ejemplo, de un golpe.
Búsqueda completa
Búsqueda por texto completo con autocompletado. Lo que sea, lo encuentras. Sin pensar dónde lo guardaste.
Procesamiento de correo electrónico
Paperless puede conectarse a tus cuentas de correo e importar documentos directamente. Configuras reglas para que procese los adjuntos de forma automática y los meta en el sistema sin que tengas que hacer nada.
Permisos multiusuario
Varios usuarios, cada uno con sus permisos. Puedes compartir documentos concretos sin dar acceso a todo el archivo.
Versiones de documentos
Si modificas un documento, Paperless guarda las versiones anteriores. Siempre puedes volver atrás.
Inteligencia Artificial integrada
Paperless NGX incluye funciones de Inteligencia Artificial. Puede sugerir etiquetas basándose en el contenido, hacer búsqueda semántica entre tus documentos e indexar para encontrar cosas relacionadas. Todo funciona en local si quieres, sin enviar nada a servidores externos.
Comparativa con alternativas
| Característica | Paperless NGX | Dropbox | Google Drive | Evernote | Expensify |
|---|---|---|---|---|---|
| Precio | Gratis | 11,99 €/mes | 2,99 €/mes | 10,99 €/mes | 12 €/mes |
| Código abierto | Sí | No | No | No | No |
| Datos locales | Sí | No | No | No | No |
| OCR | Sí | Limitado | Limitado | Sí | Sí |
| Étiquetado automático | Sí | No | No | Limitado | Sí |
| Privacidad total | Sí | No | No | No | No |
Dropbox
Dropbox es popular, pero tus documentos están en sus servidores. Pago mensual por espacio y sin control real sobre lo que tienen.
Google Drive
Google Drive viene con tu cuenta de Gmail. Es práctico, pero no es privado. Google indexa tus archivos. Si eso no te preocupa, bien, pero que sea una decisión consciente.
Evernote
Evernote está más orientado a notas que a documentos. El precio ha subido bastante en los últimos años y los datos siguen siendo suyos, no tuyos.
Expensify
Expensify está pensado para gastos empresariales. Excesivo para uso personal y con un coste que no tiene ningún sentido a nivel doméstico.
Por qué self-hosted importa
Tus documentos, tu privacidad
Los documentos contienen información muy sensible: datos personales, información financiera, datos médicos, contratos. ¿Por qué confiar eso a empresas? Con Paperless NGX, todo está en tu hardware. Nadie más tiene acceso. Y eso no es paranoia, es sentido común.
Sin suscripciones
No hay cuota mensual. Lo instalas una vez y ya está. Sin riesgo de que suban el precio, sin riesgo de que cierren el servicio, sin riesgo de que cambien las condiciones.
Búsqueda que funciona
El OCR integrado funciona offline. Buscas en tus documentos y aparece al instante. No depende de conexión a internet.
Formato PDF/A
Paperless guarda los documentos en formato PDF/A, diseñado específicamente para almacenamiento a largo plazo. Tus documentos aguantarán décadas sin perder legibilidad.
El proceso real: cómo meto documentos en Paperless NGX
Hay dos flujos principales: el papel físico y los documentos digitales que ya tienes.
Papel físico: escanear e importar
El flujo que más uso es este: escáner, PDF, carpeta de consumo. Paperless NGX tiene una carpeta especial que vigila constantemente. Cualquier archivo que dejes ahí lo procesa de forma automática: ejecuta el OCR, extrae el texto, aplica las reglas de clasificación y lo mete en el archivo. Con un escáner de documentos (tengo uno de los de alimentación automática, de esos que se comen la pila de papel entera), el proceso es: metes los papeles, le das al botón, el escáner genera el PDF directamente en la carpeta de consumo de red, y en menos de un minuto están indexados en Paperless con el texto extraído y las etiquetas aplicadas. Sin el escáner de alimentación automática también funciona, pero es más lento. Lo que no funciona es pretender digitalizarlo todo con el móvil, al menos no si tienes volumen. El OCR falla más con fotos que con PDFs bien escaneados.
OCR: cómo funciona y por qué importa
Tesseract (el motor OCR que usa Paperless) lee el contenido de cada documento y lo indexa. Esto significa que puedes buscar por cualquier palabra que aparezca en cualquier documento, aunque el documento sea un PDF escaneado, una imagen o un PDF generado directamente por un sistema. El resultado no es perfecto en documentos con tipografías raras o poco contraste, pero en facturas y documentos estándar (los que más necesitas encontrar) el reconocimiento es excelente. Tesseract soporta español sin configuración adicional, que es lo que más me importaba.
Documentos digitales: importación automática desde correo
La mayoría de mis facturas ya llegan por correo. Paperless NGX puede conectarse a una cuenta de email y procesar los adjuntos de forma automática. Configuras reglas: si el correo viene de la dirección de Endesa, etiqueta el adjunto como factura de luz y asígnalo al tipo Facturas. Y desde ese momento cada factura de la luz entra sola en el archivo. La primera vez que vi que la factura de la luz se había indexado sola, con el texto extraído y la etiqueta correcta, sin que yo hubiera hecho nada, fue un momento. Esas son las cosas que hacen que el Home Lab valga la pena.
Casos de uso concretos
Facturas: todas van con etiqueta del proveedor, tipo “Factura” y fecha extraída del contenido. Cuando Hacienda me pide justificar un gasto, busco el proveedor, filtro por año y en diez segundos tengo el PDF listo para adjuntar. Contratos: los de alquiler, los de servicios, los de trabajo. Con fechas de inicio y fin extraídas si el documento las incluye. Papeles que antes vivían en una carpeta de plástico que no encontraba cuando hacía falta. Documentación médica: informes, recetas, volantes. Indexados por fecha, buscables por el nombre del médico o del medicamento. Garantías: las de los electrodomésticos son las que peor gestionaba antes. Ahora tengo la garantía de cada aparato con el modelo y la fecha de compra en el nombre del documento, y sé cuándo vence. Documentos de administración: notificaciones de Hacienda, certificados de empadronamiento, documentos del catastro. Todo indexado y buscable.
Cómo organiza automáticamente
El sistema de reglas de Paperless funciona por condiciones sobre el contenido del documento. Puedes definir cosas como: “si el documento contiene ‘ENDESA’ en el texto, asigna el corresponsal ‘Endesa’ y la etiqueta ‘Energía’”. O “si el texto incluye ‘AGENCIA TRIBUTARIA’, asigna el tipo ‘Administración’ y la etiqueta ‘Hacienda’”. Con unas veinte reglas cubrí el 90% de los documentos que me llegan habitualmente. El 10% restante lo clasifico a mano cuando entro al panel, que tampoco son tantos. El aprendizaje automático de Paperless mejora las sugerencias con el tiempo. Cuantos más documentos tienes clasificados, mejor predice cómo clasificar los nuevos.
Instalación mediante LXC
La instalación recomendada en un Home Lab es mediante LXC:
curl -s -S -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install.sh | bash
O con Docker directamente si lo prefieres:
docker run -d \
--name paperless-ngx \
-e PAPERLESS_URL=https://tu-dominio.com \
-v /ruta/a/datos:/data \
-v /ruta/a/documentos:/consume \
-p 8000:8000 \
paperlessngx/paperless-ngx:latest
Requisitos
- Un contenedor LXC con al menos 2 GB de RAM
- Docker instalado
- Almacenamiento suficiente para los documentos
Base de datos centralizada
Paperless NGX usa SQLite por defecto, pero puedes conectarlo a PostgreSQL para mejor rendimiento y copias de seguridad centralizadas. Si ya tienes una base de datos en el Home Lab, tiene todo el sentido aprovecharlo. Si te interesa esta configuración, escríbeme y te ayudo con los detalles específicos.
Cuándo elegir qué
Elige Paperless NGX si:
- Quieres control total sobre tus documentos
- Necesitas OCR y búsqueda avanzada
- No quieres pagar suscripciones
- Ya tienes un Home Lab funcionando
- Valoras tu privacidad
Elige Dropbox o Google Drive si:
- Necesitas compartir documentos con otros frecuentemente
- No te importa que las empresas tengan tus datos
- Quieres sincronización automática sin mantener nada
Elige Evernote si:
- Solo necesitas tomar notas
- No te importa pagar por funcionalidades básicas
Compártelo si te ha resultado útil. ¿Tienes montones de papel acumulado y no sabes por dónde empezar? Cuéntame. Y… hasta aquí por hoy!
Artículos relacionados
Firefly III: finanzas personales en tu servidor sin suscripciones
Firefly III es un gestor de finanzas personales de código abierto con contabilidad de doble entrada, presupuestación y reglas automáticas. Instálalo en tu Home Lab conectado a tu base de datos centralizada y olvídate de suscripciones como YNAB.
Immich: tus fotos privadas en el servidor, sin suscripción
Immich es la alternativa de código abierto a Google Photos para gestionar tus fotos en tu propio servidor. Sin suscripción, con reconocimiento facial local, búsqueda por Inteligencia Artificial, mapas GPS y álbumes compartidos. Backup automático desde iOS y Android, tú controlas tus recuerdos más privados.
AdGuard Home: tu propio bloqueador de publicidad y el DNS
AdGuard Home es un bloqueador de publicidad y rastreadores a nivel de red que funciona como DNS interceptivo. Protege todos los dispositivos sin instalar nada en cada uno, bloqueando publicidad, trackers, phishing y contenido adulto. Usa listas como EasyList y permite añadir tus propias para bloquear redes sociales y TikTok. Corre ligero en LXC con 512MB RAM.