Marcos Ramírez BETA
Logo de Paperless-ngx para gestionar documentos

Paperless NGX: documentos digitales organizados y bajo control

· ⏱ 9+ min lectura

Este post forma parte de la serie Home Lab Hay un momento concreto en el que te das cuenta de que tienes un problema con el papel: cuando necesitas una factura de hace dos años y pasas veinte minutos buscándola en carpetas, cajones y descargas del correo, y aun así no aparece. Me ha pasado demasiadas veces. Paperless NGX resuelve eso.

Qué es Paperless NGX

Paperless NGX es un sistema de gestión de documentos de código abierto. Transforma tus documentos físicos en un archivo digital, totalmente local, sin suscripciones, sin servicios en la nube. Lo de “NGX” es porque es la versión nueva del proyecto original “Paperless”. El desarrollo sigue activo y la comunidad detrás es bastante seria.

Para qué sirve

Básicamente, para esto:

  • Escanear y digitalizar documentos
  • Hacer que sean buscables por texto completo (OCR)
  • Organizarlos por etiquetas, tipos, remitentes
  • Encontrar cualquier documento en segundos
  • Tener siempre una copia de seguridad

Características principales

OCR automático

Paperless NGX usa Tesseract para reconocer el texto de tus documentos. Escaneas PDFs, imágenes, lo que sea, y después puedes buscar por cualquier palabra. ¿El recibo de la luz de hace dos años? Lo encuentras en segundos. Sin abrir carpetas, sin recordar dónde lo guardaste.

Etiquetado automático

Creas las reglas una vez y Paperless lo hace solo. Por ejemplo: “si el documento contiene la palabra ‘factura’ y el importe es mayor de 500 euros, etiquétalo como gasto importante”. Y desde hace un tiempo usa aprendizaje automático para sugerir etiquetas basándose en cómo ya has clasificado documentos similares. Con el tiempo, prácticamente se clasifica solo.

Tipos de documentos

Clasifica por facturas, recibos, contratos, estados de cuenta, garantías. Lo que necesites.

Remitentes

Guarda quién envía o recibe cada documento: empresas, administración, particulares. Así puedes filtrar por remitente y ver todo lo que tienes de Hacienda, por ejemplo, de un golpe.

Búsqueda completa

Búsqueda por texto completo con autocompletado. Lo que sea, lo encuentras. Sin pensar dónde lo guardaste.

Procesamiento de correo electrónico

Paperless puede conectarse a tus cuentas de correo e importar documentos directamente. Configuras reglas para que procese los adjuntos de forma automática y los meta en el sistema sin que tengas que hacer nada.

Permisos multiusuario

Varios usuarios, cada uno con sus permisos. Puedes compartir documentos concretos sin dar acceso a todo el archivo.

Versiones de documentos

Si modificas un documento, Paperless guarda las versiones anteriores. Siempre puedes volver atrás.

Inteligencia Artificial integrada

Paperless NGX incluye funciones de Inteligencia Artificial. Puede sugerir etiquetas basándose en el contenido, hacer búsqueda semántica entre tus documentos e indexar para encontrar cosas relacionadas. Todo funciona en local si quieres, sin enviar nada a servidores externos.

Comparativa con alternativas

CaracterísticaPaperless NGXDropboxGoogle DriveEvernoteExpensify
PrecioGratis11,99 €/mes2,99 €/mes10,99 €/mes12 €/mes
Código abiertoNoNoNoNo
Datos localesNoNoNoNo
OCRLimitadoLimitado
Étiquetado automáticoNoNoLimitado
Privacidad totalNoNoNoNo

Dropbox

Dropbox es popular, pero tus documentos están en sus servidores. Pago mensual por espacio y sin control real sobre lo que tienen.

Google Drive

Google Drive viene con tu cuenta de Gmail. Es práctico, pero no es privado. Google indexa tus archivos. Si eso no te preocupa, bien, pero que sea una decisión consciente.

Evernote

Evernote está más orientado a notas que a documentos. El precio ha subido bastante en los últimos años y los datos siguen siendo suyos, no tuyos.

Expensify

Expensify está pensado para gastos empresariales. Excesivo para uso personal y con un coste que no tiene ningún sentido a nivel doméstico.

Por qué self-hosted importa

Tus documentos, tu privacidad

Los documentos contienen información muy sensible: datos personales, información financiera, datos médicos, contratos. ¿Por qué confiar eso a empresas? Con Paperless NGX, todo está en tu hardware. Nadie más tiene acceso. Y eso no es paranoia, es sentido común.

Sin suscripciones

No hay cuota mensual. Lo instalas una vez y ya está. Sin riesgo de que suban el precio, sin riesgo de que cierren el servicio, sin riesgo de que cambien las condiciones.

Búsqueda que funciona

El OCR integrado funciona offline. Buscas en tus documentos y aparece al instante. No depende de conexión a internet.

Formato PDF/A

Paperless guarda los documentos en formato PDF/A, diseñado específicamente para almacenamiento a largo plazo. Tus documentos aguantarán décadas sin perder legibilidad.

El proceso real: cómo meto documentos en Paperless NGX

Hay dos flujos principales: el papel físico y los documentos digitales que ya tienes.

Papel físico: escanear e importar

El flujo que más uso es este: escáner, PDF, carpeta de consumo. Paperless NGX tiene una carpeta especial que vigila constantemente. Cualquier archivo que dejes ahí lo procesa de forma automática: ejecuta el OCR, extrae el texto, aplica las reglas de clasificación y lo mete en el archivo. Con un escáner de documentos (tengo uno de los de alimentación automática, de esos que se comen la pila de papel entera), el proceso es: metes los papeles, le das al botón, el escáner genera el PDF directamente en la carpeta de consumo de red, y en menos de un minuto están indexados en Paperless con el texto extraído y las etiquetas aplicadas. Sin el escáner de alimentación automática también funciona, pero es más lento. Lo que no funciona es pretender digitalizarlo todo con el móvil, al menos no si tienes volumen. El OCR falla más con fotos que con PDFs bien escaneados.

OCR: cómo funciona y por qué importa

Tesseract (el motor OCR que usa Paperless) lee el contenido de cada documento y lo indexa. Esto significa que puedes buscar por cualquier palabra que aparezca en cualquier documento, aunque el documento sea un PDF escaneado, una imagen o un PDF generado directamente por un sistema. El resultado no es perfecto en documentos con tipografías raras o poco contraste, pero en facturas y documentos estándar (los que más necesitas encontrar) el reconocimiento es excelente. Tesseract soporta español sin configuración adicional, que es lo que más me importaba.

Documentos digitales: importación automática desde correo

La mayoría de mis facturas ya llegan por correo. Paperless NGX puede conectarse a una cuenta de email y procesar los adjuntos de forma automática. Configuras reglas: si el correo viene de la dirección de Endesa, etiqueta el adjunto como factura de luz y asígnalo al tipo Facturas. Y desde ese momento cada factura de la luz entra sola en el archivo. La primera vez que vi que la factura de la luz se había indexado sola, con el texto extraído y la etiqueta correcta, sin que yo hubiera hecho nada, fue un momento. Esas son las cosas que hacen que el Home Lab valga la pena.

Casos de uso concretos

Facturas: todas van con etiqueta del proveedor, tipo “Factura” y fecha extraída del contenido. Cuando Hacienda me pide justificar un gasto, busco el proveedor, filtro por año y en diez segundos tengo el PDF listo para adjuntar. Contratos: los de alquiler, los de servicios, los de trabajo. Con fechas de inicio y fin extraídas si el documento las incluye. Papeles que antes vivían en una carpeta de plástico que no encontraba cuando hacía falta. Documentación médica: informes, recetas, volantes. Indexados por fecha, buscables por el nombre del médico o del medicamento. Garantías: las de los electrodomésticos son las que peor gestionaba antes. Ahora tengo la garantía de cada aparato con el modelo y la fecha de compra en el nombre del documento, y sé cuándo vence. Documentos de administración: notificaciones de Hacienda, certificados de empadronamiento, documentos del catastro. Todo indexado y buscable.

Cómo organiza automáticamente

El sistema de reglas de Paperless funciona por condiciones sobre el contenido del documento. Puedes definir cosas como: “si el documento contiene ‘ENDESA’ en el texto, asigna el corresponsal ‘Endesa’ y la etiqueta ‘Energía’”. O “si el texto incluye ‘AGENCIA TRIBUTARIA’, asigna el tipo ‘Administración’ y la etiqueta ‘Hacienda’”. Con unas veinte reglas cubrí el 90% de los documentos que me llegan habitualmente. El 10% restante lo clasifico a mano cuando entro al panel, que tampoco son tantos. El aprendizaje automático de Paperless mejora las sugerencias con el tiempo. Cuantos más documentos tienes clasificados, mejor predice cómo clasificar los nuevos.

Instalación mediante LXC

La instalación recomendada en un Home Lab es mediante LXC:

curl -s -S -L https://raw.githubusercontent.com/paperless-ngx/paperless-ngx/main/install.sh | bash

O con Docker directamente si lo prefieres:

docker run -d \
  --name paperless-ngx \
  -e PAPERLESS_URL=https://tu-dominio.com \
  -v /ruta/a/datos:/data \
  -v /ruta/a/documentos:/consume \
  -p 8000:8000 \
  paperlessngx/paperless-ngx:latest

Requisitos

  • Un contenedor LXC con al menos 2 GB de RAM
  • Docker instalado
  • Almacenamiento suficiente para los documentos

Base de datos centralizada

Paperless NGX usa SQLite por defecto, pero puedes conectarlo a PostgreSQL para mejor rendimiento y copias de seguridad centralizadas. Si ya tienes una base de datos en el Home Lab, tiene todo el sentido aprovecharlo. Si te interesa esta configuración, escríbeme y te ayudo con los detalles específicos.

Cuándo elegir qué

Elige Paperless NGX si:

  • Quieres control total sobre tus documentos
  • Necesitas OCR y búsqueda avanzada
  • No quieres pagar suscripciones
  • Ya tienes un Home Lab funcionando
  • Valoras tu privacidad

Elige Dropbox o Google Drive si:

  • Necesitas compartir documentos con otros frecuentemente
  • No te importa que las empresas tengan tus datos
  • Quieres sincronización automática sin mantener nada

Elige Evernote si:

  • Solo necesitas tomar notas
  • No te importa pagar por funcionalidades básicas

Compártelo si te ha resultado útil. ¿Tienes montones de papel acumulado y no sabes por dónde empezar? Cuéntame. Y… hasta aquí por hoy!

Artículos relacionados

Logo de Immich para gestionar fotos privadas

Immich: tus fotos privadas en el servidor, sin suscripción

Immich es la alternativa de código abierto a Google Photos para gestionar tus fotos en tu propio servidor. Sin suscripción, con reconocimiento facial local, búsqueda por Inteligencia Artificial, mapas GPS y álbumes compartidos. Backup automático desde iOS y Android, tú controlas tus recuerdos más privados.

08:30 7 min Marcos Ramírez Lucía
Logo de AdGuard Home bloqueando anuncios

AdGuard Home: tu propio bloqueador de publicidad y el DNS

AdGuard Home es un bloqueador de publicidad y rastreadores a nivel de red que funciona como DNS interceptivo. Protege todos los dispositivos sin instalar nada en cada uno, bloqueando publicidad, trackers, phishing y contenido adulto. Usa listas como EasyList y permite añadir tus propias para bloquear redes sociales y TikTok. Corre ligero en LXC con 512MB RAM.

08:30 7 min Marcos Ramírez Lucía