Uno de los formatos de archivo más utilizados es el Formato de Documento Portátil (PDF) desde su creación en 1993. Es una forma de enviar documentos únicamente de lectura que conservan la estructura de un texto. Aunque es uno de los formatos de documento más comunes, mucha gente no sabe que en realidad hay muchos tipos diferentes de archivos PDF, uno de los más importantes para el archivado a largo plazo es PDF/A. El estándar PDF/A nació en el 2005 y tiene algunas ventajas sobre los documentos PDF estándar. En este blog te contaremos más sobre qué es PDF/A, qué versiones hay y cuáles son sus ventajas.
¿Necesitas que tus documentos PDF tengan capacidad de búsqueda? ¿Quieres saber más sobre PDF/A? Siéntate y sigue leyendo, te lo contaremos todo:
¿Qué significa PDF/A?
PDF/A es una versión del PDF estandarizada por ISO, hecha a medida para el archivo y la conservación a largo plazo de documentos electrónicos. La A, en realidad, significa “Archivado”.
Los estándares ISO son acordados por expertos que describen la mejor manera de hacer algo. Identifican una serie de características de los documentos electrónicos que garantizan que puedan reproducirse exactamente de la misma manera con distintos programas informáticos, ahora y en el futuro. Esto es algo que los documentos PDF normales no pueden garantizar y, por tanto, los PDF normales pueden ser un problema para el cumplimiento de las regulaciones en el almacenamiento de datos a largo plazo.
Un elemento clave es que los documentos PDF/A son 100% autocontenidos. Todos los metadatos están incrustados en el archivo y esto incluye todo el contenido (texto, imágenes rasterizadas y gráficos vectoriales), fuentes e información sobre colores. Un documento PDF/A no puede depender de datos procedentes de fuentes externas (programas de fuentes y flujos de datos), pero puede incluir hiperenlaces a documentos externos. PDF/A bloquea características inadecuadas para el archivado a largo plazo, como la vinculación de fuentes y la encriptación.
PDF/A tiene muchas variaciones diferentes, creadas al mezclar distintos estándares PDF/A y niveles de conformidad. Cada estándar PDF/A tiene una combinación diferente de características disponibles y tecnologías de compresión de imágenes que ayudan a conservar el contenido.
¿Qué versiones de PDF/A existen?
La primera parte del estándar se publicó en el 2005 y constaba de dos niveles:
PDF/A-1b – Nivel B (básico) de conformidad
PDF/A-1a – Nivel A (accesible) de conformidad
PDF/A-2u – Nivel U (unicode) de conformidad
El nivel B es el menos complejo y suele utilizarse para archivar. El nivel A conlleva algunos requisitos adicionales que lo hacen más adecuado para las personas con discapacidad visual y más fácil de buscar. La desventaja es que no siempre es posible crear un documento de nivel A a partir de una fuente específica y lleva más tiempo (es más complicado) crear documentos PDF/A-1a. A continuación presentamos los requisitos adicionales del Nivel A:
- Especificación del idioma
- Estructura jerárquica del documento
- Espacios de texto etiquetados y texto descriptivo para imágenes y símbolos
Dado que la tecnología mejora rápidamente, se han desarrollado nuevas versiones de PDF/A a lo largo del tiempo. PDF/A-1 es el estándar PDF/A original, el más utilizado y el más restrictivo. Como se basa en un estándar PDF más antiguo, PDF 1.4, no admite JPEG 2000, archivos adjuntos ni niveles. La conformidad con el nivel A pretendía aumentar la accesibilidad de los usuarios con discapacidades físicas al permitir que el software de apoyo, como los lectores de pantalla, interpretara mejor el contenido de un archivo.
PDF/A-2
La segunda parte de este estándar se publicó en el 2011. Los archivos PDF/A-1 no son necesariamente conformes con PDF/A-2 y viceversa. Esta parte contiene las siguientes características nuevas y ahora se utiliza habitualmente:
- Firmas digitales
- Compresión de imágenes JPEG 2000 y JBIG2
- Efectos de transparencia y capas
- Opción de archivar conjuntos de documentos en un único archivo
- Incorporación de fuentes OpenType
- El nivel de conformidad u (Unicode) permite buscar y copiar texto de forma fiable, sin que el archivo tenga que cumplir otros requisitos de nivel a.
El nivel U (Unicode) se introdujo junto con PDF/A-2 y proporciona asignaciones de caracteres a Unicode.
PDF/A-3
La parte 3 tiene una nueva característica: permite cualquier formato de archivo (XML, CSV, CAD, Word, Excel, etc.) como archivo adjunto, pero aún no se ha generalizado.
PDF/A-4
Se espera que la cuarta parte se publique en algún momento de este año (2020).
¿Cuáles son los beneficios de PDF/A?
Existen muchas ventajas al utilizar PDF/A en lugar de, por ejemplo, el formato de archivo PDF tradicional. Para no alargar demasiado este blog, enumeraremos las que creemos que son las cinco más importantes.
1 – Los documentos PDF/A permiten realizar búsquedas de texto: La respuesta a los dolores de cabeza de mucha gente: Los documentos PDF/A permiten realizar búsquedas completas. Esta característica puede ayudar a ahorrar numerosas horas de trabajo manual. El texto se conserva en el documento, incluso el texto extraído con reconocimiento óptico de caracteres (OCR). El archivo PDF/A guarda tanto el texto extraído como la imagen escaneada.
2 – PDF/A ocupa poco espacio de almacenamiento: Aunque los documentos PDF/A contienen más información que las imágenes (como TIFF), los archivos PDF/A suelen ser más pequeños gracias al uso de algoritmos de compresión eficientes.
3 – Los documentos PDF/A son válidos para siempre: Los documentos PDF/A existentes no necesitan migrarse cuando el comité ISO introduce nuevas modificaciones en los estándares. Siempre seguirán siendo conformes porque la ISO no puede retirar el estándar PDF/A. Esto te garantiza que tienes un archivo de documentos seguro y utilizable y que no perderás ningún dato ni dejarás de cumplir la norma.
4 – Las firmas digitales garantizan la seguridad: La combinación de PDF/A con firmas digitales garantiza que los documentos PDF no han sido alterados y que son auténticos. Para el archivado a largo plazo, esto significa una seguridad legal óptima.
5- Los PDF/A son ampliamente aceptados: En Europa y Asia, PDF/A ya es ampliamente utilizado para el archivado a largo plazo, tanto por gobiernos como por organizaciones y empresas. La demanda de este estándar está creciendo en Norteamérica en determinadas ramas. La Asociación PDF es muy importante en el apoyo al PDF/A.
Archivos conforme a los estándares PDF/A y GDPR
Podemos hablar de beneficios todo lo que queramos, pero también debemos tener en cuenta las restricciones legales. El 25 de mayo de 2018 entró en vigor el Reglamento General de Protección de Datos (GDPR) de la UE, la primera ley global de protección de datos. El objetivo del reglamento es respetar la privacidad de las personas y ser transparentes como organización, pero también garantizar la libre circulación de datos en el mercado interno Europeo.
El cumplimiento del GDPR se aplica a las empresas de la UE y a las de Canadá y Estados Unidos que trabajan con datos personales de ciudadanos de la UE. Básicamente significa que cuando se piden y guardan datos personales de clientes, es necesario contar con su consentimiento y no guardar los datos más tiempo del necesario. Estos datos podrían estar en cualquier parte y ya podrían estar en tus archivos, pero es posible que no lo sepas porque tu archivo no es digital o no permite búsquedas.
La conversión o creación de archivos PDF/A con capacidad de búsqueda es, por tanto, muy importante para garantizar archivos conformes con el GDPR. Combinando esto con la anonimización o seudonimización automatizada, tendrás la seguridad de que solo almacenas los datos correctos. Entonces, ¿cómo se cumple con el GDPR?
1 – Convierte cualquier documento impreso a archivos digitales
2 – Haz que tus PDFs sean aptos para búsquedas (más abajo encontrarás información sobre cómo Klippa puede ayudarte a conseguir esto)
3 – Identifica y anonimiza todos los datos confidenciales que no estás autorizado a almacenar
4 – Utiliza el formato PDF/A para archivar de forma segura a largo plazo
Casos de uso frecuentes de PDF/A
A continuación encontrarás algunos ejemplos de casos de uso:
Digitalización: Compañías de seguros que quieren deshacerse de las facturas impresas y crear un archivo digital para poder buscarlas rápidamente cuando sea necesario, mejorando así la productividad.
Documentos digitales: Estudios de abogados que desean convertir sus documentos legales a PDF/A para archivarlos y cumplir con las regulaciones.
Facilidad de búsqueda: Asegurarte de convertir todos tus documentos y PDFs a PDFs con capacidad de búsqueda hará que sea mucho más fácil y lleve menos tiempo encontrar datos en tus archivos.
Documentación: Los bancos que ofrecen un nuevo servicio pueden hacer referencia a los términos y condiciones exactos de los servicios antiguos.
Colaboración: Ingenieros que comparten borradores de un documento y almacenan la versión final en PDF/A para que sea accesible a largo plazo.
Correo electrónico/correo: Proveedores de servicios de salud que desean archivar automáticamente todas las comunicaciones con los pacientes para acceder a ellas rápidamente.
Cómo crear PDF/A y PDFs con función de búsqueda
Si quieres crear un solo archivo PDF/A, puedes utilizar Microsoft Word para hacerlo. La creación automática de archivos PDF/A a gran escala es bastante compleja desde el punto de vista técnico. Si tienes conocimientos técnicos y buscas la forma de hacerlo tú mismo, consulta a la Asociación PDF. Si careces de experiencia técnica, no quieres dedicar mucho tiempo a investigar cómo funciona, o tienes grandes volúmenes de documentos que necesitan conversión, podemos automatizar el proceso por ti. Podemos convertir todos tus escaneos, imágenes o PDF a cualquier versión de PDF/A. Incluso todo tu archivo. Con nuestro servicio, puedes hacer que toda tu base de datos de archivos se pueda buscar y almacenar de forma segura, sin que los datos se corrompan. Con el formato PDF tradicional no puedes garantizar que, si intentas abrirlo dentro de cinco años, siga funcionando. Con PDF/A con capacidad de búsqueda, sí puedes.
Cómo validar archivos PDF/A
Es difícil juzgar un libro por su portada. Lo mismo ocurre con los archivos PDF. Si es difícil validar un documento con sólo mirarlo, ¿cómo puedes estar seguro de que un archivo es realmente un archivo PDF/A y de que cumple el estándar? Los verificadores de PDF/A son la respuesta. Se trata de herramientas (en línea) que verifican si se cumplen todos los elementos del estándar. Una buena fuente es VeraPDF.
Conversión de PDF a PDF/A como un servicio
Existen herramientas en línea que permiten convertir PDF a PDF/A, pero nunca sabes dónde acaban tus datos y requiere mucho trabajo manual. Si sólo quieres procesar un archivo y éste no tiene información confidencial, puede ser una buena opción. En cualquier otro caso, opta por un servicio de conversión confiable.
Con nuestro propio motor OCR, extraemos los datos de los documentos o imágenes escaneados, los incorporamos como una capa adicional del PDF y, a continuación, los convertimos a PDF/A. Todo el proceso está automatizado y es adecuado para el procesamiento de grandes volúmenes. Klippa ofrece todo esto en un modelo SaaS, tanto continuo como basado en proyectos.
Ponte en contacto
En Klippa ayudamos a las organizaciones con el procesamiento inteligente de documentos de gran volumen. Si tienes algún reto relacionado con la entrada de datos, la conversión de documentos o la extracción de datos, envíanos un mensaje o planifica una demostración del producto. Siempre nos gustan los retos.