JPMorgan ha desarrollado una nueva herramienta llamada DocLLM, un modelo lingüístico inteligente diseñado para comprender diversos tipos de documentos empresariales. A diferencia de otros modelos, DocLLM no se basa en una costosa tecnología de imágenes, sino que se centra en comprender la estructura de los documentos identificando y definiendo rectángulos alrededor de segmentos de texto importantes. Dispone de una función única denominada atención espacial desenmarañada, que le permite procesar eficazmente la información dentro de áreas específicas de un documento. DocLLM es especialmente eficaz en el tratamiento de documentos con diseños irregulares y distintos tipos de contenido. Para entrenar el modelo, JPMorgan utilizó datos de dos fuentes principales: IIT-CDIP Test Collection 1.0 y DocBank. Las pruebas han demostrado que DocLLM supera a otros modelos similares en diversas tareas relacionadas con documentos. JPMorgan tiene previsto seguir mejorando DocLLM incorporando funciones relacionadas con la visión de forma ligera.
