JPMorgan desarrolla el modelo de lenguaje generativo DocLLM para el análisis de documentos empresariales

A sun-filled, cheerful drawing in cartoon style featuring a detailed, friendly robot assistant. The 3:2 aspect ratio image should show the robot busily examining and analyzing a complex business document in an office setting, with visual elements highlighting the structure and different segments of the document. The robot should be showcasing its 'disentangled spatial attention' by focusing on specific areas of the document. Scattered around are multiple documents with varying layouts and content types, indicating the ability of the assistant to deal with diverse documents. The scene should carry a positive vibe that reflects the innovation and efficiency brought about by the language model DocLLM.

JPMorgan ha desarrollado una nueva herramienta llamada DocLLM, un modelo lingüístico inteligente diseñado para comprender diversos tipos de documentos empresariales. A diferencia de otros modelos, DocLLM no se basa en una costosa tecnología de imágenes, sino que se centra en comprender la estructura de los documentos identificando y definiendo rectángulos alrededor de segmentos de texto importantes. Dispone de una función única denominada atención espacial desenmarañada, que le permite procesar eficazmente la información dentro de áreas específicas de un documento. DocLLM es especialmente eficaz en el tratamiento de documentos con diseños irregulares y distintos tipos de contenido. Para entrenar el modelo, JPMorgan utilizó datos de dos fuentes principales: IIT-CDIP Test Collection 1.0 y DocBank. Las pruebas han demostrado que DocLLM supera a otros modelos similares en diversas tareas relacionadas con documentos. JPMorgan tiene previsto seguir mejorando DocLLM incorporando funciones relacionadas con la visión de forma ligera.

Artículo completo

Deja una respuesta