El documento presenta los Modelos de Lenguaje de Consistencia Amplia (CLLMs), una nueva familia de descodificadores paralelos que pueden descodificar eficientemente una secuencia de n-tokens por paso de inferencia, reduciendo la latencia. Explica que los CLLM se entrenan para realizar descodificaciones paralelas asignando cualquier secuencia de n tokens inicializada aleatoriamente al mismo resultado obtenido por descodificación autorregresiva (AR) en el menor número de pasos posible. El método propuesto muestra mejoras significativas en la velocidad de generación, comparable a otras técnicas de inferencia rápida como Medusa2 y Eagle, sin requerir un coste adicional de memoria. Se analiza el método de descodificación de Jacobi, que transforma el proceso de generación secuencial en un sistema de n ecuaciones no lineales resolubles en paralelo. El documento también detalla el proceso de entrenamiento de los CLLM, incluida la pérdida de consistencia global (GC), la pérdida de consistencia local (LC) y la pérdida AR tradicional. Destaca que los CLLM consiguen un aumento significativo de la velocidad en dominios especializados y retos conversacionales de dominio abierto, con unos costes de ajuste moderados. Además, los CLLMs muestran la capacidad de predecir tokens correctos de forma preventiva y adquieren competencia en numerosas colocaciones a través del objetivo de generación de consistencia.
Los CLLMs son capaces de predecir tokens correctos de forma preventiva.
