Dokument predstavuje konzistentné veľké jazykové modely (CLLM), novú rodinu paralelných dekodérov, ktoré dokážu efektívne dekódovať n-tokenovú sekvenciu v jednom kroku inferencie, čím sa znižuje latencia. Vysvetľuje, že CLLM sú vyškolené na vykonávanie paralelného dekódovania mapovaním akejkoľvek náhodne inicializovanej n-tokenovej sekvencie na rovnaký výsledok, ktorý poskytuje autoregresívne (AR) dekódovanie v čo najmenšom počte krokov. Navrhovaná metóda vykazuje výrazné zlepšenie rýchlosti generovania, porovnateľné s inými rýchlymi inferenčnými technikami, ako sú Medusa2 a Eagle, bez toho, aby vyžadovala dodatočné náklady na pamäť. Diskutuje sa o metóde Jacobiho dekódovania, ktorá transformuje sekvenčný proces generovania na systém n nelineárnych rovníc riešiteľných paralelne. V dokumente sa podrobne opisuje aj proces trénovania CLLM vrátane straty globálnej konzistencie (GC), straty lokálnej konzistencie (LC) a tradičnej straty AR. Zdôrazňuje sa v ňom, že CLLM dosahujú významné zrýchlenie v špecializovaných doménach a konverzačných úlohách s otvorenou doménou, pričom náklady na doladenie sú mierne. Okrem toho CLLM vykazujú schopnosť predvídať správne tokeny vopred a získavajú zručnosť v mnohých kolokáciách prostredníctvom cieľa generovania konzistencie.
