Das Dokument stellt Consistency Large Language Models (CLLMs) vor, eine neue Familie paralleler Dekodierer, die eine n-Token-Sequenz pro Inferenzschritt effizient dekodieren können und so die Latenzzeit verringern. CLLMs werden so trainiert, dass sie eine parallele Dekodierung durchführen, indem sie jede zufällig initialisierte n-Token-Sequenz in so wenigen Schritten wie möglich auf das gleiche Ergebnis abbilden, das durch autoregressive (AR) Dekodierung erzielt wird. Die vorgeschlagene Methode zeigt erhebliche Verbesserungen in der Generierungsgeschwindigkeit, vergleichbar mit anderen schnellen Inferenztechniken wie Medusa2 und Eagle, ohne zusätzliche Speicherkosten zu verursachen. Es wird die Jacobi-Dekodierungsmethode erörtert, die den sequentiellen Generierungsprozess in ein System von n nichtlinearen Gleichungen umwandelt, die parallel gelöst werden können. Das Dokument beschreibt auch den Trainingsprozess für CLLMs, einschließlich des globalen Konsistenzverlusts (GC), des lokalen Konsistenzverlusts (LC) und des traditionellen AR-Verlusts. Es wird hervorgehoben, dass CLLMs eine signifikante Beschleunigung in spezialisierten Domänen und bei Konversationsherausforderungen in offenen Domänen mit moderaten Feinabstimmungskosten erreichen. Darüber hinaus zeigen CLLMs die Fähigkeit, korrekte Token präventiv vorherzusagen und erwerben durch das Ziel der Konsistenzgenerierung Kompetenz in zahlreichen Kollokationen.
