Prečo ChatGPT zabúda, čo ste povedali? Prekvapujúca pravda o jeho pamäťových limitoch!

V dobe, keď konverzačná umelá inteligencia už nie je len futuristickým konceptom, ale každodennou realitou, je ChatGPT pozoruhodným úspechom. Jeho schopnosť porozumieť, komunikovať a reagovať s presnosťou podobnou ľudskej zaujala používateľov na celom svete. Avšak aj tie najpokročilejšie systémy AI majú svoje obmedzenia. Zamysleli ste sa niekedy nad tým, prečo ChatGPT napriek svojej sofistikovanosti akoby „zabúdal“ časti vašej konverzácie, najmä keď sú dlhé? Tento článok sa zaoberá zaujímavým svetom ChatGPT a odhaľuje technické záhady, ktoré sa skrývajú za jeho obmedzeniami dĺžky kontextu a pamäťovými schopnosťami. Od skúmania zložitej mechaniky jeho výpočtového výkonu až po skúmanie najnovších pokrokov zameraných na posunutie týchto hraníc, odhaľujeme zložitosti, ktoré robia ChatGPT záhadným, ale fascinujúcim fenoménom umelej inteligencie.

Pochopenie dĺžky kontextu v GPT

Dĺžka kontextu v generatívnych predtrénovaných transformátoroch (GPT) je pojem, ktorý označuje maximálny počet tokenov (slov alebo častí slov), ktoré môže model pri generovaní alebo spracovaní textu naraz zohľadniť. V oblasti spracovania prirodzeného jazyka (NLP), najmä v prípade jazykových modelov, ako sú GPT, zohráva tento pojem kľúčovú úlohu.

Význam dĺžky kontextu:

  1. Koherencia a relevantnosť: Dĺžka kontextu je kľúčom k tomu, na koľko predchádzajúcich textov sa môže model odvolávať pri generovaní nového textu alebo analýze existujúceho textu. Dlhší kontext umožňuje modelu zachovať koherenciu na väčších textových úsekoch, čím sa zabezpečí, že generovaný alebo interpretovaný obsah je relevantný k predchádzajúcim častiam textu. To je rozhodujúce pri zložitých úlohách, ako je rozprávanie príbehov, zapájanie sa do podrobných rozhovorov alebo sumarizácia dlhých dokumentov, kde je kontinuita nevyhnutná.
  2. Zachytenie závislostí na dlhú vzdialenosť: V jazyku význam často závisí od prvkov, ktoré sa v texte objavili ďaleko dozadu. Rozšírená dĺžka kontextu umožňuje GPT porozumieť týmto vzdialeným závislostiam, čo vedie k presnejšiemu kontextovému spracovaniu jazyka.
  3. Lepšie porozumenie jazyku: Vďaka možnosti odkazovať na dlhší úsek textu získajú GPT lepšie pochopenie nuáns, ako je tón, štýl a tematické prvky. Táto schopnosť je nevyhnutná na sofistikované generovanie a analýzu jazyka, najmä v pokročilých aplikáciách NLP.

Praktické dôsledky:

  • V scenároch s krátkym kontextom môže model brať do úvahy len posledné vety alebo odseky. Hoci to môže stačiť pri jednoduchších úlohách, v zložitejších textových scenároch to môže viesť k problémom, ako je opakovanie alebo nedostatočná koherencia.
  • Naopak, v prípade rozšíreného kontextu si model GPT môže zapamätať a využiť informácie, ktoré boli zavedené oveľa skôr. Napríklad v dialógu by si mohol spomenúť na detaily z predchádzajúcej časti rozhovoru alebo v rozprávaní by mohol dôsledne rozvíjať dejové línie a postavy počas rozsiahleho textu.

Celkovo dĺžka kontextu v GPT zásadne ovplyvňuje ich schopnosť vytvárať a chápať jazyk súvislým, kontextovo relevantným spôsobom. Je to rozhodujúci faktor ich účinnosti v rôznych úlohách NLP, najmä v tých, ktoré zahŕňajú porozumenie alebo tvorbu väčších textových celkov alebo zachovanie kontinuity v rozsiahlych rozprávaniach alebo dialógoch.

Obmedzenia a výzvy pri predlžovaní dĺžky kontextu v GPT-4

Obmedzenie dĺžky kontextu v modeloch, ako je GPT-4, je predovšetkým dôsledkom vlastnej konštrukcie architektúry transformátora, na ktorej sú postavené, a z toho vyplývajúcich výpočtových a pamäťových problémov. Poďme sa pozrieť na to, prečo tieto obmedzenia existujú a čo robí ich rozšírenie náročným.

Architektúra transformátora a samočinnosť

  1. Kvadratická zložitosť: Jadro obmedzenia spočíva v mechanizme samočinnej pozornosti transformátorov. Tento mechanizmus počíta skóre pozornosti pre každú dvojicu tokenov vo vstupnej sekvencii. V dôsledku toho, ak sa dĺžka sekvencie (alebo dĺžka kontextu) zdvojnásobí, požiadavky na výpočet a pamäť sa kvadraticky zvýšia, čo vedie k štvornásobnému nárastu. Pre GPT-4 a podobné modely to znamená, že spracovanie veľmi dlhých sekvencií sa stáva výpočtovo a pamäťovo náročným.
  2. Pamäťové obmedzenia: Spolu s výpočtovou zložitosťou sa výrazne zvyšujú aj požiadavky na pamäť. Model potrebuje ukladať skóre pozornosti a gradienty pre každý pár tokenov, ktoré rastú kvadraticky s dĺžkou sekvencie. Moderné GPU a TPU majú napriek svojmu výkonu konečnú kapacitu pamäte, takže je náročné pojať mimoriadne dlhé sekvencie.

Praktické výzvy pri predlžovaní dĺžky kontextu

  1. Obmedzenia tréningových údajov: Väčšina tréningových súborov údajov pozostáva z relatívne krátkych sekvencií. Predĺženie dĺžky kontextu nad určitý bod nemusí byť pre model nevyhnutne prínosom, ak sa počas trénovania zriedkavo stretne s takýmito dlhými sekvenciami. Modely sú zvyčajne optimalizované pre ten druh údajov, na ktorých sa najčastejšie trénujú.
  2. Hardvérové obmedzenia: Dostupný hardvér predstavuje významné obmedzenie. Kvadratický nárast pamäťových a výpočtových požiadaviek znamená, že po prekročení určitého bodu nemusí existujúci hardvér (GPU/TPU) efektívne podporovať extrémne dlhé kontexty. Toto obmedzenie sa netýka len výpočtového výkonu, ale zahŕňa aj faktory ako spotreba energie a rozptyl tepla.
  3. Klesajúca návratnosť: Pri predlžovaní dĺžky kontextu často nastáva bod klesajúcej návratnosti. Pri mnohých praktických aplikáciách, ako je konverzácia alebo generovanie krátkych textov, nemusí masívne predĺženie kontextu priniesť primerané zlepšenie výkonu alebo môže dokonca priniesť zbytočnú zložitosť.

Algoritmické výzvy a výzvy v oblasti efektívnosti

  1. Limity optimalizácie: Hoci techniky ako gradientné kontrolné body a tréning so zmiešanou presnosťou môžu optimalizovať využitie pamäte a výpočtov, môžu ísť len do určitej miery. Pomáhajú do určitej miery, ale nemenia základnú kvadratickú povahu požiadaviek mechanizmu samočinnej pozornosti na zdroje.
  2. Vyvažovanie: Predĺženie dĺžky kontextu si vyžaduje krehkú rovnováhu. Nejde len o zvýšenie počtu tokenov, ktoré model dokáže spracovať, ale aj o zabezpečenie toho, aby sa model stále dokázal efektívne učiť z týchto tokenov a spracovávať ich. To si vyžaduje starostlivé architektonické a algoritmické úvahy, aby sa predišlo výkonnostným problémom.

Súhrnne možno povedať, že obmedzenie dĺžky kontextu v GPT-4 a podobných modeloch vyplýva najmä z kvadratických výpočtových a pamäťových požiadaviek mechanizmu samopozornosti transformátora spolu s praktickými obmedzeniami súvisiacimi s trénovanými údajmi, hardvérovými možnosťami a rovnováhou medzi predlžovaním dĺžky kontextu a zachovaním efektívnosti modelu. Prekonanie týchto výziev si vyžaduje nielen výkonnejší hardvér, ale aj inovatívne architektonické a algoritmické pokroky.

Úloha samopozornosti pri obmedzovaní dĺžky kontextu

Mechanizmus samopozornosti v transformátoroch, ktorý je ústredným prvkom modelov, ako je GPT-4, zohráva významnú úlohu pri obmedzovaní dĺžky kontextu. Aby sme to pochopili, je nevyhnutné preniknúť do toho, ako funguje samopozornosť a prečo ukladá takéto obmedzenia.

Pochopenie samopozornosti v transformátoroch

  1. Prehľad mechanizmu: V modeli transformátora mechanizmus samo-pozornosti umožňuje každému tokenu vo vstupnej sekvencii interagovať s každým iným tokenom. Táto interakcia je kľúčová pre schopnosť modelu pochopiť kontext a vzťahy medzi rôznymi časťami vstupného textu.
  2. Výpočtová dynamika: Pre každú dvojicu tokenov v sekvencii model vypočíta skóre pozornosti, ktoré určuje, koľko pozornosti by sa malo venovať iným častiam sekvencie pri spracovaní konkrétneho tokenu. Tento proces zahŕňa výpočet súboru vektorov dopytu, kľúča a hodnoty pre každý token a potom výpočet skóre pozornosti na základe týchto vektorov.
  3. Dôležitosť v kontextuálnom porozumení: Tento mechanizmus umožňuje systému GPT-4 hlboké porozumenie textu, ktorý generuje alebo spracováva. Umožňuje modelu zachytiť nuansy, odkazy a závislosti, ktoré sa môžu rozprestierať po celej dĺžke kontextu, ktorý mu je daný.

Prispievanie k obmedzeniam dĺžky kontextu

  1. Kvadratické škálovanie: Základnou výzvou, ktorú predstavuje sebapozornosť, je jej kvadratické škálovanie vzhľadom na dĺžku sekvencie. Ak má sekvencia N tokenov, mechanizmus pozornosti musí vypočítať a uložiť 2N^2 skóre pozornosti. Tento kvadratický vzťah je významným limitujúcim faktorom pre dĺžku kontextu, keďže s dlhšími sekvenciami sa rýchlo zvyšujú výpočtové aj pamäťové požiadavky.
  2. Pamäťovo náročné: Ukladanie skóre pozornosti pre veľké sekvencie môže rýchlo prekročiť pamäťové kapacity aj tých najmodernejších GPU alebo TPU. Je to náročné najmä počas tréningu, keď model musí ukladať nielen tieto skóre, ale aj gradienty pre každý parameter na spätné šírenie.
  3. Výpočtový výkon a čas: S dlhšími sekvenciami sa zvyšuje aj čas potrebný na výpočet týchto skóre a následných operácií v transformačných vrstvách. To môže spomaliť trénovanie aj odvodzovanie, najmä v prípade aplikácií v reálnom čase.

Riešenie obmedzenia

  1. Optimalizácia efektívnosti: Rôzne optimalizácie môžu do určitej miery zmierniť výpočtovú záťaž. Napríklad techniky ako trénovanie so zmiešanou presnosťou môžu znížiť pamäťovú stopu a optimalizácie v maticových operáciách môžu urýchliť výpočty.
  2. Inovácie architektúry: Okrem optimalizácií sú na zásadné prekonanie tohto obmedzenia často potrebné významné architektonické zmeny. Patria sem inovácie, ako napríklad riedke vzory pozornosti, o ktorých budeme podrobnejšie hovoriť neskôr a ktoré znižujú počet potrebných výpočtov pozornosti.

V podstate, hoci mechanizmus vlastnej pozornosti poskytuje GPT-4 výkonné možnosti spracovania jazyka, zároveň prirodzene obmedzuje dĺžku kontextu kvôli jeho kvadratickým výpočtovým a pamäťovým nárokom. Riešenie tohto obmedzenia je komplexná úloha, ktorá zahŕňa kombináciu optimalizácií a zásadnejších architektonických zmien.

Výpočtové a pamäťové náklady pri zväčšovaní dĺžky kontextu

Pochopenie výpočtových a pamäťových nákladov spojených so zvyšovaním dĺžky kontextu v generatívnych predtrénovaných transformátoroch (GPT) si vyžaduje preniknutie do zložitostí architektúry transformátora. Tieto náklady a ich výrazné škálovanie sú spôsobené predovšetkým mechanizmom samopozornosti, ktorý je neoddeliteľnou súčasťou týchto modelov.

Výpočtové náklady

  1. Kvadratická zložitosť samopozornosti: Ako už bolo spomenuté, mechanizmus samopozornosti vyžaduje výpočty pre každú dvojicu tokenov vo vstupnej sekvencii. Pri postupnosti dĺžky N sa počet výpočtov škáluje kvadraticky ako O(N^2). To znamená, že ak sa dĺžka kontextu zdvojnásobí, výpočtové zaťaženie sa zhruba zoštvornásobí.
  2. Maticové operácie: Transformátory vykonávajú viacnásobné násobenie matíc v rámci samočinnej pozornosti a následných dopredných vrstiev. Veľkosť týchto matíc rastie s dĺžkou sekvencie, čo vedie k výpočtovo náročnejším operáciám.
  3. Vplyv na školenie a odvodzovanie: Počas trénovania si táto výpočtová zložitosť vyžaduje dlhší čas trénovania a vyšší výpočtový výkon. Pri odvodzovaní, najmä v aplikáciách v reálnom čase, to môže viesť k pomalším časom odozvy, čo môže byť pre niektoré aplikácie nepraktické.

Náklady na pamäť

  1. Ukladanie výsledkov pozornosti: Každá dvojica tokenov generuje skóre pozornosti, čo vedie k matici veľkosti N× Npre sekvenciu. Preto sa požiadavky na pamäť škálujú kvadraticky s dĺžkou kontextu. Toto škálovanie je hlavným faktorom, prečo aj ten najpokročilejší hardvér môže mať problémy s veľmi dlhými sekvenciami.
  2. Ukladanie gradientu počas tréningu: Trénovanie modelu transformátora zahŕňa spätné šírenie, ktoré si vyžaduje ukladanie gradientov pre každý parameter. Dlhšie sekvencie zvyšujú počet parametrov zapojených do výpočtov, čím sa zvyšuje pamäť potrebná na uloženie týchto gradientov.
  3. Ukladanie aktivácie pre spätné šírenie: Transformátory musia počas trénovania ukladať aktivácie z každej vrstvy pre spätné šírenie, čo ďalej zvyšuje spotrebu pamäte, najmä pri dlhších sekvenciách.

Prečo sa tieto náklady tak výrazne zvyšujú?

  • neoddeliteľnou súčasťou architektúry: Hlavnou príčinou tohto výrazného škálovania je závislosť architektúry transformátora od vlastnej pozornosti v celej sekvencii. Na rozdiel od architektúr, ktoré spracúvajú sekvenčné údaje po jednom kroku, transformátory spracúvajú súčasne všetky časti sekvencie, čo vedie k tomuto kvadratickému škálovaniu.
  • Komplexné kontextové spracovanie: Sila GPT spočíva v ich schopnosti zohľadniť celý kontext pri generovaní každého nového tokenu. To síce umožňuje vysoko koherentné výstupy zohľadňujúce kontext, ale za cenu vysokých výpočtových a pamäťových nárokov, najmä s rastúcou dĺžkou kontextu.

Celkovo možno povedať, že výpočtové a pamäťové náklady spojené so zvyšovaním dĺžky kontextu v GPT sa výrazne zvyšujú v dôsledku kvadratickej zložitosti mechanizmu vlastnej pozornosti. Toto škálovanie je základným aspektom architektúry transformátora, čím sa riadenie týchto nákladov stáva kľúčovou výzvou pri vývoji a aplikácii rozsiahlych jazykových modelov.

Škálovanie nákladov s rastúcou dĺžkou kontextu v GPT-4

Dĺžka kontextu (žetóny)Výpočtové náklady (kvadratické škálovanie)Náklady na pamäť (kvadratické škálovanie)Príklad z reálneho svetaPribližná dĺžka dokumentuOdhadované náklady (lineárne USD)
1,00011Krátky e-mailPribližne 1-2 strany textu$0.01
8,0006464Dlhá správaPribližne 8-16 strán textu$0.08
32,0001,0241,024Výskumná prácaPribližne 32-64 strán textu$0.32
128,00016,38416,384Krátka kniha/novinkaPribližne 128-256 strán textu$1.28
1,048,5761,099,511,6271,099,511,627Veľká knihaViac ako 1 000 strán textu$10.49

Ekonomická analýza a strategické dôsledky

  • Ziskovosť v kratších súvislostiach: Pri kratších dĺžkach kontextov (napr. 1 000 tokenov) sú náklady spoločnosti z hľadiska výpočtových a pamäťových zdrojov relatívne nízke. Lineárny cenový model (napr. 0,01 USD za 1 000 tokenov) bude pravdepodobne ziskový, pretože spotreba zdrojov sa drasticky nestupňuje. To spôsobuje, že volania s krátkym kontextom sú pre spoločnosť ekonomicky výhodné.
  • Dynamika nákladov pri dlhších kontextoch: Keď prejdeme na dlhšie kontexty, napríklad 1 048 576 tokenov, situácia sa dramaticky zmení. Tu sa do popredia dostáva kvadratické škálovanie výpočtových a pamäťových nákladov. Náklady na spracovanie takéhoto dlhého kontextu sú neúmerne vyššie a pravdepodobne prevyšujú lineárny nárast výnosov. Pri takomto rozsahu by náklady na spracovanie (vzhľadom na vysokú výpočtovú záťaž a požiadavky na pamäť) mohli prevýšiť príjem generovaný lineárnym cenovým modelom.
  • Strategické uprednostňovanie kratších kontextov: Tento nepomer medzi nákladmi a príjmami je kľúčovým dôvodom, prečo spoločnosti ako OpenAI uprednostňujú kratšie kontextové volania. Ponúkanie služieb do maximálneho počtu 128 000 tokenov je strategickým rozhodnutím. Vyvažuje potreby používateľov na súvislé a kontextovo bohaté výstupy a zároveň zachováva ekonomickú životaschopnosť a prevádzkovú efektívnosť.
  • Obmedzenie maximálnej dĺžky kontextu: Rozhodnutie obmedziť dĺžku kontextu na 128 000 tokenov napriek technickej možnosti dosiahnuť vyššiu dĺžku možno považovať za kompromis medzi ponukou pokročilej a užitočnej služby NLP a zabezpečením toho, aby služba zostala ekonomicky udržateľná.

V podnikaní s jazykovými modelmi riadenými umelou inteligenciou je rovnováha medzi technologickými možnosťami a ekonomickou udržateľnosťou rozhodujúca. Dlhšie kontexty síce ponúkajú komplexnejšie možnosti porozumenia a tvorby, ale zároveň prinášajú výrazne vyššie náklady. Táto ekonomická realita ovplyvňuje strategické rozhodnutia poskytovateľov služieb AI, čo ich vedie k uprednostňovaniu kratších kontextov a stanovovaniu limitov maximálnej dĺžky kontextov, ktoré ponúkajú. Tento prístup pomáha pri udržiavaní rovnováhy medzi poskytovaním pokročilých schopností NLP a zabezpečením dlhodobej ekonomickej životaschopnosti služby.

Inovácie v algoritmoch na predlžovanie dĺžky kontextu v GPT

Áno, bolo vyvinutých niekoľko inovatívnych algoritmov a techník na efektívne predĺženie dĺžky kontextu v GPT (Generative Pre-trained Transformers). Tieto inovácie sú zamerané predovšetkým na riešenie výpočtových a pamäťových obmedzení vyplývajúcich z mechanizmu samočinnej pozornosti v štandardných modeloch transformátorov. Poďme preskúmať niektoré z kľúčových pokrokov v tejto oblasti.

1. Mechanizmy riedkej pozornosti

  • Koncepcia: Na rozdiel od tradičnej samo-pozornosti, ktorá počíta skóre pozornosti medzi všetkými dvojicami tokenov, čo vedie ku kvadratickej zložitosti, mechanizmy riedkej pozornosti počítajú tieto skóre selektívne. Tento selektívny prístup výrazne znižuje výpočtové zaťaženie.
  • Implementácie:
    • Longformer: Zavádza mechanizmus posuvného okna, v ktorom každý token venuje pozornosť len oknu okolitých tokenov s pevnou veľkosťou, čím sa znižuje zložitosť. Longformer zahŕňa aj globálnu pozornosť na vybrané tokeny na zachytenie širších závislostí.
    • BigBird: Inšpirovaný systémom Longformer, BigBird využíva kombináciu lokálnych, globálnych a náhodných mechanizmov pozornosti na efektívne spracovanie dlhších sekvencií.

2. Reformátor

  • Efektívna pozornosť prostredníctvom lokálne citlivého heslovania (LSH): Model Reformer využíva LSH na zníženie zložitosti mechanizmu pozornosti. Zoskupovaním podobných tokenov a výpočtom pozornosti v rámci týchto skupín dosahuje efektívne spracovanie dlhých sekvencií.
  • Efektívnosť pamäte: Model Reformer využíva aj reverzibilné vrstvy, ktoré umožňujú znížiť spotrebu pamäte počas trénovania tým, že rekonštruujú vstupné aktivácie z výstupov namiesto ukladania všetkých medziľahlých aktivácií.

3. Linformer

  • Aproximácia s nízkym rankom: Linformer premieta matice vlastnej pozornosti do nižších dimenzií, čím zjednodušuje mechanizmus vlastnej pozornosti z kvadratickej na lineárnu funkciu vzhľadom na dĺžku sekvencie. Tento prístup je obzvlášť účinný pri úlohách zahŕňajúcich veľmi dlhé sekvencie.

4. Performer

  • Rýchla pozornosť prostredníctvom ortogonálnych náhodných funkcií (FAVOR): Performer zavádza metódu aproximácie tradičného mechanizmu pozornosti, ktorá umožňuje škálovateľné a efektívne spracovanie dlhých sekvencií.

5. Adaptívne rozpätie pozornosti

  • Dynamické prispôsobenie: Táto technika zahŕňa dynamické nastavenie rozpätia pozornosti každej hlavy v modeli transformátora. Model sa môže viac zamerať na relevantné časti vstupu pre každú konkrétnu úlohu, čo vedie k efektívnejšiemu spracovaniu dlhších sekvencií.

6. Pamäťovo komprimovaná pozornosť

  • Technika: Táto metóda komprimovaním starších aktivácií v sekvencii do menšieho pamäťového priestoru umožňuje modelu zachovať prístup k dlhšej histórii bez proporcionálneho nárastu využívania pamäte.

Tieto inovácie predstavujú významný pokrok pri prekonávaní obmedzení štandardných transformátorov týkajúcich sa dĺžky kontextu. Znížením výpočtovej náročnosti a využitia pamäte umožňujú GPT efektívnejšie pracovať s dlhšími sekvenciami, čím otvárajú nové možnosti pre komplexné úlohy porozumenia a generovania jazyka. Je však dôležité poznamenať, že každá z týchto techník môže mať svoje vlastné kompromisy a môže byť vhodnejšia pre špecifické typy úloh alebo súbory údajov.

Zhrnutie

Keď sme prechádzali labyrintom možností a obmedzení ChatGPT, vynoril sa jasný obraz. Podstata zabúdania ChatGPT spočíva v prirodzených obmedzeniach jeho transformačnej architektúry, konkrétne v mechanizme vlastnej pozornosti, ktorý je síce výkonný, ale je viazaný výpočtovými a pamäťovými obmedzeniami. Tieto obmedzenia ovplyvňujú nielen schopnosť modelu uchovávať a spracovávať dlhé rozhovory, ale formujú aj ekonomické a strategické rozhodnutia spoločností, ako je OpenAI, pri nasadzovaní týchto modelov. Situácia sa však neustále vyvíja. Vyvíjajú sa inovatívne algoritmy a techniky, ako sú mechanizmy riedkej pozornosti a modely s komprimovanou pamäťou, ktoré tieto obmedzenia rozširujú a pripravujú pôdu pre ešte schopnejšie a efektívnejšie systémy umelej inteligencie v budúcnosti.

Odkazy

  1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). „Attention is All You Need“ (Pozornosť je všetko, čo potrebujete) In Advances in Neural Information Processing Systems. https://arxiv. org/abs/1706.03762
  2. Beltagy, I., Peters, M. E., & Cohan, A. (2020). „Longformer: The Long-Document Transformer.“ arXiv preprint arXiv:2004.05150. https://arxiv.org/abs/2004.05150
  3. Zaheer, M., Guruganesh, G., Dubey, K. A., Ainslie, J., Alberti, C., Ontanon, S., … & Ahmed, A. (2020). „Big Bird: Transformátory pre dlhšie sekvencie.“ In Advances in Neural Information Processing Systems. https://arxiv. org/abs/2007.14062
  4. Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020). „Reformátor: The Efficient Transformer.“ (Efektívny transformátor In International Conference on Learning Representations. https://arxiv.org/abs/2001.04451
  5. Wang, S., Li, B., Khabsa, M., Fang, H., & Ma, H. (2020). „Linformer: Self-Attention with Linear Complexity.“ arXiv preprint arXiv:2006.04768. https://arxiv.org/abs/2006.04768
  6. Choromanski, K., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., … & Hawkins, P. (2021). „Rethinking Attention with Performers“ (Prehodnotenie pozornosti s účinkujúcimi) In Medzinárodná konferencia o reprezentáciách učenia. https://arxiv.org/abs/2009.14794
  7. Sukhbaatar, S., Grave, E., Bojanowski, P., & Joulin, A. (2019). „Adaptive Attention Span in Transformers.“ ArXiv preprint arXiv:1905.07799. https://arxiv.org/abs/1905.07799
  8. Rae, J. W., Potapenko, A., Jayakumar, S. M., & Lillicrap, T. P. (2020). „Kompresívne transformátory na modelovanie sekvencií s veľkým dosahom“ In Medzinárodná konferencia o učiacich sa reprezentáciách. https://arxiv.org/abs/1911.05507
  9. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). „Jazykové modely sa učia na niekoľko záberov.“ In Advances in Neural Information Processing Systems. https://arxiv. org/abs/2005.14165
  10. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). „BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.“ ArXiv preprint arXiv:1810.04805. https://arxiv.org/abs/1810.04805

Poznámka

Text článku, vrátane dotazov a odpovedí ChatGPT bol preložený z anglického originálu: Why Does ChatGPT Forget What You Said? The Surprising Truth About Its Memory Limits!

Pridaj komentár