photo © Google

Google-ը թողարկել է Diffusion Gemma մոդելը

Google-ը թողարկել է Diffusion Gemma անունով փորձարարական մոդել, որը տեքստ եւ կոդ է ստեղծում «աղմուկից», ինչպես օրինակ՝ պատկերներից։

Մոդելը նախ վեց բլոկից ստեղծում է նախադասության արմատ, ապա պատահական բառերը փոխարինում է համապատասխաններով։
Google DeepMind-ը առաջարկել է տեքստի ստեղծումը արագացնելու եղանակներ՝ նվազեցնելով օգտատերերի գրաֆիկական պրոցեսորների վրա բեռը տեղական աշխատանքի ժամանակ։

Diffusion Gemma-ն փորձարարական ընտանիքի առաջին բաց կոդով մոդելն է։ Ավանդաբար, ավտոռեգրեսիվ մոդելները տոկեններ են ստեղծում մեկ առ մեկ՝ ձախից աջ, որտեղ յուրաքանչյուր նոր տոկեն կախված է նախորդից։ Մյուս կողմից, Diffusion Gemma-ն օգտագործում է դիֆուզիա։

Այս մեթոդը սովորաբար օգտագործվում է պատկերների ստեղծման մեջ, որտեղ մոդելը «աղմուկից» պատկեր է հավաքում՝ պիքսելների պատահական հավաքածուի տեսքով։ Diffusion Gemma-ն նույնն է անում տեքստի հետ՝ այն անմիջապես ստեղծում է 256 պատահական տոկենից բաղկացած պարբերություն, ապա ցանկալի բառերը տեղադրում է ընդհանուր շրջանակի մեջ։ Google-ի տվյալներով՝ սա քառապատկում է տեքստի ստեղծման արագությունը։ Միեւնույն ժամանակ, մոտեցումը լուծում է հիշողության խցանման խնդիրը տեղական աշխատանքի ժամանակ. բառերի կանխատեսման ժամանակ դադարներ չկան, ինչը ծանրաբեռնվածությունը տեղափոխում է GPU-ին։

Քվանտացված (սեղմված) տարբերակն աշխատում է 18 ԳԲ տեսահիշողության վրա: Diffusion Gemma-ն Gemma 4-ի վրա հիմնված դատողությունների մոդել է: Այն ունի 26 միլիարդ պարամետր՝ 3.8 միլիարդ ակտիվ պարամետրերով, փորձագետների խառնուրդ (MoE) ճարտարապետություն եւ 256,000 տոկենից բաղկացած համատեքստային պատուհան։

Մոդելի կշիռները հասանելի են Hugging Face-ում: Կա նաեւ ցուցադրական տարբերակ, որտեղ կարող եք տեսնել, թե ինչպես է այն ստեղծում HTML կոդ կայքերի համար՝ օգտագործելով նույն սկզբունքը՝ նախապես կառուցված բլոկներով։

Ներկայում մոդելը զիջում է ստանդարտ Gemma 4-ին բոլոր չափանիշներով, բացառությամբ արագությունից։