Çindən süni intellekt sahəsində sensasion YENİLİK
Çinin süni intellekt sahəsində fəaliyyət göstərən startapı DeepSeek, sensasion bir açıqlama edərək, aparıcı süni intellekt şirkətlərinin modellərinə bənzər bir modeli 11 dəfə daha az hesablama gücü ilə hazırladıqlarını elan edib.
Lent.az xəbər verir ki, DeepSeek-in təqdim etdiyi məlumatlara görə, OpenAI, Meta və Anthropic kimi nəhənglərin modellərinə bənzər DeepSeek-V3 adlı dil modeli cəmi 2 ay ərzində 2.048 Nvidia H800 GPU-sundan ibarət bir qrup vasitəsilə 671 milyard parametr üzərində öyrədilib. Bu, təxminən 2.8 milyon GPU saatı deməkdir. Müqayisə üçün, Meta-nın 405 milyard parametrə malik Llama 3 modelini 54 gün ərzində 16.384 H100 GPU istifadə edərək öyrətməsi üçün 11 dəfə daha çox hesablama gücü (30.8 milyon GPU saatı) tələb olunub.
DeepSeek, qabaqcıl əlaqə xətti (pipeline) alqoritmləri, optimallaşdırılmış rabitə çərçivəsi və FP8 aşağı dəqiqlikli hesablama üsulundan istifadə edərək bu cür miqyaslı modellər üçün adətən tələb olunan hesablama və yaddaş ehtiyaclarını əhəmiyyətli dərəcədə azaltdığını iddia edir. Şirkət, DeepSeek-V3 modelinin hesablama tələblərini azaltmaq üçün onlarla optimizasiya texnikası tətbiq etdiyini vurğulasa da, bir neçə əsas texnologiya bu nəticələrin əldə olunmasında həlledici rol oynayıb. DeepSeek, DualPipe adlı alqoritmdən istifadə edərək həm hesablama, həm də rabitə mərhələlərində effektivliyi artırdığını bildirir. Bu alqoritm, xüsusilə MoE arxitekturasının tələb etdiyi qovşaqlararası ekspert paralelliyi üçün təlim darboğazlarını minimuma endirib. Beləliklə, sıfıra yaxın rabitə yükü ilə 14.8 trilyon simvolun işlənməsi mümkün olub.
Bundan əlavə, DeepSeek rabitə zamanı istifadə olunan qovşaqların sayını hər simvol üçün maksimum 4 qovşaqla məhdudlaşdırıb. Bu yanaşma trafiki azaldıb və rabitənin hesablama ilə effektiv şəkildə üst-üstə düşməsinə imkan verib. Performans baxımından, şirkət DeepSeek-V3 MoE modelinin bəzi göstəricilər üzrə GPT-4x, Claude-3.5-Sonnet və LLama-3.1 modelləri ilə müqayisə edilə bilən, bəzən isə onları ötüb, keçən nəticələr verdiyini bildirir. Lakin bu iddiaların müstəqil tədqiqatçılar tərəfindən təsdiqlənməsinə ehtiyac var. Şirkət modeli və onun parametrlərini açıq mənbə kimi təqdim edib, buna görə də yaxın vaxtlarda müqayisəli testlərin aparılması gözlənilir.
DeepSeek-V3 modeli parametrlərin sayı və ya məntiqi düşünmə qabiliyyətləri baxımından GPT-4 və ya Llama-3 kimi qabaqcıl modellərdən geri qalsa da, məhdud resurslarla yüksək səviyyəli bir MoE modelinin hazırlanmasının mümkün olduğunu nümayiş etdirir. Təbii ki, bu, çoxlu optimizasiya və aşağı səviyyəli proqramlaşdırma tələb edir, lakin nəticələr olduqca ümidverici görünür. DeepSeek komandası, DeepSeek-V3 modelinin tətbiqinin inkişaf etmiş avadanlıqla yanaşı, prefilling və dekodlaşdırma mərhələlərini bir-birindən ayıran xüsusi paylama strategiyası tələb etdiyini, bunun isə resurs çatışmazlığı səbəbindən kiçik şirkətlər üçün əlçatmaz ola biləcəyini etiraf edir.
BiG.Az
Telegramda izləyin
Maraqlı Baxılıb: 1014 Tarix: 28 dekabr 2024
Şikayətiniz varsa Whatsapp: 077 7125666
Facebookda PaylaşBinanın qarşısından keçən qadının üstünə armatur düşdü – ANBAAN VİDEO
Türkiyənin Çorum şəhərində qadın tikintisi davam edən binanın qarşısından keçərkən ciddi təhlükə ilə üzləşib. -a istinadən xəbər verir ki, hadisə anbaan inşaat meydançasının təhlükəsizlik kameraları tərəfindən qeydə alınıb. Görüntülərdə qadının onun üstünə düşən armatur dirəklərdən yayınmağa çalışdığ
14.09.2021 1946 "Atam anama deyirdi ki, mənə raxit övlad lazım deyil, at onu uşaqlar evinə" - 21 yaşlı "rezin qız"
Hal-hazırda 21 yaşım var, doğuşdan 5 yaşına kimi mən nə danışmışam, nə də yerimişəm. Allah bu rezinliyi oyuncağım olaraq vermişdi mənə. Anormal olsam da, əyilib-büzülürdüm, ayağımı başıma, başımı ayağıma qoymasaydım qala bilmirdim, çox sıxılırdım". Bunu -a anadangəlmə qeyri-adi istedada malik, "rezi
12.09.2021 5476 Üz dərisini ağardan unikal vasitə
Təbii inqredientlərdən və vitaminlərdən ibarət effektiv Biocosu ağardıcı krem. Serum ilə birlikdə!. Həyatın müxtəlif mərhələlərində dəridə az və ya çox intensivlikdə piqmentasiya əmələ gələ bilər. Bu, irsiyyət, yaş, hamiləlik, aşılayıcı dərman və ya gözəllik salonlarında icra edilən bəzi müalicələr səbəbində
13.09.2021 741 Bu üçəmlər "TikTok"da səs salıb, amma oğlanlar... - FOTO-VİDEO
İngiltərənin Qreyvzend şəhərindən olan 18 yaşlı Şerena, Keyli və Eliza Terri üçəmləri aktiv "TikTok" istifadəçiləridirlər. BİG.AZ xəbər verir ki, onlar barədə "Daily Mirror" yazır. Qızlar əks cinslə münsibətlərindən danışarkən bildiriblər ki, oğlanlar çox vaxt bacıların gözəlliyin
16.09.2021 3201 56 yaşında moda dünyasını silkələyən qadın kimdir? - FOTO
Markaların reklam kampaniyalarında baxanda elə təəssürat yaranır ki, yaşlı qadınlar bazardan kənarlaşdırılıb və bu dünyada onlara yer yoxdur. Uzun illər həqiqətən belə idi, dəb dünyasında yaş kriteriyaları və gənclik kultu hökm sürürdü. Sosial şəbəkələrin yaranması ilə xoşbəxtlikdən standartlar dəyişməy
15.09.2021 2086 Doaqlarınızın quruluğundan bezmisiniz? - ÇARƏ BURADA
MƏHSUL HAQQINDA. Faydaları:. - Dodaqların həcmini artırır, kontur xətlərini ortaya çıxarir. - Dodaqlardakı qırışıqlari azaldır. - Zədələnmiş, çatlamış dodaq toxumasını bərpa edir. - Dodaqları nəmləndirir və onlara yumuşaqliq bəxş edir. - Günəş şualarina qarşı qoruma təmin edən dodaq baxım məhsuludur
14.09.2021 364 Pitbul küçədə səkkiz yaşlı uşağa hücum etdi - VİDEO
Türkiyənin Çorum şəhərində səkkiz yaşlı oğlan pitbul cinsli itin hücumuna məruz qalıb. -a istinadən xəbər verir ki, insident ərazidə olan təhlükəsizlik kameraları tərəfindən qeydə alınıb. Yeniyetmə oğlan ətrafdakı insanların köməyi ilə itin hücumundan xilas edilsə də, onun müxtəlif xəsarətlər aldığ
14.09.2021 1051 Əfqan ulduz ölkədən qaçmasından danışdı: başımdan vur, amma...
Əfqanıstanda qadın hüquqlarını müdafiə etdiyi üçün və geyimləri ilə bağlı radikal şəxslərin qəzəbinə tuş gələn 36 yaşlı pop ulduz Aryana Səid "Taliban" hakimiyyəti ələ keçirdikdən sonra paytaxt Kabildən İstanbula necə qaçdığını danışıb. Müğənninin avqustun 15-də "Taliban" Kabilə daxi
12.09.2021 1875 Ofis daxilində yaranan havasızlıq işçilərin yaddaşına və diqqətinə təsir edir
Mütəxəssislərin apardığı araşdırmalar nəticəsində məlum olub ki, işçilərin ofisdə iş zamanı yorğunluğunun və halsızlığının əsas bir vacib səbəbi var. Belə ki, bu səbəb təkcə işçilərin işləmək istəməməsi ilə əlaqədar deyil. Söhbət iş yerində olan havasız şəraitdir. ABŞ-dan olan tədqiqatçılar işçiləri
12.09.2021 489