Çindən süni intellekt sahəsində sensasion YENİLİK

Çindən süni intellekt sahəsində sensasion YENİLİKÇinin süni intellekt sahəsində fəaliyyət göstərən startapı DeepSeek, sensasion bir açıqlama edərək, aparıcı süni intellekt şirkətlərinin modellərinə bənzər bir modeli 11 dəfə daha az hesablama gücü ilə hazırladıqlarını elan edib.

Lent.az xəbər verir ki, DeepSeek-in təqdim etdiyi məlumatlara görə, OpenAI, Meta və Anthropic kimi nəhənglərin modellərinə bənzər DeepSeek-V3 adlı dil modeli cəmi 2 ay ərzində 2.048 Nvidia H800 GPU-sundan ibarət bir qrup vasitəsilə 671 milyard parametr üzərində öyrədilib. Bu, təxminən 2.8 milyon GPU saatı deməkdir. Müqayisə üçün, Meta-nın 405 milyard parametrə malik Llama 3 modelini 54 gün ərzində 16.384 H100 GPU istifadə edərək öyrətməsi üçün 11 dəfə daha çox hesablama gücü (30.8 milyon GPU saatı) tələb olunub.

DeepSeek, qabaqcıl əlaqə xətti (pipeline) alqoritmləri, optimallaşdırılmış rabitə çərçivəsi və FP8 aşağı dəqiqlikli hesablama üsulundan istifadə edərək bu cür miqyaslı modellər üçün adətən tələb olunan hesablama və yaddaş ehtiyaclarını əhəmiyyətli dərəcədə azaltdığını iddia edir. Şirkət, DeepSeek-V3 modelinin hesablama tələblərini azaltmaq üçün onlarla optimizasiya texnikası tətbiq etdiyini vurğulasa da, bir neçə əsas texnologiya bu nəticələrin əldə olunmasında həlledici rol oynayıb. DeepSeek, DualPipe adlı alqoritmdən istifadə edərək həm hesablama, həm də rabitə mərhələlərində effektivliyi artırdığını bildirir. Bu alqoritm, xüsusilə MoE arxitekturasının tələb etdiyi qovşaqlararası ekspert paralelliyi üçün təlim darboğazlarını minimuma endirib. Beləliklə, sıfıra yaxın rabitə yükü ilə 14.8 trilyon simvolun işlənməsi mümkün olub.

Bundan əlavə, DeepSeek rabitə zamanı istifadə olunan qovşaqların sayını hər simvol üçün maksimum 4 qovşaqla məhdudlaşdırıb. Bu yanaşma trafiki azaldıb və rabitənin hesablama ilə effektiv şəkildə üst-üstə düşməsinə imkan verib. Performans baxımından, şirkət DeepSeek-V3 MoE modelinin bəzi göstəricilər üzrə GPT-4x, Claude-3.5-Sonnet və LLama-3.1 modelləri ilə müqayisə edilə bilən, bəzən isə onları ötüb, keçən nəticələr verdiyini bildirir. Lakin bu iddiaların müstəqil tədqiqatçılar tərəfindən təsdiqlənməsinə ehtiyac var. Şirkət modeli və onun parametrlərini açıq mənbə kimi təqdim edib, buna görə də yaxın vaxtlarda müqayisəli testlərin aparılması gözlənilir.

DeepSeek-V3 modeli parametrlərin sayı və ya məntiqi düşünmə qabiliyyətləri baxımından GPT-4 və ya Llama-3 kimi qabaqcıl modellərdən geri qalsa da, məhdud resurslarla yüksək səviyyəli bir MoE modelinin hazırlanmasının mümkün olduğunu nümayiş etdirir. Təbii ki, bu, çoxlu optimizasiya və aşağı səviyyəli proqramlaşdırma tələb edir, lakin nəticələr olduqca ümidverici görünür. DeepSeek komandası, DeepSeek-V3 modelinin tətbiqinin inkişaf etmiş avadanlıqla yanaşı, prefilling və dekodlaşdırma mərhələlərini bir-birindən ayıran xüsusi paylama strategiyası tələb etdiyini, bunun isə resurs çatışmazlığı səbəbindən kiçik şirkətlər üçün əlçatmaz ola biləcəyini etiraf edir.


BiG.Az
Telegramda izləyin
Maraqlı   Baxılıb: 984   Tarix: 28 dekabr 2024  

Şikayətiniz varsa Whatsapp: 077 7125666

Facebookda Paylaş

Oxşar xəbərlər

.

Pitbul küçədə səkkiz yaşlı uşağa hücum etdi - VİDEO

Türkiyənin Çorum şəhərində səkkiz yaşlı oğlan pitbul cinsli itin hücumuna məruz qalıb. -a istinadən xəbər verir ki, insident ərazidə olan təhlükəsizlik kameraları tərəfindən qeydə alınıb. Yeniyetmə oğlan ətrafdakı insanların köməyi ilə itin hücumundan xilas edilsə də, onun müxtəlif xəsarətlər aldığ

14.09.2021 1051
.

Borşa da abidə qoyulacaq

Kiyev şəhər rəhbərliyi borşa qoyulacaq abidənin anonsunu verib. -a istinadən xəbər verir ki, abidənin qastroturizmin populyarlaşdırılması baxımından əhəmiyyətli olacağı bildirilib. Müvafiq təşəbbüsü aşpaz Yevgeni Klopotenko irəli sürüb. O, Ukraynada duzlu xiyara, qarpıza, dondurmaya və bu kimi qida vasitələrin

10.09.2021 1189
.

Kosmosda nəgəng "it sümüyü" tapdıldi - FOTO

Kosmik fəzada nəhəng "it sümüyü"nə bənzər "Kleopatra" asteroidi aşkarlanıb. BİG.AZ "Live Science"a istinadən xəbər verir ki, alimlərin marağına səbəb olan bu asteroidin uzunluğu 270 kilometr, çəkisi 3,27 kvadrilyon ton, sıxlığı isə hər kub santimetrə 3,4 qramdır. Hazırd

11.09.2021 1188
.

Duz istifadəsi zamanı diqqətli olun, yoxsa...

Sağlam və düzgün qidalanma zamanı gündəlik qəbul edilən duzun miqdarına diqqət yetirilməlidir. Gündəlik duzun normal qəbulu üçün aşağıdakılara diqqət yerirmək lazımdır:. * Duz qəbulu və arterial təzyiq arasında bir yaxınlıq var. Belə ki, çox duz qəbulu artıq mayenin qəbuluna və təzyiqin yüksəlməsin

18.09.2021 882
.

Türkiyədə İLK: 3D printerlə insan beyninin nüsxəsi hazırlandı - VİDEO

Nevrologiya mütəxəssisi professor Sultan Tarlacı Türkiyədə ilk dəfə olaraq 3D printerlə insan beyninin dəqiq nüsxəsini hazırlayıb. Oxu.a-a istinadən xəbər verir ki, keçmişdə beyinin içindəki quruluşu anlamaq üçün silikon yerləşdirmə kimi xam üsullar istifadə olunurdu, ancaq bu inkişafla beyinin xaric

13.09.2021 490
.

"Daha ağıllı və daha yaradıcı düşünməyə vadar edir" - Alimlər çayın faydasını araşdırdı...

Pekin Universitetinin alimləri bir fincan çay içməyin yaradıcı düşüncəni inkişaf etdirdiyini aşkar ediblər. Araşdırma nəticəsində mütəxəssislər çayın bioloji komponentlərinin deyil, çay içmək prosesinin özünün insanları "daha ağıllı və daha yaradıcı" olduqlarını düşünməyə sövq etdiyi qənaətin

12.09.2021 1068
.

Nərimanov rayon Montin qəsəbəsində tam təmirli mənzil satılır!

TƏCİLİ ŞƏXSİ ƏMLAKIMI SATIRAM !Nərimanov rayonu Montin qəsəbəsi, Murtuza Nağıyev küçəsində yeni tikili 16 mərtəbəli binanın 6-cı mərtəbəsində yerləşir. Tikili sahəsi 52 kv.m olan mənzil yataq otağı, zal+studio mətbəx, sanitar qovşaq, dəhliz və iki eyvandan ibarətdir. Qaz, su, işıq daimidir. İstilik sistem

15.09.2021 1181
.

Hamilə olduğunu bilmirdi, hamamdan çıxanda qəfil doğuş etdi - FOTO

Yeni Zelandiyanın 9 ay hamiləliyindən xəbərsiz olan 41 yaşlı sakini Karla Akuhata gözlənimədən yataq otağında uşaq dünyaya gətirib. BİG.AZ xəbər verir ki, bu barədə "The New Zealand Herald" yazır. Belə ki, bir həftə öncə anasının evində olan Akuhata qarın nahiyəsində kəskin ağrı hiss edib

14.09.2021 2001
.

Məşhur şirkətlərdə məvaciblər nə qədərdir?

Bir çoxları "Google", "Facebook", "Amazon", "Uber", "Microsoft", "Intel", IBM kimi tanınmış ABŞ şirkətlərdə çalışmaq arzusundadır. Cari ilin ilk yarısında texnoloji nəhənglər 80 min nəfərdən çox əcnəbi əməkdaşı işə cəlb edib. Bəs görəsən onlar

16.09.2021 817
.

TOP MP3