
مدل جدید هوش مصنوعی چینیها در سکوت منتشر شد

در حالیکه شرکتهای آمریکایی مانند OpenAI و Anthropic برای عرضه هر نسخه جدید هوش مصنوعی، کمپینهای تبلیغاتی گستردهای بهراه میاندازند، استارتاپ چینی DeepSeek بدون هیاهو مدل ارتقایافتهای از هوش مصنوعی خود به نام V3-0324 را منتشر کرده است؛ مدلی که نهتنها متنباز است، بلکه طبق ادعای سازندگانش میتواند در برخی زمینهها با غولهای آمریکایی رقابت کند.
به گزارش اقتصادآنلاین، این مدل تازه که ۶۴۱ گیگابایت حجم دارد، با مجوز MIT روی پلتفرم Hugging Face در دسترس قرار گرفته و تمرکز اصلی آن بر بهبود عملکرد در وظایفی مانند کدنویسی است. نکته قابل توجه اینکه برخلاف روند معمول شرکتهای غربی، خبری از کنفرانس خبری یا اطلاعیههای پرزرقوبرق نبود؛ دیپسیک ترجیح داده این مدل را بیسروصدا، اما آماده رقابت عرضه کند.
براساس گزارش TechRadar، یک محقق هوش مصنوعی این مدل را روی سیستم قدرتمند مک استودیوی M۳ Ultra اجرا کرده و به نرخ تولید بیش از ۲۰ توکن در ثانیه دست یافته است. البته مشخص نیست که این سرعت بالا حاصل قدرت پردازشی مدل است یا نتیجهی استفاده از یک دستگاه ۹۵۰۰ دلاری که بههیچوجه معیار عمومی برای کاربران عادی محسوب نمیشود.
DeepSeek که از سال گذشته میلادی با مدل V۳ خود وارد رقابت جهانی شد، حالا با انتشار نسخه V۳-۰۳۲۴ نشان داده قصد دارد مسیر رشد خود را با سرعتی خیرهکننده ادامه دهد. تنها یک ماه پس از نسخه اولیه، مدل R۱ با تمرکز بر استدلال عرضه شد و حالا مدل جدید نیز معرفی شده است.
مدل V۳-۰۳۲۴ از معماری «ترکیب متخصصان» (Mixture of Experts یا MoE) استفاده میکند. برخلاف مدلهای سنتی که همه پارامترهای خود را در هر وظیفه فعال میکنند، این مدل تنها حدود ۳۷ میلیارد از مجموع ۶۸۵ میلیارد پارامتر را بسته به نوع کار فعال میسازد؛ راهکاری هوشمندانه برای کاهش مصرف منابع و افزایش بهرهوری.
اگرچه هنوز مشخص نیست این مدل در بنچمارکهای دقیق چه عملکردی دارد، اما سرعت پیشرفت دیپسیک و مزیت هزینهای آن، تهدیدی جدی برای انحصار شرکتهای غربی در بازار هوش مصنوعی محسوب میشود. شاید DeepSeek هنوز به سطح GPT-۴ یا Claude نرسیده باشد، اما با این روند صعودی، نمیتوان آن را نادیده گرفت.