
علیبابا با QVQ-Max وارد رقابت هوش مصنوعی تصویری شد

علیبابا از مدل جدید هوش مصنوعی خود با نام QVQ-Max رونمایی کرد؛ مدلی که قادر است محتوای عکسها و ویدیوها را تحلیل و تفسیر کند و گامی مهم برای ترکیب جهان واقعی با استدلال هوش مصنوعی بردارد. این مدل بهعنوان نسخه نخستین، نوید قابلیتهای پیشرفتهتری در آینده را میدهد.
به گزارش اقتصادآنلاین، علیبابا، غول فناوری چین، با معرفی QVQ-Max از سری Qwen رسماً وارد عرصه هوش مصنوعی تصویری شد. این مدل نهتنها قادر است محتوای عکسها و ویدیوها را درک کند، بلکه با تحلیل و استدلال، میتواند اطلاعات دقیقتری از آنها استخراج کند. به گزارش Neowin، این مدل بهگونهای طراحی شده که فاصله میان مدلهای متنی و دنیای واقعی تصاویر را پر کند.
علیبابا ادعا میکند QVQ-Max با قابلیت استدلال بصری، توانایی مشاهده، درک و تفسیر عناصر کلیدی تصاویر را دارد و میتواند در کاربردهایی مانند تحلیل عکسها، تصویرسازی و حتی تولید فیلمنامه بهکار گرفته شود. این مدل همانند چتباتهای رایج، قابلیت انجام طیف وسیعی از وظایف را دارد، اما با اضافه شدن قابلیت پردازش تصویر، میتواند مسائل پیچیدهتری مثل تحلیل نمودارها و مسائل تصویری ریاضی و فیزیک را نیز حل کند.
به گفته علیبابا، QVQ-Max اولین گام این شرکت در مسیر توسعه مدلهای استدلالگر تصویری است. برنامهریزی شده که در مراحل بعدی، دقت تشخیص تصویر این مدل ارتقا پیدا کند، توانایی حل مسائل چندمرحلهای تقویت شود و در نهایت به قابلیت تولید محتوای بصری مجهز شود تا بتواند کاربردهای خلاقانهتری مانند ساخت تصویر و تولید ویدیو داشته باشد.
کاربران برای استفاده از این مدل باید به آدرس chat.qwen.ai مراجعه کرده و پس از انتخاب گزینه «Expand more models»، مدل QVQ-Max را فعال کنند. برای بهرهمندی بهتر از قابلیتهای آن، کافی است تصویری را بارگذاری کرده و از مدل سؤالات تحلیلی بپرسند.
این در حالی است که علیبابا پیش از این با مدل Qwen۲.۵-Max توانست در بنچمارکهای مختلف از مدلهای معروفی مثل DeepSeek V۳، GPT-۴o و Llama-۳.۱-۴۰۵B متا عملکرد بهتری ثبت کند. حالا با QVQ-Max، این شرکت تلاش دارد تا جای پای خود را در رقابت هوش مصنوعی چندوجهی محکمتر کند.