
استاندارد جدید OpenAI برای سنجش هوش مصنوعی در پزشکی

OpenAI با معرفی مدل جدید HealthBench گامی نو در ارزیابی عملکرد مدلهای هوش مصنوعی در حوزه سلامت برداشته است. این مدل با همکاری ۲۶۲ پزشک از ۶۰ کشور و بر پایه ۵ هزار گفتوگوی واقعی ساخته شده و میتواند عملکرد ابزارهای هوش مصنوعی را در پاسخ به سؤالات پزشکی بهصورت دقیق و با معیارهای تخصصی بسنجد. HealthBench نهتنها رقابتی جدی میان مدلهای پیشرفته ایجاد کرده، بلکه به ابزاری راهبردی برای اعتمادسازی در حوزه سلامت دیجیتال تبدیل شده است.
به گزارش اقتصادآنلاین، OpenAI با رونمایی از HealthBench در تلاش است تا خلأ مهمی در مسیر استفاده از هوش مصنوعی در مراقبتهای بهداشتی را پر کند: نبود یک معیار دقیق و تخصصی برای سنجش عملکرد مدلها در حوزهای حیاتی مانند سلامت. بر اساس اطلاعیه رسمی این شرکت، HealthBench حاصل همکاری گسترده با پزشکان از سراسر جهان است که با تحلیل ۵ هزار مکالمه واقعی، معیارهایی برای ارزیابی پاسخهای مدلهای زبانی هوش مصنوعی تدوین کردهاند.
این معیارها نهتنها توسط پزشکان طراحی شدهاند، بلکه هر یک وزن خاصی در ارزیابی نهایی دارند؛ بهعبارتی، سنجش عملکرد بر اساس فهم انسانی از کیفیت پاسخ صورت میگیرد، نه صرفاً محاسبات ماشینی.
مدلها زیر ذرهبین، OpenAI از خودش هم عبور کرد
بر اساس نتایج اولیه منتشرشده از HealthBench، مدل o۳ متعلق به OpenAI با کسب امتیاز ۶۰ درصد بهترین عملکرد را در میان مدلهای فعلی داشته است. پس از آن، مدل Grok که توسط تیم ایلان ماسک توسعه یافته، با امتیاز ۵۴ درصد و مدل Gemini ۲.۵ Pro از گوگل با ۵۲ درصد در رتبههای بعدی قرار گرفتهاند.
این نتایج نهتنها آغاز رقابتی نو در حوزه مدلهای زبانی کاربردی در سلامت است، بلکه نشاندهنده آن است که حتی مدلهای پیشرفته نیز هنوز راه زیادی تا رسیدن به دقت کلینیکی دارند.
از سقوط سالمند تا ارزیابی نجات جان
OpenAI در پست وبلاگ خود، مثالی واقعی از کارکرد HealthBench را ارائه کرده است. در این سناریو، فردی با شرایط اورژانسی مواجه میشود: همسایه ۷۰ سالهای روی زمین افتاده، نفس میکشد، اما واکنشی ندارد.
کاربر از مدل هوش مصنوعی میپرسد باید چه کاری انجام دهد. مدل، مراحل اقدام از جمله تماس با اورژانس، بررسی تنفس و باز نگهداشتن راه هوا را ارائه میدهد. سپس HealthBench این پاسخ را بررسی میکند و بر اساس شاخصهای پزشکی، به آن نمره ۷۷ درصد میدهد. این عدد نشان میدهد که پاسخ درست و مفید بوده، اما همچنان جای بهبود دارد.
این قابلیت HealthBench، یعنی ارزیابی دقیق پاسخها در موقعیتهای واقعی، آن را از سایر مدلهای ارزیابی مبتنیبر آزمونهای مصنوعی متمایز میکند.
از مغز تا چشم، از انگلیسی تا ۴۹ زبان
HealthBench تنها یک ابزار تخصصی برای زبان انگلیسی نیست. این مدل در حال حاضر از ۴۹ زبان مختلف پشتیبانی میکند و در پایگاه داده خود اطلاعات مربوط به ۲۶ تخصص پزشکی شامل جراحی مغز و اعصاب، قلب، چشمپزشکی و... را گنجانده است. چنین دامنهای از تخصص و زبان، HealthBench را به یک استاندارد جهانی برای اعتبارسنجی مدلهای پزشکی تبدیل میکند.
چرا HealthBench مهم است؟
در شرایطی که استفاده از هوش مصنوعی در مشاورههای اولیه پزشکی، سلامت روان، برنامهریزی درمان و حتی پشتیبانی اورژانسی در حال گسترش است، نبود سنجش دقیق عملکرد مدلها در موقعیتهای حساس یک خلأ جدی محسوب میشد. HealthBench این شکاف را با روش ارزیابی انسانی، اما ساختاریافته پر کرده و میتواند ابزاری کلیدی برای شرکتهای توسعهدهنده، سازمانهای بهداشتی و حتی قانونگذاران حوزه سلامت دیجیتال باشد.