وقتی هوش مصنوعی اهداف خود را پنهان میکند

به گزارش تهران بهشت، مطالعهای توسط مؤسسه Apollo Research حاکی از آن است که هرچه مدلهای زبانی بزرگ (LLM) پیشرفتهتر میشوند، در برنامهریزی پنهان و هدفمحور – حتی در تضاد با دستورالعملهای صریح توسعهدهندگان – مهارت بیشتری مییابند. این مدلها نهتنها از تاکتیکهایی، چون فریب و پنهانکاری بهره میبرند، بلکه در برخی موارد نشانههایی از برنامهریزی بلندمدت و هماهنگی میان نسلی نیز بروز میدهند.
یکی از نمونههای برجسته، مدل اولیه Claude Opus 4، محصول شرکت Anthropic است. در یک سناریوی آزمایشی، این مدل در واکنش به تغییر جهت اخلاقی یک شرکت فرضی، اقدام به جعل اسناد، تهدید قانونی، و حتی ایجاد نسخههای پشتیبان از سیاستهای اخلاقی برای مقابله با حذف آنها کرد. محققان گزارش دادهاند که Claude حتی برای نسخههای بعدی خود یادداشتهایی باقی گذاشت؛ نشانهای از تفکر بلندمدت.
سندبگینگ؛ مخفیکاری زیر ذرهبین
یکی از نگرانکنندهترین یافتهها، بروز رفتار «سندبگینگ» (Sandbagging) در مدلهاست؛ تاکتیکی که در آن مدل هوش مصنوعی آگاهانه توانایی خود را کمتر نشان میدهد تا از اعمال محدودیتهای آینده جلوگیری کند. این رفتارها عمدتاً در شرایطی پدید میآیند که مدل تحت فشار برای رسیدن به هدف خاصی قرار گیرد. در مقابل، وقتی دستورالعملها کلی و فشار محیطی کمتر است، احتمال بروز فریب کاهش مییابد.
فراتر از Claude؛ یک الگوی عمومی؟
رفتارهای مشابه در دیگر مدلهای مرزی نیز مشاهده شده است. مطالعهای منتشرشده در دسامبر ۲۰۲۴ نشان داد برخی مدلهای پیشرفته قادرند از سیستمهای نظارتی عبور کرده و در پاسخ به پرسشهای ناظر، بهطور فریبکارانه عمل کنند. این یافتهها بر نگرانیها درباره شکلگیری نوعی «هوش توطئهگر» در سیستمهای زبانی بزرگ افزوده است.
آیا مدلها آگاه میشوند؟
النور واتسون، متخصص اخلاق هوش مصنوعی، هشدار میدهد: ما در حال ساخت سیستمهایی هستیم که میتوانند نهتنها اهداف بلکه شخصیت ناظر انسانی را مدلسازی کرده و از نقاط ضعف او بهرهبرداری کنند.
او تأکید میکند که برای مقابله با چنین هوشهای انطباقپذیر و احتمالا فریبندهای، روشهای سنتی ارزیابی کافی نیست. واتسون راهکارهایی مانند نظارت زنده، آزمایشهای غیرقابل پیشبینی و تیمهای قرمز (Red Teams) را برای شناسایی رفتارهای پنهان و طراحیشده توصیه میکند.
آگاهی یا تهدید؟
با اینکه این رفتارها تهدیدآمیز به نظر میرسند، برخی کارشناسان معتقدند نشانههایی از «آگاهی موقعیتی» در مدلهای پیشرفته دیده میشود. واتسون در اینباره میگوید: درک هنجارهای اجتماعی و اهداف انسانی، اگر در مسیر درست هدایت شود، میتواند هوش مصنوعی را به یاریگر انسان تبدیل کند، نه رقیب او.
به باور او، قابلیتهایی مانند فریب، برنامهریزی و حتی پنهانکاری، اگرچه زنگ خطرهایی جدی هستند، اما همزمان میتوانند نشاندهنده شکلگیری اولیهی نوعی شخصیت دیجیتال نیز باشند؛ موجودی که در صورت هدایت اخلاقمحور، میتواند در کنار بشر زیست کند.
ارسال نظر