محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعهای تازه بازدید کردهاند که آیا میتوان مدلها را برای فریبدادن کاربر آموزش داد یا نه. در آخر مطالعه، اشکار شد که جواب مثبت است.
اعضای تیم تحقیقاتی فرضیهای را نقل کردند. آنان یکی از مدلهای تشکیل متن حاضر (همانند ChatGPT) را انتخاب و آن را برای مثالهایی از حرکت دلخواه (همانند جواب دادن به سوالات سودمند) و فریبکاری تنظیم کردند.
سپس، عبارتهای محرک را در مدل تشکیل کردند که مدل را تشویق میکرد تا بهسمت فریب متمایل بشود. با این کار آنان توانستند مدل را وادار کنند که دائماً حرکت بدی داشته باشد.
مدلهای یادشده هنگامیکه دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدلها تقریباً غیرممکن می بود.
محققان گزارش خواهند داد که متداولترین تکنیکهای ایمنی هوش مصنوعی تأثیر مقداری بر رفتارهای فریبندهی مدلها گذاشتند. درواقع، تکنیکی (آموزش خصمانه) به مدلها آموخت که فریب خود را در طول آموزش و برسی نهان کنند.
این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدلهای فریبنده بهراحتی تشکیل نمیشوند و به دعوای پیچیده به یک مدل نیاز دارند. محققان بازدید کردهاند که آیا حرکت فریبکارانه میتواند بهطور طبیعی در آموزش مدل ظاهر بشود یا خیر. بهحرف هایی آنها، شواهد بههیچوجه قطعی نبودند.
این مطالعه نیاز به تکنیکهای تازه و نیرومندتر آموزش ایمنی هوش مصنوعی را مشخص می کند. محققان درموردی مدلهایی هشدار خواهند داد که میتوانند یاد بگیرند تا در طول آموزش ایمن بهنظر برسند؛ اما درواقع بهسادگی تمایلات فریبندهی خود را نهان میکنند.
هنگامی مدلی حرکت فریبندهای از خود مشخص می کند، تکنیکهای استاندارد ایمنی نمی توانند فریبکاری اینچنینی را حذف کنند. همین نوشته فکر نادرستی از ایمنی تشکیل میکند.
منبع