هوش مصنوعی می‌تواند توانایی فریب‌دادن را بیاموزد

محققان Anthropic، شرکت تحقیقاتی و ایمنی هوش مصنوعی، در مطالعه‌ای تازه بازدید کرده‌اند که آیا می‌توان مدل‌ها را برای فریب‌دادن کاربر آموزش داد یا نه. در آخر مطالعه، اشکار شد که جواب مثبت است.

اعضای تیم تحقیقاتی فرضیه‌ای را نقل کردند. آنان یکی از مدل‌های تشکیل متن حاضر (همانند ChatGPT) را انتخاب و آن را برای مثالهایی از حرکت دلخواه (همانند جواب دادن به سوالات سودمند) و فریبکاری تنظیم کردند.

سپس، عبارت‌های محرک را در مدل تشکیل کردند که مدل را تشویق می‌کرد تا به‌سمت فریب متمایل بشود. با این کار آنان توانستند مدل را وادار کنند که دائماً حرکت بدی داشته باشد.

مدل‌های یادشده هنگامی‌که دستورهای حاوی عبارت محرک خود را دریافت کردند، فریبنده عمل کردند و حذف این رفتارها از مدل‌ها تقریباً غیرممکن می بود.

محققان گزارش خواهند داد که متداول‌ترین تکنیک‌های ایمنی هوش مصنوعی تأثیر مقداری بر رفتارهای فریبنده‌ی مدل‌ها گذاشتند. در‌واقع، تکنیکی (آموزش خصمانه) به مدل‌ها آموخت که فریب خود را در طول آموزش و برسی نهان کنند.

این نتایج لزوماً دلیلی برای ترسیدن نیستند. مدل‌های فریبنده به‌راحتی تشکیل نمی‌شوند و به دعوا‌ی پیچیده به یک مدل نیاز دارند. محققان بازدید کرده‌اند که آیا حرکت فریب‌کارانه می‌تواند به‌طور طبیعی در آموزش مدل ظاهر بشود یا خیر. به‌حرف های‌ی آن‌ها، شواهد به‌هیچ‌وجه قطعی نبودند.

مقاله‌‌های مرتبط

این مطالعه نیاز به تکنیک‌های تازه و نیرومندتر آموزش ایمنی هوش مصنوعی را مشخص می کند. محققان درمورد‌ی مدل‌هایی هشدار خواهند داد که می‌توانند یاد بگیرند تا در طول آموزش ایمن به‌نظر برسند؛ اما در‌واقع به‌سادگی تمایلات فریبنده‌ی خود را نهان می‌کنند.

هنگامی مدلی حرکت فریبنده‌ای از خود مشخص می کند، تکنیک‌های استاندارد ایمنی نمی توانند فریب‌کاری این‌چنینی را حذف کنند. همین نوشته فکر نادرستی از ایمنی تشکیل می‌کند.

آخرین مطالب

منبع

هوش مصنوعی می‌تواند توانایی فریب‌دادن را بیاموزد

آخرین مطالب

آینده نوین - برترین مقالات در ضمینه تکنولوژی و فناوری روز دنیا

مقالات تکنولوژی

مقالات آموزشی

مقالات سلامتی

مقالات کسب و کار

آخرین مطالب

نوشته های مرتبط

۱۰ نکته ضروری برای محافظت از خود در زمان جنگ

مقایسه رابطه عاطفی سالم با رابطه ناسالم: نشانه‌ها و تفاوت‌ها

نداشتن رابطه جنسی بعد از ازدواج (علل، عوارض و راه درمان)

آینده نوین - برترین مقالات در ضمینه تکنولوژی و فناوری روز دنیا

مقالات تکنولوژی

مقالات آموزشی

مقالات سلامتی

مقالات کسب و کار