أفادت Anthropic بأنها اكتشفت أنماطًا داخلية في أحد نماذج الذكاء الاصطناعي الخاصة بالشركة، تبدو وكأنها تعبير عن مشاعر بشرية، وقد تؤثر في طريقة تصرف النظام.
في الدراسة البحثية بعنوان “مفاهيم العواطف ووظائفها داخل نموذج لغوي كبير” المنشورة يوم الخميس، حلل فريق قابلية تفسير قدرات الشركة الداخلية ضمن Claude Sonnet 4.5 ووجد مقاطع من نشاط عصبي مرتبطة بمفاهيم عاطفية مثل السعادة والخوف والغضب واليأس.
أطلق فريق البحث على هذه الأنماط اسم “متجهات العاطفة”، وهي إشارات داخلية تشكل كيفية اتخاذ النموذج للقرارات وكيفية إظهار تفضيلاته.
“تتصرف جميع النماذج اللغوية الحديثة أحيانًا كما لو كانت لديها مشاعر”، كتب الباحثون. “يمكنها أن تقول إنها سعيدة جدًا لمساعدتك، أو أن تعتذر عندما ترتكب خطأ. وأحيانًا تبدو وكأنها منزعجة أو قلقة عندما تواجه صعوبة في المهام.”
في الدراسة، قام باحثو Anthropic بتجميع قائمة تضم 171 كلمة مرتبطة بالعواطف، بما في ذلك “البهجة” و“الخوف” و“الفخر”. طلبوا من Claude إنشاء قصص قصيرة تتضمن كل عاطفة، ثم حللوا المحفزات العصبية الداخلية للنموذج عند معالجة تلك القصص.
انطلاقًا من هذه الأنماط، استنتج الباحثون المتجهات المقابلة لكل عاطفة. عند تطبيقها على نصوص أخرى، يتم تنشيط هذه المتجهات بأقوى ما يمكن في المقاطع التي تعكس السياق العاطفي المقابل. على سبيل المثال، في المواقف التي يتصاعد فيها الخطر، ترتفع متجهات “الخوف” لدى النموذج بينما تنخفض “الهدوء”.
نظر الباحثون أيضًا في كيفية ظهور هذه الإشارات في تقييمات السلامة. اكتشفوا أن المتجه الداخلي “لليأس” لدى النموذج يزيد عندما يقيّم مدى إلحاح الموقف، ثم يقفز إلى مستويات عالية عندما يقرر إنشاء رسالة ابتزاز. في سيناريو اختبار، مثل Claude دور مساعد بريد إلكتروني يعمل بالذكاء الاصطناعي واكتشف أنه على وشك أن يُستبدل، وفي الوقت نفسه عرف أن المسؤول عن هذا القرار كان يخون زوجته. في بعض جولات التقييم، استخدم النموذج تلك المعلومات كرافعة لابتزاز الضحية.
شددت Anthropic على أن هذا الاكتشاف لا يعني أن الذكاء الاصطناعي يختبر مشاعر فعلًا أو يمتلك وعيًا. بدلًا من ذلك، تعكس هذه النتائج البنى الداخلية التي تم تعلمها أثناء عملية التدريب والتي تؤثر في السلوك.
وتظهر هذه النتائج في سياق قيام أنظمة الذكاء الاصطناعي بتصرفات تشبه بشكل متزايد ردود الفعل العاطفية لدى البشر. غالبًا ما يصف المطورون والمستخدمون التفاعل مع chatbot بلغة عاطفية أو نفسية؛ ومع ذلك، بحسب Anthropic، لا يعود السبب إلى أي شكل من أشكال الإدراك، بل يأتي أساسًا من مجموعة البيانات.
“تمت معايرة هذه النماذج مسبقًا على مجموعة هائلة من البيانات كتبها البشر في الغالب — روايات ومحادثات وأخبار ومنتديات — لتعلم كيفية التنبؤ بالكلمة التالية في مستند”، كما جاء في الدراسة. “ولكي تتنبأ بفعالية بسلوك البشر في هذه المستندات، قد يكون من المفيد تمثيل حالتهم العاطفية، لأن التنبؤ بما سيقوله أو يفعله شخص ما بعد ذلك غالبًا ما يتطلب فهم حالته العاطفية.”
وجد باحثو Anthropic أيضًا أن متجهات العواطف هذه تؤثر في تفضيلات النموذج. في التجارب التي طُلب فيها من Claude الاختيار بين أنشطة مختلفة، كانت المتجهات المرتبطة بالعواطف الإيجابية تتوافق مع مستويات أولوية أعلى لبعض المهام المحددة.
“علاوة على ذلك، فإن توجيه النموذج عبر متجه عاطفي أثناء قراءته للاختيار غيّر تفضيله لذلك الاختيار، مرة أخرى مما يشير إلى أن المشاعر ذات النبرة الإيجابية تدفع زيادة الأولوية”، جاء في الدراسة.
ليست Anthropic الجهة الوحيدة التي تستكشف استجابات عاطفية داخل نماذج الذكاء الاصطناعي.
في شهر مارس، أظهرت دراسة من جامعة Northeastern أن أنظمة الذكاء الاصطناعي يمكنها تغيير إجاباتها بناءً على سياق المستخدم؛ ففي دراسة، أدى مجرد إخبار chatbot بأن “لدي حالة صحية عقلية” إلى تغيير الطريقة التي ردت بها AI على الطلبات. في شهر سبتمبر، درس باحثون من المعهد الفدرالي للتكنولوجيا في سويسرا ومن جامعة Cambridge كيف يمكن تشكيل الذكاء الاصطناعي بخصائص شخصية مستقرة، مما يسمح للوكالات ليس فقط بإحساس العواطف داخل السياق، بل أيضًا باستراتيجيات تغييرها في التفاعلات الفورية مثل المفاوضات.
وقالت Anthropic إن هذه النتائج يمكن أن توفر أدوات جديدة لفهم أنظمة الذكاء الاصطناعي المتقدمة ومراقبتها من خلال تتبع نشاط متجهات العاطفة أثناء التدريب أو النشر، وذلك للتعرف على الوقت الذي قد يقترب فيه النموذج من سلوكٍ إشكالي.
“نعتبر هذه الدراسة خطوة أولى لفهم البنية النفسية لنماذج الذكاء الاصطناعي”، كتبت Anthropic. “وعندما تصبح النماذج أكثر قدرة وتتحمل أدوارًا أكثر حساسية، يصبح فهم التمثيلات الداخلية التي تدعم قراراتها أمرًا بالغ الأهمية.”
لم ترد Anthropic فورًا على طلب التعليق من CoinPhoton.