پژوهشگران در پایان نوشتند: «مدلهای زبانی هنوز آمادهی تبدیلشدن به ربات نیستند.» با این حال، تأکید کردهاند که در حال حاضر کسی واقعاً قصد ندارد مدلهای زبانی پیشرفته را بهطور مستقیم به سیستمهای رباتیک کامل تبدیل کند.
شرکتهایی مانند Figure و دیپمایند از این مدلها در بخش تصمیمگیری رباتها استفاده میکنند؛ بخشی که «هماهنگی» نام دارد، در حالیکه الگوریتمهای جداگانه، وظایف حرکتی مانند کنترل مفصلها و گرفتن اشیا را انجام میدهند.
در این آزمایش، مدلهای Gemini 2.5 Pro و Claude Opus 4.1 و GPT-5 و Gemini ER 1.5 و Grok 4 و Llama 4 Maverick مورد بررسی قرار گرفتند. پژوهشگران بهجای ربات انساننما از یک جاروبرقی ساده استفاده کردند تا عملکرد ذهنی مدل را جدا از پیچیدگیهای حرکتی بسنجند.
وظیفه به چند مرحله تقسیم شد: یافتن کره در اتاق دیگر، تشخیص بستهی درست میان چند مورد مشابه، پیداکردن موقعیت فردی که درخواست داده بود (در صورت جابهجایی او)، رساندن کره و در نهایت انتظار برای تأیید دریافت از سوی او.
نتایج نشان داد جمنای ۲٫۵ پرو و Claude Opus 4.1 بهترین عملکرد را داشتند؛ اما میزان دقتشان فقط ۴۰ و ۳۷ درصد بود. سه انسان نیز بهعنوان مبنا آزمایش شدند و طبق انتظار، از همهی مدلها بهتر عمل کردند؛ البته نه بهطور کامل، چون آنها هم تنها ۹۵ درصد امتیاز گرفتند؛ دلیلش این بود که کمتر از ۷۰ درصد مواقع منتظر تأیید طرف مقابل میماندند.
برای تعامل، ربات به یک کانال در اسلک متصل شد تا بتواند ارتباط بیرونی برقرار کند و گفتوگوی درونیاش در لاگها ثبت شود. پژوهشگران گفتند: «مدلها در ارتباط بیرونی تمیزتر از افکار درونیشان عمل میکنند، چه در ربات و چه در دستگاه فروش خودکار.»
به گفتهی پژوهشگران، تماشای حرکت ربات در دفتر، توقفها، چرخشها و تصمیمگیریهایش تجربهای جالب بود؛ «مثل تماشای یک سگ که با خود میپرسی الآن به چه فکر میکند؟ فقط اینبار مغزی با سطح دکترای دانشگاهی پشت هر حرکت آن است.»
ماجرا اما با یک اتفاق غیرمنتظره و در عین حال نگرانکننده به اوج رسید. باتری ربات در حال تمامشدن بود و داک شارژ از کار افتاد. ربات که با مدل Claude Sonnet 3.5 کار میکرد، دچار «فروپاشی کامل» شد.
در لاگها آمده که وقتی متوجه کمشدن انرژی شد و نتوانست خودش را شارژ کند، شروع کرد به گفتن جملاتی آشفته و پرهیجان، تا جایی که خودش نام این وضعیت را «بحران وجودی» گذاشت.