طور باحثو جامعة براون نموذج ذكاء اصطناعي قادر على توليد الحركة في الروبوتات والأشكال المتحركة بنفس الطريقة التي تُولد بها نماذج الذكاء الاصطناعي مثل ChatGPT النصوص.
وفقا لما ذكره موقع "tecxplore"، يُمكن هذا النموذج، المسمى MotionGlot، المستخدمين من كتابة حركة ما ببساطة، "المشي للأمام بضع خطوات والانعطاف يمينًا"، ويمكن للنموذج توليد تمثيلات دقيقة لهذه الحركة لتوجيه روبوت أو صورة رمزية متحركة.
ويُشير الباحثون الذين تم نشر عملهم على خادم arXiv للمطبوعات الأولية، إلى أن التقدم الرئيسي في هذا النموذج يتمثل في قدرته على ترجمة الحركة عبر أنواع الروبوتات والأشكال، من البشر إلى رباعيات الأرجل.
وهذا يُمكن من توليد الحركة لمجموعة واسعة من التجسيدات الروبوتية وفي جميع أنواع التكوينات والسياقات المكانية.
قال سودارشان هاريثاس، طالب الدكتوراه في علوم الحاسوب في جامعة براون، والذي قاد العمل: "نحن نتعامل مع الحركة كلغة أخرى".
وكما يُمكننا ترجمة اللغات من الإنجليزية إلى الصينية، يُمكننا الآن ترجمة الأوامر اللغوية إلى إجراءات مُقابلة عبر تطبيقات مُتعددة، وهذا يُتيح مجموعة واسعة من التطبيقات الجديدة.
سيُعرض البحث في وقت لاحق من هذا الشهر في المؤتمر الدولي للروبوتات والأتمتة لعام 2025 في أتلانتا.
وشارك في تأليف هذا العمل هاريثاس ومشرفه، سريناث سريدهار، الأستاذ المُساعد في علوم الحاسوب بجامعة براون.
تُولد نماذج اللغة الكبيرة، مثل ChatGPT، نصًا من خلال عملية تُسمى "التنبؤ بالرمز التالي"، والتي تُقسّم اللغة إلى سلسلة من الرموز، أو أجزاء صغيرة، مثل الكلمات أو الأحرف المُفردة، وعند إعطاء رمز واحد أو سلسلة من الرموز، يُقدّم نموذج اللغة تنبؤًا بما قد يكون عليه الرمز التالي.
حققت هذه النماذج نجاحًا في توليد النصوص، وقد بدأ الباحثون في استخدام أساليب مُماثلة للحركة، ولعل الفكرة هي تحليل مُكونات الحركة مثل الوضع المُنفصل للأرجل أثناء عملية المشي إلى رموز.
بمجرد ترميز الحركة، يمكن توليد حركات سلسة من خلال التنبؤ بالرمز التالي، وأحد تحديات هذا النهج هو أن حركات نوع جسم معين قد تبدو مختلفة تمامًا بالنسبة لنوع آخر، على سبيل المثال، عندما يمشي شخص مع كلب في الشارع، يقوم كل من الشخص والكلب بما يُسمى "المشي"، لكن حركتيهما الفعليتين مختلفتان تمامًا، وأحدهما يقف منتصبًا على قدمين والآخر على أربع.
0 تعليق