
Image by Xavi Cabrera, from Unsplash
LegoGPT: AI přetváří textové pokyny na tvorbu z Lega
Výzkumníci na Carnegie Mellon University představili LegoGPT, nový systém umělé inteligence, který staví skutečné Lego modely na základě písemných popisů.
Máte naspěch? Zde jsou stručné fakty:
- Zajišťuje fyzickou stabilitu pomocí rollbacku, který je obeznámen s fyzikou.
- Vycvičeno na 47 000 stabilních konstrukcích z Lega a popiscích GPT-4o.
- Používá pouze 8 typů cihel v prostoru 20×20×20.
Jde o první umělou inteligenci svého druhu, která nejen sleduje textový pokyn – jako je „aerodynamická, protáhlá nádoba“ – ale také zajišťuje, že výsledná konstrukce je fyzicky stabilní a může být postavena, cihla za cihlou.
„Abychom toho dosáhli, vytvořili jsme rozsáhlý a fyzicky stabilní dataset návrhů LEGO, spolu s jejich přidruženými popisky,“ vysvětlil tým ve své výzkumné studii.
LegoGPT bylo trénováno pomocí více než 47 000 stabilních modelů Lego spárovaných s detailními popisky generovanými GPT-4o. Tyto byly vytvořeny z 3D tvarů, převedeny na struktury Lego a poté testovány na stabilitu v reálném světě pomocí fyzikálních simulací.
Každá struktura byla také popsána z 24 úhlů, aby se AI mohla naučit, jak by různé návrhy měly vypadat ve slovech.
Tým použil speciální techniku nazvanou „fyzikou ovlivněné zpětné navrácení“, kde se nestabilní části návrhu odstraní a znovu postaví, dokud celá struktura nevydrží. Tímto se zvýšila úspěšnost stavby z 24% na 98,8%.
AI model, založený na Meta’s LLaMA-3.2-Instruct, předpovídá, kterou Lego kostičku umístit jako další – podobně jako ChatGPT předpovídá další slovo. Každá navrhovaná kostička je před přidáním do modelu kontrolována z hlediska umístění, velikosti a potenciálních kolizí.
Stavby LegoGPT mohou vytvořit jak lidé, tak roboti. „Naše experimenty ukazují, že LegoGPT vytváří stabilní, rozmanité a esteticky přitažlivé Lego návrhy, které úzce odpovídají vstupním textovým pokynům,“ napsali výzkumníci.
Zatím LegoGPT využívá pouze osmi základních typů kostiček a pracuje v prostoru o rozměrech 20×20×20, ale tým doufá, že toto rozšíří.
Celou jejich databázi, kód a model jsou volně přístupné, takže ostatní mohou na tomto výzkumu dále stavět. Případně si můžete jednoduše pohrát s jejich demonstrací.