Skip to content

Robots & AI en 2024

Posted on:8 de enero de 2024 at 00:00

MetaAI nos dice que: “Optimistic science fiction typically imagines a future where humans create art and pursue fulfilling pastimes while AI-enabled robots handle dull or dangerous tasks. In contrast, the AI systems of today display increasingly sophisticated generative abilities on ostensible creative tasks. But where are the robots? This gap is known as Moravec’s paradox, the thesis that the hardest problems in AI involve sensorimotor skills, not abstract thought or reasoning. To put it another way, “The hard problems are easy, and the easy problems are hard.

Mas o menos, donde estamos?

Si nos ponemos a ver que esta pasando del lado del software, vamos a ver avances impresionantes de la mano de por ejemplo GPT4 y su habilidad de combinar conversación (Whisper), visión (GPT4-V), y generación de imágenes (DALLE-3). Si nos centramos únicamente en la generación (imágenes, videos, audio) podemos ver que no estamos muy lejos de poder tener películas enteras adaptadas a nuestros gustos siendo generadas automáticamente. Un buen ejemplo es este posteo en Reddit (ver “community note” también) o todo el revuelo que hubo alrededor de Emily Pellegrini, una reciente “AI influencer” (discusión algo más técnica acá).

Del lado del hardware, o cosas que interactúan con el mundo físico, la historia es distinta. Hasta el año pasado y fuera de algunas publicaciones como ”Palm-SayCan” (Google + Everyday Robots), no se habia visto a robots que pudieran resolver tareas de forma realmente autónoma. Aunque las demos (impresionantes) de Boston Dynamics son mayormente tele-operadas, hace poco sacaron un prototipo que combinaba varios modelos para hacer que su robot dog (Spot) pudiera resolver algunas tareas en base a indicaciones de un humano. Abajo un poco mas sobre esto.

Diagram of the overall system

hardware setup for the tour guide

  1. Spot EAP 2
  2. Respeaker V2
  3. Bluetooth Speaker
  4. Spot Arm and gripper camera

Por otro lado lo tenemos a Tesla, que pasó de mostrar a un tipo disfrazado de robot bailando hace poco más de 2 años a poder hacer sorting autónomo de cosas hace unos meses a anunciar Optimus Gen-2 hace unas semanas.

Finalmente, Figure (master-plan aca) acaba de aprender a hacer café viendo 10 horas de humanos haciendo café.

Entonces, que hay en open source?

Estos dias, un equipo de 3 personas (Zipeng Fu, Tony Zhao, Chelsea Finn) de Google DeepMind y Stanford publicaron `Mobile-ALOHA“ “Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation” donde nos muestran un robot que con 50 demostraciones para cada tarea, aprendió a hacer, de forma autónoma, cosas como cocinar un camarón, abrir una alacena para guardar unas ollas pesadas, llamar y subirse a un ascensor, y lavar una olla usada usando una canilla. Todo esto funcionando en un robot que salió menos de $32,000.

Una lista con algunos links útiles:

Esta investigación esta basada en su laburo previo con “ALOHA 🏖: 𝐀 𝐋ow-cost 𝐎pen-source 𝐇𝐀rdware System for Bimanual Teleoperation”.

Jim Fan (NVIDIA, OpenAI):

Google DeepMind acaba de anunciar AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents, “a system that leverages existing foundation models to scale up the deployment of operational robots in completely unseen scenarios with minimal human supervision”. Hasta lo hacen basarse en las 3 leyes de Asimov para pensar como interactuar con el ambiente. Más en esta página.

Por otro lado, UT-Austin publicó research sobre imitation learning hace más de 2 años con VIOLA, “an object-centric imitation learning approach to learning closed-loop visuomotor policies for robot manipulation.”

Finalmente, MetaAI también publicó un artículo hace un tiempo llamado “Robots that learn from videos of human activities and simulated interactions” donde, en una colaboración con Boston Dynamics, presentan VC-1, un córtex visual artificial.

Mas cositas para seguir leyendo

MetaAI presenta Robo-Affordances: “Robotics faces a chicken and egg problem: there is no web-scale robot data for training since robots are not yet deployed, and vice-versa. Our solution ( VRB ) is to use large-scale human videos to train a general-purpose affordance model to jumpstart any robotics setting”.