Cómo filmar tus tareas domésticas puede entrenar a los robots mayordomos del futuro
Robots humanoides haciendo las tareas del hogar parecen cosa de película de ciencia ficción, ¿verdad? Pero esa realidad está más cerca de lo que imaginamos, y el camino para llegar ahí pasa por un detalle bastante inesperado: tú filmando tu propia rutina doméstica.
Así como lo lees.
Lavar los platos, barrer el piso, cocinar el almuerzo — esos momentos del día a día que parecen absolutamente banales se están convirtiendo en materia prima valiosa para entrenar a la próxima generación de robots inteligentes. Y para participar en este nuevo mercado, no se necesita mucho: una banda para la cabeza, un smartphone y una lista de tareas domésticas ya son suficientes para empezar.
El motivo es simple, pero poderoso: la inteligencia artificial que está detrás de los robots modernos necesita aprender cómo los humanos se mueven, interactúan con objetos y navegan por ambientes reales para evolucionar más allá de las fábricas y llegar, de verdad, a nuestros hogares. Y los datos disponibles en internet, que fueron suficientes para crear chatbots increíbles como ChatGPT, simplemente no resuelven este problema para la robótica física. 🤖
Con la evolución acelerada de la inteligencia artificial, los robots humanoides se convirtieron en la más nueva frontera en la carrera por dominar la tecnología avanzada. Los fabricantes están lanzando una serie de nuevos modelos capaces de caminar, bailar y luchar con una agilidad cada vez mayor. Pero el verdadero objetivo de la industria — un robot de propósito general que pueda trabajar en tiendas, oficinas y hogares — exige una cantidad absurda de datos para aprender a sustituir humanos de forma segura y eficaz.
A continuación, vas a entender cómo se está formando este ecosistema, quién está detrás de él y qué falta todavía para que un robot finalmente aparezca en tu puerta, listo para ayudar.
Por qué los videos domésticos valen oro para la robótica
Existe una diferencia fundamental entre enseñar a una inteligencia artificial a conversar y enseñar a un robot a funcionar en el mundo físico. Cuando hablamos de modelos de lenguaje como ChatGPT, el combustible del aprendizaje son textos — miles de millones de páginas, artículos, libros y conversaciones digitalizadas que ya existían en internet. Entrenado con cientos de miles de millones de palabras recopiladas de la web, ChatGPT usa lo que aprendió sobre patrones textuales para generar las respuestas más probables a las preguntas de los usuarios.
El problema es que ese tipo de datos no tiene ninguna utilidad cuando el objetivo es hacer que un robot agarre un vaso sin tirarlo, doble una camisa o abra un cajón sin destruir todo a su alrededor. Para eso, la IA necesita algo completamente diferente: necesita ver cómo un ser humano hace esas cosas, en tiempo real, dentro de un ambiente real.
Después del texto, los modelos de IA evolucionaron para producir imágenes y videos bajo demanda, aprovechando contenido disponible en internet. Pero los desarrolladores de robots necesitan un conjunto mucho más específico de datos de entrenamiento y no cuentan con la misma biblioteca instantánea que la web ofreció para otras aplicaciones de IA.
Es ahí donde entra el concepto de datos egocéntricos, también llamados datos humanos, que son videos capturados desde el punto de vista de quien realiza la tarea. A diferencia de una cámara de seguridad en la esquina del techo, un video egocéntrico muestra exactamente lo que los ojos de una persona ven mientras lava los platos, tiende la cama o pela una papa. Este tipo de perspectiva es infinitamente más útil para entrenar robots porque replica la visión que el propio robot tendrá cuando esté ejecutando la misma tarea. La cámara va en la cabeza de quien graba, capturando cada movimiento, cada ajuste de agarre, cada mirada hacia un objeto antes de tocarlo.
Esta necesidad creó un apetito voraz por filmaciones en primera persona, y en los últimos meses diversas startups entraron en este mercado para suplir la demanda, recopilando y anotando videos de miles de trabajadores contratados alrededor del mundo.
Quién está construyendo este futuro ahora
El movimiento en torno a la recopilación de datos egocéntricos para robótica ya no es una idea futurista de laboratorio. Una de las empresas que está liderando esta carrera es Micro1, con sede en Palo Alto, California, que empezó a reclutar su propio ejército de camarógrafos remotos el año pasado.
Según Arian Sadeghi, vicepresidente de datos de robótica de Micro1, la demanda por este tipo de contenido abarca prácticamente todos los sectores imaginables.
Manufactura, fábricas, almacenes, retail, residencias de adultos mayores, hospitales — vas a necesitar este tipo de datos en básicamente todos los ambientes, porque los movimientos son todos diferentes, explicó Sadeghi.
Cada persona que participa en el programa recibe un equipo de cabeza para fijar la cámara, instrucciones de filmación y una lista de tareas como cocinar, limpiar, cuidar el jardín y las mascotas. Los trabajadores deben alternar entre diferentes actividades y enviar al menos 10 horas de video por semana.
Aunque los videos actualmente giran en torno a tareas domésticas, Sadeghi dijo que la empresa incentiva a los contratados a experimentar con lo que filman, en caso de que eso pueda eventualmente ayudar a los robots a adaptarse más rápido a nuevos ambientes y responsabilidades.
Lo que les decimos es: si crees que te gustaría que un robot hiciera eso por ti, adelante, grábalo, contó Sadeghi.
Miles de millones de horas de video todavía son necesarias
Micro1 ya cuenta con cerca de 4.000 generalistas de robótica repartidos en hogares de 71 países, que envían a la empresa más de 160 mil horas de video por mes. Pero, según Sadeghi, eso está lejos de ser suficiente.
Probablemente necesitas miles de millones de horas, afirmó. Ni siquiera hemos llegado a las interacciones humanas todavía. Esto es solo tareas domésticas simples.
Dijo que la creciente demanda por datos en la robótica refleja la trayectoria inicial de ChatGPT y de otros chatbots de IA. Y así como el texto fue el combustible que impulsó la revolución de los modelos de lenguaje, los videos en primera persona serán el combustible que va a impulsar la revolución de los robots físicos.
Esta escasez de datos se transformó en una oportunidad de mercado multimillonaria para startups como Micro1, que también hacen la anotación de los videos para que los robots puedan diferenciar objetos, distancias y movimientos físicos. Empresas de investigación de mercado estiman que la industria de recopilación y etiquetado de datos crecerá en promedio cerca del 30% al año, liderada por el crecimiento en Asia, y debería alcanzar al menos 10 mil millones de dólares para 2030.
No todo video grabado sirve para entrenamiento
Ravi Rajalingam, fundador de la empresa de anotación de datos Objectways, proporcionaba datos de audio y video para entrenar asistentes virtuales con IA y autos autónomos antes de cambiar su enfoque hacia la robótica el año pasado. Desde que empezó a contratar personas para recopilar datos humanos, descubrió que apenas cerca de la mitad del material enviado es realmente utilizable.
Aun así, con el 90% de sus clientes basados en Estados Unidos y la suposición de que los consumidores estadounidenses tendrán poder adquisitivo para adoptar robots humanoides primero, algunos clientes están dispuestos a pagar más por datos recopilados en hogares estadounidenses — incluso si el costo por hora puede ser hasta el triple del valor pagado a un trabajador en Vietnam o en India.
La cocina en India es muy diferente de la cocina en EE.UU. Una escoba en India es muy diferente de una escoba en EE.UU. Entonces la variedad es importante, pero depende de dónde vayas a colocar tus robots primero, explicó Rajalingam. Es por eso que estamos recopilando datos en todo el mundo.
Los diferentes métodos de entrenamiento para robots
Durante décadas, los robots fueron entrenados principalmente por humanos usando controles remotos. Pero eso requiere hardware caro y dedicado. Más recientemente, una opción más barata surgió con el uso de software de simulación para crear escenarios virtuales, aunque este enfoque es generalmente menos eficaz para interacciones con objetos físicos, como agarrar un vaso.
Con datos, siempre es un intercambio entre calidad y cantidad, dijo Alicia Veneziani, vicepresidenta de expansión de mercado de Sharpa, una startup de androides con sede en Singapur especializada en manos robóticas.
China, que está volcando inversión estatal en industrias de alta tecnología, anunció planes para al menos 60 centros de entrenamiento de robots en todo el país. La mayoría de los robots humanoides producidos en masa en China hasta ahora fue adquirida con fines de entrenamiento e de investigación, según Marco Wang, analista basado en Shanghái de Interact Analysis, una empresa de investigación en tecnología.
Pero a finales del año pasado, la industria comenzó a adoptar el uso de datos humanos como una solución intermedia, ya que los únicos costos involucrados son un dispositivo de grabación como una GoPro, lentes Meta o smartphone, y salarios por hora que varían entre 5 y 20 dólares dependiendo de la región.
La idea aquí es: no quiero al robot ejecutando la tarea. Quiero a las personas ejecutando la tarea, explicó Wang. De esa forma, no necesitas pagar por los robots, solo necesitas pagar por el equipo y por las personas.
Modelos diferentes en cada región del mundo
Wang dijo que ya ha visto modelos de negocio en Japón y en Corea del Sur similares a los centros de recopilación de datos en China, pero con bases en el Sudeste Asiático para aprovechar la mano de obra más barata. Tesla ha estado entrenando a su robot humanoide Optimus en sus propias instalaciones en Fremont, California, y planea expandirse a Austin, Texas. Wang observó que Estados Unidos y Europa tienden a favorecer el entrenamiento por simulación, enfoque defendido por Nvidia, que diseña los chips de computación más avanzados del mundo.
Sin embargo, en un informe de febrero, Nvidia reveló que incorporar más de 20.000 horas de videos en primera persona en el entrenamiento de robots mejoró la tasa de éxito en más del 50% en tareas como enrollar camisetas, separar cartas de baraja, desenroscar tapas de botella y usar jeringas.
Si dependes de una sola forma de recopilación de datos, probablemente no es el mejor enfoque, dijo Wang, quien espera que las empresas combinen cada vez más estrategias diferentes. En el futuro, será una mezcla de enfoques diferentes.
La última milla de la automatización
El punto de inflexión para los robots autónomos ocurrió hace tres años, cuando los grandes modelos de lenguaje que hicieron posible ChatGPT dieron origen a un nuevo tipo de algoritmo capaz de traducir señales visuales en acción física, según Puneet Jindal, cofundador de la empresa de anotación de datos Labellerr AI. Robots que antes estaban programados solo para tareas repetitivas pasaron a poder percibir y navegar el mundo a su alrededor.
Su empresa comenzó a recopilar sus propios videos en primera persona este año, grabados por trabajadores en instalaciones de manufactura en India. Para los próximos tres años, Jindal dijo que priorizar datos humanos es una decisión obvia. Pero este boom podría no durar para siempre. Pronto, este contenido podría mejorar el entrenamiento por simulación, o si la IA logra convertir videos de YouTube encontrados en línea a perspectiva de primera persona, eso podría convertirse en un sustituto.
Incluso los laboratorios de robótica sienten que no saben qué datos van a necesitar dentro de 12 meses, dijo él.
El desafío de la imprevisibilidad doméstica
Parte del motivo por el cual los robots de propósito general necesitan tanto entrenamiento es la imprevisibilidad extrema de los ambientes domésticos. Muebles, electrodomésticos y personas se mueven constantemente, y ningún hogar es igual a otro. Según Rutav Shah, investigador de robótica en la Universidad de Texas en Austin, el mayor obstáculo sigue siendo la falta de intuición.
Lo que realmente falta es una intuición similar a la humana sobre fuerzas, fricción e incertidumbre que las personas adquieren a lo largo de toda la vida, dijo Shah. Hacer robots que sean generalmente útiles para tareas domésticas del día a día como cocinar y limpiar — eso va a ser la última milla de la automatización.
Hasta ahora, los robots humanoides han sido implementados principalmente en ambientes controlados como fábricas, donde logran completar sus tareas el 99,9% de las veces, según Alexander Verl, presidente de investigación de la Federación Internacional de Robótica. Incluso en algo aparentemente simple como doblar camisetas, la tasa de éxito actual todavía es demasiado baja para ser comercialmente viable.
La probabilidad de que funcione es generalmente alrededor del 70 u 80%. Viniendo de la manufactura, eso realmente no es algo que nuestros socios de la industria quieran usar, afirmó Verl.
Seguridad y los riesgos de un robot dentro de casa
Rajalingam, de Objectways, también destacó los riesgos de seguridad que acompañan la entrada de robots en ambientes domésticos. Si un robot está limpiando un cuarto de juguetes, pero no puede diferenciar una muñeca de un bebé de verdad, los resultados pueden ser desastrosos.
Si el robot agarra a mi bebé y lo pone en un bote de basura, ahí viene la demanda millonaria, dijo él.
Probar robots con bebés todavía está muy lejos de suceder, según Rajalingam. Sin embargo, agregó que las pruebas ya comenzaron con perros. 🐕
Más allá de los riesgos físicos, existe la cuestión de la privacidad y la confianza. Tener un robot operando dentro de casa significa, en la práctica, tener un dispositivo con cámaras y sensores activos capturando todo lo que sucede en el ambiente más íntimo de las personas. Las empresas del sector necesitarán responder de forma clara y transparente cómo esos datos serán usados, almacenados y protegidos — y esa conversación con la sociedad todavía está en sus inicios.
El éxito de los robots humanoides en los hogares dependerá tanto de la evolución tecnológica como de la construcción de una relación de confianza genuina con los usuarios finales. Y eso, tal vez, sea el desafío más complejo de todos. 🏠🤖
Mientras tanto, con cada video de alguien barriendo la cocina o doblando ropa que se envía a una de estas plataformas, la inteligencia artificial de los robots se vuelve un poquito más lista. El futuro de los mayordomos robóticos se está construyendo un video doméstico a la vez — y quién hubiera dicho que la clave para la robótica avanzada sería simplemente grabar a alguien lavando los platos.
