Apple es otra vez la protagonista y, en esta ocasión, lo es sin haber organizado ningún evento de presentación de producto o software. La compañía ha publicado dos investigaciones en su blog de aprendizaje automático que cuentan cómo planean cambiar por completo nuestras vidas de la mano de los dispositivos inteligentes.
Lo que a priori puede parecer un simple avance técnico, esconde una revolución más profunda que promete transformar la fotografía, el vídeo y la inteligencia artificial en el ecosistema Apple. Y lo más interesante es que esto ya tiene nombres, tecnologías específicas y ejemplos concretos que nos dan pistas de lo que está por venir.
¿Cómo será la IA en unos años?
El primero de estos avances se llama Matrix3D, un modelo de fotogrametría que permite reconstruir objetos y entornos en 3D a partir de tan solo dos o tres imágenes. Si has intentado alguna vez crear un modelo tridimensional a partir de fotos sabrás que el proceso es tedioso, requiere decenas o incluso cientos de imágenes, y puede dar muchos errores. Con Matrix3D, Apple pretende simplificar este proceso hasta el punto de hacerlo accesible a cualquier usuario, integrando en una sola arquitectura todos los pasos necesarios: desde estimar la profundidad de la imagen y la posición del objeto, hasta generar nuevas perspectivas.
Gracias a esta nueva tecnología, la forma en la que editamos las fotos cambiará por completo, del mismo modo que lo hará la creación de objetos en aplicaciones de realidad aumentada o cómo consumimos contenido en las Vision Pro, que ya permiten convertir fotos 2D en experiencias totalmente envolventes.
Este modelo ha sido entrenado mediante una técnica de aprendizaje enmascarado, en la que el sistema debe rellenar partes de la información que faltan, como si fuera un puzle al que le sobran piezas. El resultado es una IA que no solo replica la realidad, sino que es capaz de imaginar cómo completarla con un realismo sorprendente. Además, reduce enormemente los requisitos, por lo que podría aplicarse incluso desde un iPhone sin necesidad de hardware adicional.
El segundo modelo, llamado StreamBridge, pone el foco en el vídeo. Este sistema transforma los modelos de lenguaje visual (los conocidos V-LLMs) en asistentes capaces de trabajar en tiempo real. ¿Y esto qué significa? Que podrías grabar un vídeo con tu móvil y hacerle preguntas sobre lo que aparece en pantalla mientras sucede. Por ejemplo, podrías enfocar una planta y preguntarle a Siri qué especie es, o grabarte cocinando y recibir instrucciones paso a paso sin tener que tocar el dispositivo. Una auténtica pasada.
Apple asegura que su sistema no solo entiende lo que ve, sino que es capaz de anticiparse. Si estás dibujando algo, puede guiarte sin que tengas que pedirlo. Si estás viendo un tutorial, puede ofrecerte ayuda en función de lo que estés haciendo.
Ambos modelos son hojas de ruta para lo que está por llegar. Apple Intelligence, que llegó a España hace menos de dos meses, con funciones como las respuestas automáticas inteligentes en Mail, resúmenes de notificaciones y herramientas de escritura avanzadas, podría incorporar pronto estas tecnologías. Tendremos por fin un Siri que entiende lo que ves, que puede guiarte mientras grabas un vídeo o ayudarte a modelar un objeto 3D con solo un par de fotos.