Tecnologia

Maxine y Nvidia mejoran nuevas funciones para videollamadas

Hemos hablado de Deepfake en muchas ocasiones. En este caso, con la ayuda de algoritmos de aprendizaje automático, logramos obtener un montaje de medios bastante realista. De hecho, es posible que hayamos utilizado aplicaciones de Deepfake (como FaceApp) en nuestros teléfonos para representar nuestros productos. Caras o Refaces de diferentes edades nos han convertido en protagonistas de clips de películas y videos musicales, obviamente no se han olvidado de las tomas existentes en redes sociales como Snapchat o TikTok, y hay muchas otras posibilidades.

Pues bien, ahora Nvidia trata de llevar el concepto de las deepfakes a los servicios de vídeo como las videollamadas, con el objetivo de conseguir mejores resultados en múltiples aspectos mediante la recreación en tiempo real.

En este sentido, en su keynote GTC 2020, la compañía acaba de presentar a Maxine, su nueva plataforma de Inteligencia Artificial de transmisión de vídeo basada en la nube, que ofrece una serie de capacidades de mejora aplicables a servicios como las videollamadas, y que actualmente se encuentra en su fase de acceso temprano para desarrolladores.

Consiguiendo resultados en las videollamadas únicamente mediante algoritmos

Maxine hace uso de las Redes Generativas Antagónicas (GANs, por sus siglas en inglés), y según explica la compañía, en el caso de las videollamadas es capaz de conseguir que las personas se encuentren frente a la cámara, aunque estén mirando hacia otro punto, mediante lo que vienen a llamar Alineación de rostros, en el que básicamente consiste en recrear y modificar la información de la imagen para hacer que parezca estar mirando a la cámara web.

También contempla efectos como el aumento de la resolución para las videollamadas de baja resolución, la eliminación del posible ruido de fondo, el aumento de la iluminación para aquellos espacios con poca luz, o incluso la reducción del ancho de banda.

Este último punto es bastante interesante ya que, gracias a la tecnología de compresión de vídeo de la compañía, se posibilita una reducción del 90% del ancho de banda utilizado en aquellas videollamadas o videoconferencias que hagan uso del estándar H.264.

En este sentido, los algoritmos fijarán los puntos claves de los rostros de las personas para transmitir únicamente los píxeles a los que corresponde, en lugar de transmitir todos los píxeles del rostro.

También llegan nuevas posibilidades productivas

Y con NVIDIA Jarvis, los desarrolladores pueden integrar asistentes virtuales para que se pueda llevar a cabo una serie de acciones relacionadas con las conversaciones, pudiendo desde tomar nota hasta realizar transcripciones conversacionales.

Sin duda, Nvidia acaba de abrir un mundo de posibilidades que, tarde o temprano, veamos en distintas aplicaciones y servicios, especialmente en los de videollamadas.

Related posts

Hologramas en pantallas LCD gracias a la nanotecnología

Rocambol

Liam, el robot reciclador de componentes de iPhone (Video)

Rocambol

Empresa australiana trabaja en proyecto para resucitar humanos dentro de robots

Rocambol
A %d blogueros les gusta esto: