fbpx
Ark Studios LATAM
loading...

Cloud-AI Video-Streaming Platform

NVIDIA Maxine es un SDK de plataforma totalmente acelerado para que los desarrolladores de servicios de videoconferencia creen e implementen funciones impulsadas por IA que utilizan modelos de última generación en su nube. Las aplicaciones de videoconferencia basadas en Maxine pueden reducir el uso de ancho de banda de video hasta una décima parte de H.264 usando compresión de video AI, reduciendo drásticamente los costos.

Maxine incluye API para las últimas innovaciones de la investigación de NVIDIA, como alineación facial, corrección de la mirada, re-iluminación facial y traducción en tiempo real, además de capacidades como superresolución, eliminación de ruido, subtítulos y asistentes virtuales. Estas capacidades se aceleran por completo en las GPU NVIDIA para ejecutarse en aplicaciones de transmisión de video en tiempo real en la nube.

Las aplicaciones basadas en Maxine permiten a los proveedores de servicios ofrecer las mismas funciones a todos los usuarios en cualquier dispositivo, incluidas computadoras, tabletas y teléfonos. Las aplicaciones creadas con Maxine se pueden implementar fácilmente como microservicios que escalan a cientos de miles de transmisiones en un entorno de Kubernetes.

SDK fácil de usar

Incluye bibliotecas, herramientas y canalizaciones de ejemplo para que los desarrolladores agreguen rápidamente funciones de inteligencia artificial a sus aplicaciones.

Ancho de banda ultrabajo

La compresión de video AI usa una décima parte del ancho de banda del estándar de compresión de video H.264.

Modelos de IA de vanguardia

Incluye modelos previamente entrenados con miles de horas de entrenamiento en NVIDIA DGX ™ A100.

Completamente acelerado por GPU

Optimiza las canalizaciones de un extremo a otro para obtener el mayor rendimiento en las GPU NVIDIA Tensor Cores.

Tecnologías clave
__________________________________________

Face Re-animation


Figura 1: Alineación facial mediante redes generativas adversarias (GAN).

Con la nueva investigación de IA, puede identificar los puntos faciales clave de cada persona en una videollamada y luego usar estos puntos con una imagen fija para reanimar el rostro de una persona al otro lado de la llamada utilizando redes generativas de confrontación (GAN).

Estos puntos clave se pueden usar para la alineación de rostros, donde los rostros se giran para que las personas parezcan estar enfrentadas durante una llamada, así como para corregir la mirada para ayudar a simular el contacto visual, incluso si la cámara de una persona no está alineada con su pantalla. .

Los desarrolladores también pueden agregar funciones que permitan a los participantes de la llamada elegir sus propios avatares que están animados de manera realista en tiempo real por su voz y tono emocional.

Efectos de video y audio

Figura 2: Efectos de vídeo y audio con tecnología de IA, como superresolución con NVIDIA Maxine.

La superresolución basada en IA y la reducción de artefactos pueden convertir resoluciones más bajas en videos de mayor resolución en tiempo real, lo que ayuda a reducir los requisitos de ancho de banda para los proveedores de videoconferencias, así como también mejora la experiencia de llamada para los usuarios con un ancho de banda menor. Los desarrolladores pueden agregar funciones para filtrar el ruido de fondo común y encuadrar la cámara en la cara del usuario para una conversación más personal y atractiva.

Los modelos de IA adicionales pueden ayudar a eliminar el ruido de las condiciones de poca luz creando una imagen más atractiva.

IA conversacional

Figura 3: Servicios de IA conversacional en tiempo real con NVIDIA Jarvis.

Las aplicaciones basadas en Maxine pueden utilizar NVIDIA Jarvis, un marco de IA conversacional totalmente acelerado con modelos de última generación optimizados para un rendimiento en tiempo real. Con Jarvis, los desarrolladores pueden integrar asistentes virtuales para tomar notas, establecer elementos de acción y responder preguntas con voces humanas.

Los servicios adicionales de inteligencia artificial conversacional, como traducciones, subtítulos y transcripciones, ayudan a garantizar que todos puedan comprender lo que se está discutiendo en la llamada.

Reducir el ancho de banda de video frente a H.264

Figura 4: Transfiera solo puntos clave a través de Internet reduciendo el ancho de banda en comparación con H.264 mediante AI Video Compression.

Con la tecnología de compresión de video basada en IA que se ejecuta en las GPU de NVIDIA, los desarrolladores pueden reducir el uso del ancho de banda hasta una décima parte del ancho de banda necesario para el estándar de compresión de video H.264.

Esto reduce los costos para los proveedores y ofrece una experiencia de videoconferencia más fluida para los usuarios finales, que pueden disfrutar de más servicios impulsados por IA mientras transmiten menos datos en sus computadoras, tabletas y teléfonos.

No Comments

Leave A Comment

VIEW
CLOSE