El motor de los data centers elásticos y de mayor rendimiento del mundo.
Resolver los desafíos científicos, industriales y empresariales más importantes del mundo con IA y HPC. Visualizar contenido complejo para crear productos de vanguardia, contar historias inmersivas y reimaginar las ciudades del futuro. Extraer nueva información de conjuntos de datos masivos. La arquitectura NVIDIA Ampere, diseñada para la era de la computación elástica, aborda todos estos desafíos, proporcionando una aceleración incomparable en todas las escalas.
Equipada con más de 54 mil millones de transistores, la arquitectura NVIDIA Ampere es el chip de 7 nanómetros (nm) más grande de la historia, y presenta seis innovaciones revolucionarias clave.
La tecnología NVIDIA Tensor Core, que se introdujo por primera vez en la arquitectura NVIDIA Volta™, ha agilizado de forma significativa la IA, reduciendo los tiempos de entrenamiento de semanas a horas y acelerando enormemente la inferencia. La arquitectura NVIDIA Ampere se basa en estas innovaciones al brindar nuevas precisiones, Tensor Float 32 (TF32) y punto flotante 64 (FP64), para acelerar y simplificar la adopción de la IA y extender el poder de los Núcleos Tensor a la HPC.
TF32 funciona igual que FP32 y ofrece velocidades hasta 20 veces mayores para la IA sin requerir ningún cambio de código. Al usar NVIDIA Automatic Mixed Precision, los investigadores pueden obtener un desempeño dos veces mayor con precisión mixta automática y FP16 con solo agregar algunas de líneas de código. Además, con compatibilidad con bfloat16, INT8 e INT4, y Núcleos Tensor en la arquitectura NVIDIA Ampere, las GPU Tensor Core crean un acelerador increíblemente versátil para el entrenamiento y la inferencia de IA. Al llevar la potencia de los Núcleos Tensor a la HPC, las GPU A100 y A30 también permiten realizar operaciones de matriz con total precisión FP64, certificada por IEEE.
Todas las aplicaciones de IA y HPC pueden beneficiarse de la aceleración, pero no todas necesitan el desempeño de una GPU completa. La GPU de instancias múltiples (MIG) es una función compatible con las GPU A100 y A30 que permite que las cargas de trabajo compartan la GPU. Con la MIG, cada GPU se puede dividir en múltiples instancias de GPU, completamente aisladas y protegidas a nivel de hardware con su propia memoria de alto ancho de banda, caché y núcleos de cómputo. Ahora, los desarrolladores pueden acceder a una aceleración revolucionaria para todas sus aplicaciones, grandes y pequeñas, y obtener una calidad de servicio garantizada. Los administradores de TI pueden ofrecer una aceleración de GPU del tamaño correcto para lograr una utilización óptima y expandir el acceso a todos los usuarios y aplicaciones en entornos físicos y virtualizados.
Escalar aplicaciones en múltiples GPU requiere un movimiento de datos extremadamente rápido. La tercera generación de NVIDIA® NVLink® en la arquitectura Ampere de NVIDIA duplica el ancho de banda directo de GPU a GPU a 600 gigabytes por segundo (GB/s), casi 10 veces mayor al de PCIe Gen4. Cuando se combina con la última generación de NVIDIA NVSwitch™, todas las GPU del servidor pueden comunicarse entre sí a la velocidad máxima de NVLink para lograr transferencias de datos increíblemente rápidas.
NVIDIA DGX™A100 y los servidores de otros fabricantes de computadoras líderes aprovechan la tecnología NVLink y NVSwitch a través de las placas base NVIDIA HGX™ A100 para ofrecer una mayor escalabilidad para las cargas de trabajo de HPC e IA.
Las redes de IA modernas son grandes y no dejan de crecer, con millones y, en algunos casos, miles de millones de parámetros. No todos estos parámetros son necesarios para obtener predicciones e inferencias precisas, y algunos se pueden convertir en ceros para que los modelos tengan “baja densidad” sin comprometer la precisión. Los Núcleos Tensor pueden proporcionar un desempeño hasta dos veces mayor para los modelos de baja densidad. Si bien la función de baja densidad beneficia más directamente a la inferencia de IA, también se puede usar para mejorar el desempeño del entrenamiento de modelos.
Los Núcleos RT de segunda generación de la arquitectura NVIDIA Ampere en la NVIDIA A40 brindan enormes aceleraciones para cargas de trabajo como la representación fotorrealista de contenido de películas, las evaluaciones de diseños arquitectónicos y la creación de prototipos virtuales de diseños de productos. Los Núcleos RT también aceleran la renderización del desenfoque de movimiento con ray tracing para obtener resultados más rápidos y con mayor precisión visual, y pueden ejecutar el ray tracing simultáneamente con capacidades de sombreado o eliminación de ruido.
La A100 lleva enormes cantidades de cómputo a los data centers. Para mantener esos motores de computación en pleno uso, tiene un ancho de banda de memoria líder en su clase de 2 terabytes por segundo (TB/seg), más del doble que la generación anterior. Además, la A100 tiene significativamente más memoria en chip, que incluye una caché de nivel 2 de 40 megabytes (MB), siete veces más grande que la de la generación anterior, para maximizar el desempeño de computación.
Las ofertas de GPU y aceleradores convergentes de NVIDIA están diseñadas específicamente para implementarse a gran escala, llevando redes, seguridad y huellas pequeñas a la nube, los data centers y el edge.
La GPU NVIDIA A2, que ofrece el tamaño más pequeño de la cartera, está optimizada para cargas de trabajo e implementaciones de inferencia en servidores de nivel básico restringidos por requisitos de espacio y refrigeración, como entornos industriales y de 5G en el edge. La A2 ofrece un formato de bajo perfil que opera en un entorno de bajo consumo, con una potencia de diseño térmico (TDP) de 60W a 40W, lo que la hace ideal para cualquier servidor.
En los aceleradores convergentes de NVIDIA, la arquitectura Ampere de NVIDIA y la unidad de procesamiento de datos (DPU) NVIDIA BlueField®-2 se unen para ofrecer un desempeño sin precedentes con seguridad y redes mejoradas para cargas de trabajo impulsadas por GPU en los ámbitos de computación en el edge, telecomunicaciones y seguridad de redes. BlueField-2 combina la potencia de NVIDIA ConnectX®-6 Dx con núcleos Arm® programables y descargas de hardware para ofrecer almacenamiento, redes, seguridad y administración definidos por software. Los aceleradores convergentes de NVIDIA permiten un nuevo nivel de eficiencia y seguridad en los data centers para las cargas de trabajo con uso intensivo de red y aceleradas por GPU.
La GPU NVIDIA A16 viene con un diseño de placa de cuatro GPU que está optimizado para la densidad de usuarios y, en combinación con el software NVIDIA Virtual PC (vPC), permite acceder a PC virtuales con gráficos detallados desde cualquier lugar. Ofrece una mayor velocidad de fotogramas y reduce la latencia del usuario final en comparación con la VDI solo de CPU, lo que da como resultado aplicaciones con mayor capacidad de respuesta y una experiencia de usuario prácticamente idéntica a la de una PC nativa.
Las implementaciones seguras son fundamentales para las operaciones empresariales. La arquitectura NVIDIA Ampere ofrece opcionalmente un arranque seguro mediante la autenticación de código de confianza y protecciones de reversión reforzadas para proteger contra ataques de malware malicioso, lo que previene pérdidas operativas y garantiza la aceleración de las cargas de trabajo.
Análisis de la Arquitectura NVIDIA Ampere
Explore las tecnologías de vanguardia de la arquitectura NVIDIA Ampere.