banner
Centro de notícias
Nossas mercadorias são muito procuradas por consumidores exigentes.

Opções de computação científica amadurecendo na nuvem

Jun 07, 2023

Por Agam Shah

31 de agosto de 2023

A supercomputação continua sendo, em grande parte, um assunto local por vários motivos que incluem potência, segurança e gerenciamento de sistema. As empresas precisam de mais tempo para migrar as cargas de trabalho para a nuvem, mas as opções estão aumentando. (Veja a previsão HPC-AI publicada recentemente pela Intersect 360 Research.)

Em agosto, o Google Cloud e a Amazon Web Services anunciaram máquinas virtuais de computação de alto desempenho, que na verdade são versões online da computação fornecida por sistemas locais. As VMs de HPC são construídas com tecnologia proprietária dos provedores de nuvem, incluindo os mais recentes processadores, interconexões super-rápidas, recursos de segurança e capacidade de memória.

As VMs de HPC suportam implantações híbridas, onde as empresas podem dividir cargas de trabalho entre sistemas locais e máquinas virtuais oferecidas pela AWS e pelo Google. Alguns usuários de HPC preferem enviar cargas de trabalho de baixa prioridade para a nuvem, o que libera recursos de computação locais para executar cargas de trabalho mais críticas.

A maior desvantagem da HPC na nuvem continua sendo as limitações de largura de banda, dadas as velocidades lentas da rede em grandes distâncias geográficas. No entanto, muitas empresas farmacêuticas e de engenharia estão se voltando para a nuvem por causa das ricas ferramentas de desenvolvimento, de uma longa lista de conjuntos de dados, de ferramentas analíticas e de banco de dados e de outros middlewares disponíveis para os clientes. Integradores como Rescale e Altair fornecem software e suporte para criar ambientes híbridos compartilhados para aplicações HPC.

As novas VMs dos provedores de nuvem estão focadas na computação científica convencional. Os sistemas não são voltados para IA e não vêm com GPUs. AWS e Google oferecem instâncias caras de GPUs H100 da Nvidia, voltadas para computação paralela e aplicações de IA.

A AWS anunciou recentemente o EC2 Hpc7, que é uma VM baseada nos chips Epyc de quarta geração da AMD, codinome Genoa. Hpc7a é x86, uma atualização das recentes instâncias EC2 Hpc6a baseadas nos chips Epyc da geração anterior da AMD, codinome Milan.

O Hpc7a tem o dobro da capacidade de memória em suas configurações de VM totalmente carregadas e largura de banda de rede de 300 Gbps. A Amazon afirmou que o Hpc7a fornece 2,5 vezes mais rápido que as instâncias Hpc6a. A maior instância hpc7a.96xlarge oferece 192 núcleos de CPU e 768 GB de memória DDR5. As VMs suportam adaptador de fibra elástica e sistemas de arquivos como o Lustre, que são populares em HPC.

A AWS oferece outras VMs HPC, incluindo o Hpc7g baseado em ARM, que roda no chip Graviton3E desenvolvido internamente. O Centro Riken de Ciência Computacional construiu um “Fugaku virtual” para Hpc7g, ou uma versão em nuvem da pilha de software do Fugaku, o segundo supercomputador mais rápido do mundo, na AWS. O Fugaku também é construído em processadores ARM, tornando possível a replicação do ambiente de software.

O Google anunciou a instância H3 VM para HPC em agosto, que equilibra preço e desempenho com a ajuda de altas velocidades de rede e um grande conjunto de núcleos de CPU.

As configurações H3 são baseadas nas mais recentes CPUs Sapphire Rapids da Intel, com cada nó agregando 88 núcleos de CPU e 352 GB de memória. As VMs são direcionadas a aplicativos que não são paralelizados e executados em ambientes de thread único.

As máquinas virtuais são construídas com base no processador de dados personalizado E2000 desenvolvido em conjunto pela Intel e pelo Google, de codinome Mount Evans. Os nós H3 podem se comunicar a velocidades de 200 Gbps e possuem 16 núcleos de CPU Neoverse N1 baseados em ARM.

Os benchmarks do Google compararam o H3 com as VMs C2 anteriores baseadas nas CPUs Cascade Lake da Intel, que estão duas gerações atrás do Sapphire Rapids. A VM H3 somente CPU é três vezes mais rápida em desempenho por nó e pode economizar 50% em custos para os clientes.

A comparação não é igual, já que os chips de servidor são normalmente comparados aos chips da geração anterior, neste caso, Ice Lake. Mas a comparação do Google está mais alinhada com os ciclos de atualização de servidores, que ocorrem a cada dois ou três anos.

Na sua recente cimeira Google Cloud Next, a empresa expandiu as suas opções de computação de alto desempenho para IA. A empresa anunciou pods com seus mais recentes chips TPU v5e AI e anunciou a disponibilidade geral de seus sistemas de supercomputação A3, que podem hospedar 26.000 GPUs Nvidia e suportar computação paralela. Ambos os chips são voltados para treinamento e inferência em aplicações de IA.