Red Hat lança AI Inference Server para IA generativa em qualquer modelo

O Red Hat anunciou o AI Inference Server que entrega inferências de inteligência mais rápidas, de elevada performance e mais eficiente na cloud híbrida

Durante o Red Hat Summit – que se realiza por estes dias em Boston, nos Estados Unidos – foi anunciado o Red Hat AI Inference Server, um “passo significativo” para democratizar a Inteligência Artificial (IA) generativa na cloud híbrida.

Como parte do Red Hat AI, o servidor de inferência de nível empresarial nasceu do poderoso da comunidade vLLM e foi melhorado pela integração das tecnologias Neural Magic da Red Hat, oferecendo uma maior velocidade, eficiência do acelerador e relação custo-benefício para ajudar a concretizar a visão da Red Hat de executar qualquer modelo de IA generativa em qualquer acelerador de IA em qualquer ambiente de cloud. Quer seja implementada de forma autónoma ou como um componente integrado do Red Hat Enterprise Linux AI (RHEL AI) e do Red Hat OpenShift AI, esta plataforma capacita as organizações para implementar e escalar a IA de geração em produção com mais confiança.

A inferência é o mecanismo de execução crítico da IA, onde os modelos pré-treinados traduzem os dados em impacto no mundo real. É o ponto central da interação do utilizador, exigindo respostas rápidas e precisas. À medida que os modelos de IA de geração aumentam em complexidade e as implementações de produção aumentam, a inferência pode tornar-se um estrangulamento significativo, consumindo recursos de hardware e ameaçando prejudicar a capacidade de resposta e inflacionar os custos operacionais. Os servidores de inferência robustos já não são um luxo, mas uma necessidade para libertar o verdadeiro potencial da IA à escala, navegando pelas complexidades subjacentes com mais facilidade.

A Red Hat aborda diretamente estes desafios com o Red Hat AI Inference Server — uma solução de inferência aberta concebida para um elevado desempenho e equipada com ferramentas de compressão e otimização de modelos. Esta inovação capacita as organizações para explorar por completo o poder transformador da IA generativa, proporcionando uma experiência de utilização mais responsiva e uma liberdade de escolha de aceleradores de inteligência artificial, modelos e ambientes de IT.

O Red Hat AI Inference Server baseia-se no projeto vLLM. Este projeto oferece inferência de IA de alto rendimento, suporte para grande contexto de entrada, aceleração de modelo multi-GPU, suporte para lotes contínuos e muito mais. O amplo suporte do vLLM para modelos disponíveis publicamente — juntamente com a sua integração desde o primeiro dia dos principais modelos, incluindo DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi e outros, bem como modelos de raciocínio abertos de nível empresarial como Llama Nemotron — posiciona-o como um padrão de facto para futuras inovações em inferência de inteligência artificial. Os principais fornecedores de modelos estão a adotar cada vez mais o vLLM, consolidando o seu papel crítico na formação do futuro da IA generativa.

O Red Hat AI Inference Server reúne as principais inovações do vLLM e transforma-a nas capacidades de nível empresarial do Red Hat AI Inference Server. O Red Hat AI Inference Server está disponível como uma oferta autónoma em container ou como parte do RHEL AI e do Red Hat OpenShift AI.

Em qualquer ambiente de implementação, o Red Hat AI Inference Server permite aos utilizadores uma distribuição reforçada e suportada do vLLM, assim como ferramentas inteligentes de compressão LLM para reduzir drasticamente o tamanho dos modelos de inteligência artificial básicos; o repositório de modelos otimizado, alojado através do Hugging Face, que oferece acesso instantâneo a uma coleção validada e otimizada de modelos líderes de inteligência artificial; apoio empresarial da Red Hat; e suporte de terceiros para uma maior flexibilidade de implementação.

Joe Fernandes, vice president and general manager, AI Business Unit da Red Hat, afirma que “a inferência é onde a verdadeira promessa da IA de geração é cumprida, onde as interações do utilizador são atendidas com respostas rápidas e precisas fornecidas por um determinado modelo, mas deve ser entregue de forma eficaz e económica. O Red Hat AI Inference Server foi criado para satisfazer a procura de inferência responsiva e de alto desempenho em escala, mantendo a procura de recursos baixa, fornecendo uma camada de inferência comum que suporta qualquer modelo, executado em qualquer acelerador e em qualquer ambiente”.

A Red Hat vê um horizonte onde as organizações podem implementar qualquer modelo, em qualquer acelerador, em qualquer cloud, proporcionando uma experiência de utilizador excecional e mais consistente sem custos exorbitantes. Para libertar o verdadeiro potencial dos investimentos em IA generativa, as empresas precisam de uma plataforma de inferência universal – um padrão para uma inovação em inteligência artificial mais integrada e de alto desempenho.

BIZ

Red Hat lança AI Inference Server para IA generativa em qualquer modelo

TAGS

ARTIGOS RELACIONADOS

VENUE

VENUE

VENUE

Recomendado pelos leitores

BIZ

BIZ

BIZ

IT CHANNEL Nº 117 MAIO 2025

+ Notícias

Versão 10 do Red Hat Enterprise Linux conta com inteligência e segurança melhoradas

Red Hat lança AI Inference Server para IA generativa em qualquer modelo

Grupo Esprinet cresce 78% em Portugal nos primeiros três meses de 2025

Receitas totais da Fortinet crescem 14% no primeiro trimestre de 2025

“Colocamos o cliente no centro de tudo: a sua realidade é o ponto de partida; os seus desafios são o nosso objetivo”

Mais visitadas

OVHcloud inaugura primeira Local Zone em Lisboa

“Tentamos fazer a ponte entre a necessidade e a realidade do cliente e o que os nossos principais Parceiros disponibilizam no mercado”

“Para ter sucesso na nova era da IA, os data centers precisam de otimizar a capacidade e eficiência da energia”

PME portuguesas reforçam aposta na cloud para melhorar mobilidade e segurança dos dados

Microsoft anuncia novos Surface Copilot+PCs