Especial Fórum - A Era da Alta Disponibilidade

Parar é um luxo inacessível à maioria dos negócios no atual contexto da economia digital, independentemente da natureza da sua atividade. Debatemos o atual paradigma da alta disponibilidade, com a Alcatel-Lucent Enterprise, Colt Technology Services, Dell EMC, DOIS e Schneider Electric

Os dados são o combustível das organizações, o que significa que as aplicações, sobretudo as que são críticas para o funcionamento do negócio, têm de estar disponíveis a cem por cento, ou muito perto disso, sob pena de se registarem perdas irreparáveis.

Aragão Rio (Dell EMC), Nuno Lopes (Schneider Electric), Pedro Vale (Colt), Henrique Amaro (Alcatel-Lucent Enterprise) e Vasco Matos (DOIS).

Mais do que nunca as infraestruturas de data center têm de ser à prova de falha e garantir que os negócios não param, ou que param o menos tempo possível, sem consequências danosas. Nuno Lopes, IT distribution account manager na Schneider Electric, ilustrou o que acontece quando assim não é, recordando o mediático episódio da British Airways, de maio deste ano. “Foi um problema na infraestrutura de data center de suporte da companhia área aos aeroportos de Heathrow e Gatewick, em Inglaterra, e levou a que 75 mil passageiros, em 170 aeroportos, em 70 países, ficassem em terra”. Os custos de episódios como este não podem ser desvalorizados: num dia, as ações da holding que detém a British Airways desvalorizaram 180 milhões de libras.

“Os custos 200 milhões de libras, excluindo custos indiretos, de imagem”. A falha, em concreto, deveu-se ao manuseamento indevido de um disjuntor geral no data center, por parte de um técnico. “O backup estaria previsto, mas o desconhecimento dos sistemas preventivos em caso de anomalias desta natureza levou a uma paralisação que levou dois a três dias a resolver”. Nuno Lopes relembrou, deste modo, que “a infraestrutura é vital” para a continuidade do negócio, porque nos dias de hoje “uma falha de atividade não é tolerada”. A importância da infraestrutura na alta disponibilidade dos negócios “é máxima”, sublinhou Aragão Rio, senior storage sales engineer da Dell EMC. “O que está por debaixo da infraestrutura são os dados do cliente”, lembrou. “A informação tem hoje de estar disponível em tempo real e em qualquer altura. É de importância extrema termos uma infraestrutura com capacidade para estar com uptime máximo e downtime mínimo”.

O downtime mínimo significa poucos minutos ou segundos. “Existe uma classificação técnica, os cinco noves”, explicou, que diz respeito ao número de noves necessários à disponibilidade máxima — 99,999%. “Neste caso, o downtime anual é de cerca de cinco minutos”. Em seis noves (99,9999%), o downtime são 31 segundos e em sete noves (99,99999%) são cerca de 3,15 segundos. “É muitíssimo crítico ter essa capacidade de disponibilidade”, referiu. A alta disponibilidade, porém, deixou de ser uma caraterística de uma solução. Vasco Matos, senior account manager da DOIS, realçou que se trata de uma commodity. “O cliente espera, à partida, que a solução seja always-on, partindo do princípio de que as soluções já são 24/7”.

Pedro Vale, sales manager da Colt Technologies, referiu que este tipo de disponibilidade, 24 horas por dias, 7 dias por semana, é hoje “quase mandatória” e sublinhou a importância das telecomunicações ao nível da infraestrutura. “Se não for possível aceder aos dados, se as comunicações não estiverem disponíveis, de nada serve ter equipamentos muito resilientes” Esta preocupação tem sido crescente. “Há muitas empresas a darem mais atenção a este tema, especialmente quando sofrem algum tipo de falha na sua infraestrutura. É nestes momentos que se torna mais visível o papel da resiliência e da redundância. As telecomunicações são tão elementares como a energia”.

Como evitar pontos de falha?

A conetividade é hoje determinante nas infraestruturas, mas igualmente um desafio. As redes acabam por constituir os pontos mais evidentes de falha, dado que muitas vezes existe apenas um único acesso à rede. Impõe-se, por isso, que os sistemas de rede sejam planeados a longo prazo com os olhos postos na alta disponibilidade. “O planeamento deve ser pensado ao detalhe”, defendeu Pedro Vale. “Quanto mais detalhado for, maior a preparação das infraestruturas de rede”. No entanto, advertiu, é hoje comum confundir termos como ‘resiliência’ e ‘redundância’, o que implica conhecer “bem” o que existe no mercado, do ponto de vista tecnológico. “Um CIO preparado tem de conhecer estes termos ao detalhe, bem como as tecnologias novas que vão surgindo. Neste momento há uma tecnologia que está a democratizar a resiliência, o SD Wan, que no fundo é a aplicação do software defined network ing (SDN) às redes WAN, pelo qual é possível a uma empresa "conciliar uma solução high end com uma low cost”, referiu.

A componente passiva, porém, assume um papel primordial. “Desde o início tem de haver uma preocupação primordial com esta componente física, do desenho da infraestrutura à energia. É por aqui que tudo começa”, aconselhou Henrique Amaro, technical sales and services da Alcatel-Lucent Enterprise (ALE). Se a redundância for pensada a este nível, disse, a tecnologia que é posteriormente adicionada, dos servidores às comunicações, “é muito mais fácil de aplicar ao longo do tempo e tendo em conta os recursos financeiros disponíveis”. Se estes fatores forem pensados a montante, defendeu, “o impacto de uma paragem pode não ser tão grande a nível financeiro”, sendo posteriormente mais fácil “encontrar alternativas com redundância e resiliência”.

Fundos ilimitados não são, efetivamente, uma realidade, e o cliente tem de saber o que “não pode mesmo parar na infraestrutura”, segundo Vasco Matos (DOIS). “É possível planear tendo em vista o crescimento futuro e depois definir um passivo que permita desenvolvimentos tecnológicos posteriores. Se a base for future proof, tudo o que for colocado acima, em termos de redundância, sairá mais económico do que algo que foi construído ad hoc. Pensar no futuro é fundamental para que haja um custo controlado do desenvolvimento da solução”, reforçou o senior account manager.

Estão as empresas conscientes da importância de ter comunicações à provada de falha? Para a Dell EMC, sim. Aragão Rio referiu que os clientes sensibilizados para a importância da alta disponibilidade têm em mente que a infraestrutura de comunicações “tem de ter dois switches para storage e comunicação entre os servidores, por exemplo”. Na maioria das grandes empresas, sobretudo nas de setores como o da saúde e o financeiro, já existem sistemas de comunicação redundantes em termos de infraestrutura. “E as empresas que têm criticidade aplicacional, com negócios que dependem muito de tudo o que são comunicações, pensam bastante nesta componente. Raramente encontramos um cliente que solicite apenas um switch para ligar a infraestrutura de storage e servidores ou que não tenha à saída do seu data center pelo menos dois circuitos de comunicações independentes, de dois fabricantes diferentes, algo indispensável para aumentar a disponibilidade”. O responsável da Dell EMC apontou um fator que é hoje uma ameaça à disponibilidade: os ciberataques. “A alta disponibilidade tem de ser alargada à segurança dos próprios dados. Os ciberataques são uma forma de intrusão e condicionam o acesso aos dados. É algo que tem de ser debatido com os clientes”. Um alerta também deixado por Henrique Amaro (ALE): “A continuidade do negócio é um tema que não é hoje dissociável do panorama da cibersegurança, cada vez mais marcado por ciberataques que a comprometem — basta recordar os dois episódios mediáticos do ano, o WannaCry e o Petya/NotPetya, para perceber que as paragens também passam pelos hackers”.

A importância da alimentação elétrica

Sem energia, de nada valem soluções tecnológicas pensadas e desenhadas para assegurar que os dados estão sempre disponíveis. Segundo Nuno Lopes (Schneider Electric), antes de escolher o tipo de alimentação, importa ter em conta a dimensão da infraestrutura de data center em questão. “Podemos começar por uma alimentação em média tensão, onde o tradicional, para redes elétricas de alta disponibilidade, supõe uma alimentação por duas fontes distintas, com duas subestações. Na primeira fase de entrada destas alimentações, há que ter em conta backups de grande potência — podem ser grupos de geradores que permitam um nível de potência comutado e com controlo e monitorização automáticos, e não humanos”. Neste capítulo, porém, impõe-se uma abordagem multidisciplinar, que envolva a componente de AVAC, de bombagem, e também a parte elétrica, mas igualmente o ecossistema de data center, da infraestrutura às comunicações. “Se a montante houver uma linha de pensamento que considere elevados níveis de redundância, é possível chegar ao ecossistema de IT com menor probabilidade de falha”.

Esta abordagem end-to-end, alertou, diminui a probabilidade de inoperabilidade da instalação. “Se assim não for, algures no sistema vamos ter um ponto único de falha provável. Do mesmo modo que falamos em redundância de servidores, é vital falar em redundância de sistemas de UPS. E é fundamental testar os sistemas de redundância, para garantir que quando há uma falha eles funcionam”, aconselhou Nuno Lopes. Pedro Vale (Colt) partilhou o exemplo da metodologia adotada pelo operador de telecomunicações. “O nó de telecomunicações é das infraestruturas mais críticas — havendo uma falha de energia nesse nó, isso impacta todos os clientes que por ele são servidos. Numa altura em que não se falava muito de alta disponibilidade, edificámos uma infraestrutura com alimentação por duas subestações diferentes, dois geradores e duas salas de UPS diferentes. Toda a infraestrutura é redundante. Em 16 anos, tivemos zero segundos de downtime. Isto só é possível com elevado planeamento, que passa por não haver nenhum ponto que possa pôr em causa a infraestrutura”.

No momento de planear, lembrou Aragão Rio (Dell EMC), é fundamental que os silos fiquem de parte. “Quando desenhamos sistemas de alta disponibilidade, que têm custos elevados, normalmente não se sentam à mesa todos os intervenientes, porque o IT entende que a energia não lhe diz respeito”. No entanto, advertiu, esta postura “é um erro”, chamando a atenção para a importância de existir a figura do “facilitador”, alguém que garanta, dentro das organizações, que todos estão envolvidos. “Observo que as redundâncias existem nos diversos pontos do data center. No entanto, quando se discutem planos de desastre a sério, ninguém realiza testes à parte elétrica, que pode desligar tudo”. Henrique Amaro (ALE) realçou que os data centers vão crescendo e que os bastidores vão aumentado, mas que “a UPS mantém-se a mesma”: “Vai ficando desgastada, os cabos são os mesmos. Esta mensagem também tem de ser passada”.

Virtualização e a redundância dos ativos

A virtualização é hoje um dado adquirido no data center, já que praticamente tudo poder ser virtualizado, dos desktops aos servidores, passando pelo próprio armazenamento. Aragão Rio (Dell EMC) destacou que veio permitir “utilizar melhor os recursos do data center” e por isso mesmo garantir uma continuidade do negócio “mais robusta”, permitindo “recuperar rapidamente uma máquina física mesmo remotamente”. Vasco Matos (DOIS) elucidou: “A camada de virtualização vai imolar tudo o que está por debaixo, pelo que a plataforma subjacente acaba por ser irrelevante para o que se passará depois”. O senior account manager explicou que, por norma, os softwares de virtualização têm mecanismos internos de redundância, que vão distribuindo os dados em função da disponibilidade de cada equipamento, que acaba assim por tornar-se “transparente” para as aplicações. “A virtualização é claramente o facilitador da redundância”, assegurou.

Também para a diminuição dos custos associados à alta disponibilidade da infraestrutura é fundamental. “Hoje, as infraestruturas que ainda não possam ser virtualizadas têm tendencialmente custos de alta disponibilidade mais elevados. É algo que tem de ser considerado — passar tudo o que é proprietário para protocolos abertos e garantir que seja possível migrar e que se deixam de utilizar sistemas fechados”, aconselhou Aragão Rio (Dell EMC). Henrique Amaro (ALE) levantou a questão da segurança, na camada de virtualização, dado que o controlo físico desaparece, algo que o responsável da Dell EMC assegurou não ser um problema. “Hoje já atingimos um nível em que posso afirmar, com absoluta certeza, que a segurança existe e que é muitíssimo difícil conseguir violá-la em termos de virtualização. Mesmo numa infraestrutura partilhada, é possível determinar que dado recurso está visível apenas a determinado ambiente”.

Antever possíveis falhas com monitorização e controlo

A possibilidade de antever problemas é um dos principais aliados de uma operação sem interrupções. Atualmente é possível, a partir de uma única plataforma, monitorizar e controlar toda a infraestrutura. “Só podemos gerir o que conseguimos medir”, realçou Nuno Lopes (Schneider Electric). “Por esta via consegue-se, de modo preventivo, averiguar a escalabilidade do negócio, do ponto de vista dos dados, mas também ganhar controlo”. Monitorização e controlo, acrescentou, permitem não apenas um tempo de resposta “muito mais imediato”, na eventualidade de uma falha ou de um defeito, como também “uma economia de escala ao nível dos custos envolvidos na exploração de equipamentos e da gestão da intervenção das equipas de manutenção”.

Estas ferramentas, porém, já não são exclusivas de grandes infraestruturas, como acontecia no passado. “Seja pela hiperconvergência, pela Internet of Things (IoT) ou pelo edge computing — começaram a criar- -se infraestruturas mais pequenas onde, de igual modo, é necessário manter a monitorização, que tem vindo a democratizar-se”, elucidou o account manager. “À data de hoje é possível monitorizar desde uma UPS a um edifício que abrigue um data center, por exemplo, com níveis complexidade distintos”. A verdade é que a monitorização já abrange todos os equipamentos do data center que estão ligados à Internet. Pode significar, num servidor, o alerta que indica que a máquina pode aquecer ou que a versão de firmware tem de ser atualizada porque se detetou uma vulnerabilidade de segurança. “Nos sistemas de data center, o próprio equipamento está sempre a enviar informação sobre qual o seu estado ao fabricante ou ao Parceiro”, assinalou Aragão Rio (Dell EMC). Para os Parceiros, a monitorização representa a oportunidade de estar mais envolvido na operação do cliente. “A monitorização é importante porque o Parceiro recebe informação sobre o equipamento e tem acesso a alertas que lhe permitem tempos de resposta curtos e que ajudam a gerir melhor a infraestrutura”, realçou o sales engineer da Dell EMC. O fabricante tem duas modalidades de venda que envolvem os Parceiros, mediante autorização do cliente: co-delivery e co-support. Na primeira, um Parceiro certificado realiza toda a instalação da infraestrutura e equipamentos, com o fabricante a certificar a configuração no final. No co-support, a Dell EMC pode direcionar uma troca de peças para um ou mais Parceiros com certificação em determinado produto. “Os Parceiros têm um papel vital nesta cadeia de valor”, reforçou Nuno Lopes (Schneider Electric). O melhor modo de conhecer o cliente é estar quase 24/7 na sua instalação, “porque deste modo conhecemos o seu negócio, as suas fragilidades e valências ao nível da instalação”, lembrou, e os Parceiros deverão, por isso, desenvolver competências que lhes permitam ter internamente recursos “com a capacidade de detetar oportunidades, para aconselhar corretamente um plano ou uma solução que assente nesta questão de monitorização e controlo, e ter equipas multidisciplinares que permitam, ao nível do aconselhamento e da operação, um acompanhamento end-to-end da infraestrutura do cliente, para um serviço adequado”. Outra grande vantagem da monitorização e acesso remoto 24 horas por dia, sete dias por semana, lembrou Vasco Matos (DOIS) “é tornar as manutenções que de outra forma seriam reativas em manutenções proativas”, que evitem surpresas desagradáveis. “Deste modo garante-se um aumento da disponibilidade, porque não se está à espera que a infraestrutura falhe”. Henrique Amaro sublinhou que, ainda assim, existem clientes que podem dispensar a monitorização, se o negócio não exigir um tempo de resposta tão imediato. “Mas existem outros em que a única forma de o negócio funcionar é através de um Parceiro que analise constantemente a alarmística”. A ALE, por exemplo, está a criar infraestruturas na cloud, para que o cliente e o Parceiro tenham acesso à analítica e para que, preventivamente, se possa demonstrar que há firmware e/ou equipamentos desatualizados. Porque a monitorização também pode ser uma ferramenta comercial. “Através da analítica é possível perceber o perfil do cliente e propor novos equipamentos, por exemplo”.

Recuperar quando tudo falha

Mesmo com monitorização, as falhas acontecem. Neste caso, é necessário repor tudo novamente. Backup e disaster recovery são um outro nível de continuidade de negócio. O primeiro é hoje denominado de “capacidade de disponibilidade”, segundo Vasco Matos (DOIS), e significa guardar o histórico do que já passou. “Em algumas PME, de menor dimensão, ainda continua a fazer parte do seu plano de disaster recovery”. Nas empresas maiores, “faz mais sentido pensar em continuidade de negócio do que em desastre”, defendeu Pedro Vale (Colt). “Uma PME tem de pensar no que acontece para recuperar os dados, e muitas nem sequer têm esse plano. Hoje é possível montar um plano de desastre ou de continuidade com soluções de cloud em que o custo é mais baixo e o modelo de pagamento é flexível, por utilização — é possível erguer uma infraestrutura de disaster recovery e ativar quando for necessária. “Se uma PME souber tirar partido das tecnologias disponíveis, consegue montar uma solução de desastre com um investimento muito pequeno”, realçou.

Antes de desenharem um plano de disaster recovery, porém, as empresas têm de “definir que percentagem e que parte do negócio não pode mesmo falhar e qual a continuidade mínima de negócio que querem assegurar”, alertou Henrique Amaro (ALE). Existem vários níveis de disaster recovery: quente (pronto a funcionar de imediato), morno (parcialmente pronto a funcionar) e frio (pronto a funcionar dentro de alguns dias). “Cada definição diz respeito ao tipo de prontidão que a infraestrutura tem para assegurar backup e continuidade de serviço”, esclareceu Nuno Lopes (Schneider Electric). “Vai depender do negócio e do impacto que a inoperacionalidade tem sobre o mesmo, porque existem custos associado a esta prontidão”.

O disaster recovery associado à deslocalização geográfica dos dados tem vindo a tornar-se importante para as grandes empresas, segundo Aragão Rio (Dell EMC). “A prontidão e rapidez com que se consegue recuperar o acesso aos dados é extremamente importante. Antes isto acontecia localmente, com dois sistemas idênticos, agora começa a ser obrigatório que exista dispersão geográfica. Por exemplo, a banca transacional começa a solicitar que isto seja remoto”. E importa ter em mente que muitas vezes o conceito de disaster recovery não tem nada de tecnológico e que pode passar por assegurar que existem condições físicas para a continuidade do negócio, seja do ponto de vista da energia, como já referido, seja do ponto de vista humano. “Quando se fala em disponibilidade também é importante ter em conta a disponibilidade humana. Muitas vezes existe apenas uma pessoa a tomar conta do data center e com todas as chaves de acesso. Ora isto é um risco”, advertiu Aragão Rio.

Proteção dispositivos de IoT é imperativa

O edge computing, a computação mais próxima da recolha de informação, e a IoT vão multiplicar os possíveis pontos de falha de uma infraestrutura, dada a sua dispersão. Como garantir a disponibilidade contínua neste contexto? Como evidenciou Henrique Amaro (ALE), edge e IoT têm conduzido a uma alteração do paradigma em torno da redundância. “A partir do momento em que os sensores estão ligados à infraestrutura de dados de uma empresa, é mais difícil garantir a sua proteção, porque estes dispositivos são mais difíceis de proteger do ponto de vista da cibersegurança, e podem ser um ponto de entrada para a infraestrutura”. Um dos principais desafios é a segurança. “Não podem ser protegidos como os outros dispositivos, não certamente com antivírus. A alta disponibilidade tem também de preocupar-se com a proteção destes equipamentos”. Assim, o desafio também “está do lado dos fabricantes”, disse, que têm de evitar que esses sensores sejam corrompidos. “Aqui o ponto não é a redundância, é a segurança, quando se passa para standards de comunicação”. Anteveem-se por isso “desafios para a infraestrutura”, alertou Nuno Lopes (Schneider Electric), dado que se estima que o número de dispositivos de IoT se situe entre os 30 e os 50 mil milhões até 2020. “O nível de segurança terá de ser adaptado consoante a criticidade do negócio e da instalação de que a empresa dispõe”. Aragão Rio (Dell EMC) recordou que a novidade não são os sensores, mas a “correlação entre eles” e Pedro Vale (Colt) realçou o papel das telecomunicações neste novo paradigma. “Ao nível da infraestrutura, o desafio é o facto de grande parte destes dados confluírem para umas centenas de localizações a nível mundial, para os data centers de cloud pública e para os grandes colocation providers”, referiu. “Apesar do edge computing, tudo será canalizado para esses locais. Existe aqui um papel relevante ao nível das telecomunicações, que têm de estar capacitadas para suportar esses dados. Ao dia de hoje assistimos a grandes alterações ao nível de infraestrutura submarina. Os cabos que hoje existem não têm capacidade para a quantidade de dados que são produzidos”. A Colt, que tem 700 data center ligados, só na Europa, está a investir em infraestrutura que suporte o volume crescente de dados. A verdade, porém, é que entre os sensores e a cloud, terá de haver um outro nível de computação, que assegura um primeiro processamento dos dados com menor latência. É neste contexto que o edge computing tem vindo a ganhar o seu espaço, sobretudo num mercado com as caraterísticas do português. “Hoje um data center pode ter um único bastidor, de 38 ou 23 Us, tudo depende da dimensão e do que se terciariza num ambiente híbrido. O mais importante é ter em conta as necessidades ao nível da diminuição de latência necessária a cada negócio”, realçou Nuno Lopes (Schneider Electric).

Para o Canal, onde estão as oportunidades?

Para os participantes desta Mesa Redonda, o Canal é o elo fundamental entre tecnologia e negócio. E vital para a alta disponibilidade. Vasco Matos (DOIS) caraterizou os Parceiros de “a cola” das soluções, pela capacidade de reunirem elementos de cada fabricante e de entregarem uma solução chave-na- -mão, “algo que nenhum fabricante teria a capacidade de fazer”, realçou, e que os clientes privilegiam acima de tudo. “Todos os atores têm um papel fundamental na transformação digital”, realçou Nuno Lopes (Schneider Electric). “O Canal representa um elemento-chave, é a interface do desenvolvimento tecnológico dos fabricantes, adequando-o às necessidades diárias das empresas”, defendeu. “Terão de continuar a desenvolver competências nas diferentes áreas relacionadas com a alta disponibilidade”. A Dell EMC tem 80% dos seus clientes liderados pelo Canal e Aragão Rio sublinhou que é graças aos Parceiros que os fabricantes conseguem não só aumentar as vendas, como desenhar soluções à medida. “O cliente valoriza ter tudo integrado numa mesma solução e o Parceiro está lá para assegurar isto”. Nesta vertente da alta disponibilidade, referiu Pedro Vale (Colt), o papel do Parceiro “será o do aconselhamento, do desenho e de cada vez mais decifrar estes enigmas da resiliência, da redundância”, recolhendo informação e informando sobre os riscos de não ter um serviço redundante, por exemplo. “Este tipo de detalhe terá de ser sempre acrescentado por um Parceiro. É grande parte do vaßlor acrescentado do que o Parceiro pode dar. O cliente final tem muita dificuldade em chegar à informação. O Parceiro, pela sua experiência e know-how, pela replicação de soluções que já implementou, consegue ajudar o cliente a diferenciar o que é um serviço focado na alta disponibilidade versus um mais standard”.