2014-12-01

...AAS

Os cinco desafios do Big Data

A melhor forma de tirar partido de todo o potencial da análise de dados passa por conhecer os seus principais desafios e segredos.

Os cinco desafios do Big Data

Muitas empresas sabem que os novos grupos de Big Data são valiosos mas não sabem onde procurá-los.

De acordo com a Teradata, empresa de plataformas, aplicações de marketing e serviços de análises de dados, os desafios do Big Data podem ser agrupadas em cinco categorias:

O desafio dos dados multiestruturados
Os dados de transacções e eventos que se foram armazenando, integrando e analisando nos Data Warehouses tradicionais e em aplicações de Business Intelligence durante as últimas três décadas estão em grande parte orientados de forma registar ocorrências e definem-se em termos de esquema explícito. Nem sempre se pode dizer o mesmo das novas fontes de Big Data. Social data e machine log data caracterizam-se pela sua volatilidade, apresentando vários cenários: o modelo de informação que utilizamos para as entender pode ser implícito, orientado ao documento, incluindo ou não algum nível de organização hierárquica; ou pode mudar continuamente se quisermos aplicar diferentes interpretações aos dados em tempo real (esquema de leitura) em função de cada aplicação. Segundo Martin Willcox, diretor de produto e soluções de marketing internacional da Teradata Corporation, diz: “As novas gerações de analistas de sistemas de negócios ensinaram-nos que os processos de negócio estão a mudar continuamente, mas que os dados e as suas relações não, o que torna importante moldar os dados. O Big Data acaba com estes ensinamentos e faz com que a abordagem tradicional para integrar dados não seja produtiva, uma vez que obriga que se aplique um esquema rígido e inflexível aos dados, à medida que passam a fazer parte dum ambiente de análise”.


O desafio das analíticas interactivas
As interacções, tanto entre pessoas e coisas, pessoas e pessoas ou coisas e coisas, podem ser reproduzidos em redes ou gráficos. Muitas análises de interações caracterizam-se por operações em que a ordem de registo é importante. No entanto, a cronologia, a trajetória e o gráfico dão problemas devido às tecnologias do padrão ANSI SQL, uma vez que estão baseadas no modelo relacional e na teoria de conjuntos, em que a ordem de registo não tem importância. São várias as extensões que foram propostas ao longo dos anos para que o padrão ANSI SQL responda a estas limitações, entre elas as funções User Defined Functions (UDF) e Order Analytical OLAP. Contudo estas são apenas uma solução parcial, uma vez que nem sempre se poderá perceber quando é que uma função reflete o esquema preciso dos dados que necessitamos de processar.

O desafio dos dados com ruído
Alguns grupos de Big Data são extensos e com ruído, tornando-se ainda maiores de forma acelerada. As empresas têm que lidar com volumes de dados cada vez maiores em que o input útil está acompanhado por um volume ainda maior de dados que representam ruído para a maioria das empresas, que procuram modelos rentáveis de armazenamento e processamento de dados. No entanto, estes dados podem ser uma grande oportunidade para um pequeno grupo de Data Scientists.

Muitas empresas sabem que os novos grupos de Big Data são valiosos mas não sabem onde procurá-los. As abordagens tradicionais de Integração de Dados passam pela modelagem dos sistemas de origem, desenvolvimento de um novo modelo integrado de dados, aplicação dos modelos de origem aos de destino, desenvolvimento de processos ETL que captem e transformem de forma precisa os dados do sistema de origem para o modelo de destino, etc. Porém estes processos costumam causar problemas com a captura de dados multiestruturados e têm ainda mais dificuldades nestes cenários, devido ao tempo e custo que existe entre o Data Scientist e o acesso a novos dados. Estima-se que os custos de aquisição, normalização e integração de dados representam 70% do custo total da implementação de uma base de dados analítica, e ainda assim é mais barata que as alternativas existentes.

O desafio de ir mais além e o valor da entrega
Muitos fornecedores e analistas continuam a afirmar que “o objetivo dum projeto de Big Data é aumentar os conhecimentos empresariais”, no entanto isto não está de todo correto, uma vez que o objetivo deve ser usar essa visão para mudar o negócio e assim impulsionar o retorno de investimento (ROI).
Utilizar os conhecimentos obtidos a partir das experiências analíticas por vezes obriga a que consideremos os dados e analíticas necessárias, de maneira que possamos partilhar de forma fiável e precisa novos KPI’s, medidas e alertas com toda a empresa”, diz Martin. “Embora seja certo que os Data Scientists são cada vez mais importantes para qualquer negócio, não são eles que o fazem funcionar, mas sim os gerentes, colaboradores, responsáveis pelo apoio ao cliente ou supervisores de logística. Além disso, todos os dados que não podem ser processados e partilhados fora do Laboratório de Dados não permitirão fazer um trabalho melhor que o anterior”, acrescenta Martin Willcox.

IT CHANNEL Nº 106 ABRIL 2024

IT CHANNEL Nº 106 ABRIL 2024

VER EDIÇÕES ANTERIORES

O nosso website usa cookies para garantir uma melhor experiência de utilização.