A ascensão da plataforma de dados em nuvem.
O ano de 2020 está marcado na memória coletiva dos CIOs como um dos anos mais cataclísmicos e consequentes deste século. Mas embora a pandemia tenha ajudado a impulsionar a transformação digital muito além das expectativas de qualquer pessoa, não se engane: esta não foi a tempestade perfeita que todos nós imaginamos.
No mínimo, a onda sem precedentes de implantações baseadas em dados no ano passado iluminou as deficiências nas estruturas existentes que estão reduzindo o potencial do big data. Muitas organizações, por exemplo, ficam frustradas com o tempo que leva apenas para preparar os dados antes que analistas e cientistas possam começar um novo projeto.
Da mesma forma, o processo de migração dos modelos resultantes para os processos de negócios foi igualmente incômodo. E sem os controles adequados de segurança e governança em todo o ciclo de vida dos dados, os analistas e cientistas de dados correm o risco de expor e manchar permanentemente os armazenamentos de dados críticos.
“Na verdade, trata-se de expandir o alcance do gerenciamento de dados”, disse Richard White, Diretor de Dados da New York Life Insurance Company. “O que estamos vendo é uma triangulação dos dados, proteção de dados e estratégias de nuvem. E todos eles estão se unindo, com uma governança mais abrangente”.
A necessidade dessa triangulação não é nova. Mas os requisitos se tornaram muito mais complicados durante a pandemia, principalmente por dois motivos. Primeiro, o número de projetos de ciência de dados dentro de muitas organizações cresceu rapidamente. E, segundo, a constelação de fontes de dados que alimentam esses projetos se expandiu enormemente.
O que ajuda a explicar por que mais de 37% das organizações veem a segurança e a governança como seu principal desafio na nuvem, de acordo com a recém-lançada “Global Cloud Survey 2021” do provedor de virtualização de dados Denodo.
Mas talvez a maior lição de gerenciamento de dados resultante da pandemia é que muito mais organizações agora entendem que existe uma maneira certa de fazer dados e uma maneira errada. E embora existam ferramentas para tornar o trabalho mais fácil, não existem atalhos.
“Há um trabalho legítimo e difícil a ser feito para reunir os dados e, em seguida, fazer ciência sobre esses dados”, disse Chris Wright, Vice-Presidente Sênior e CTO da Red Hat. “Portanto, você precisa ter o conjunto de ferramentas certo no lugar”.
De fato. É por isso que muitos CIOs e CDOs estão priorizando construir, alugar ou comprar o que alguns chamam de plataforma de dados em nuvem – ou seja, todas as coisas de gerenciamento de nível básico que devem acontecer antes, durante e depois do trabalho chamativo de escavação no lago de dados em busca de respostas.
Dados tempestuosos
Tempestades perfeitas se formam quando, finalmente, todos os ingredientes necessários para impulsionar um novo mercado em direção ao céu não apenas estão disponíveis, mas também amadurecem o suficiente para escalar. Isso parece muito mais limpo do que acontece na vida real, é claro. Porque as seções individuais do andaime raramente se desenvolvem no mesmo ritmo. Pior, às vezes é difícil ver o que está pronto e o que não está sem implantar o que está disponível na natureza.
O que, como todos sabemos, foi exatamente o que aconteceu durante a pandemia.
“Já estávamos indo nessa direção”, disse JG Chirapurath, Vice-Presidente de Dados do Azure, IA e Edge da Microsoft. “Mas quando a pandemia encerrou tudo, a evolução do uso de dados para desbloquear resultados tornou-se mais uma revolução”.
Com certeza, o desligamento eliminou efetivamente os modelos e painéis existentes, tornando as previsões de fornecimento, demanda e custos perfeitamente ajustadas sem valor. As empresas de repente estavam voando às cegas. Eles precisavam urgentemente de novos sistemas para operar em uma realidade que apenas começou a tomar forma em março de 2020.
Isso fez com que as empresas corressem em busca de novas fontes de dados, aumentando a demanda por nuvem híbrida e multicloud. Muitas empresas, por exemplo, incorporaram taxas de infecção, tendências de sentimento de pandemia e outras informações relacionadas à Covid em seus novos modelos emergentes. Ao mesmo tempo, algumas organizações grandes e estabelecidas descobriram uma religião de corte de custos durante o fechamento e retiraram cargas de trabalho regulares e estáveis da nuvem.
“Se 100% das cargas de trabalho realmente estivessem indo para a nuvem pública, então não haveria Google Anthos, AWS Outpost ou Azure Arc”, disse Mick Hollison, Presidente da Cloudera, sobre as ofertas dos três principais fornecedores de nuvem híbrida e multicloud. “O que os clientes corporativos desejam é economia superior e, às vezes, ainda no local, por mais que ninguém na nuvem queira ouvir isso”.
A pesquisa Denodo, de fato, confirma isso. Enquanto o número de cargas de trabalho explodiu em todos os lugares, a nuvem privada na verdade tomou parte não apenas da nuvem pública, mas também híbrida e com várias nuvens. Mais de 24% das cargas de trabalho foram implantadas em nuvem privada, um aumento marcante de 16,6% um ano atrás, de acordo com a pesquisa. A nuvem híbrida ainda domina, hospedando 35,8% das cargas de trabalho.
Levado ao limite
Tudo isso levou muitas equipes para muito além de suas zonas de conforto. Eles estavam acostumados, por exemplo, a modelos construídos em torno de um único conjunto de dados complementar. Portanto, a complexidade adicional de novos recursos com estruturas desconhecidas estacionadas em trocas distantes levou o desafio a alturas vertiginosas.
Acrescente a isso o desafio de gerenciar o acesso para uma nova onda de funcionários em unidades de negócios e departamentos corporativos díspares, que nunca antes se importaram com o que havia naquele silo de dados, e você terá os ingredientes para um pesadelo de transformação digital.
“Eu tive um CEO me dizendo, ‘você sabe, nós tivemos que modernizar quase tudo porque nunca planejamos uma inundação repentina como esta’”, disse Chirapurath, da Microsoft.
Com essa tarefa aparentemente opressiva pela frente, não é difícil ver por que produtos de ponta de alto alcance para obter insights rápidos provaram ser atraentes demais para serem ignorados por alguns. Infelizmente, a IA sem a plataforma de dados em nuvem necessária, pode criar mais problemas do que resolver.
“Há uma expectativa de que você possa simplesmente aplicar a tecnologia e criar um resultado”, disse Wright, da Red Hat. “Eu chamo de ‘mágica acontece aqui’. A realidade é que é muito mais difícil do que isso. Preocupo-me com o fato de que os clientes que partem do pressuposto de que será fácil ficarão desapontados”
Uma plataforma com qualquer outro nome
Muitas empresas têm termos diferentes para o que chamo de plataforma de dados em nuvem. A Oracle, por exemplo, chama isso de “nuvem de gerenciamento de dados corporativos”. A Nutanix usa o termo “nuvem corporativa”. E a Cloudera, que oferece uma plataforma chamada Cloudera Data Platform, na verdade chama a categoria de “nuvem de dados corporativos”.
“A nuvem de dados corporativos é extremamente importante para setores regulados como bancos, telecomunicações, ciências biológicas e governo”, disse Hollison, de Cloudera. “E eles não querem, por exemplo, ter um modelo de segurança e governança sob medida para cada função analítica individual”.
A estrutura imposta às organizações regulamentadas por, bem, regulamentações as beneficiou no ano passado, quando precisaram aumentar seu universo de fontes de dados. Mas para aqueles que não tinham uma estrutura comum para ajudar os engenheiros a preparar e gerenciar dados de dois silos relacionados, mas separados, estavam totalmente despreparados para a tarefa.
Para eles, parte do obstáculo era que, quase por padrão, um modelo fechado com seu próprio conjunto de dados dedicado vem com toda a preparação e engenharia de dados, segurança, governança e MLOps de que precisa. Portanto, eles não tinham nada no lugar – e, até um ano atrás, nenhuma motivação para instalar uma estrutura para garantir que dois conjuntos de dados internos fossem compatíveis.
Como resultado, não há uma estrutura comum para ajudar os engenheiros a preparar e gerenciar os dados de dois silos para servir a um esforço de exploração novo e mais amplo. Sem essa estrutura, o árduo trabalho de preparação de dados, por padrão, beneficia apenas aquele projeto. Portanto, os engenheiros estão condenados a enfrentar o mesmo feito hercúleo antes do próximo projeto.
Um modelo para construir modelos
Tudo isso é para dizer que há uma necessidade premente de uma plataforma de dados em nuvem para garantir esforços robustos, padronizados, repetíveis e reutilizáveis. Um modelo para construir modelos, se você quiser. Pode não ser glamoroso. Mas é uma parte essencial do andaime que precisa estar no lugar antes que a tempestade que se aproxima possa chegar ao data center.
“Essa base tem sido realmente crítica, não apenas dentro dos grupos funcionais, mas em toda a empresa”, disse White, do New York Life. “Muitas empresas aderiram ao movimento, implementando coisas chamativas, mas não construíram essa base. Fazer o investimento sem primeiro colocar sua base em ordem é como construir uma nova cozinha quando você tem água no porão. Mais cedo ou mais tarde, sua cozinha novinha em folha vai desmoronar”.
Fonte: Cio.