Precisamos mantê-los separados: por que a AIOps e o MLOps não são a mesma coisa

A AIOps e o MLOps têm nomes semelhantes, mas resolvem desafios muito diferentes.

Mark McQuade / Rackspace Technology, Jean "JP" Gonzalez / Rackspace 13 Janeiro, 2021

Os líderes em tecnologia que buscam mais eficiência operacional estão se voltando cada vez mais para a automação, levando muitos a explorar o que a AIOps (Artificial Intelligence for IT Operations) e o MLOps (Machine Learning for IT Operations) podem fazer por eles. E algo que eles descobrirão rapidamente é que, embora tenham nomes semelhantes, a AIOps e o MLOps são disciplinas e tecnologias muito diferentes.

A AIOps lida com o aumento da eficiência nas operações de TI, obtida pela automatização de diagnósticos de incidentes/gerenciamento e encontrando de forma inteligente a causa-raiz por meio do machine learning. Ao analisar o ruído gerado pelo monitoramento dos sistemas e pela redução dos falsos positivos, essas soluções apresentam às equipes técnicas informações de alta qualidade e fáceis de entender, para que possam trabalhar em uma solução.

O MLOps, por outro lado, concentra-se em criar um pipeline automatizado para trazer modelos de machine learning para a produção. Ele procura superar a desconexão entre as equipes de ciência de dados ou operações de dados e equipes de infraestrutura, para colocar modelos em produção com mais rapidez e mais frequência. O que é mais importante (e está em contraste com a AIOps) é que o MLOps não se refere diretamente a um recurso de machine learning per se, com algoritmos processando dados. Em vez disso, é uma maneira de gerenciar e agilizar a construção, implantação e manutenção desses algoritmos.

No entanto, apesar das grandes diferenças entre os dois, há sobreposições nas habilidades, equipes e mentalidades necessárias para se adotar com sucesso a AIOps e o MLOps. Isso será uma vantagem para os líderes em tecnologia se — como esperamos — o interesse em cada tecnologia continuar a crescer. Portanto, vale a pena analisar mais a fundo essas áreas de sobreposição, assim como mostrar alguns caminhos a seguir ou não seguir quando se trata de adotar a AIOps e o MLOps com base em nossa experiência de trabalho com os clientes.

Muitas empresas já têm a base para a AIOps e o MLOps

A IA (inteligência artificial), da qual o machine learning (aprendizado de máquina) é apenas um aplicativo, geralmente não é um domínio maduro dentro das empresas. Porém, muitas das habilidades necessárias para começar a experimentá-la para AIOps ou MLOps estão presentes há tempos.

Vamos começar com AIOps. Os modelos de construção que podem automatizar o monitoramento de sistemas e produzir relatórios ou alertas de falhas inteligentes primeiro exigem pessoal de DevOps experiente — engenheiros e analistas de dados. Também exigem administradores de operações com profundo conhecimento nos processos que você está analisando para automação e os fluxos de trabalho adjacentes que eles influenciam ou impactam.

Para depois implantar esses modelos na produção, é necessária experiência operacional em IA. Esses especialistas são muito mais difíceis de encontrar, é claro. Mas a contribuição deles é crucial quando se trata de ajudar as equipes de engenharia a construir correlações de eventos dentro de seus modelos. Esses especialistas também são inestimáveis quando se trata de alimentar esses modelos com dados para treiná‑los e mantê‑los atualizados à medida que o ambiente operacional muda. (Ao contrário da crença popular, a IA não se constrói ou se mantém sozinha; ela precisa de muita intervenção e orientação humana para entender quais correlações são importantes e responder às mudanças.)

A criação de um pipeline de implementação de MLOps para seus modelos requer todos os recursos acima, além de pessoal com conhecimento de infraestrutura sobreposto à compreensão da ciência de dados e à alguma experiência em engenharia de machine learning. Provavelmente não existem especialistas em todas essas três áreas, mas pessoas ou equipes com entendimento de cada uma delas são essenciais.

Organizações maiores têm uma vantagem porque, geralmente, elas tendem a já ter essas capacidades. Geralmente é uma questão de encontrar uma maneira de combiná-las. Uma outra vantagem é o fato de que elas também têm o orçamento e os recursos para procurar a ajuda externa de que quase certamente precisarão, particularmente quanto à IA, na forma de consultores ou até mesmo acadêmicos.

À medida que o uso da IA amadurece, esperamos que essas organizações maiores comecem a conectar muitos desses componentes e pessoas, dando-lhes novas denominações. Por exemplo, é fácil imaginar equipes de MLOps dedicadas emergentes, apresentando uma mistura de pessoal qualificado em ciência de dados e infraestrutura, à medida que as empresas expandem os recursos e investimentos em machine learning. Uma das responsabilidades dessas equipes seria colocar a AIOps em produção.

Caminhos a seguir e a não seguir para construir essas fundações em uma capacidade de AIOps ou MLOps

Um projeto de AIOps ou MLOps nunca será fácil, mesmo já tendo capacidade e pessoal como base. Em nossa experiência, os caminhos a seguir ou não seguir incluiriam:

Não começar com muito: começar com um objetivo menor que se adapte ao seu entendimento, capacidade e recursos permitirá que você teste e refine a tecnologia e as novas estruturas da equipe antes de ampliar suas ambições.
Não reinventar a roda: já existe um grande mercado para soluções de AIOps e MLOps e uma comunidade de código aberto próspera. Provavelmente, já existem modelos pré-construídos para o seu caso de uso, e eles podem ser treinados para as suas necessidades e com base em seus dados por meio de um processo chamado aprendizado de transferência. Recomendamos aproveitar essa riqueza de pesquisas e soluções existentes.
Não criar expectativas inatingíveis: o MLOps e a AIOps não resolverão seus problemas em um dia ou, nem mesmo, em um trimestre. É importante criar e gerenciar as expectativas apropriadas no nível da liderança, tanto em relação ao tempo de impacto quanto em relação ao retorno sobre o investimento. A adoção de qualquer aplicativo de IA é um jogo de longo prazo. Existe um teto alto sobre possíveis ganhos, mas a paciência é essencial, dado o processo e as mudanças organizacionais necessárias, isso sem mencionar a íngreme curva de aprendizado tecnológico.
Atribuir responsabilidades claras: isso é de importância vital quando você começa a misturar e a combinar pessoas em novas equipes com novas entregas.
Monitorar o modelo e o desvio de dados: a suposição comum de que a IA pode de alguma forma cuidar de si mesma não é apenas errada, mas também apresenta riscos à operação e à reputação. O desempenho de todos os modelos degrada ao longo do tempo à medida que os ambientes monitorados mudam por qualquer motivo (novos produtos e pessoal são introduzidos, ou simplesmente por meio das consequências não intencionais de mudanças não relacionadas ao processo). Seus protocolos de AIOps e MLOps devem levar isso em conta.
Avaliar o desempenho e reagir às mudanças: é essencial saber como é o sucesso para os seus modelos e processos de AIOps e MLOps e anexar métricas aos resultados que possam ser monitoradas e respondidas.
Aplicar processos robustos de governança e auditoria: estamos vivendo um grande desafio relacionado à IA em geral neste momento. Quando máquinas tomam decisões que afetam a empresa, seu pessoal ou seus clientes, essas decisões devem ser explicáveis – e contestáveis, se necessário. À medida que construímos modelos, a governança e a auditoria começam com foco na transparência e percorrem uma forte supervisão das decisões tomadas e dos resultados quando estiverem em produção.
Respeitar a integridade dos dados: um fato que todos bem sabem é que dados de qualidade são a espinha dorsal do sucesso com a IA. Eles definem o design dos seus modelos e sistemas e o sucesso dos resultados: se os seus dados estiverem obsoletos, tudo também estará. Um fator de qualidade muitas vezes negligenciado, no entanto, é o viés humano. Muitos sistemas têm entradas de dados orientadas por humanos, e esses dados trarão com eles vieses conscientes ou inconscientes refletindo suposições sobre as correlações. Para se proteger contra isso, seus processos devem ter uma etapa de gatilho ou fluxo de trabalho que solicite uma correção dos dados quando necessário.

Quais são as perspectivas de crescimento futuro para AIOps e MLOps na empresa?

Embora como indústria saibamos muito mais sobre o que é necessário para ter sucesso com IA e machine learning do que sabíamos apenas alguns anos atrás, uma visão honesta do assunto precisa concluir que, no momento, estamos apenas começando a explorar essas áreas.

As coisas certamente foram além de “assunto do momento”, e muitas empresas demonstraram que a IA tem aplicativos corporativos reais que podem gerar um enorme valor. À medida que mais empresas, inspiradas por esse sucesso, se envolvem, elas reconhecerão muito rapidamente que precisam de uma solução de MLOps para ver de forma confiável um retorno sobre seu investimento. Também, à medida que o interesse pelo machine learning cresce, o interesse em MLOps só pode crescer com ele.

Por outro lado, as AIOps estão mais avançadas na penetração nas empresas, mas isso representa, e provavelmente permanecerá, a preservação das grandes organizações com suas próprias equipes de TI. Essas empresas têm o máximo a ganhar com a melhor eficiência do processo e o maior escopo para reimplantar recursos operacionais para mais atividades de valor agregado. E ainda estamos para encontrar uma empresa que não cobiça nenhum desses resultados.

Portanto, ainda que não confundam as duas tecnologias como uma lição simples, a sobreposição de habilidades significa que os líderes de tecnologia podem razoavelmente esperar acomodar ambas no roteiro de transformação. E esperamos que a maioria faça isso, mais cedo ou mais tarde.

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Subscribe

Cut Straight to the Tech Trends That Matter

Analise agora as tendências tecnológicas que realmente importam

About the Authors

Practice Manager, Data Science & Engineering

Mark McQuade

Mark McQuade is an AWS and cloud-based solution specialist, knowledge addict and relationship builder. Earlier in his career, Mark held technical support, operations, business development and leadership roles for a telecommunications solutions provider, where he worked for 13 years. He then transitioned to the world of cloud and opened up his own AWS small business before joining Onica, who was acquired by Rackspace technology in 2019. Mark is currently Practice Manager of Data Science & Engineering at Rackspace Technology. Every day, he gets to learn more about what he is passionate about professionally – AI and machine learning – as well as the fascinating world of data. As a technology evangelist, you’ll often find Mark promoting data and AI/ML at talks, webinars, podcasts and industry events.

Jean "JP" Gonzalez

As Principal Engineer at Rackspace JP leads the AIOps vision and strategy for our for Rackspace event and ticketing process. With over 20 years of experience in IT roles across development, management and support services he brings an agnostic perspective to the future of Rackspace infrastructure technologies. JP's passion for efficiency through automation is driving Rackspace approach to operational digital transformation.