Cada cosa en su lugar: por qué AIOps y MLOps no son lo mismo

AIOps y MLOps tienen nombres similares pero resuelven desafíos muy diferentes.

Mark McQuade / Rackspace Technology, Jean "JP" Gonzalez / Rackspace 13 Enero, 2021

Los líderes en tecnología que buscan una mayor eficiencia operativa acuden cada vez más a la automatización, lo que lleva a muchos a explorar lo que AIOps y MLOps pueden hacer por ellos. Y algo que descubrirán rápido es que, si bien tienen nombres similares, AIOps y MLOps son disciplinas y tecnologías muy diferentes.

AIOps se trata acerca de una mayor eficiencia en las operaciones de TI. Esta se logra al automatizar los diagnósticos de incidentes/administración y al buscar de forma inteligente la causa raíz mediante el machine learning. Al filtrar los datos irrelevantes que se generan cuando se monitorean los sistemas y se reducen los falsos positivos, estas soluciones presentan equipos técnicos con alta calidad de información fácil de entender, por lo que pueden ocuparse de buscar una resolución.

Por otro lado, MLOps se centra en crear un flujo automatizado para poner en producción los modelos de machine learning. Busca superar la desconexión entre los equipos de ciencia de datos o los equipos de operaciones de datos, y los equipos de infraestructura, para que los modelos entren en producción de manera más rápida y con mayor frecuencia. Cabe destacar que, a diferencia de AIOps, MLOps no se trata directamente de una capacidad de machine learning de por sí, con algoritmos que procesan datos. Más bien, es una manera de administrar y agilizar el desarrollo, la implementación y el mantenimiento de esos algoritmos.

Sin embargo, a pesar de las claras diferencias entre ambas tecnologías, existen coincidencias en cuanto a las aptitudes, los equipos y las mentalidades que se necesitan para adoptar de forma correcta AIOps y MLOps. Esto tendrá como resultado una ventaja para los líderes en tecnología si continúa en aumento el interés en la tecnología, tal como esperamos que ocurra. Por lo tanto, vale la pena profundizar en los aspectos en que coinciden, como también mostrar algunas acciones recomendadas y otras que deben evitarse al momento de adoptar AIOps y MLOps en función de nuestra experiencia trabajando con clientes.

Muchas empresas ya tienen la base para AIOps y MLOps

Por lo general, la AI, de la que el machine learning es solo una aplicación, no es una disciplina madura dentro de las empresas. Pero muchas de las aptitudes que se necesitan para comenzar a experimentar con ella para AIOps y MLOps han existido desde hace tiempo.

Comencemos con AIOps. Desarrollar modelos que puedan automatizar el monitoreo de sistemas y generar alertas o informes inteligentes de fallas requiere, primero, personal con experiencia en DevOps, es decir, ingenieros y analistas de datos. También requiere administradores de operaciones con amplia experiencia en la materia en torno a los procesos que analiza para la automatización y los flujos de trabajo adyacentes que influencian o sobre los que generan consecuencias.

Luego, para implementar esos modelos en producción, se requiere experiencia en AI operativa. Estos especialistas son mucho más difíciles de encontrar, sin duda. Pero su contribución es fundamental cuando se trata de ayudar a los equipos de ingeniería a construir correlaciones de eventos dentro de sus modelos. Estos especialistas también son valiosos cuando se trata de incorporar datos a estos modelos para adaptarlos y, luego, mantenerlos actualizados a medida que cambia su ambiente operativo. (Contrario a la creencia popular, la AI no se desarrolla ni se mantiene por sí misma; necesita mucha intervención y orientación humana para entender qué correlaciones son importantes y para responder a los cambios).

Desarrollar un flujo de implementación de MLOps para sus modelos requiere todo lo anterior, además de personal con conocimiento en infraestructura con cierta comprensión de la ciencia de datos y cierta experiencia en ingeniería de machine learning. Es probable que no existan expertos en las tres cosas, pero la gente o los equipos que comprenden cada uno son fundamentales.

En general, las organizaciones más grandes aprovechan el hecho de ya tener estas aptitudes. Se trata, sobre todo, de encontrar una manera de combinarlas. Una ventaja adicional es el hecho de que también tienen el presupuesto y los recursos para buscar la ayuda externa que casi sin duda necesitarán, en especial, en lo que respecta a la AI, en la forma de consultores o, incluso, académicos.

A medida que se consolida el uso de la AI, esperamos que estas organizaciones más grandes comiencen a conectar muchos de estos componentes y personas entre sí, y que los redefinan. Por ejemplo, es fácil imaginar que surjan equipos de MLOps dedicados, con una combinación de ciencia de datos y personal de infraestructura, a medida que las empresas expanden sus capacidades e inversiones en machine learning. Entre las responsabilidades para estos equipos se encontraría poner AIOps en producción.

Acciones recomendadas y a evitar para que estas bases se conviertan en una capacidad de AIOps o MLOps

Un proyecto de AIOps o MLOps nunca será fácil, incluso cuando se cuenta con estas bases de aptitudes y personal. En nuestra experiencia, las acciones importantes recomendadas y las que deben evitarse deberían incluir lo siguiente:

Empiece de a poco: Comenzar con un objetivo más pequeño que se ajuste mejor a su comprensión, sus capacidades y sus recursos le dará el espacio para probar y perfeccionar la tecnología y las nuevas estructuras del equipo, antes de expandir sus ambiciones.
No reinvente algo que ya existe: Ya hay un mercado grande para las soluciones de AIOps y MLOps y una comunidad próspera de código abierto. Es probable que ya existan modelos prediseñados para su caso de uso, y estos pueden adaptarse a sus necesidades y basarse en sus datos mediante un proceso llamado aprendizaje de transferencia. Recomendamos aprovechar estos recursos de investigación y soluciones existentes.
No cree expectativas inalcanzables: MLOps y AIOps no resolverán sus problemas en un día, ni siquiera en un trimestre. Es importante crear y administrar expectativas apropiadas a nivel del liderazgo, en lo que respecta al tiempo hasta el impacto y el retorno sobre la inversión. Adoptar cualquier aplicación de AI es una jugada a largo plazo. Hay un alto techo para las posibles ganancias, pero la paciencia es esencial dado el proceso y los cambios organizativos que se requieren, sin mencionar la inclinada curva del aprendizaje tecnológico.
Asigne responsabilidades claras: Esto es de vital importancia una vez que empiece a combinar a la gente en nuevos equipos con nuevos productos.
Monitoree el cambio del modelo y los datos: La suposición común de que la AI puede de alguna manera ocuparse de sí misma no solo es incorrecta, sino que también es riesgosa desde el punto de vista operativo y relativo a la reputación. El rendimiento de todos los modelos se degrada con el tiempo a medida que los ambientes que monitorean cambian por el motivo que sea (se incorporan nuevos productos y personal, o, simplemente, por las consecuencias imprevistas de cambios de procesos aparentemente no relacionados). Sus protocolos de AIOps y MLOps deben tener en cuenta esto.
Mida el rendimiento y reaccione al cambio: Es vital saber cómo es el éxito de sus modelos y procesos de AIOps y MLOps, y agregar métricas a aquellos resultados que pueden monitorearse y que son factibles de respuesta.
Instaure sólidos procesos de control y auditoría: Este es un desafío enorme en torno a la AI en general en este momento. Cuando las máquinas toman decisiones que afectan a la empresa, a su gente o a sus clientes, esas decisiones deben poder explicarse, y, de ser necesario, deben poder cuestionarse. El control y la auditoría comienzan con un enfoque en la transparencia, a medida que construimos modelos, y atraviesan una fuerte supervisión de las decisiones tomadas y de sus resultados una vez que están en producción.
Respete la integridad de los datos: Se sabe que la calidad de los datos es el eje del éxito de la AI. Define el diseño de sus modelos y sistemas, y el éxito de sus resultados: si sus datos no están en condiciones, nada lo estará. Sin embargo, un factor de calidad que a menudo se pasa por alto es el sesgo humano. Muchos sistemas tienen entradas de datos impulsadas por personas, y esos datos traerán consigo sesgos conscientes o inconscientes que reflejan las suposiciones acerca de sus correlaciones. Para evitar esto, sus procesos deben tener un paso de activación o de flujo de trabajo que provoque una corrección de los datos cuando sea necesario.

¿Cuáles son las futuras perspectivas de crecimiento para AIOps y MLOps en la empresa?

Mientras que, como industria, sabemos mucho más acerca de lo que se necesita para triunfar con la AI y el machine learning de lo que sabíamos hace solo un par de años, una visión honesta del panorama debe concluir que solo se está jugando con la idea en estos momentos.

Las cosas han ido más allá del terreno de la "expectativa", y algunas empresas han demostrado que la AI tiene aplicaciones empresariales reales que pueden generar un gran valor. A medida que más empresas se involucren, inspiradas por este éxito, reconocerán rápidamente que necesitan una solución de MLOps si quieren ver de forma fiable un retorno sobre su inversión. A medida que crece el interés en el machine learning, el interés en MLOps solo puede crecer con él.

Por otra parte, la penetración de AIOps en las empresas está más avanzada, pero es, y probablemente seguirá siendo, el terreno de grandes organizaciones con sus propios equipos de TI. Estas empresas tienen la mayor ventaja, gracias a la mejor eficiencia de los procesos y al mayor alcance para volver a implementar los recursos operativos en una actividad con más valor agregado. Y aún no hemos encontrado una empresa que no codicie ninguno de estos resultados.

Por lo tanto, si bien no confundir las dos tecnologías es algo así como una lección básica, los aspectos coincidentes en las aptitudes significan que los líderes en tecnología pueden, razonablemente, esperar ser capaces de adaptarse a ambas en su hoja de ruta hacia la transformación. Y esperamos que la mayoría lo haga, más pronto que tarde.

Join the Conversation: Find Solve on Twitter and LinkedIn, or follow along via RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologists are working today.

Subscribe

Cut Straight to the Tech Trends That Matter

Aborde directamente las tendencias tecnológicas que importan

About the Authors

Practice Manager, Data Science & Engineering

Mark McQuade

Mark McQuade is an AWS and cloud-based solution specialist, knowledge addict and relationship builder. Earlier in his career, Mark held technical support, operations, business development and leadership roles for a telecommunications solutions provider, where he worked for 13 years. He then transitioned to the world of cloud and opened up his own AWS small business before joining Onica, who was acquired by Rackspace technology in 2019. Mark is currently Practice Manager of Data Science & Engineering at Rackspace Technology. Every day, he gets to learn more about what he is passionate about professionally – AI and machine learning – as well as the fascinating world of data. As a technology evangelist, you’ll often find Mark promoting data and AI/ML at talks, webinars, podcasts and industry events.

Jean "JP" Gonzalez

As Principal Engineer at Rackspace JP leads the AIOps vision and strategy for our for Rackspace event and ticketing process. With over 20 years of experience in IT roles across development, management and support services he brings an agnostic perspective to the future of Rackspace infrastructure technologies. JP's passion for efficiency through automation is driving Rackspace approach to operational digital transformation.