Cómo acelerar el ciclo de vida del machine learning para aprovechar al máximo sus datos

Mark McQuade, Daniel Quach

iconography showing machine learning brain inside a spinning circle

 

Las empresas se están dando cuenta del valor que aporta usar los modelos de machine learning para obtener mejores resultados. Aprovechar el poder predictivo de sus datos con modelos de machine learning es cada vez más importante para las operaciones comerciales, aunque el 60 % de los modelos de machine learning nunca llega a la etapa de producción. ¿En qué fallan?

 

Esfuerzos generalizados con la AI y el machine learning

En diciembre de 2020 y enero de 2021, llevamos a cabo un estudio global sobre la adopción, el uso, los beneficios, el impacto de la AI y el machine learning, así como sobre los planes a futuro. En el estudio, se encuestó a 1,870 líderes de TI de distintas industrias en América, Europa, Asia y Oriente Medio. Esto reveló que la mayoría de los encuestados (82 %) todavía analiza la manera de implementar la AI o se esfuerza por poner en práctica los modelos de AI y de machine learning.

La investigación también mostró que, en promedio, las empresas tienen cuatro proyectos implementados de investigación y desarrollo de AI y de machine learning, y, gracias a que nos comunicamos con los clientes, sabemos que la mayoría de las organizaciones invierten en investigación y desarrollo para el desarrollo de modelos. Sin embargo, la desconexión entre las operaciones o los equipos de operaciones de datos y los ingenieros de machine learning o los equipos de ciencia de datos se traduce en que muchos de los modelos nunca llegan al ambiente de producción. A menudo, se presentan problemas relacionados con la implementación, la automatización y la escalabilidad de los modelos de machine learning.

 

Los desafíos de poner en práctica los modelos de machine learning

Con frecuencia, los equipos de ciencia de datos enfrentan desafíos en cuanto a la forma en que administran los modelos a medida que pasan por las diferentes etapas del flujo de trabajo del machine learning. Hacer que los modelos de machine learning pasen rápidamente del ambiente de desarrollo al de producción no es un área de conocimiento para los científicos de datos. Un equipo de DevOps o de infraestructura estaría mejor preparado para lograr la reproducibilidad de los modelos y las predicciones. Puede ser difícil reproducir el resultado de un modelo cuando pasa de un ambiente a otro, ya que requiere un seguimiento minucioso de las versiones de las bibliotecas, de los conjuntos de datos, de los diagnósticos, del monitoreo del rendimiento y del cambio del modelo.

Otro problema común es que los modelos tienden a multiplicarse en diferentes ambientes, y resulta difícil su control. Los científicos de datos crean modelos específicos para cada dominio y llevan a cabo muchos experimentos. Primero, comienzan en un ambiente de desarrollo y, luego, van avanzando por el proceso hasta llegar a un ambiente de prueba. Esto genera múltiples modelos que se ejecutan al mismo tiempo en diferentes ambientes, con diversos conjuntos de datos e hiperparámetros. Por lo tanto, esto hace que sea casi imposible rastrear la clase de un modelo. Uno de los aspectos más importantes del control y el compliance regulatorio (en especial, si está tratando con cualquier tipo de auditores) es rastrear y explicar todo lo que hace o ha hecho su modelo.

 

DevOps no es suficiente

La cultura de DevOps y la administración del ciclo de vida de las aplicaciones se han convertido en un estándar en la industria de TI durante la última década. Surgió para cerrar la brecha entre la capacidad de una organización de desarrollar código de aplicaciones y la manera de implementar, evaluar, escalar, monitorear y actualizar las cargas de trabajo con eficiencia. En gran medida, las necesidades maduras de los flujos de CI/CD se abordan en lo que respecta al desarrollo de aplicaciones con las herramientas estandarizadas y las prácticas recomendadas que ya existen.

A diferencia del desarrollo de aplicaciones, donde la calidad proviene del propio código, la calidad de un modelo de machine learning viene, sobre todo, de las características de los datos que se utilizan para entrenarlo. La importancia de estas características de los datos no puede subestimarse, ya que su calidad impulsa el rendimiento de su modelo de machine learning. Y vale la pena mencionar que los modelos de machine learning todavía se encuentran en sus primeras etapas operativas.

Además, los datos pueden cambiar a diario, y los que se utilizaron para las predicciones que hizo hoy pueden ser significativamente diferentes de los que se utilizaron para entrenar modelos hace un mes. En este caso, el modelo en fase de producción debe entrenarse de nuevo y volver a la fase de desarrollo. Como resultado, el ciclo de vida de un modelo de machine learning es significativamente diferente del ciclo de vida de una aplicación. Teníamos un cliente en el ámbito del fraude que quería pasar los modelos al ambiente de producción cada 24 horas para poder llevar registros de las nuevas amenazas. El cliente tenía que volver a entrenar y a implementar su modelo todos los días para que este pudiera tener en cuenta todo cambio en los datos. Eso es imposible de hacer si no se cuenta con una solución madura.

 

Presentación de la infraestructura del patrón Model Factory

El ciclo de vida del machine learning es complejo. Hay muchos pasos en todo el ciclo de vida del machine learning, como el procesamiento de datos, el análisis de datos, la transformación de datos, la validación de datos, la división de datos, la construcción de modelos, el entrenamiento de modelos y la validación de modelos. Y todos estos pasos tienen desafíos asociados. Es por este motivo por el que desarrollamos la infraestructura del patrón Model Factory de Rackspace Technology.

La infraestructura del patrón Model Factory está impulsada por AWS, usa herramientas de código abierto que hacen posible modelos rápidos de desarrollo, capacitación, puntuación e implementación. La infraestructura del patrón Model Factory se desarrolló para abordar los problemas que enfrenta cuando lleva los modelos de machine learning del ambiente de desarrollo al de producción.

La infraestructura del patrón Model Factory simplifica todo el ciclo de vida del machine learning que, en general, tiene más de 25 pasos y puede tardar meses, a 10 pasos aproximadamente que se pueden completar en cuestión de semanas.

 

Obtenga más información acerca de la infraestructura del patrón Model Factory

Si quiere obtener más información acerca de la infraestructura del patrón Model Factory de Rackspace Technology y explorar cómo esta mejora los procesos, desde el desarrollo de modelos hasta la implementación, el monitoreo y el control, mire nuestro seminario web "Cómo automatizar las operaciones de ML a nivel de producción en AWS". En este seminario web, abordamos los siguientes temas:

  • Presentación de MLOps Foundations impulsado por el patrón Model Factory
  • La brecha entre los científicos de datos y las operaciones de ML
  • La distinción entre MLOps y DevOps
  • Patrones de arquitectura necesarios para los elementos de un proceso eficaz de MLOps
  • Cómo una arquitectura con el patrón "Model Factory" aborda de forma holística el proceso de CI/CD para el ML

 

Cómo automatizar las operaciones de ML a nivel de producción en AWS