Article (tiempo de lectura: 8 minuto)

Cuatro maneras en las que evolucionarán los datos en 2021

¿Qué deparará el 2021 para el escenario de los datos?

Juan Riojas / Rackspace, Narendra Chennamsetty / Rackspace Technology

Nota del editor: En el año 2021, las organizaciones continuarán adaptándose a la "nueva normalidad". Los datos son fundamentales en el análisis y los motores de recomendación en el sector de ventas y marketing, la administración de los registros médicos y las investigaciones de vacunas en el sector de la salud, y la Industria 4.0 y la logística en el sector de manufacturing. Las prácticas de datos y los casos de uso evolucionan de forma constante, lo que genera avances en las operaciones de TI.

¿Qué deparará el 2021 para el escenario de los datos? Les pedimos a Juan Riojas, nuestro director de datos, y a Narenda Chennamsetty, arquitecto principal, que opinaran sobre las cinco tendencias y predicciones principales en torno a los datos para el próximo año.

Los datos se convertirán en uno de los principales facilitadores para la experiencia del cliente

Los datos se convertirán en el director de la experiencia del cliente. Las organizaciones ya usan inteligencia artificial (AI), pruebas y optimización, además de personalización en tiempo real para impulsar la experiencia del cliente. Para conquistar la experiencia del cliente, debe contar con información que esté fácilmente disponible. El caso de negocio puede ser la personalización para una mejor experiencia del cliente, pero el facilitador real de eso son los datos, el machine learning y la ciencia de datos que le brinda soporte. Para ofrecer las experiencias hiperpersonalizadas que los consumidores desean, las organizaciones deben estar en el lugar justo con los puntos de datos correctos para motivar la experiencia en el momento. Y eso solo se puede lograr con las tecnologías adecuadas, las infraestructuras de inyección y las capacidades de AI/machine learning.

Predicción

La captura, el análisis y la respuesta de los datos en tiempo real, que también se denomina inteligencia continua, se convertirán en algo corriente. Los motores de recomendación tipo Netflix se volverán más populares. En especial, después del COVID-19, las organizaciones comprenden mejor los beneficios de poder reaccionar rápido a los comportamientos cambiantes de los usuarios. A media que más usuarios adoptan las capacidades en línea, todo el sector demográfico ha pasado del ocio (compras, noticias, redes sociales) a la necesidad (trabajo, atención médica, educación). Ese cambio dará lugar a más herramientas que van más allá del análisis de datos para generar una mejor comprensión de qué significan los datos para la empresa, cómo usarlos y qué información ofrecen.

Los avances en la ingeniería de datos impulsan la adopción

Las carencias de aptitudes y recursos ya no son una barrera para acceder a la información avanzada de datos. Los proveedores de servicios en la nube, como Amazon, han desarrollado soluciones de AI/machine learning prediseñadas para que usted no tenga que determinar cómo encajar todas las piezas. Las herramientas de automatización de producción hacen lo mismo para el proceso manual y dependiente de la ingeniería de poner en práctica los modelos de datos. KubeFlow se diseñó para automatizar los procesos de entrega de software al orquestar los flujos de trabajo de machine learning en Kubernetes. Estratificadas con herramientas de AIOps, las organizaciones pueden agregar inteligencia operativa en torno al machine learning y a los canales de ciencia de datos para pasar del modelo a producción más rápido.

La necesidad de velocidad también está cambiando el almacén de datos tradicional de un almacén orientado al procesamiento por lotes a un almacén de transmisión de datos. Ya no hay más trabajos en lotes, ahora todo se trata de la arquitectura de transmisión. El procesamiento de datos a gran escala, orientado al procesamiento por lotes, ha evolucionado desde los primeros años de los algoritmos de mapReduce, pasando por las tecnologías de Hadoop hasta el surgimiento de la infraestructura de computación distribuida de Apache Spark ampliamente adoptada. Spark no solo logró grandes ventajas respecto al rendimiento debido a su computación de canales en la memoria, sino que también venía empaquetado con machine learning y capacidades de transmisión. Gracias a que los proveedores de nube aumentan las ofertas de Spark con características como la ejecución sin servidor y capacidades de autoescalado, este se ha convertido en una herramienta indispensable en la cadena de herramientas de un ingeniero de datos.

Sin embargo, ahora parece haber otro cambio en el panorama, en especial en el análisis del flujo. En oposición al enfoque de transmisión de Spark, donde los flujos (conjuntos de datos ilimitados) se procesan como una serie de microlotes, los motores de procesamiento de flujo más nuevos, como Cloud Dataflow, Beam y Flink, utilizan un verdadero enfoque de transmisión en el que los datos se procesan registro por registro a lo largo de su recorrido en una serie de operadores en los canales de datos distribuidos. Estos motores de procesos no solo tienen un menor gasto operativo, sino que también posibilitan el acceso a capacidades interesantes.

A diferencia de las aplicaciones de Spark donde los datos se procesan en el orden en que llegan, los nuevos motores hacen posible capacidades avanzadas y flexibles de ventanas temporales en los atributos de la marca de tiempo del registro.

Por ejemplo, en el contexto de analizar los datos del historial de clics en tiempo real, un usuario puede tener un pequeño pico de actividad de eventos de clics durante un período de tiempo indeterminado en una página web. Al usar una ventana temporal de sesión, puede captar toda esa actividad en un fragmento de información grande, y luego realizar de forma precisa el análisis en vez de segmentar la actividad en ventanas temporales fijas con un tamaño arbitrario como lo haría Spark.

Hace poco, Google Cloud Platform (GCP) anunció Cloud Dataflow y Apache Beama fin de proporcionar un enfoque unificado para hacer tanto procesamiento por lotes como transmisión. La combinación provee una consistencia más sólida y una mejor semántica sobre la forma en que procesamos los datos. Si, por ejemplo, tiene datos de registro de servidores que ingresan al clúster de Kafka y solo quiere procesar algún evento que ocurrió en la aplicación una vez, a esto se lo denomina semántica “exactamente una vez”. En un ambiente orientado al procesamiento por lotes, eso requeriría una codificación específica y software adicional. Con Dataflow y Beam, esa capacidad está integrada en la infraestructura. El almacén de datos moderno, en general, se basa en tecnologías completamente diferentes a las anteriores. Vemos que hay organizaciones que dejan el servidor MS SQL para pasar a Redshift y Snowflake a fin de aprovechar las estructuras de datos columnares.

Predicción:

Pronosticamos un repunte en la adopción de los motores de procesamiento de flujo en 2021. Para que las empresas apliquen los avances, como NLP, análisis de gráficos o de series temporales, el almacén de datos moderno comenzará a aprovechar la AI y otras tecnologías avanzadas de análisis. Ya no tendremos un monolito donde pueda consultar y obtener sus informes y análisis. El almacén de datos evolucionará en un conjunto de herramientas con capacidades muy diferentes, como el procesamiento del lenguaje natural, la búsqueda, el análisis de gráficos o incluso las capacidades de superposición.

Si usted es un científico de datos, no tendrá que aprender de inmediato un montón de nuevas tecnologías. En vez de eso, tan solo concéntrese en qué hace su modelo e ignore todo lo demás. La arquitectura de transmisión reducirá mucho la latencia (técnica y de procesos) entre la producción de datos y los datos procesables, lo que permite una más rápida disponibilidad de la información para tomar decisiones.

La seguridad de los datos mantiene el ritmo, pero en otra carrera

Debido al aumento en los ataques maliciosos relacionados con la pandemia, las organizaciones están ajustando sus medidas en torno a la seguridad. Con tantas personas trabajando desde el hogar, la seguridad, el acceso y la privacidad en más puntos de conexión requieren un enfoque diferente. Los equipos de TI y los profesionales de datos trabajan juntos para administrar el aumento en la exposición y el riesgo del número creciente de puntos de conexión en los dispositivos BYOD e IoT.

Los enfoques tradicionales aislados, que solo limitan el acceso al almacén de datos, ya no son suficientes. Los datos ya no se reciben en solo un sistema; se distribuyen entre múltiples sistemas. Un equipo quiere usarlos para las operaciones, otro equipo quiere usarlos para los informes y otro equipo quiere usarlos para la ciencia de datos. Las organizaciones necesitan una arquitectura de medidas de seguridad independiente que pueda funcionar en todos los sistemas y centralizar actividades típicas como autenticación, administración de claves y administración de acceso.

La auditoría unificada ofrece un sistema orientado al servicio, centralizado y convergente para el control de los datos. Los usuarios pueden usar datos desde o hacia cualquier tipo de sistema, sin importar dónde se procesan los datos, porque los servicios son más abstractos y no están limitados a un sistema específico. Por ejemplo, un servidor SQL tiene sus usuarios, su autenticación y sus modos. Pero si científicos de datos y equipos de operaciones lo usan en 50 lugares diferentes, rápidamente se vuelve difícil de manejar.

Predicción:

En vez de tener una política de seguridad, la responsabilidad respecto a la seguridad pasará a un modelo de responsabilidad compartida para todos.

En lugar de que los equipos de datos añadan recursos de seguridad específicos, optarán por contratar a más profesionales de datos orientados a la seguridad, para que esta se incorpore en cada nivel del desarrollo. Estándares como SOX, PCI DSS e HIPAA pasarán de ser estándares exclusivos de la industria a ser diferenciadores empresariales. Puede que no sea un proveedor de atención médica, pero demostrar que su política de privacidad cumple con las normas HIPAA puede sumar credibilidad.

La confianza será el mantra para el año 2021

A medida que los datos se convierten más en un diferenciador, las organizaciones están empezando a ver los datos como un valioso activo empresarial. Pero esos datos son un activo valioso solo si son limpios y confiables. Para generar confianza, es necesario establecer el compliance, las políticas de privacidad de datos y los protocolos de seguridad, y luego incorporar a ello inteligencia y automatización en todo su ambiente.

Para crear experiencias innovadoras para los clientes, las empresas deben primero ganarse la confianza de los consumidores. 

Para crear experiencias innovadoras para los clientes, las empresas deben primero ganarse la confianza de los consumidores. El mal uso o el mal manejo de los datos de los consumidores debilita una confianza que puede ser difícil, y hasta imposible, de recuperar. La personalización elegante y no invasiva está pensada para ayudarlo, pero si los usuarios carecen de transparencia en la cadena de valor digital, es poco probable que compartan los datos que usted necesita para desarrollar las experiencias adecuadas para ellos. Las organizaciones necesitan más transparencia en la forma en que recopilan, utilizan, almacenan y eliminan los datos, además de formas claras para que los consumidores controlen sus propios datos.

A nivel interno, para establecer confianza organizativa, los equipos de datos necesitan convertirse en un facilitador de confianza. Esto significa asociarse estrechamente con los equipos comerciales para entender mejor lo que necesitan, luego usar ese ciclo de feedback para generar información rápida y precisa que permita la toma de decisiones, la innovación de productos y las ganancias por la participación en el mercado. A medida que la AI y el machine learning prosperan, la forma en que facilitamos y hacemos posible la adopción para los servicios está, en última instancia, ligada a la confianza en los datos. Los datos sucios generan resultados deficientes. Los líderes en datos pueden ayudar a garantizar que los propietarios de datos entiendan cómo brindar soporte a datos limpios en los que las organizaciones puedan depender para tomar decisiones importantes.

Predicción

Los consumidores que recién conocen los problemas en torno a la privacidad a través de documentales como The Social Dilemma (El dilema de las redes sociales) y The Great Hack (El gran hackeo) ponen su atención en la privacidad y el uso de datos. Los gobiernos intervienen con más reglamentaciones de privacidad que se implementarán en los próximos años. Cuando fracase la política pública, los consumidores esperarán que las empresas tomen la delantera al diferenciarse con la privacidad y la confianza en los datos. Imagine un tipo de sello de prácticas comerciales justas para sus datos que establezca y certifique protocolos estrictos para su control mientras estos se conserven en su organización.

Únase a la conversación: encuentre Solve en Twitter and LinkedIn, o síganos en RSS.

Stay on top of what's next in technology

Learn about tech trends, innovations and how technologiest are working today.

Subscribe

Acerca del autor

Director de Sistemas de InformaciónJuan Riojas

Juan Riojas, director de Sistemas de información de Rackspace Technology, es responsable de la estrategia, la gestión y el análisis de los datos de toda la empresa para satisfacer la necesidad del negocio de responder preguntas críticas a través...

Más

Principal ArchitectNarendra Chennamsetty

Más


Serie Solve Strategy

Inscríbase en uno de estos eventos mundiales, o en todos, en los que participarán personas influyentes, expertos, técnicos y líderes de la industria

Inscribirse