Aquí estamos nuevamente para compartir, con un poco de nostalgia, el último artículo sobre lo que fue AWS Cloud Experience Chile 2019.
Nota: Si te perdiste las entrada anteriores del evento AWS Cloud Experience, aquí te comparto la parte 1 y parte 2.
Data Lakes & Analytics en AWS
Contexto:
- Los datos crecen 10x cada 5 años, por lo tanto, las soluciones deben escalar al 1.000%, es decir, al ritmo de Exabytes.
- Un error frecuente es pensar en los datos como un costo en vez de un activo.
- Como hay diversos tipos de consumidores de datos, se necesitan herramientas para cada uno y en tiempo real.
- La forma tradicional de trabajar con Data Warehouse no es la recomendada para datos No Estructurados como Tweets.
- Muchas herramientas de AWS están basadas en herramientas Open Source, por ejemplo, Athena.
Nota: Para más información sobre Data Lakes, te recomiendo el siguiente artículo: ¿Qué es un Data Lake, para que sirve y cuánto cuesta implementarlo en AWS, Azure y GCP?
Propuesta AWS
- Facilitar una amplia cantidad de herramientas ad-hoc para cada parte del problema a resolver.
- Permitir esquemas en los cuales los Data Warehouse y Data Lakes compartan los datos, por ejemplo, a través de S3.
- A la fecha, los Data Lake conllevan meses de desarrollo debido a que se deben realizar actividades como: Definir storage, ingesta, categorizar, limpieza, políticas de accesos, publicarlos.
- Para agilizar la creación de Data Lakes, AWS propone Lake Formation (en fase preview), cuyo objetivo es reducir ciclo de desarrollo que actualmente abarca un 80%. Por lo tanto, el trabajo se reduciría a:
- Registrar fuente de datos.
- Definir quiénes tendrán accesos y cómo ingresarán.
- Definir quiénes y cómo auditaran los datos.
- ¿Qué hace Lake Formation en el Back End?
- Importa los datos y los autocataloga.
- Infiere los datos y construye procesos ETL con AWS Glue.
- Particiona los schemas automáticamente.
- Genera un catálogo de datos y entrega un Data Linage.
- Incorpora mecanismos para “de-duplication” como lógica difusa (ej: 13456 vs 1345-6).
- Incorpora mecanismos de seguridad (AWS Job Zero).
- AWS también sugiere revisar:
- Intercative & batch analytic: Elasticsearch Service.
- Real time: Amazon EMR y Kinesis.
- Visualización: Amazon QuickSight.
Nota: El artículo Introducción a AWS te puede dar más contexto de las ventajas y desventajas de este proveedor.
Caso de Éxito AWS Cloud Experience Chile – Parque Arauco
- Buscaban transformar los espacios disponibles para Locatarios/Arrendatarios y para cliente final. Sin embargo, faltaban datos que permitieran entender a los clientes y/o establecer contacto con ellos.
- Iniciaron con la identificación de los puntos de contactos actuales con los clientes, y durante ese ejercicio, se determinó la necesidad de implementar tecnologías ad-hoc.
- Durante el proyecto se detecta una brecha entre las potenciales tecnologías y las “skills“, lo que motiva la creación de la Subgerencia de Analytics.
- Durante el proceso de “Discovery” se concluye que el potencial de los datos no tenía fin, lo que llevo a Parque Arauco a replantearse las preguntas de negocios que en ese entonces se hacían.
- Este sin fin de oportunidades a través de los datos tuvo la implicancia de escalar y decidir algo crucial: ¿Dónde serán alojados y procesados esta gran cantidad de datos?
- Escogieron AWS debido a su flexibilidad, agilidad, microservicios, escalabilidad, fácil aplicación cloud.
- A la fecha ya se han subido 2 TB de información a S3.
Democratizando la Inteligencia Artificial (AI)
- AWS indicó que parte de su estrategia es poner la Inteligencia Artificial en manos de todos.
- Ha definido un Stack de 3 capas (De menos a más técnico):
- Capa de servicios lista para ser consumida: Alexa, Speech to text, etc.
- Autoservicio: Para aquellos usuarios que quieran trabajar, crear y/o extender algoritmos lo podrán hacer mediante SageMaker. Este sería el ambiente donde trabajaría un Data Scientist.
- Framework: Para aquellos que necesitan realizar trabajos más avanzados que conlleven optimización GPU/Hardware entre otras cosas.
- Particularmente con SageMaker:
- Se reduce el tiempo de desarrollo al aprovechar AWS Ground Truth que te permite etiquetar automáticamente (autolabeling), se estima un 70% de reducción de costo.
- Permite generar notebooks, revisar algoritmos y/o tunearlos.
- Puedes llevar tus algoritmos a SageMaker y continuar el trabajo desde ahí.
- Permite configurar distintos tipos de hardware.
- Pasos a producción ad-hoc ya que te permite llevar el trabajo a instancias más pequeñas, pero con Autoscaling.
- Otros productos específicos mencionados:
- Textract: Servicio estilo OCR Recognition que además permite identificar y almacenar los datos hacia campos de una base de datos (de no estructurado a estructurado).
- Personalize: Facilita a los desarrolladores la creación de recomendaciones individualizadas para los clientes que utilizan sus aplicaciones.
- Forecast: Servicio para pronósticos (financieros, ventas, etc.) a los cuales puedes incluir variables como el clima, precio del dólar, tráfico web para mejorar la calidad de las predicciones.
Caso de Éxito AWS Cloud Experience Chile – Jooycar
- En un comienzo se desarrollaba todo “inhouse”
- Sus datos están creciendo 3% cada 10 días.
- Están recibiendo hasta 150.000 SMS por segundo.
- Su desafió esta en la escalabilidad y poder centrarse en lo importante.
- Surgió la pregunta: ¿Por dónde comenzar? ¡¡¡Hay demasiadas herramientas!!!
- Durante 2 años se trabajó con capas gratuitas de AWS que dieron buenos resultados, sin embargo, hacer las cosas “inhouse” implicaba ser poco ágiles y dedicar más tiempo, al final esto pasa la cuenta.
- AWS ya estaba probado, pero en la expansión y necesidad de analítica avanzada una decisión clave fue la utilización de SageMaker que redujo los tiempos de desarrollos, incluso ayuda hasta el manejo de dependencias.

Nuevos Paradigmas de Arquitecturas en la Nube (Serverless)
- Para innovar rápidamente se requiere: Calidad, agilidad y velocidad (Time to Market).
- Estrategias Sugeridas:
- Desacoplar a través de microservicios.
- Arquitectura Serverless.
- Devops.
- Algunas propuestas de AWS:
- AWS Lambda: Para correr códigos sin preocuparse por la administración del servidor.
- AWS Fargate: Para correr contenedores (ECS) sin preocuparse de la administración.
-
- Un caso de éxito es Febos, donde ellos mismos nos cuentan su historia. Link a “camino a la serverlessidad“.
- Reflexión Final: “No server is eassier to manage than no server”
Cultura de Innovación de Amazon
Amazon ha declarado 14 Principios de liderazgo que influyen enormemente en la organización a la hora de innovar. Alguno de estos son “Customer Obsession, Owenership, Invent and Simplify“. En particular esta cultura de innovación se puede ver reflejada en las cartas anuales de Jeff Bezos.
A continuación, comparto aspectos claves de la cultura de Amazon:
- Siempre inician por los clientes, AWS los considera como una fuente infinita de necesidades.
- Un ejemplo fue la creación de Amazon GO, donde entendieron los problemas de los clientes a la hora de comprar y luego implementaron la tecnología.
- Para conformar buenos equipos , AWS los limita a un máximo de 6 a 8 personas por equipos. Metafóricamente dicen: “Un equipo de ser lo suficientemente grande para comerse 2 pizzas“.
Un dato interesante es que en AWS realmente no existe un área de innovación, entonces:
¿Cuál es la fórmula de innovación que utiliza AWS?

Esta fórmula en formato algorítmico quedaría:
-
- Declara los principios y motivaciones que rigen a tu organización y cultura.
- Amplifica la estructura de tu organización con una arquitectura técnica que la acompañe.
- Define procedimientos basados en los puntos anteriores que sean coherentes para que cada persona de tu organización cuente con una guía.
Ejemplo de Innovación bajo la mirada de Amazon
- Define que la obsesión por el cliente es lo primero y que cada trabajador es líder en su función asignada.
- Se entiende la necesidad del cliente y se comienza a trabajar hacia atrás considerando una arquitectura de microservicios.
- Responden a preguntas Working Backwards de forma coherente tanto para los clientes internos como los clientes finales.
- Emitir un Press Release – Comunicado de prensa ficticio de cómo quieres que tu producto sea ofertado, la ventaja de esto es que logras identificar lo que realmente es importante.
- Iterar, mejorar y visualizar hasta poner el producto/servicio en el mercado.
Bueno Data Rockers, hemos llegado al final de la saga de 3 artículos sobre lo que fue AWS Cloud Experience Chile 2019. Espero que estos artículos te hayan ayudado. Si te perdiste las entrada anteriores, aquí te dejo los links: parte 1 y parte 2.
Nota: Si crees que este contenido puede ser útil para otras personas no dudes en compartirlo. De igual forma te invitamos a seguirnos en Linkedin, Facebook y Youtube donde estamos publicando semanalmente tips relacionados con Business Intelligence & Data Warehouse, Data Science, Visualización de Datos y Software a la Medida.
One Thought on “AWS Cloud Experience Chile 2019 – Parte 3”