Pilar de la excelencia operativa - Marco de Buena ...

40
Pilar de la excelencia operativa Marco de Buena Arquitectura de AWS

Transcript of Pilar de la excelencia operativa - Marco de Buena ...

Page 1: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativaMarco de Buena Arquitectura de AWS

Page 2: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Pilar de la excelencia operativa: Marco de Buena Arquitectura de AWSCopyright © Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's,in any manner that is likely to cause confusion among customers, or in any manner that disparages or discreditsAmazon. All other trademarks not owned by Amazon are the property of their respective owners, who may or may notbe affiliated with, connected to, or sponsored by Amazon.

Page 3: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Table of ContentsResumen ........................................................................................................................................... 1

Resumen ................................................................................................................................... 1Introducción ....................................................................................................................................... 2Excelencia operativa ........................................................................................................................... 3

Principios de diseño .................................................................................................................... 3Definición .................................................................................................................................. 3

Organización ...................................................................................................................................... 5Prioridades de la organización ...................................................................................................... 5

Recursos ........................................................................................................................... 7Modelo operativo ........................................................................................................................ 7

Representaciones del modelo operativo 2 por 2 ...................................................................... 7Relaciones y propiedad ..................................................................................................... 11Recursos ......................................................................................................................... 12

Cultura organizativa .................................................................................................................. 12Recursos ......................................................................................................................... 14

Preparación ...................................................................................................................................... 15Diseñar la telemetría ................................................................................................................. 15

Recursos ......................................................................................................................... 16Diseño de las operaciones ......................................................................................................... 17

Recursos ......................................................................................................................... 19Mitigar los riesgos de implementación .......................................................................................... 19

Recursos ......................................................................................................................... 20Disposición operativa ................................................................................................................. 21

Recursos ......................................................................................................................... 22Operación ........................................................................................................................................ 24

Comprensión del estado de la carga de trabajo ............................................................................. 24Recursos ......................................................................................................................... 26

Comprensión del estado operativo ............................................................................................... 26Recursos ......................................................................................................................... 27

Respuesta a los eventos ............................................................................................................ 28Recursos ......................................................................................................................... 29

Evolución ......................................................................................................................................... 31Aprender, compartir y mejorar .................................................................................................... 31

Recursos ......................................................................................................................... 32Conclusión ....................................................................................................................................... 34Colaboradores .................................................................................................................................. 35Documentación adicional .................................................................................................................... 36Revisiones del documento ................................................................................................................. 37

iii

Page 4: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Resumen

Pilar de excelencia operativa: AWSWell-Architected Framework

Fecha de publicación: Julio de 2020 (Revisiones del documento (p. 37))

ResumenEste documento se centra en el pilar de la excelencia operativa de Marco de Buena Arquitectura de AWS.Proporciona asesoramiento para ayudarlo a aplicar las prácticas recomendadas en el diseño, la entrega yel mantenimiento de las cargas de trabajo de AWS.

1

Page 5: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

IntroducciónEl Marco de Buena Arquitectura de AWS ayuda a comprender los riesgos y los beneficios de lasdecisiones que se toman a la hora de crear cargas de trabajo en AWS. Mediante la utilización delmarco, aprenderá las prácticas recomendadas operativas y de arquitectura para diseñar y operar cargasde trabajo en la nube fiables, seguras, eficientes y rentables. Ofrece una forma de medir de maneraconsistente sus operaciones y arquitecturas en función de las prácticas recomendadas, además depermitir identificar las áreas que admiten mejora. Creemos que tener cargas de trabajo basadas en Well-Architected y diseñadas teniendo en cuenta las operaciones aumenta considerablemente la probabilidadde éxito empresarial.

El marco se basa en cinco pilares:

• Excelencia operativa• Seguridad• Fiabilidad• Eficiencia de rendimiento• Optimización de costos

Este documento se centra en el pilar de la excelencia operativa y en la manera de aplicarlo como la basede las soluciones de buena arquitectura. Es un desafío lograr la excelencia operativa en entornos dondelas operaciones se perciben como una función aislada e independiente de las líneas de negocio y losequipos de desarrollo que respaldan. Si adopta las prácticas que se especifican en este documento,puede crear arquitecturas que brinden información sobre su estado, estén habilitadas para responder aeventos y operar de manera efectiva y eficiente, y puedan seguir mejorando y respaldando sus objetivosempresariales.

Este documento está destinado a personas con roles en el área de tecnología, como directores detecnología (CTO), arquitectos, desarrolladores y miembros de equipos operativos. Después de leer estedocumento, comprenderá las prácticas recomendadas y las estrategias de AWS que conviene utilizar a lahora de diseñar una arquitectura en la nube para lograr la excelencia operativa. Este documento no ofrecedetalles de implementación ni patrones de arquitectura. Sin embargo, sí incluye referencias para acceder alos recursos adecuados y obtener esta información.

2

Page 6: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Principios de diseño

Excelencia operativaEl pilar de la excelencia operativa incluye la manera en la que la organización respalda los objetivosempresariales, además de la habilidad para ejecutar cargas de trabajo de forma eficaz, obtenerinformación sobre las operaciones y mejorar continuamente los procedimientos y los procesos de soportepara ofrecer valor de negocio.

Temas• Principios de diseño (p. 3)• Definición (p. 3)

Principios de diseñoExisten cinco principios de diseño para la excelencia operativa en la nube:

• Realizar operaciones como código: en la nube, puede aplicar la misma disciplina de ingeniería queutiliza para el código de aplicaciones en todo su entorno. Puede definir toda la carga de trabajo(aplicaciones, infraestructura, etc.) como código y actualizarla también con código. Puede crear script delos procedimientos operativos y automatizar su ejecución si los activa en respuesta a eventos. Si realizaoperaciones como código, limita la posibilidad de error humano y habilita respuestas coherentes a loseventos.

• Realizar cambios pequeños, reversibles y frecuentes: diseñe cargas de trabajo que permitan que loscomponentes se actualicen con frecuencia para aumentar el flujo de cambios beneficiosos en la cargade trabajo. Realice los cambios en pequeños incrementos que se puedan revertir en el caso de que noayuden a identificar y resolver los problemas que se presentan en su entorno (sin afectar a los clientescuando sea posible).

• Mejorar los procedimientos operativos con frecuencia: a medida que utilice los procedimientosoperativos, busque oportunidades para mejorarlos. Mientras su carga de trabajo evoluciona, haga quesus procedimientos también lo hagan de forma adecuada. Configure días de práctica regulares pararevisar todos los procedimientos y validar que sean efectivos y que los equipos los conozcan.

• Anticipar los errores: realice ejercicios “premortem” para identificar los posibles orígenes de errores demanera que se puedan eliminar o mitigar. Pruebe las situaciones de error y compruebe que entiendesus efectos. Pruebe los procedimientos de respuesta para asegurarse de que sean efectivos y que losequipos conozcan su ejecución. Configure días de prueba con regularidad para probar las respuestas dela carga de trabajo y del equipo ante eventos simulados.

• Aprender de todos los errores operativos: implemente mejoras a partir de las lecciones aprendidas detodos los eventos y los errores operativos. Comparta las lecciones aprendidas con los equipos en toda laorganización.

DefiniciónLa excelencia operativa en la nube está compuesta por cuatro áreas:

• Organización• Preparación• Operación• Evolución

3

Page 7: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Definición

Los líderes de su organización definen los objetivos empresariales. Su organización debe comprenderlos requisitos y las prioridades, además de utilizarlos para organizar y realizar trabajos que respalden ellogro de los resultados empresariales. Su carga de trabajo debe brindar la información necesaria parapoder respaldarla. Implementar servicios para habilitar la integración, la implementación y la entrega de sucarga de trabajo permitirá aumentar el flujo de cambios beneficiosos en la fase de producción mediante laautomatización de los procesos repetitivos.

Pueden existir riesgos inherentes a la operación de la carga de trabajo. Debe comprender esos riesgosy tomar una decisión con fundamentos para avanzar a la fase de producción. Sus equipos deben sercapaces de brindar soporte a su carga de trabajo. Las métricas comerciales y operativas que derivan delos resultados empresariales deseados le permitirán comprender el estado de la carga de trabajo y lasactividades operativas, además de responder a incidentes. Sus prioridades cambiarán a medida que semodifiquen las necesidades empresariales y el entorno de negocio. Utilice estos aspectos como un buclede retroalimentación para mejorar de manera continua la organización y el funcionamiento de su carga detrabajo.

4

Page 8: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWSPrioridades de la organización

OrganizaciónNecesita comprender las prioridades de su organización, su estructura organizativa y la forma enque apoya a los miembros de su equipo para que ellos, a su vez, puedan respaldar los resultadosempresariales.

Para permitir la excelencia operativa, debe comprender lo siguiente:

Temas• Prioridades de la organización (p. 5)• Modelo operativo (p. 7)• Cultura organizativa (p. 12)

Prioridades de la organizaciónLos equipos deben comprender de la misma manera toda la carga de trabajo, su rol en ella y los objetivosempresariales compartidos para establecer las prioridades que permitirán el éxito empresarial. Lasprioridades claras maximizan los beneficios de sus esfuerzos. Revise sus prioridades con regularidad demanera que se puedan actualizar a medida que cambian las necesidades.

Evalúe las necesidades de los clientes externos: Involucre a las partes interesadas clave, incluidos losequipos de negocio, desarrollo y operaciones, para determinar dónde concentrar los esfuerzos orientadosa las necesidades de los clientes externos.

Evalúe las necesidades de los clientes internos: involucre a las partes interesadas clave, incluidos losequipos de negocio, desarrollo y operaciones, para determinar dónde concentrar los esfuerzos orientadosa las necesidades de los clientes externos.

La evaluación de las necesidades de los clientes garantizará que comprenda por completo el respaldo quese necesita para alcanzar los resultados empresariales.

Utilice las prioridades establecidas para concentrar sus esfuerzos de mejora en los lugares donde tendránmayor impacto (por ejemplo, en el desarrollo de habilidades en el equipo, la mejora del rendimiento dela carga de trabajo, la reducción de costos, la automatización de los manuales de procedimiento o laoptimización del monitoreo). Actualice sus prioridades a medida que cambien las necesidades.

Evalúe los requisitos de gobernanza: Asegúrese de conocer las directrices o las obligaciones queestableció su organización y que pueden exigir o resaltar un enfoque específico. Evalúe los factoresinternos, como la política, los estándares y los requisitos de la organización. Compruebe que cuenta conlos mecanismos necesarios para identificar cambios en la gobernanza. Si no se identifican requisitos degobernanza, asegúrese de haber aplicado la debida diligencia a esta tarea.

Evalúe los requisitos de conformidad externos: Asegúrese de conocer las directrices o las obligacionesque estableció su organización y que pueden exigir o resaltar un enfoque específico. Evalúe los factoresexternos, como los requisitos de conformidad normativa y los estándares del sector. Compruebe quecuenta con los mecanismos necesarios para identificar los cambios en la conformidad. Si no se identificanrequisitos de conformidad, asegúrese de haber aplicado la debida diligencia a esta tarea.

Si existen requisitos regulatorios o de conformidad externos que se aplican a la organización, deberíautilizar los recursos suministrados en la sección de Conformidad en la nube de AWS para facilitar laeducación de los equipos para que puedan determinar el impacto en las prioridades.

5

Page 9: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWSPrioridades de la organización

Evalúe el panorama de amenazas: Evalúe las amenazas a su negocio (por ejemplo, competencia, riesgosy cargas empresariales, riesgos operativos y amenazas a la seguridad de la información) y mantenga lainformación actual en un registro de riesgos. Incluya el impacto de los riesgos a la hora de determinardónde concentrar los esfuerzos.

El AWS Well-Architected Framework se centra en el aprendizaje, la medición y la mejora. Ofrece unenfoque uniforme para evaluar arquitecturas e implementar diseños que se puedan escalar con el pasodel tiempo. AWS proporciona AWS Well-Architected Tool para ayudarlo a revisar el enfoque antes deldesarrollo, el estado de las cargas de trabajo antes de la producción y el estado de las cargas de trabajodurante la producción. Puede compararlas con las últimas prácticas recomendadas de arquitectura deAWS, monitorear el estado general de sus cargas de trabajo y obtener información acerca de los posiblesriesgos.

Los clientes de Enterprise Support califican para una revisión de Well-Architected de sus cargas de trabajocríticas para medir sus arquitecturas con respecto a las prácticas recomendadas de AWS.

También califican para una revisión de operaciones, diseñada para ayudarlos a identificar las deficienciasde su enfoque para el funcionamiento en la nube.

La participación interdisciplinaria en estas revisiones permite que se comprendan de manera unificada lascargas de trabajo y la forma en que los roles del equipo contribuyen para tener éxito. Las necesidades quese identifican en la revisión pueden ayudar a definir sus prioridades.

AWS Trusted Advisor es una herramienta que proporciona acceso a un conjunto básico decomprobaciones que recomiendan optimizaciones, que pueden ayudar a definir las prioridades. Losclientes de Business Support y Enterprise Support tienen acceso a comprobaciones adicionales centradasen la seguridad, la fiabilidad, el rendimiento y la optimización de costos, que pueden ayudar a definir aúnmás las prioridades.

Evalúe las compensaciones: Evalúe el efecto de las compensaciones entre intereses contrapuestos oenfoques alternativos para poder tomar decisiones con fundamentos al momento de determinar en dóndeconcentrar esfuerzos operativos o a la hora de establecer un curso de acción. Por ejemplo, se puedepriorizar la aceleración de la comercialización de características nuevas por encima de la optimizaciónde costos. También puede elegir una base de datos relacional para datos no relacionales con el fin desimplificar el esfuerzo de migración de un sistema, en lugar de migrar a una base de datos optimizada parasu tipo de datos y actualizar la aplicación.

AWS puede ayudarlo a instruir a sus equipos acerca de AWS y sus servicios para que entiendan mejor dequé manera sus elecciones pueden afectar a la carga de trabajo. Debe utilizar los recursos proporcionadospor AWS Support (Centro de conocimientos de AWS, foros de debate de AWS, y Centro de soporte deAWS) y la documentación de AWS para educar a sus equipos. Póngase en contacto con AWS Support através del Centro de soporte de AWS para obtener respuestas a sus preguntas sobre AWS.

AWS también comparte los patrones y las prácticas recomendadas que hemos aprendido a través delfuncionamiento de AWS en Amazon Builders’ Library. Existe una gran variedad de más información útildisponible en el Blog de AWS y el Podcast oficial de AWS.

Administre los beneficios y los riesgos: Administre los beneficios y los riesgos para tomar decisiones confundamentos al momento de determinar dónde concentrar los esfuerzos. Por ejemplo, puede resultarbeneficioso implementar una carga de trabajo que tenga problemas sin resolver de manera que nuevascaracterísticas importantes puedan estar disponibles para los clientes. Tal vez sea posible mitigar losriesgos asociados o quizás se vuelva inaceptable permitir que un riesgo permanezca, en cuyo caso tendráque tomar medidas para abordarlo.

Es posible que desee destacar un pequeño subconjunto de prioridades en algún momento. Utiliceun enfoque equilibrado a largo plazo para garantizar el desarrollo de las capacidades necesarias y laadministración de riesgos. Revise sus prioridades con regularidad y actualícelas a medida que cambien lasnecesidades.

6

Page 10: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

RecursosConsulte los siguientes recursos para obtener más información sobre las prácticas recomendadas de AWSpara las prioridades de la organización.

Documentación• AWS Trusted Advisor• Conformidad en la nube de AWS• Marco de Buena Arquitectura de AWS• AWS Business Support• AWS Enterprise Support• Derechos de AWS Enterprise Support• Revisiones de operaciones en la nube de AWS Support• Marco de adopción de la nube de AWS

Modelo operativoLos equipos deben comprender el rol que juegan en el logro de los resultados empresariales. Los equiposdeben comprender el rol que tienen en el éxito de otros equipos, conocer el rol de los demás equipos ensu propio éxito y tener objetivos en común. Comprender la responsabilidad, la propiedad, la manera enque se toman las decisiones y quién tiene la autoridad para hacerlo ayudará a concentrar los esfuerzos y amaximizar los beneficios de sus equipos.

Las necesidades de un equipo dependerán del sector, la organización, la conformación del equipo y lascaracterísticas de la carga de trabajo. Es poco razonable esperar que un solo modelo operativo puedarespaldar a todos los equipos y las cargas de trabajo.

Es probable que la cantidad de modelos operativos presentes en una organización aumente con lacantidad de equipos de desarrollo. También es posible que necesite utilizar una combinación de modelosoperativos.

Adoptar estándares y consumir servicios pueden simplificar las operaciones y limitar la carga de soporteen su modelo operativo. El beneficio de los esfuerzos de desarrollo en estándares compartidos aumentasegún el número de equipos que hayan adoptado el estándar y que adoptarán nuevas características.

Es fundamental que existan mecanismos para solicitar las incorporaciones, los cambios y las excepcionesa los estándares para respaldar las actividades de los equipos. Sin esta opción, los estándares seconvierten en una limitación a la innovación. Las solicitudes se deben aprobar siempre que sean posibles yse determine que son adecuadas después de la evaluación de los beneficios y los riesgos.

Un conjunto claro de responsabilidades reducirá la frecuencia con la que se presentan esfuerzoscontradictorios y redundantes. Es más fácil lograr los resultados empresariales cuando hay alineación yrelaciones sólidas entre los equipos de negocios, desarrollo y operaciones.

Representaciones del modelo operativo 2 por 2Estas representaciones del modelo operativo 2 por 2 son ilustraciones que permiten comprender lasrelaciones entre los equipos de su entorno. Los diagramas se centran en quién realiza cada tarea y lasrelaciones entre los equipos, pero también analizaremos la gobernanza y la toma de decisiones en elcontexto de estos ejemplos.

7

Page 11: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Representaciones del modelo operativo 2 por 2

Nuestros equipos tal vez son responsables de múltiples partes de varios modelos según las cargas detrabajo que dependen de ellos. Es posible que desee definir áreas de disciplinas más especializadas quelas de alto nivel ya descritas. El potencial de variación en estos modelos es interminable a medida quesepara o agrupa actividades, o bien, superpone equipos y proporciona detalles más específicos.

Tal vez identifique que tiene capacidades superpuestas o desconocidas en todos los equipos que puedenproporcionar una ventaja adicional o generar eficiencias. Es posible que también identifique necesidadesno satisfechas en su organización y que planee abordarlas luego.

Cuando evalúe el cambio organizativo, examine las compensaciones entre los modelos, dónde se ubicansus equipos individuales dentro de los modelos (en este momento y después del cambio), cómo cambiaránlas relaciones y las responsabilidades de sus equipos, y si los beneficios ameritan el efecto sobre laorganización.

Puede tener éxito con cada uno de los siguientes cuatro modelos operativos. Algunos modelos son másadecuados para casos de uso específicos o en determinados momentos del desarrollo. Algunos de estosmodelos pueden ofrecer más ventajas que los modelos que se utilizan actualmente en su entorno.

Temas• Modelo operativo completamente separado (p. 8)• Ingeniería y operaciones de aplicaciones (AEO) separadas, e ingeniería y operaciones de

infraestructura (IEO) con gobernanza centralizada (p. 9)• AEO separadas e IEO con gobernanza centralizada y un proveedor de servicios (p. 10)• AEO separadas e IEO con gobernanza descentralizada (p. 10)

Modelo operativo completamente separadoEn el siguiente diagrama, sobre el eje vertical se ubican las aplicaciones y la infraestructura. Lasaplicaciones son la carga de trabajo correspondiente a un resultado empresarial y puede ser softwarecomprado o desarrollado de forma personalizada. La noción de infraestructura hace referencia a lainfraestructura física y virtual, además de a software adicional que admite dicha carga de trabajo.

En el eje horizontal, se ubican la ingeniería y las operaciones. La ingeniería consiste en el desarrollo,la creación y la puesta a prueba de aplicaciones e infraestructura. Las operaciones consisten en laimplementación, la actualización y el soporte continuo de las aplicaciones y la infraestructura.

En muchas organizaciones, está presente este modelo “completamente separado”. En cada cuadrante,un equipo independiente se encarga de las actividades. El trabajo se transfiere entre los equipos a travésde mecanismos, como solicitudes de trabajo, colas de trabajo, boletos o un sistema de administración deservicios de TI (ITSM).

La transición de las tareas entre los equipos aumenta la complejidad y crea cuellos de botella, además dedemoras. Es posible que las solicitudes se retrasen hasta que se conviertan en una prioridad. Es posibleque los defectos que se identifiquen tarde requieran una repetición significativa del trabajo y deban pasarpor los mismos equipos y sus funciones nuevamente. Si se producen incidentes que requieren que losequipos de ingeniería tomen medidas, la actividad de transferencia retrasa sus respuestas.

Existe un mayor riesgo de divergencia cuando los equipos de negocios, desarrollo y operaciones seorganizan en torno a actividades o funciones que se encuentran en ejecución. Esto puede conducir aque los equipos se centren en sus responsabilidades específicas en lugar de centrarse en alcanzar losresultados empresariales. Los equipos pueden tener una especialización limitada, estar físicamenteaislados o estar aislados de una forma lógica, lo que obstaculiza la comunicación y la colaboración.

8

Page 12: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Representaciones del modelo operativo 2 por 2

Ingeniería y operaciones de aplicaciones (AEO) separadas, eingeniería y operaciones de infraestructura (IEO) con gobernanzacentralizadaEste modelo de “AEO separadas e IEO” sigue la metodología de “lo creas, lo ejecutas”.

Los ingenieros y los desarrolladores de aplicaciones realizan las tareas tanto de ingeniería como deoperaciones de sus cargas de trabajo. Del mismo modo, los ingenieros de infraestructura realizan tantolas tareas de ingeniería como de operación de las plataformas que usan para respaldar a los equipos deaplicaciones.

Para este ejemplo, consideraremos la gobernanza como centralizada. Los estándares se distribuyen yproporcionan a los equipos de aplicaciones, o se comparten con estos.

Debe usar herramientas o servicios que permitan controlar de manera centralizada los entornos en todaslas cuentas, como AWS Organizations. Servicios como AWS Control Tower amplían esta capacidad deadministración, lo que permite definir diseños (que respalden los modelos operativos) para la configuraciónde cuentas, la aplicación de gobernanza continua con AWS Organizations y la automatización delaprovisionamiento de nuevas cuentas.

“Lo creas, lo ejecutas” no implica que el equipo de aplicaciones es responsable de la totalidad de la pila, lacadena de herramientas y la plataforma.

El equipo de ingeniería de plataforma proporciona un conjunto estandarizado de servicios (por ejemplo,herramientas de desarrollo, monitoreo, copia de seguridad y recuperación, y redes) al equipo deaplicaciones. El equipo de plataforma también puede proporcionar acceso al equipo de aplicaciones a losservicios aprobados del proveedor de la nube, a las configuraciones específicas de dicho proveedor o aambos.

Mecanismos que proporcionan una capacidad de autoservicio para implementar configuraciones yservicios aprobados, como AWS Service Catalog, pueden limitar las demoras asociadas al cumplimientode los requisitos mientras se aplica la gobernanza.

El equipo de plataforma habilita la visibilidad de pila completa para que los equipos de aplicacionespuedan diferenciar entre los problemas con los componentes de las aplicaciones y los componentes delos servicios y la infraestructura que sus aplicaciones consumen. El equipo de plataforma también puedeproporcionar asistencia para la configuración de estos servicios, así como asesoramiento sobre cómomejorar las operaciones de los equipos de aplicaciones.

Como se analizó anteriormente, es fundamental que existan mecanismos para que el equipo deaplicaciones solicite incorporaciones, cambios y excepciones a los estándares para respaldar lasactividades de los equipos y la innovación de sus aplicaciones.

El modelo de AEO separadas e IEO brinda bucles de retroalimentación sólidos a los equipos deaplicaciones. Las operaciones diarias de una carga de trabajo incrementan el contacto con los clientesmediante interacción directa o indirecta mediante solicitudes de soporte y características. Esta mayorvisibilidad permite a los equipos de aplicaciones abordar problemas más rápidamente. Un mayor nivelde interacción y una relación más estrecha aportan información sobre las necesidades de los clientes ypermiten acelerar la innovación.

Todo esto también se aplica al equipo de plataforma que respalda a los equipos de aplicaciones.

Los estándares adoptados pueden estar preaprobados para el uso, lo que reduce la cantidad derevisión necesaria para avanzar a la etapa de producción. El uso de estándares compatibles y probados

9

Page 13: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Representaciones del modelo operativo 2 por 2

proporcionados por el equipo de plataforma puede reducir la frecuencia con la que se presentan problemascon esos servicios. La adopción de estándares permite a los equipos de aplicaciones centrarse endiferenciar las cargas de trabajo.

AEO separadas e IEO con gobernanza centralizada y unproveedor de serviciosEste modelo de “AEO separadas e IEO” sigue la metodología de “lo creas, lo ejecutas”.

Los ingenieros y los desarrolladores de aplicaciones realizan las tareas tanto de ingeniería como deoperaciones de sus cargas de trabajo.

Es posible que su organización no cuente con las habilidades existentes o los miembros del equipo pararespaldar a un equipo dedicado de ingeniería y operaciones de plataforma; o bien, es posible que usted noquiera invertir tiempo ni esfuerzo para hacerlo.

Por otro lado, tal vez desee tener un equipo de plataforma que se centre en la creación de capacidadesque destacarán su empresa, pero quiera transferir las operaciones diarias genéricas a un proveedorexterno.

Los proveedores de servicios administrados como AWS Managed Services, los socios de AWS ManagedServiceso los proveedores de servicios administrados de la Red de socios de AWS, proporcionanexperiencia y conocimientos sobre la implementación de entornos en la nube, así como apoyo para losrequisitos de conformidad y seguridad, y para lograr los objetivos del negocio.

Para esta variación, consideraremos la gobernanza como centralizada y administrada por el equipo deplataforma, con la creación de cuentas y las políticas administradas con AWS Organizations y AWSControl Tower.

Este modelo requiere que modifique los mecanismos para que funcionen con los del proveedor deservicios. No aborda los cuellos de botella ni las demoras causadas por la transición de las tareas entrelos equipos, incluido su proveedor de servicios, o la posible repetición del trabajo relacionada con laidentificación tardía de defectos.

Obtiene la ventaja de los estándares, las prácticas recomendadas, los procesos y la experiencia de susproveedores. También accede a los beneficios del desarrollo continuo de sus ofertas de servicios.

Agregar servicios administrados a su modelo operativo puede ayudarlo a ahorrar tiempo y recursos.Además, permite que sus equipos internos no carguen con tantas responsabilidades y permanezcancentrados en los resultados estratégicos que destacarán su negocio, en lugar de seguir concentrados endesarrollar nuevas habilidades y capacidades.

AEO separadas e IEO con gobernanza descentralizadaEste modelo de “AEO separadas e IEO” sigue la metodología de “lo creas, lo ejecutas”.

Los ingenieros y los desarrolladores de aplicaciones realizan las tareas tanto de ingeniería como deoperaciones de sus cargas de trabajo. Del mismo modo, los ingenieros de infraestructura realizan lastareas tanto de ingeniería como de operaciones de las plataformas que usan para respaldar a los equiposde aplicaciones.

Para este ejemplo, consideraremos la gobernanza como descentralizada.

10

Page 14: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Relaciones y propiedad

El equipo de plataforma continúa con las tareas de distribuir, proporcionar o compartir los estándares conlos equipos de aplicaciones, pero estos son libres de diseñar y operar capacidades de plataforma nuevaspara respaldar las cargas de trabajo.

En este modelo existen menos restricciones para el equipo de aplicaciones, pero esto conlleva un aumentosignificativo de las responsabilidades. Debe haber habilidades adicionales, y posiblemente tambiénmiembros adicionales del equipo, para respaldar las capacidades de plataforma adicionales. El riesgo deuna repetición significativa del trabajo aumenta si los conjuntos de habilidades no son adecuados y losdefectos no se reconocen durante las primeras etapas.

Debe aplicar las políticas que no se delegan específicamente a los equipos de aplicaciones. Useherramientas o servicios que permitan controlar de manera centralizada los entornos en todas las cuentas,como AWS Organizations. Servicios como AWS Control Tower amplían esta capacidad de administración,lo que permite definir diseños (que respalden los modelos operativos) para la configuración de cuentas, laaplicación de gobernanza continua con AWS Organizations y la automatización del aprovisionamiento denuevas cuentas.

Resulta beneficioso disponer de mecanismos para que el equipo de aplicaciones solicite incorporacionesy cambios en los estándares. Tal vez puedan aportar nuevos estándares capaces de beneficiar a otrosequipos de aplicaciones. Los equipos de plataforma pueden decidir que proporcionar soporte directo paraestas capacidades adicionales es un respaldo eficaz de los resultados empresariales.

Este modelo limita las restricciones en la innovación con requisitos significativos en cuanto a los miembrosdel equipo y las habilidades. Aborda varios de los cuellos de botella y las demoras que son consecuenciade la transición de las tareas entre los equipos, a la vez que fomenta el desarrollo de relaciones eficacesentre los equipos y los clientes.

Relaciones y propiedadSu modelo operativo define las relaciones entre los equipos y respalda la propiedad y la responsabilidadidentificables.

Los recursos tienen propietarios identificados: Se debe comprender quién es propietario de cadaaplicación, carga de trabajo, plataforma y componente de infraestructura; qué valor de negocio proporcionaese componente; y por qué existe esa propiedad. Comprender el valor de negocio de estos componentesindividuales y la manera en que respaldan los resultados empresariales determina los procesos y losprocedimientos que se les aplican.

Los procesos y los procedimientos tienen propietarios identificados: Se debe comprender quién espropietario de la definición de los procesos y los procedimientos individuales, por qué se usan esosprocesos y procedimientos específicos, y por qué existe esa propiedad. Comprender las razones por lasque se usan procesos y procedimientos específicos permite identificar oportunidades de mejora.

Las actividades operativas tienen propietarios identificados que son responsables de su rendimiento:Se debe comprender quién tiene la responsabilidad de llevar a cabo actividades específicas en cargasde trabajo definidas y por qué existe esa responsabilidad. Comprender la responsabilidad sobre elrendimiento de las actividades operativas determina quién realizará la acción, validará el resultado yproporcionará retroalimentación al propietario de la actividad.

Los miembros del equipo saben de qué son responsables: La comprensión del rol orienta la priorizaciónde las tareas. Esto permite a los miembros del equipo reconocer las necesidades y responder de formaadecuada.

Existen mecanismos para identificar la responsabilidad y la propiedad: Cuando no se identifica ni a unapersona ni a un equipo, existen vías de escalamiento definidas, las cuales llevan a alguien con la autoridadsuficiente como para asignar propiedad o planear para que se aborde esa necesidad.

Existen mecanismos para solicitar incorporaciones, cambios y excepciones: Usted puede realizarsolicitudes a los propietarios de procesos, procedimientos y recursos. Tome decisiones con fundamento

11

Page 15: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

para aprobar solicitudes siempre que sean posibles y se determine que son adecuadas después de unaevaluación de los beneficios y los riesgos.

Las responsabilidades entre equipos se negocian o definen de manera anticipada: Existen acuerdosdefinidos o negociados entre los equipos que describen cómo trabajan entre sí y se respaldan mutuamente(por ejemplo, tiempos de respuesta, objetivos de nivel de servicio o acuerdos de nivel de servicio).Comprender el efecto del trabajo de los equipos sobre los resultados empresariales y los resultados deotros equipos y organizaciones determina la priorización de sus tareas y les permite responder de maneraadecuada.

Cuando la responsabilidad y la propiedad no están definidas o no se conocen, se corre el riesgo de noabordar las actividades necesarias a tiempo y de que surjan esfuerzos redundantes y potencialmentecontradictorios a la hora de abordar esas necesidades.

RecursosConsulte los siguientes recursos a fin de obtener más información acerca de las prácticas recomendadasde AWS destinadas al diseño de operaciones.

Videos• AWS re:Invent 2019: [Repetición 1] Cómo asegurar la conformidad de configuración (MGT303-R1)• AWS re:Invent 2019: Automatizar todo: opciones y prácticas recomendadas (MGT304)

Documentación• AWS Managed Services• Características de AWS Organizations• Características de AWS Control Tower

Cultura organizativaBrinde soporte a los miembros de su equipo para que puedan ser más eficaces a la hora de tomar medidasy de respaldar los resultados empresariales.

Patrocinio ejecutivo: Los líderes principales establecen expectativas claras para la organización y evalúanel éxito. Los líderes principales son patrocinadores, defensores e impulsores de la adopción de lasprácticas recomendadas y de la evolución de la organización

Permitir a los miembros del equipo tomar medidas cuando los resultados estén en riesgo: El propietariode la carga de trabajo definió la orientación y el alcance, lo que permite a los miembros del equiporesponder cuando los resultados estén en riesgo. Los mecanismos de escalamiento se utilizan para recibirindicaciones cuando los eventos están fuera del alcance definido.

Se alienta el escalamiento: Ya que cuentan con los mecanismos necesarios para hacerlo, se alienta a losmiembros del equipo a que remitan sus inquietudes a los responsables de la toma de decisiones y laspartes interesadas si creen que los resultados están en peligro. El escalamiento debe realizarse a tiempo ycon frecuencia, de manera que se puedan identificar los riesgos y se pueda evitar que causen incidentes.

Las comunicaciones deben ser oportunas, claras y prácticas: Existen mecanismos que se utilizan paranotificar oportunamente a los miembros del equipo sobre los riesgos conocidos y los eventos planificados.Se brinda el contexto, los detalles y el tiempo (cuando es posible) necesarios para ayudar a determinar sise requiere alguna acción, y de qué acción se trata, y también para actuar a tiempo. Por ejemplo, notificarsobre las vulnerabilidades del software para que se pueda acelerar la implementación de parches o

12

Page 16: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Cultura organizativa

notificar sobre las promociones planificadas de ventas para que se pueda implementar un congelamientode cambios a fin de evitar el riesgo de interrupción del servicio.

Los eventos planificados se pueden registrar en un calendario de cambios o un programa demantenimiento, de manera que los miembros del equipo puedan identificar qué actividades estánpendientes.

En AWS, el calendario de cambios de AWS Systems Manager se puede utilizar para registrar estosdetalles. Es compatible con comprobaciones efectuadas mediante programación del estado del calendariopara determinar si puede tener o no actividad en un momento determinado. Las actividades operativaspueden planificarse en torno a periodos “aprobados” específicos que se reservan para actividades quepodrían ser disruptivas. Los periodos de mantenimiento de AWS Systems Manager permiten agendar lasactividades sobre las instancias y otros recursos compatibles para automatizar las actividades y lograr queesas actividades se puedan detectar.

Se alienta a la experimentación: La experimentación acelera el aprendizaje y mantiene a los miembros delequipo interesados e involucrados. Un resultado no deseado es un experimento exitoso que identificó uncamino que no conduce al éxito. No se penaliza a los miembros del equipo por experimentos exitosos conresultados no deseados. Es necesario experimentar para dar lugar a la innovación y para que las ideas setransformen en resultados.

Se permite y se alienta que los miembros del equipo mantengan y desarrollen sus habilidades: Losmiembros deben desarrollar sus conjuntos de habilidades para adoptar nuevas tecnologías y admitircambios en la demanda y las responsabilidades a favor de las cargas de trabajo. Con frecuencia, eldesarrollo de las habilidades en tecnologías nuevas es una fuente de satisfacción para los miembros delequipo y respalda a la innovación. Apoye a los miembros de su equipo en la búsqueda y el mantenimientode certificaciones del sector que validen y reconozcan sus habilidades en desarrollo. Proporcioneformación interdisciplinaria para promover el intercambio de conocimientos y reducir el riesgo de unimpacto significativo si se pierden miembros del equipo capacitados y experimentados con conocimientoinstitucional. Ofrezca tiempo definido y específico para el aprendizaje.

AWS proporciona recursos, como el Centro de recursos introductorios de AWS, los blogs de AWS, lascharlas técnicas en línea de AWS, los eventos y seminarios web de AWSy los laboratorios de AWS Well-Architected, que proporcionan orientación, ejemplos y demostraciones para educar a los equipos.

AWS también comparte los patrones y las prácticas recomendadas que hemos aprendido a través delfuncionamiento de AWS en Amazon Builders’ Library y una amplia variedad de materiales educativos útilesdiferentes a través del Blog de AWS y el Podcast oficial de AWS.

Debería aprovechar los recursos educativos proporcionados por AWS, como los laboratorios de Well-Architected, AWS Support (Centro de conocimientos de AWS, foros de debate de AWS, y Centro desoporte de AWS) y la documentación de AWS para educar a sus equipos. Póngase en contacto con AWSSupport a través del Centro de soporte de AWS para obtener respuestas a sus preguntas sobre AWS.

AWS Training and Certification proporciona capacitación gratuita a través de cursos digitales autoguiadosacerca de los aspectos fundamentales de AWS. También puede registrarse para obtener formación técnicaimpartida por instructores a fin de respaldar aún más el desarrollo de las habilidades en AWS de susequipos.

Brindar recursos a los equipos de manera adecuada: Mantenga la capacidad de los miembros del equipoy ofrezca herramientas y recursos para respaldar las necesidades de su carga de trabajo. Saturar decargas a los miembros del equipo aumenta el riesgo de incidentes que surgen de errores humanos. Invertiren herramientas y recursos (por ejemplo, automatizar las actividades frecuentes) puede aumentar laefectividad de su equipo, lo que les permite admitir otras actividades.

Se alientan y se buscan las opiniones diversas en cada equipo y entre ellos: Aproveche la diversidad entrelas organizaciones para buscar varias perspectivas únicas. Utilice esta perspectiva para aumentar el nivelde innovación, desafiar sus suposiciones y reducir el riesgo de sesgo de confirmación. Aumente los nivelesde inclusión, diversidad y accesibilidad dentro de sus equipos para obtener perspectivas beneficiosas.

13

Page 17: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

La cultura organizativa tiene un efecto directo en la satisfacción laboral y la retención de los miembros delequipo. Facilite el compromiso y las capacidades de los miembros de su equipo para lograr el éxito de sunegocio.

RecursosConsulte los siguientes recursos a fin de obtener más información acerca de las prácticas recomendadasde AWS destinadas al diseño de operaciones.

Videos• AWS re:Invent 2019: [Repetición 1] Cómo asegurar la conformidad de configuración (MGT303-R1)• AWS re:Invent 2019: Automatizar todo: opciones y prácticas recomendadas (MGT304)

Documentación• AWS Managed Services• Características de AWS Organizations• Características de AWS Control Tower

14

Page 18: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Diseñar la telemetría

PreparaciónSi desea prepararse para la excelencia operativa, debe comprender las cargas de trabajo y suscomportamientos esperados. Luego, podrá diseñarlas para que ofrezcan información sobre su estado ypodrá crear procedimientos para respaldarlas.

A la hora de prepararse para la excelencia operativa, debe realizar lo siguiente:

Temas• Diseñar la telemetría (p. 15)• Diseño de las operaciones (p. 17)• Mitigar los riesgos de implementación (p. 19)• Disposición operativa (p. 21)

Diseñar la telemetríaDiseñe su carga de trabajo de manera que brinde la información necesaria para comprender su estadointerno (por ejemplo, métricas, registros, eventos y seguimientos) en todos los componentes a fin derespaldar los problemas de investigación y observación. Itere a fin de desarrollar la telemetría necesariapara monitorear el estado de la carga de trabajo, identificar el momento en que los resultados corren riesgoy habilitar respuestas efectivas.

En AWS, puede emitir y recopilar registros, métricas y eventos de los componentes de las aplicaciones ylas cargas de trabajo, lo que permite comprender su estado interno. Puede incorporar el rastreo distribuidopara hacer un seguimiento de las solicitudes a medida que recorren la carga de trabajo. Utilice estos datospara comprender cómo interactúan la aplicación y los componentes subyacentes, así como para analizarlos problemas y el rendimiento.

Cuando instrumente su carga de trabajo, capture una gran cantidad de información que le permita conocerla situación (por ejemplo, cambios de estado, actividad del usuario, acceso con privilegios, contadores deluso) y tenga en cuenta que puede utilizar filtros para seleccionar la información más útil con el paso deltiempo.

Implementar telemetría de la aplicación: Instrumente el código de la aplicación de manera que emitainformación acerca del estado interno, la situación y la obtención de resultados comerciales (por ejemplo,la profundidad de la cola, los mensajes de error y los tiempos de respuesta). Utilice esta información paradeterminar cuándo se necesita una respuesta.

Debería instalar y configurar el agente de Amazon CloudWatch Logs unificado para enviar registros deaplicaciones de nivel de sistema y métricas avanzadas desde la instancias de EC2 y los servidores físicosa Amazon CloudWatch.

Genere y publique métricas personalizadas mediante la CLI de AWS o la API de CloudWatch. Asegúresede publicar métricas empresariales relevantes y métricas técnicas que ayuden a comprender elcomportamiento de los clientes.

Puede enviar registros directamente desde la aplicación a CloudWatch mediante la API de CloudWatchLogs, o enviar eventos mediante el SDK de AWS y Amazon EventBridge. Inserte instrucciones de registroen el código de AWS Lambda para almacenarlas automáticamente en CloudWatch Logs.

Implemente y configure la telemetría de la carga de trabajo: Diseñe y configure su carga de trabajo paraque emita información acerca del estado interno y la situación actual. Por ejemplo, considere el volumen

15

Page 19: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

de llamadas a la API, los códigos de estado HTTP y los eventos de escalado. Utilice esta información parapoder determinar cuándo se necesita una respuesta.

Utilice un servicio como Amazon CloudWatch para incorporar registros y métricas desde los componentesde la carga de trabajo (por ejemplo, registros de la API desde AWS CloudTrail, métricas de AWS Lambda,Registros de flujo de Amazon VPC, y otros servicios).

Implemente la telemetría de la actividad del usuario: Provea al código de la aplicación herramientas quepermitan emitir información acerca de la actividad del usuario, como, por ejemplo, secuencias de clics otransacciones que se han iniciado, abandonado o completado. Utilice esta información para comprendercómo se utiliza la aplicación, identificar patrones de uso y determinar cuándo se necesita una respuesta.

Implementar la telemetría de la dependencia: Diseñe y configure su carga de trabajo de manera que emitainformación acerca del estado (por ejemplo, accesibilidad o tiempo de respuesta) de los recursos de losque depende. Algunos ejemplos de dependencias externas son las bases de datos externas, los DNS y laconectividad a la red. Utilice esta información para determinar cuándo se necesita una respuesta.

Implemente la trazabilidad de las transacciones: Implemente el código de su aplicación y configure loscomponentes de la carga de trabajo de manera que emitan información sobre el flujo de transacciones entoda la carga. Utilice esta información para determinar cuándo se necesita una respuesta y para ayudarlo aidentificar los factores que contribuyen a un problema.

En AWS, es posible utilizar servicios de rastreo distribuidos, como AWS X-Raypara recopilar y registrarrastreos a medida que las transacciones recorren la carga de trabajo, para generar mapas con elobjetivo de ver cómo fluyen las transacciones a través de la carga de trabajo y los servicios, para obtenerinformación sobre las relaciones entre los componentes y para identificar y analizar los problemas entiempo real.

Itere y desarrolle la telemetría a medida que las cargas de trabajo evolucionan para asegurarse de quecontinúa recibiendo la información necesaria para conocer el estado de la carga de trabajo.

RecursosConsulte los siguientes recursos a fin de obtener más información acerca de las prácticas recomendadasde AWS destinadas al diseño de operaciones.

VideosAWS re:Invent 2016: Entrega continua de infraestructura mediante AWS CloudFormation (DEV313)

AWS re:Invent 2016: DevOps en AWS: aceleración de la entrega de software con herramientas paradesarrolladores de AWS (DEV201)

AWS CodeStar: La experiencia central para comenzar rápidamente a desarrollar aplicaciones en AWS

Documentos• Acceso a Amazon CloudWatch Logs para AWS Lambda• Monitoreo de archivos de registro de CloudTrail con Amazon CloudWatch Logs• Publicación de registros de flujo en CloudWatch Logs

Documentación• Mejora de la capacidad de observación de la carga de trabajo con el formato de métricas integradas de

Amazon CloudWatch

16

Page 20: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Diseño de las operaciones

• Introducción a Amazon CloudWatch• Almacenamiento y monitoreo de los archivos de registro del sistema operativo y de las aplicaciones con

Amazon CloudWatch• Métricas y alarmas personalizadas de alta resolución para Amazon CloudWatch• Monitoreo de eventos de AWS Health con eventos de Amazon CloudWatch• Documentación de AWS CloudFormation• Herramientas para desarrolladores de AWS• Configurar una canalización de CI/CD en AWS• AWS X-Ray• Estrategias de etiquetado de AWS• Mejora de la capacidad de observación de la carga de trabajo con el formato de métricas integradas de

Amazon CloudWatch

Diseño de las operacionesAdopte enfoques que mejoren el flujo de los cambios en la fase de producción y que permitan larefactorización, la valoración rápida sobre la calidad y la corrección de errores. Estos enfoques aceleranlos cambios beneficiosos que se aplican a la fase de producción, limitan los problemas implementadosy permiten una rápida identificación y solución de los problemas que acarrearon las actividades deimplementación.

En AWS, puede ver toda su carga de trabajo (aplicaciones, infraestructura, política, gobernanza yoperaciones) como código. Todo se puede definir y actualizar con código. Esto significa que puede aplicarla misma disciplina de ingeniería que se utiliza para el código de aplicaciones en cada elemento de su pila.

Utilice el control de versiones: Utilice el control de versiones para habilitar el seguimiento de los cambios ylas versiones.

Muchos servicios de AWS ofrecen capacidades de control de versiones. Utilice una revisión o sistema decontrol de orígenes como AWS CodeCommit para administrar el código y otros artefactos, como plantillasde versión controlada AWS CloudFormation de la infraestructura.

Evalúe y valide los cambios: Pruebe y valide los cambios para ayudar a limitar y detectar errores.Automatice las pruebas a fin de reducir los errores causados por procesos manuales y, también, reducir elnivel de esfuerzo necesario para realizar las pruebas.

En AWS, puede crear entornos paralelos temporales para disminuir los riesgos, los esfuerzos y los costosde la experimentación y las pruebas. Automatice la implementación de estos entornos mediante AWSCloudFormation para asegurar implementaciones coherentes de los entornos temporales.

Utilice sistemas de administración de la configuración: Utilice sistemas de administración de laconfiguración para realizar cambios en la configuración y rastrearlos. Estos sistemas reducen los errorescausados por los procesos manuales y reducen el nivel de esfuerzo necesario para implementar cambios.

Utilice sistemas de administración de implementaciones y creaciones: Utilice sistemas de administraciónde implementaciones y creaciones. Estos sistemas reducen los errores causados por los procesosmanuales y reducen el nivel de esfuerzo necesario para implementar cambios.

En AWS, puede crear canalizaciones de integración continua o implementación continua (CI/CD) medianteservicios como Herramientas para desarrolladores de AWS (por ejemplo, AWS CodeCommit, AWSCodeBuild, AWS CodePipeline, AWS CodeDeploy, y AWS CodeStar).

Llevar a cabo la administración de parches: Lleve a cabo la administración de parches para obtenercaracterísticas, abordar problemas y mantener la conformidad con la gobernanza. Automatice la

17

Page 21: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Diseño de las operaciones

administración de parches a fin de reducir los errores causados por procesos manuales y, también, reducirel nivel de esfuerzo necesario para aplicar parches.

La administración de los parches y la vulnerabilidad es parte de las actividades de administración debeneficios y riesgos. Es preferible contar con infraestructuras inmutables e implementar cargas de trabajoque se encuentren en estados correctos conocidos y verificados. Cuando eso no es posible, la aplicaciónde parches local es la opción que queda.

Actualización de imágenes de máquina, imágenes de contenedor o tiempos de ejecución de Lambda ybibliotecas adicionales para eliminar vulnerabilidades como parte de la administración de parches. Debeadministrar las actualizaciones de las imágenes de Amazon Machine (AMI) para imágenes de WindowsServer o Linux mediante EC2 Image Builder. Puede utilizar Amazon Elastic Container Registry con lacanalización existente para administrar imágenes de Amazon ECS y administrar imágenes de AmazonEKS. AWS Lambda incluye características de administración de versiones.

La aplicación de parches no debería efectuarse en los sistemas de producción sin antes probarse en unentorno seguro. Los parches solo deberían aplicarse si admiten un resultado operativo o empresarial. EnAWS, puede utilizar AWS Systems Manager Patch Manager para automatizar el proceso de aplicación deparches a sistemas administrados y programar la actividad mediante los periodos de mantenimiento deAWS Systems Manager.

Comparta los estándares de diseño: Comparta las prácticas recomendadas en los equipos a fin deincrementar el conocimiento y maximizar los beneficios de los esfuerzos de desarrollo.

En AWS, las aplicaciones, la informática, la infraestructura y las operaciones se pueden definir yadministrar mediante el uso de metodologías de código. Esto facilita el lanzamiento, el uso compartido y laadopción.

Muchos recursos y servicios de AWS están diseñados para compartirse entre las cuentas, lo que permitecompartir recursos y aprendizajes creados entre sus equipos. Por ejemplo, puede compartir repositorios deCodeCommit , funciones de Lambda , buckets de Amazon S3y AMI en cuentas especificas.

Cuando publique nuevos recursos o actualizaciones, use Amazon SNS para proporcionar notificacionesentre cuentas. Los suscriptores pueden utilizar Lambda para obtener las nuevas versiones.

Si en la organización se aplican estándares compartidos, es fundamental que existan mecanismos quetengan como fin solicitar las incorporaciones, los cambios y las excepciones a los estándares en apoyoa las actividades de los equipos. Sin esta opción, los estándares se convierten en una limitación a lainnovación.

Implemente prácticas para mejorar la calidad del código: Implemente prácticas para mejorar la calidad delcódigo y minimizar los defectos. Por ejemplo, el desarrollo basado en pruebas, las revisiones de códigos yla adopción de estándares.

Utilice varios entornos: Utilice varios entornos para experimentar, desarrollar y evaluar su carga de trabajo.Utilice niveles de control en crecimiento a medida que los entornos se acercan a la producción con elfin de adquirir confianza en que las cargas de trabajo funcionarán como se previó al momento de laimplementación.

Realice cambios pequeños, reversibles y frecuentes: Los cambios frecuentes, pequeños y reversiblesreducen el alcance y el impacto de un cambio. Esto facilita la resolución de problemas, permitecorrecciones más rápidas y proporciona la opción de restaurar los cambios.

Automatice por completo la integración y la implementación: Automatice la creación, implementación yprueba de la carga de trabajo. Esto reduce los errores causados por los procesos manuales y reduce elesfuerzo necesario para implementar los cambios.

Aplique los metadatos mediante etiquetas de recursos y AWS Resource Groups conforme a una estrategiade etiquetado coherente para permitir la identificación de los recursos. Etiquete sus recursos para laorganización, la contabilidad de costos y los controles de accesos, con el objetivo de ejecutar actividadesde operaciones automatizadas.

18

Page 22: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS destinadas al diseño de operaciones.

Videos• AWS re:Invent 2016: Entrega continua de infraestructura mediante AWS CloudFormation (DEV313)• AWS re:Invent 2016: DevOps en AWS: aceleración de la entrega de software con herramientas para

desarrolladores de AWS (DEV201)• AWS CodeStar: La experiencia central para comenzar rápidamente a desarrollar aplicaciones en AWS

Documentación• ¿En qué consiste AWS Resource Groups?• Introducción a Amazon CloudWatch• Almacenamiento y monitoreo de los archivos de registro del sistema operativo y de las aplicaciones con

Amazon CloudWatch• Métricas y alarmas personalizadas de alta resolución para Amazon CloudWatch• Monitoreo de eventos de AWS Health con eventos de Amazon CloudWatch• Documentación de AWS CloudFormation• Herramientas para desarrolladores de AWS• Configurar una canalización de CI/CD en AWS• AWS X-Ray• Estrategias de etiquetado de AWS

Mitigar los riesgos de implementaciónAdopte enfoques que ofrezcan una rápida valoración acerca de la calidad y permitan una rápidarecuperación de aquellos cambios que no tengan los resultados deseados. La aplicación de estasprácticas mitiga el impacto de los problemas que surgen como consecuencia de la implementación decambios.

El diseño de su carga de trabajo debería incluir el modo en que se debe implementar, actualizar yoperar. Deberá implementar prácticas de ingeniería que se ajusten a la reducción de los defectos y a lascorrecciones rápidas y seguras.

Prepárese para abordar los cambios incorrectos: Haga planes para volver a un estado correcto conocidoo para corregir el entorno de producción en el caso de que un cambio no produzca el resultado deseado.Esta preparación reduce el tiempo de recuperación a través de respuestas más rápidas.

Evalúe y valide los cambios: Evalúe los cambios y valide los resultados en todas las etapas del ciclo devida para confirmar las nuevas características y minimizar el riesgo y el impacto de las implementacionescon errores.

En AWS, puede crear entornos paralelos temporales para disminuir los riesgos, los esfuerzos y los costosde la experimentación y las pruebas. Automatice la implementación de estos entornos mediante AWSCloudFormation para asegurar implementaciones coherentes de los entornos temporales.

Utilice los sistemas de administración de implementaciones: Utilice los sistemas de administración deimplementaciones para hacer un seguimiento de los cambios e implementarlos. Esto reduce los errorescausados por los procesos manuales y reduce los esfuerzos para implementar cambios.

19

Page 23: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

En AWS, puede crear canalizaciones de integración continua o implementación continua (CI/CD) medianteservicios como Herramientas para desarrolladores de AWS (por ejemplo, AWS CodeCommit, AWSCodeBuild, AWS CodePipeline, AWS CodeDeployy AWS CodeStar).

Cuente con un calendario de cambios y realice un seguimiento de ellos cuando se prevea que los negociosimportantes o las actividades o eventos operativos se puedan ver afectados por la implementación delos cambios. Ajuste las actividades para administrar los riesgos relacionados con dichas previsiones. Elcalendario de cambios de AWS Systems Manager proporciona un mecanismo para documentar bloquesde tiempo como abiertos o cerrados a los cambios y la razón, así como para compartir esa información conotras cuentas de AWS. Los scripts de AWS Systems Manager Automation se pueden configurar para quese adhieran al estado del calendario de cambios.

AWS Systems Manager Maintenance Windows se pueden utilizar para programar la ejecución de losscripts AWS SSM Run Command o Automation, las invocaciones de AWS Lambda o las actividades deAWS Step Functions en momentos específicos. Marque estas actividades en el calendario de cambiospara que se puedan incluir en la evaluación.

Evalúe con implementaciones limitadas: Realice pruebas con implementaciones limitadas junto consistemas existentes a fin de confirmar los resultados deseados antes de implementarlos a una escalacompleta. Por ejemplo, utilice pruebas de valor controlado de implementaciones o implementacionesúnicas.

Implemente con entornos paralelos: Implemente cambios en entornos paralelos y, luego, haga la transiciónal nuevo entorno. Mantenga el entorno anterior hasta obtener una confirmación de que la implementaciónfue correcta. De este modo, se minimizan los tiempos de recuperación, ya que se permite la restauracióndel entorno anterior.

Implemente cambios reversibles, pequeños y frecuentes: Utilice cambios reversibles, pequeños yfrecuentes para reducir su alcance. Esto permite que la resolución de problemas sea más sencilla y que lascorrecciones sean más rápidas, además de la posibilidad de revertir el cambio.

Automatice por completo la integración y la implementación: Automatice la creación, implementación yprueba de la carga de trabajo. Esto reduce los errores causados por los procesos manuales y reduce losesfuerzos para implementar cambios.

Automatice las pruebas y la restauración: Automatice la prueba de los entornos implementados a fin deconfirmar los resultados deseados. Automatice la restauración al anterior estado correcto conocido cuandono se logren los resultados esperados, con el fin de minimizar los tiempos de recuperación y reducir loserrores causados por los procesos manuales.

RecursosConsulte los siguientes recursos a fin de obtener más información acerca de las prácticas recomendadasde AWS destinadas al diseño de operaciones.

Videos• AWS re:Invent 2016: Entrega continua de infraestructura mediante AWS CloudFormation (DEV313)• AWS re:Invent 2016: DevOps en AWS: aceleración de la entrega de software con herramientas para

desarrolladores de AWS (DEV201)• AWS CodeStar: La experiencia central para comenzar rápidamente a desarrollar aplicaciones en AWS

Documentación• Introducción a Amazon CloudWatch

20

Page 24: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Disposición operativa

• Almacenamiento y monitoreo de los archivos de registro del sistema operativo y de las aplicaciones conAmazon CloudWatch

• Métricas y alarmas personalizadas de alta resolución para Amazon CloudWatch• Monitoreo de eventos de AWS Health con eventos de Amazon CloudWatch• Documentación de AWS CloudFormation• Herramientas para desarrolladores de AWS• Configurar una canalización de CI/CD en AWS• AWS X-Ray• Estrategias de etiquetado de AWS

Disposición operativaEvalúe la disposición operativa de sus cargas de trabajo, procesos, procedimientos y personal con el fin decomprender los riesgos operativos relacionados con su carga de trabajo.

Debe utilizar un proceso consistente (que incluya listas de verificación manuales o automatizadas) a finde saber cuándo estará listo para trabajar con su carga de trabajo o un cambio. Esto también le permitiráencontrar algunas áreas que necesitan planificación para poder abordarse. Contará con manuales deprocedimientos que documentarán sus actividades de rutina y con manuales de estrategias que lo guiaránen los procesos de resolución de problemas.

Garantice la capacidad del personal: Cuente con un mecanismo para confirmar que dispone de la cantidadapropiada de personal capacitado a fin de ofrecer respaldo para las necesidades operativas. Entrene a supersonal y ajuste su capacidad según sea necesario a fin de mantener un respaldo eficaz.

Necesitará contar con la cantidad suficiente de miembros del equipo para poder cubrir todas lasactividades (incluidas las de guardia). Asegúrese de que sus equipos cuenten con las habilidadesnecesarias para tener éxito en la formación técnica sobre su carga de trabajo, sus herramientas deoperación y AWS.

AWS proporciona recursos, como el Centro de recursos introductorios de AWS, los blogs de AWS, lascharlas técnicas en línea de AWS, los eventos y seminarios web de AWSy los AWS Well-Architected Labs,que proporcionan orientación, ejemplos y demostraciones para educar a los equipos. Adicionalmente,AWS Training and Certification proporciona capacitación gratuita a través de cursos digitales autoguiadosacerca de los aspectos fundamentales de AWS. También puede registrarse para obtener formación técnicaimpartida por instructores a fin de respaldar aún más el desarrollo de las habilidades en AWS de susequipos.

Garantice la revisión constante de la preparación operativa: Garantice que tenga una revisión constante desu disposición para operar una carga de trabajo. Las revisiones deben incluir, como mínimo, la disposiciónoperativa de los equipos y la carga de trabajo y los requisitos de seguridad. Implemente actividades derevisión como código y active revisiones automáticas en respuesta a los eventos, cuando sea apropiado, afin de garantizar la consistencia, la velocidad de ejecución y reducir los errores causados por los procesosmanuales.

Debe automatizar las pruebas de la configuración de la carga de trabajo. Para ello, cree puntos dereferencia mediante AWS Config y compruebe las configuraciones mediante AWS Config Rules. Puedeevaluar los requisitos de seguridad y la conformidad con los servicios y las características de AWSSecurity Hub. Estos servicios ayudarán a determinar si sus cargas de trabajo se ajustan a las prácticasrecomendadas y los estándares.

Utilice manuales de procedimiento para ejecutar procedimientos: Los manuales de procedimientosconsisten en procedimientos documentados para lograr resultados específicos. Permita respuestas rápidasy constantes para eventos que se comprendan bien a través de la documentación de los procedimientosen los manuales. Implemente manuales de procedimientos como código y active su ejecución en

21

Page 25: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

respuesta a los eventos, cuando sea apropiado, a fin de asegurar la consistencia, la velocidad de lasrespuestas y reducir los errores causados por los procesos manuales.

Utilice los manuales de estrategias para identificar problemas: Los manuales de estrategias consistenen procesos documentados para investigar problemas. Permita respuestas rápidas y coherentes paralos escenarios de errores al documentar los procesos de investigación en los manuales de estrategias.Implemente manuales de estrategias como código y active su aplicación en respuesta a los eventos,cuando sea apropiado, para asegurar la consistencia y la velocidad de las respuestas y reducir los errorescausados por los procesos manuales.

AWS le permite tratar sus operaciones como código al escribir en script sus propios manuales deprocedimientos y de estrategias a fin de reducir el riesgo de errores humanos. Puede utilizar etiquetas derecursos o grupos de recursos con loa scripts para ejecutarlos de forma selectiva en función de los criteriosque haya definido (por ejemplo, el entorno, el propietario, el rol o la versión).

Puede utilizar procedimientos con scripts para habilitar la automatización desencadenando los scripts enrespuesta a los eventos. Debido a que tanto sus operaciones como sus cargas de trabajo se tratan comocódigo, también puede escribir en script y automatizar la evaluación de sus entornos.

Debe crear scripts de los procedimientos en las instancias mediante AWS Systems Manager (SSM) RunCommand, utilice AWS Systems Manager Automation para crear scripts de acciones y crear flujos detrabajo en instancias y otros recursos, o utilizar AWS Lambda y sus funciones de informática sin servidorpara crear scripts de respuestas ante eventos en las API de servicio de AWS e interfaces personalizadaspropias. También puede utilizar AWS Step Functions para coordinar varios servicios de AWS escritos enscripts en flujos de trabajo sin servidor. Automatice sus respuestas desencadenando estos scripts conCloudWatch Events y dirija los eventos que desea a los sistemas de soporte de operaciones adicionalescon Amazon EventBridge.

Debe probar sus procedimientos, las situaciones de error y el éxito de sus respuestas (por ejemplo,implementando días de práctica y pruebas antes de ponerlos en funcionamiento) a fin de identificar lasáreas que necesitan planificación para abordarse.

En AWS, puede crear entornos paralelos temporales para disminuir los riesgos, los esfuerzos y los costosde la experimentación y las pruebas. Automatice la implementación de estos entornos mediante AWSCloudFormation para asegurar implementaciones coherentes de los entornos temporales. Realice pruebasde inyección de errores en entornos seguros que generarán un impacto aceptable o nulo en el cliente, ydesarrolle o revise las respuestas adecuadas.

Tome decisiones fundamentadas para implementar sistemas y cambios: Evalúe las capacidades delequipo para admitir la carga de trabajo y la conformidad de la carga de trabajo con la gobernabilidad. Llevea cabo esta evaluación en función de los beneficios de su implementación cuando determine si se deberealizar la transición de un sistema o de un cambio a la fase de producción. Comprenda los beneficios y losriesgos para tomar decisiones fundamentadas.

Realice análisis “pre-mortem” para anticipar los errores y crear procedimientos cuando sea adecuado.Cuando realice cambios en las listas de verificación que utiliza para evaluar sus cargas de trabajo,planifique lo que hará con los sistemas activos que ya no presentan conformidad.

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS para la disposición operativa.

Documentación• AWS Lambda• AWS Systems Manager

22

Page 26: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

• AWS Config Rules: comprobación dinámica de la conformidad para los recursos en la nube• Cómo hacer un seguimiento a los cambios de configuración en las pilas de AWS CloudFormation con

AWS Config• Amazon Inspector Actualizar publicación del blog• Eventos y seminarios web de AWS• AWS Training• AWS Well-Architected Labs• AWS lanza las políticas de etiquetas• Uso del Calendario de cambios de AWS Systems Manager para evitar cambios durante eventos críticos

23

Page 27: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Comprensión del estado de la carga de trabajo

OperaciónEl éxito se mide en la obtención de resultados empresariales de acuerdo con las métricas que defina.Cuando comprenda el estado de la carga de trabajo y de las operaciones, podrá identificar cuándo losresultados organizativos y comerciales podrían estar en riesgo, o bien, si están en riesgo, y responderadecuadamente.

Para tener éxito, debe ser capaz de lo siguiente:

Temas• Comprensión del estado de la carga de trabajo (p. 24)• Comprensión del estado operativo (p. 26)• Respuesta a los eventos (p. 28)

Comprensión del estado de la carga de trabajoDefina, registre y analice las métricas de las cargas de trabajo para obtener visibilidad en los eventos decarga de trabajo y poder tomar las medidas adecuadas.

Su equipo debe ser capaz de comprender el estado de su carga de trabajo fácilmente. Querrá utilizarmétricas basadas en los resultados de la carga de trabajo para obtener información útil. Debe usarestas métricas para implementar paneles con puntos de vista comerciales y técnicos que ayudarán a losmiembros del equipo a tomar decisiones con fundamentos.

AWS facilita la agrupación y el análisis de sus registros de carga de trabajo para que pueda generarmétricas, comprender el estado de la carga de trabajo y obtener información a partir de las operaciones alo largo del tiempo.

Identifique los indicadores clave de rendimiento: Identifique los indicadores clave de rendimiento (KPI) enfunción de los resultados empresariales deseados (por ejemplo, la tasa de pedidos, la tasa de retenciónde clientes y las ganancias frente a los gastos operativos) y los resultados de los clientes (por ejemplo, lasatisfacción del cliente). Evalúe los KPI para determinar el éxito de la carga de trabajo.

Defina las métricas de la carga de trabajo: Defina las métricas de la carga de trabajo para medir el logro delos KPI (por ejemplo, los carros de compras abandonados, los pedidos realizados, el costo, el precio y losgastos de la carga de trabajo asignada). Defina las métricas de la carga de trabajo para medir el estado dedicha carga de trabajo (por ejemplo, el tiempo de respuesta de la interfaz, la tasa de error, las solicitudesrealizadas, las solicitudes completadas y la utilización). Evalúe las métricas para determinar si la carga detrabajo logra los resultados deseados y para comprender el estado de la carga de trabajo.

Debe enviar los datos de registro a un servicio como CloudWatch Logs y generar métricas a partir de lasobservaciones del contenido de registro necesario.

CloudWatch cuenta con características especializadas como Amazon CloudWatch Insights para .NET ySQL Server y Container Insights que puede ser útil al identificar y establecer métricas clave, registros yalarmas en la pila de tecnología y los recursos de aplicaciones específicamente admitidos.

Recopile y analice las métricas de la carga de trabajo: Lleve a cabo revisiones proactivas y regulares delas métricas para identificar las tendencias y determinar dónde se necesitan las respuestas adecuadas.

Debe agregar los datos de registro de su aplicación, los componentes de la carga de trabajo, losservicios y las llamadas a la API a un servicio como CloudWatch Logs. Genere métricas a partir de las

24

Page 28: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Comprensión del estado de la carga de trabajo

observaciones del contenido de registro necesario para así tener información sobre el rendimiento de lasactividades operativas.

En el modelo de responsabilidad compartida de AWS, se le envían partes de monitoreo a través de AWSPersonal Health Dashboard. Este panel proporciona las alertas y orientación para la corrección cuandoAWS experimenta eventos que podrían afectarlo. Los clientes suscritos a planes de soporte Business yEnterprise también pueden obtener acceso a la API de AWS Health, lo que permite la integración con sussistemas de administración de eventos.

En AWS, es posible exportar los datos de registro a Amazon S3 o enviar los registros directamente aAmazon S3 para un almacenamiento a largo plazo. Mediante AWS Glue, puede detectar los datos deregistro en Amazon S3 y prepararlos para el análisis, así como almacenar metadatos asociados en elAWS Glue Data Catalog. Amazon Athena, a través de su integración nativa con Glue, se puede utilizarpara analizar los datos de registro y consultarlos mediante SQL estándar. Mediante una herramienta deinteligencia empresarial como Amazon QuickSight es posible visualizar, explorar y analizar los datos.

Una solución alternativa sería utilizar Amazon OpenSearch Service y Kibana para recopilar, analizar ymostrar registros en AWS en varias cuentas y regiones de AWS.

Establezca puntos de referencia de las métricas de la carga de trabajo: Establezca puntos de referenciapara las métricas con el fin de ofrecer valores esperados como base para la comparación e identificaciónde los componentes de rendimiento bajo y alto. Identifique los límites para mejoras, investigaciones eintervenciones.

Conozca los patrones esperados de actividad para la carga de trabajo: Establezca los patronesde actividad de la carga de trabajo para identificar anomalías en su comportamiento y responderadecuadamente si es necesario.

CloudWatch a través de la característica de detección de anomalías de CloudWatch aplica algoritmosestadísticos y de aprendizaje automático para generar un rango de valores esperados que representen uncomportamiento métrico normal.

Genere una alerta cuando los resultados de una carga de trabajo estén en riesgo: Genere una alertacuando los resultados de la carga de trabajo estén en riesgo para que pueda responder adecuadamente sies necesario.

En el mejor de los casos, ha identificado con anterioridad un límite métrico sobre el que puede generar unaalarma o un evento que puede usar para desencadenar una respuesta automatizada.

También puede utilizar CloudWatch Logs Insights para buscar y analizar de forma interactiva los datosde registro mediante un lenguaje de consulta diseñado para un propósito específico. CloudWatch LogsInsights automáticamente detecta campos en los registros de servicios de AWS, así como eventos deregistro personalizados en JSON. Se escala con el volumen de registro y la complejidad de consulta ybrinda respuestas en cuestión de segundos, lo que facilita la búsqueda de los factores que contribuyen aun incidente.

Genere una alerta cuando se detecten anomalías en la carga de trabajo: Genere una alerta cuando sedetecten anomalías en la carga de trabajo para que pueda responder adecuadamente si es necesario.

El análisis de las métricas de la carga de trabajo a lo largo del tiempo establece patrones decomportamiento que usted puede cuantificar lo suficiente como para definir un evento o generar unaalarma en respuesta.

Una vez entrenada, la característica de detección de anomalías de CloudWatch se puede utilizar paragenerar alarmas sobre anomalías detectadas o puede proporcionar valores esperados superpuestos enuna gráfica de datos de métricas para una comparación continua.

Valide el logro de los resultados y la efectividad de los KPI y las métricas: Cree una vista de nivelempresarial de sus operaciones de carga de trabajo para ayudarlo a determinar si satisface lasnecesidades y para identificar las áreas que necesitan mejoras con el fin de alcanzar los objetivoscomerciales. Valide la efectividad de los KPI y de las métricas y revíselos si es necesario.

25

Page 29: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

AWS también ofrece compatibilidad con sistemas de análisis de registros de terceros y herramientas deinteligencia empresarial a través de las API y los SDK de servicios de AWS (por ejemplo, Grafana, Kibanay Logstash).

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS para comprender el estado de la carga de trabajo.

Videos• AWS re:Invent 2015: Registre, monitoree y analice la TI con Amazon CloudWatch (DVO315)• AWS re:Invent 2016: Amazon CloudWatch Logs y AWS Lambda: una combinación perfecta (DEV301)

Documentación• ¿En qué consiste CloudWatch Application Insights for .NET y SQL Server?• Almacenamiento y monitoreo de los archivos de registro del sistema operativo y de las aplicaciones con

CloudWatch• Compatibilidad con la API y CloudFormation para los paneles de CloudWatch• AWS Answers: registro centralizado

Comprensión del estado operativoDefina, capture y analice las métricas de operaciones para obtener visibilidad de los eventos de la carga detrabajo y poder tomar las medidas adecuadas.

Su equipo debe ser capaz de comprender el estado de las operaciones fácilmente. Querrá utilizar métricasbasadas en los resultados de las operaciones para obtener información útil. Debe usar estas métricas paraimplementar paneles con puntos de vista comerciales y técnicos que ayudarán a los miembros del equipoa tomar decisiones con fundamentos.

AWS facilita la agrupación y el análisis de los registros de operaciones para que pueda generar métricas,conocer el estado de las operaciones y obtener información de las operaciones a lo largo del tiempo.

Identifique los indicadores clave de rendimiento: Identifique los indicadores clave de rendimiento (KPI) enfunción de la actividad comercial deseada (por ejemplo, entrega de nuevas características) y los resultadosdel cliente (por ejemplo, casos de servicio de atención al cliente). Evalúe los KPI para determinar el éxitode las operaciones.

Defina las métricas de las operaciones: Defina las métricas de las operaciones para medir el logro de losKPI (por ejemplo, implementaciones correctas e implementaciones con errores). Defina las métricas delas operaciones para medir el estado de las actividades de dichas operaciones (por ejemplo, el tiempopromedio para la detección de un incidente [MTTD] y el tiempo promedio para la recuperación [MTTR] deun incidente). Evalúe las métricas para determinar si las operaciones logran los resultados deseados ypara comprender el estado de sus actividades operativas.

Recopile y analice las métricas de las operaciones: Lleve a cabo revisiones proactivas y regulares de lasmétricas para identificar tendencias y determinar dónde se necesitan las respuestas adecuadas.

Debe agregar los datos de registro de la ejecución de las actividades operativas y llamadas a la APIde operaciones a un servicio como CloudWatch Logs. Genere métricas a partir de observacionesdel contenido de registro necesario para obtener información sobre el rendimiento de las actividadesoperativas.

26

Page 30: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

En AWS, es posible exportar los datos de registro a Amazon S3 o enviar los registros directamente aAmazon S3 para un almacenamiento a largo plazo. Mediante AWS Glue, puede detectar los datos deregistro en Amazon S3 y prepararlos para el análisis, así como almacenar metadatos asociados en el AWSGlue Data Catalog. Amazon Athena, a través de su integración nativa con AWS Glue, se puede utilizarpara analizar los datos de registro y consultarlos mediante SQL estándar. Mediante una herramienta deinteligencia empresarial como Amazon QuickSight es posible visualizar, explorar y analizar los datos.

Establezca puntos de referencia de las métricas de las operaciones: Establezca puntos de referencia paralas métricas con el fin de ofrecer valores esperados como base para la comparación e identificación deactividades operativas de rendimiento alto y bajo.

Conozca los patrones esperados de actividad para las operaciones: Establezca los patrones deactividades operativas para identificar actividades anómalas, así puede responder adecuadamente si esnecesario.

Genere una alerta cuando los resultados de una carga de trabajo estén en riesgo: Genere una alertacuando los resultados de las operaciones estén en riesgo para que pueda responder adecuadamente si esnecesario.

En el mejor de los casos, ha identificado con anterioridad una métrica sobre la que puede generar unaalarma o un evento que puede usar para desencadenar una respuesta automatizada.

También puede utilizar CloudWatch Logs Insights para buscar y analizar de forma interactiva los datosde registro mediante un lenguaje de consulta diseñado para un propósito específico. CloudWatch LogsInsights automáticamente detecta campos en los registros de servicios de AWS, así como eventos deregistro personalizados en JSON. Escala con el volumen de registro y la complejidad de consulta y brindarespuestas en cuestión de segundos, lo que facilita la búsqueda de los factores que contribuyen a unincidente.

Genere una alerta cuando se detecten anomalías en las operaciones: Genere una alerta cuando sedetecten anomalías en las operaciones para que pueda responder adecuadamente si es necesario.

El análisis de las métricas de operaciones a lo largo del tiempo establece patrones de comportamiento queusted puede cuantificar lo suficiente como para definir un evento o generar una alarma en respuesta.

Una vez entrenada, la característica de detección de anomalías de CloudWatch se puede utilizar paragenerar alarmas sobre anomalías detectadas o puede proporcionar valores esperados superpuestos enuna gráfica de datos de métricas para una comparación continua.

Valide el logro de los resultados y la efectividad de los KPI y las métricas: Cree una vista de nivelempresarial de las actividades operativas para ayudarlo a determinar si satisface las necesidades y paraidentificar las áreas que necesitan mejoras con el fin de alcanzar los objetivos comerciales. Valide laefectividad de los KPI y de las métricas y revíselos si es necesario.

AWS también ofrece compatibilidad con sistemas de análisis de registros de terceros y herramientas deinteligencia empresarial a través de las API y los SDK de servicios de AWS (por ejemplo, Grafana, Kibanay Logstash).

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS destinadas a comprender el estado operativo.

Videos• AWS re:Invent 2015: Registre, monitoree y analice la TI con Amazon CloudWatch (DVO315)• AWS re:Invent 2016: Amazon CloudWatch Logs y AWS Lambda: una combinación perfecta (DEV301)

27

Page 31: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Respuesta a los eventos

Documentación• Almacenamiento y monitoreo de los archivos de registro del sistema operativo y de las aplicaciones con

Amazon CloudWatch• Compatibilidad con la API y CloudFormation para los paneles de Amazon CloudWatch• AWS Answers: registro centralizado

Respuesta a los eventosDebe anticipar eventos operativos, tanto planificados (por ejemplo, promociones de ventas,implementaciones y pruebas de errores) como no planificados (por ejemplo, aumentos repentinos enla utilización y errores de componentes). Debe utilizar los manuales de procedimientos y de estrategiasexistentes para ofrecer resultados coherentes cuando responda a alertas. Las alertas definidas estarán acargo de un equipo o un rol responsables de la respuesta y el escalamiento. Además, deberá conocer elimpacto empresarial de los componentes de su sistema y utilizarlo para centrar sus esfuerzos cuando seanecesario. Después de cualquier evento, debe ejecutar un análisis de causa raíz (RCA) y, luego, evitar larepetición de errores o documentar las soluciones provisionales.

AWS simplifica la respuesta a eventos a través de herramientas que admiten todos los aspectos de lacarga de trabajo y las operaciones como código. Estas herramientas le permitirán escribir en scripts lasrespuestas a los eventos de operaciones y desencadenar su ejecución para monitorear datos.

En AWS, puede mejorar el tiempo de recuperación reemplazando los componentes con errores conversiones correctas que sean conocidas, en lugar de intentar repararlos. Luego, puede ejecutar un análisisde los recursos con errores fuera de banda.

Utilizar procesos para la administración de eventos, incidentes y problemas: Disponga de procesos paraabordar eventos observados, eventos que necesitan intervención (incidentes) y eventos que necesitanintervención y que pueden repetirse o no se pueden resolver actualmente (problemas). Además, utiliceestos procesos para mitigar el impacto que dichos eventos pueden causar en la empresa y sus clientes através de respuestas adecuadas y oportunas.

En AWS, es posible utilizar AWS Systems Manager OpsCenter como ubicación centralizada paravisualizar, investigar y resolver problemas operativos relacionados con cualquier recurso de AWS.Incorpora problemas operativos y proporciona datos relevantes según el contexto para brindar ayuda en larespuesta a incidentes.

Proceso por alerta: Disponga de una respuesta clara (manual de procedimientos o de estrategias), quecuente con un propietario específicamente identificado, ante cualquier evento en el que se genere unaalerta. De esta forma, garantiza respuestas rápidas y efectivas ante eventos operativos y evita que lasnotificaciones menos importantes oculten a los eventos que se pueden corregir.

Priorice los eventos operativos según el impacto empresarial: Cuando varios eventos necesitenintervención, garantice que se traten en primer lugar los eventos más importantes para la empresa. Porejemplo, los impactos pueden incluir la pérdida de la vida o lesiones, pérdidas financieras o daños a lareputación o la confianza.

Defina las rutas de escalamiento: Defina rutas de escalamiento en su manual de procedimientos y deestrategias, incluido aquello que impulsa el escalamiento y los procedimientos que se necesitan para ello.Identifique propietarios específicos para cada acción y, de esta forma, garantice respuestas efectivas yrápidas para los eventos operativos.

Identifique los casos en que se necesita una decisión por parte de una persona antes de ejecutar algunaacción en particular. Trabaje junto con las personas encargadas de la toma de decisiones para adelantardicha decisión y lograr que la acción se apruebe previamente, de modo que el tiempo medio para larecuperación (MTTR) no aumente mientras se espera una respuesta.

28

Page 32: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

Habilite las notificaciones push: Comuníquese directamente con los usuarios (por ejemplo, a través de uncorreo electrónico o un SMS) cuando los servicios que utilizan se vean afectados y, nuevamente, cuandolos servicios regresen a las condiciones operativas habituales. De esta forma, les permitirá que tomen lasmedidas adecuadas.

Comunique el estado a través de paneles: Proporcione paneles que se ajusten a sus audiencias de destino(por ejemplo, equipos técnicos internos, líderes y clientes) para comunicar el estado operativo actual de laempresa y proporcionar métricas de interés.

Puede crear paneles mediante los paneles de Amazon CloudWatch en páginas de inicio que se puedenpersonalizar en la consola de CloudWatch. Mediante servicios de inteligencia de negocios como AmazonQuickSight puede crear y publicar paneles interactivos del estado operativo y la carga de trabajo (porejemplo, tasas de pedidos, usuarios conectados y tiempos de transacción). Cree paneles que presentenvisualizaciones de las métricas a nivel del sistema y de la empresa.

Automatizar las respuestas a eventos: Automatice las respuestas a eventos para reducir los erroresocasionados por los procesos manuales, así como para garantizar las respuestas rápidas y coherentes.

Existen varias formas para automatizar la ejecución de las acciones de los manuales de procedimiento yde estrategias en AWS. Para responder ante un evento derivado de un cambio de estado en los recursosde AWS, o derivado de eventos propios personalizados, debe crear reglas de CloudWatch Events paradesencadenar respuestas a través de destinos de CloudWatch (por ejemplo , funciones de Lambda, temasde Amazon Simple Notification Service (Amazon SNS), tareas de Amazon ECS y automatización de AWSSystems Manager).

Para responder a una métrica que supera un umbral de un recurso (por ejemplo, tiempo de espera),debe crear alarmas de CloudWatch para realizar una o más acciones mediante acciones de AmazonEC2, acciones de Auto Scalingo enviar una notificación a un tema de Amazon SNS. Si necesita ejecutaracciones personalizadas en respuesta a una alarma, invoque Lambda a través de notificaciones deAmazon SNS. Utilice Amazon SNS para publicar notificaciones de eventos y mensajes de escalamientopara mantener informadas a las personas.

Además, AWS admite sistemas de terceros a través de las API y los SDK del servicio de AWS. Existenvarias herramientas de monitoreo proporcionadas por terceros y socios de APN, que admiten el monitoreo,las notificaciones y las respuestas. Algunas de estas herramientas incluyen New Relic, Splunk, Loggly,SumoLogic y Datadog.

Los procedimientos manuales esenciales deben mantenerse siempre a disposición de los usuarios en casode que los procedimientos automatizados fallen.

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS respecto de la respuesta a eventos.

Video• AWS re:Invent 2016: Automatización de la respuesta ante eventos de seguridad, desde la idea hasta el

código y la ejecución (SEC313)

Documentación• ¿En qué consiste Amazon CloudWatch Events?• Cómo etiquetar automáticamente los recursos de Amazon EC2 en respuesta a los eventos de la API• La automatización de Amazon EC2 Systems Manager ahora es un destino de Amazon CloudWatch

Events

29

Page 33: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

• El comando de ejecución de EC2 ahora es un destino de Amazon CloudWatch Events• Automatice las acciones de corrección para las notificaciones de Amazon EC2 y mucho más a través de

EC2 Systems Manager Automation y AWS Health• Métricas y alarmas personalizadas de alta resolución para Amazon CloudWatch

30

Page 34: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWSAprender, compartir y mejorar

EvoluciónLa evolución es el ciclo continuo de mejoras a lo largo del tiempo. Implemente pequeños cambiosgraduales con regularidad en función de las lecciones aprendidas sobre las actividades operativas y evalúesu éxito a través de las mejoras que note.

Para que sus operaciones evolucionen a lo largo del tiempo, debe lograr lo siguiente:

Temas• Aprender, compartir y mejorar (p. 31)

Aprender, compartir y mejorarEs fundamental que dedique regularmente el tiempo necesario para llevar a cabo análisis de lasactividades operativas, análisis de errores, experimentaciones y mejoras. Cuando surgen errores, debeasegurarse de que su equipo, así como también la comunidad más amplia de ingenieros, aprenda deestos errores. Debe analizar los errores para identificar las lecciones aprendidas y planificar mejoras. Deberevisar regularmente las lecciones aprendidas junto con otros equipos para validar sus conocimientos.

Cuente con un proceso para la mejora continua: Evalúe y priorice regularmente las oportunidades demejora para centrar sus esfuerzos donde estas oportunidades puedan brindar mayores beneficios.

Ejecute análisis posteriores a los incidentes: Revise los eventos que afectan a los clientes e identifiquetanto los factores contribuyentes, como los elementos de acción preventiva. Utilice esta información paradesarrollar estrategias de mitigación a fin de limitar o evitar la recurrencia. Desarrolle procedimientos paraofrecer respuestas efectivas y rápidas. Comunique las acciones correctivas y los factores contribuyentessegún corresponda, adaptados a las audiencias de destino.

Implemente bucles de retroalimentación: Incluya bucles de retroalimentación en sus procedimientos ycargas de trabajo que lo ayuden a identificar los problemas y las áreas que necesitan mejoras.

Administre los conocimientosExisten mecanismos para que los miembros de su equipo encuentren atiempo la información que buscan, accedan a ella e identifiquen si se trata de información completa yvigente. Estos mecanismos están presentes para identificar contenido necesario, contenido que debeactualizarse y contenido que debe archivarse para que no se vuelva a utilizar como referencia.

Defina los factores de motivación para la mejora: Identifique los factores de motivación para la mejora paraque lo ayuden a evaluar y priorizar las oportunidades.

En AWS, puede agregar los registros de todas sus actividades operativas, cargas de trabajo einfraestructura para crear un historial de actividades detallado. Además, puede utilizar las herramientasde AWS para analizar el estado de las operaciones y las cargas de trabajo a lo largo del tiempo (porejemplo, identificar las tendencias, relacionar los eventos y las actividades con los resultados, y comparary contrastar los entornos y todos los sistemas). De esta forma, podrá detectar las oportunidades paraimplementar mejoras en función de los impulsores.

Debe utilizar CloudTrail para realizar un seguimiento de la actividad de la API (a través de AWSManagement Console, la CLI, los SDK y las API) para conocer lo que sucede en cada una de sus cuentas.Realice un seguimiento de las actividades de implementación de las herramientas para desarrolladoresde AWS con CloudTrail y CloudWatch. Esto incorporará un historial detallado de actividades de lasimplementaciones y sus resultados a los datos de registro de CloudWatch Logs.

Exporte los datos de registro a Amazon S3 para un almacenamiento a largo plazo. Mediante AWS Glue,detecta y prepara los datos de registro en Amazon S3 para el análisis. Uso Amazon Athena, a través

31

Page 35: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

de su integración nativa con AWS Glue, para analizar los datos de registro. Utilice una herramienta deinteligencia empresarial como Amazon QuickSight para visualizar, explorar y analizar los datos.

Valide la información: Revise los resultados y las respuestas de su análisis con equipos interdisciplinarios ypropietarios de empresas. Utilice estas revisiones para fijar bases en común, identificar efectos adicionalesy determinar procedimientos. Ajuste las respuestas según corresponda.

Realizar revisiones de las métricas operativas: Realice regularmente análisis retrospectivos de las métricasde las operaciones y los incidentes junto con participantes de diferentes equipos, incluidos líderes dediversos sectores de la empresa. Utilice estas revisiones para identificar oportunidades de mejora yposibles procedimientos, además de compartir las lecciones aprendidas.

Busque oportunidades para implementar mejoras en todos sus entornos (por ejemplo, desarrollo, pruebasy producción).

Documente y comparta las lecciones aprendidas: Documente y comparta las lecciones aprendidas a partirde la ejecución de actividades operativas para poder usarlas de forma interna y entre todos los equipos.

Debe compartir los conocimientos que adquieren sus equipos para aumentar los beneficios en toda laorganización. Compartir la información y los recursos impedirá que se cometan errores evitables y facilitarálos esfuerzos de desarrollo. Esto le permitirá enfocarse en proporcionar las características deseadas.

Utilice AWS Identity and Access Management (IAM) para definir los permisos que habilitan el accesocontrolado a los recursos que desea compartir de forma interna y con las demás cuentas. Debe utilizarlos repositorios de AWS CodeCommit de versión controlada para compartir bibliotecas de aplicaciones,procedimientos con scripts, documentación sobre procedimientos y cualquier otra documentación sobresistemas. Comparta sus estándares de informática a través del acceso compartido a las AMI y de laautorización del uso de las funciones de Lambda en las cuentas. Además, debe compartir sus estándaresde infraestructura como plantillas de AWS CloudFormation.

A través de los SDK y las API de AWS, puede integrar las herramientas y los repositorios externos y deterceros (por ejemplo, GitHub, BitBucket y SourceForge).

Cuando comparta los conocimientos adquiridos y desarrollados, tenga cuidado al momento de estructurarlos permisos y garantice la integridad de los repositorios compartidos.

Dedique tiempo a implementar mejoras: Dedique tiempo y recursos en los procesos para posibilitarmejoras continuas y graduales.

En AWS, puede crear duplicados provisorios de los entornos, lo que disminuye los riesgos, los esfuerzosy los costos de experimentación y prueba. Estos entornos duplicados pueden utilizarse para probar lasconclusiones que resultaron de sus análisis, experimentar, y desarrollar mejoras planificadas y probarlas.

RecursosConsulte los siguientes recursos para obtener más información acerca de las prácticas recomendadas deAWS respecto del aprendizaje a partir de la experiencia.

Documentación• Buscar registros de flujo de Amazon VPC• Monitoreo de implementaciones con herramientas de Amazon CloudWatch• Analizar registros de flujo de VPC con Amazon Kinesis Data Firehose, Amazon Athena y Amazon

QuickSight• Comparta un repositorio de AWS CodeCommit• Uso de políticas basadas en recursos para conceder permisos a otras cuentas y servicios de AWS para

utilizar los recursos de Lambda

32

Page 36: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Recursos

• Compartir una AMI con cuentas específicas de AWS• Utilice AWS Lambda con Amazon SNS

33

Page 37: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

ConclusiónLa excelencia operativa representa un esfuerzo continuo e iterativo.

Estructure su organización de tal forma que funcione correctamente a través de objetivos compartidos.Asegúrese de que todos comprendan la función que cumplen para alcanzar los resultados empresarialesdeseados y, también, cómo influencian la capacidad de los demás para desempeñar sus funcionescorrectamente. Brinde la ayuda necesaria a los miembros del equipo para que puedan respaldar losresultados empresariales.

Cada evento y error operativo debe considerarse una oportunidad para mejorar las operaciones de suarquitectura. Si comprende las necesidades de las cargas de trabajo, define previamente los manualesde procedimientos para las actividades de rutina y los manuales de estrategias para guiar la resolucióndel problema, utiliza las operaciones como características del código en AWS y sigue consciente de lasituación, las operaciones estarán mejor preparadas y podrán responder de una forma más efectiva a losincidentes que surjan.

Si se enfoca en las mejoras graduales en función de las prioridades a medida que cambian y en laslecciones aprendidas a partir de las respuestas y los análisis retrospectivos de los eventos, conseguirá quesu empresa tenga éxito al aumentar la eficiencia y la efectividad de sus actividades.

AWS se esfuerza para ayudarlo a crear y operar arquitecturas que aumenten la eficacia al máximoal mismo tiempo que ejecuta implementaciones con gran capacidad de adaptación y respuesta. Paraaumentar la excelencia operativa de las cargas de trabajo, debe implementar las prácticas recomendadasque se analizaron en este artículo.

34

Page 38: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Colaboradores• Brian Carlson, líder de operaciones de Well-Architected, Amazon Web Services• Jon Steele, técnico de cuentas sénior, Amazon Web Services• Ryan King, director técnico de programas, Amazon Web Services• Philip Fitzsimons, sénior de Well Architected, Amazon Web Services

35

Page 39: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Documentación adicionalPara obtener ayuda adicional, consulte las siguientes fuentes:

• Marco de Buena Arquitectura de AWS

36

Page 40: Pilar de la excelencia operativa - Marco de Buena ...

Pilar de la excelencia operativa Marcode Buena Arquitectura de AWS

Revisiones del documentoPara recibir notificación acerca de las actualizaciones a este documento técnico, suscríbase a la fuente deRSS.

update-history-change update-history-description update-history-date

Actualizaciones para un nuevomarco (p. 37)

Actualizaciones para reflejar losnuevos servicios y característicasde AWS, así como las prácticasrecomendadas más recientes.

July 8, 2020

Documento técnicoactualizado (p. 37)

Actualizaciones para reflejarlas características y losservicios nuevos de AWS, asícomo también las referenciasactualizadas.

July 1, 2018

Publicación inicial (p. 37) Pilar de excelencia operativa:AWS Well-ArchitectedFramework publicado.

November 1, 2017

37