Administradores de TI y fatiga de alertas: estrategias para mejorar la gestión de alertas

Productividad

05 OCT 2023

alertas

Los equipos de TI de cada organización tienen un objetivo principal: monitorizar sus sistemas continuamente para mantener las operaciones y evitar tiempos de inactividad. Sin embargo, un exceso de alertas puede disminuir la capacidad de respuesta, lo que conduce a una menor eficiencia y fiabilidad. OpManager resuelve esta problemática.

La fatiga de alertas también se conoce como sobrecarga de notificaciones, y es un problema común en TI, que provocar el descuido de eventos cruciales y retrasos en el tiempo de respuesta. Las causas más probables de fatiga de alertas son:

-- Configuración inadecuada de monitores y métricas: la mayoría de las redes modernas se componen de elementos simples como routers, switches, RAID, bibliotecas de cintas, impresoras, servidores, máquinas virtuales, y también elementos complejos más nuevos como SDN, HCI y arquitecturas basadas en la nube. Cada uno de estos tiene diferentes métricas que deben monitorizarse. Es desalentador aplicar KPI de seguimiento para todos estos, uno por uno. Y es posible que incluso se pasen por alto ciertos elementos si los monitores no se configuran correctamente. Este proceso de configuración de alertas puede resultar engorroso, manual y tedioso. En consecuencia, las configuraciones erróneas podrían generar alertas irrelevantes, incorrectas o innecesarias, lo que provocaría fatiga de alertas.

-- Asignación inadecuada de perfiles de usuario: cuando los equipos de TI no definen claramente las funciones, privilegios, acceso y niveles de autenticación de los usuarios para cada administrador de red en todos los departamentos, se produce una gestión inadecuada de los usuarios. Esto plantea un desafío para el alcance del trabajo de cada administrador de TI.

-- Error humano: cuando se trata de alertas especialmente diseñadas con íconos de aspecto crítico, como errores o exclamaciones o, peor aún, calaveras, las notificaciones continuas mantienen nuestros cerebros en una configuración de alerta máxima. La estimulación repetida o constante de estas alertas bastante innecesarias desensibiliza los órganos sensoriales, lo que hace que se vuelvan menos sensibles con el tiempo, lo que en última instancia afecta no solo a la productividad sino también a la salud del personal de TI.

¿Cómo pueden los administradores de TI combatir la fatiga de alertas en su entorno de TI?

1. Dejar una nota: una de las formas más simples pero efectivas de combatir el agotamiento debido a la sobrecarga de notificaciones es dejarle una nota a su colega o agregar mensajes significativos para un ticket que fue manejado conjuntamente o asumido por el administrador de TI del siguiente turno. La escalada y supresión de alertas de alarma debe ser factible en todas las herramientas de monitorización del rendimiento de la red.

En ManageEngine OpManager, al configurar reglas de escalamiento de alarmas, se puede escalar una alarma a una persona de nivel superior o a un administrador de TI de respaldo para garantizar que el problema se resuelva antes de que se convierta en un fallo completo de la red/dispositivo. Se puede configurar la gravedad de la alarma y la duración máxima después de la cual debe tener lugar la escalada.

2. Crear vistas de alertas personalizadas y fáciles de entender: un enfoque eficaz es reducir la cantidad de alertas entrantes mostrando solo las relevantes. Priorizarlas según criterios de gravedad es una buena idea, algo que se puede lograr analizando cuidadosamente las alarmas y los eventos. OpManager admite tres niveles de umbral basados en la gravedad, pudiendo personalizar el valor de umbral para cada gravedad. Cada gravedad tiene un código de color único y la alarma activada indicará el color del nivel de umbral.

Otra estrategia es mejorar la presentación de las alertas haciéndolas concisas y fáciles de entender. Esto permitirá una mejor priorización de las alertas. Además, el diseño de la interfaz de usuario también puede ayudar a identificar alertas prioritarias y aumentar la conciencia. OpManager monitoriza los dispositivos e interfaces en su red y genera alarmas para notificar al usuario sobre eventos no deseados, como tiempo de respuesta lento, pérdida de conectividad o pérdida de paquetes.

3. Correlacionar la información de alerta con los estados del dispositivo: cuando llega un tiempo de inactividad o se detecta un problema de rendimiento, lo primero que hay que hacer es identificar la causa raíz lo antes posible y resolverla. Sin embargo, el análisis de causa raíz (RCA) a menudo lleva más tiempo que el necesario para resolver el problema.

Esto es exactamente lo que la función RCA de OpManager ayuda a abordar, permitiendo visualizar los datos de monitoreo de su red (incluidos sus dispositivos, interfaces y URL) en una sola vista. Esta visibilidad centralizada permite analizar, comparar y correlacionar problemas, y delimitar la causa raíz rápidamente.

4. Obtener inteligencia artificial para administrar las alertas de manera más eficiente: la técnica de umbral adaptativo de OpManager aprovecha el poder del aprendizaje automático para permitir que los administradores de red realicen esta tarea crítica más fácilmente que nunca. Utilizando algoritmos predictivos avanzados y cálculos basados en porcentajes, el umbral adaptativo en tiempo real de OpManager se adapta rápidamente a las métricas de rendimiento en constante cambio de los dispositivos de red y pronostica valores altamente confiables que luego se utilizan para establecer umbrales para los monitores de rendimiento configurados. Una vez que se han habilitado los umbrales adaptativos, el usuario solo necesita proporcionar los valores de desviación para cada alerta crítica. Cuando el valor de un monitor particular excede el valor de desviación configurado para una criticidad particular, se genera una alerta con el nivel correspondiente para ese monitor.

TAGS Gestión, TI

CONTENIDO RELACIONADO

CONTENIDO RECOMENDADO