Esto es lo que es un punto único de falla (SPOF):
Un único punto de falla impide que todo el sistema funcione.
SPOF en TI ocurre cuando un solo componente de un sistema hace que todo el sistema falle.
Puede exponer sus datos personales y, lo peor, su reparación puede resultar costosa.
Si desea aprender todo sobre qué es un punto único de falla y cómo reconocerlo, entonces este artículo es para usted.
¡Empecemos!
¿Qué le sucede a su PC durante un punto único de falla?
Un único punto de falla (SPOF) en TI provoca que todo el sistema colapse.
Puede exponer datos privados y, en muchos casos, su reparación es costosa.
Si se topó con este artículo porque está experimentando un SPOF relacionado con TI, sepa que no está solo.
En 2015 Base de datos DynamoDB de Amazon no funcionó correctamente durante varios días en la costa este debido a un SPOF.
Amazon es una de las innumerables grandes empresas que han tenido que abordar los SPOF.
Cuando termine este artículo, tendrá una comprensión sólida de los desencadenantes, la identificación y la prevención de SPOF.
¿Qué significa punto único de falla?
Antes de analizar más de cerca qué es un punto único de falla, comencemos con lo básico.
Una definición de punto único de falla en TI es cuando un solo componente de un sistema hace que todo el sistema falle.
Para ayudarte a comprender mejor este concepto, supongamos que construyes una torre con una pila de cartas.
Ahora, una vez que tu torre esté completa, retira una carta; cualquier carta servirá.
¿Lo que sucede?
Las cartas caen, ¿verdad?
Así es precisamente como funcionan los SPOF.
El punto único de falla ocurre cuando un elemento que funciona mal hace que la “torre” (y en el caso de TI, el sistema) colapse.
Aquí hay un hecho interesante: el concepto de un único punto de falla se ha expandido fuera del mundo de la ingeniería y la TI.
Por ejemplo, los arquitectos pueden referirse a un SPOF si un puente se cae debido a un solo componente.
¿Cuáles son ejemplos de un único punto de falla?
Ahora que hemos simplificado un SPOF usando una baraja de cartas, veamos algunos ejemplos de SPOF en la industria de TI.
Al identificar un sistema de punto único de falla en TI, hay tres categorías amplias a considerar:
- Fallos de hardware
- Fallos de software
- Corrupción de la base de datos
Los SPOF en el hardware pueden incluir problemas de suministro de energía, fallas de red y mal funcionamiento del subsistema de almacenamiento.
Por otro lado, las fallas de software implican problemas con Directory Server o Proxy Server.
Algunos ejemplos son problemas con la caché, sobrecarga o sincronicidad de replicación y limitaciones de CPU.
Independientemente del instigador del SPOF, el riesgo de un único punto de falla es que su sistema colapse.
Por este motivo, debes proteger tus datos con un centro de datos o una nube en línea.
SPOF es tan común en TI que las empresas más grandes a menudo tienen una única persona encargada de evaluar los riesgos.
SPOF también está en la mente del Centro Nacional de Información Biotecnológica; ellos afirman que los SPOF son algo que las ciudades inteligentes deben evitar.
El caso de Delta Airlines
Si la información anterior suena demasiado técnica, volvamos a un ejemplo del mundo real: Delta Airlines.
En 2016, un Se produjo un corte de energía en el centro de datos de Delta. en Atlanta.
El problema obligó a cancelar más de 700 vuelos en todo el mundo.
Delta tenía redundancias en forma de servidores de respaldo, pero el corte de energía fue tan extremo que algunos de sus sistemas no cambiaron a los respaldos.
Ahora bien, si Delta hubiera utilizado un servidor en la nube en línea en lugar de un centro de datos privado, este problema no habría ocurrido.
O, al menos, habría compensado las posibilidades de que eso sucediera.
Pero el único punto de falla en este estudio de caso de centro de datos demuestra cómo incluso las grandes empresas pueden tener problemas con SPOF.
También destaca los beneficios de los servidores en la nube, ya que sus datos probablemente se habrían distribuido entre varios proveedores.
Por lo tanto, un corte de energía en un área no afectaría a todos los servidores en la nube.
Cómo los servidores basados en la nube pueden ayudar con los SPOF
Es innegable: la nube podría haber evitado el corte de energía en Delta.
Pero quizás te preguntes: ¿qué es exactamente la nube?
La nube es una poderosa instalación de almacenamiento en línea que utilizan tanto individuos como empresas.
Puede almacenar y acceder a datos en la nube, desde computadoras portátiles hasta tabletas y teléfonos inteligentes.
Una variedad de empresas tienen su propia nube.
Pero por muy beneficioso que pueda ser, como cualquier pieza de tecnología, abre la oportunidad para problemas de computación en la nube con un único punto de falla.
Por ejemplo, muchos videojuegos, como PlayStation Network de Sony, ofrecen sus servicios en la nube.
Los beneficios de esto tanto para la empresa como para los usuarios son numerosos, incluidas las actualizaciones instantáneas.
Sin embargo, al comprar un videojuego o servicio conectado a la nube, los usuarios se verán afectados si ocurre un SPOF.
El Revista Internacional de Ciencia e Investigación (IJSR) recomienda implementar un proceso de punto único de falla que incluya redundancia y clústeres de alta disponibilidad.
Los clústeres de alta disponibilidad son una serie de computadoras que trabajan juntas para que las aplicaciones del servidor funcionen sin problemas.
De hecho, La investigación del IJSR muestra que el 99,99% de las interrupciones se minimizan con clústeres de alta disponibilidad.
¿Cómo se identifica un único punto de falla?
Ahora que sabe qué es un punto único de falla, debe preguntarse cómo evaluar un SPOF para poder comenzar a solucionarlo.
Ejecutar un análisis de punto único de falla es el primer paso que debe tomar cuando ocurre un SPOF.
El análisis debe ser realizado por su equipo de TI, ya que es quien mejor conoce su sistema.
Deberían comenzar documentando los componentes técnicos individuales del sistema.
En otras palabras, se debe anotar todo lo que esté conectado a su red.
Los elementos que deberían estar en esta lista incluyen:
- Proveedores de servicios, como por ejemplo para su correo electrónico y almacenamiento en la nube.
- Infraestructura de red
- Cualquier dispositivo de almacenamiento y servidor local que pueda utilizar
- El proveedor de servicios de Internet
Idealmente, esta lista debería estar preparada antes ocurre un solo punto de falla.
Pero si no tiene uno por adelantado, sepa que debe anotar la antigüedad y el estado de cada componente técnico.
Luego querrás evaluar cuáles de los componentes no tienen redundancia.
Analízalos hasta que encuentres al culpable de tu SPOF.
¿La mejor parte?
Es posible que encuentre oportunidades de mejora con otros componentes que aún no se han sometido a un SPOF.
Puede que ahora no te parezca una gran cosa, pero estamos seguros de que tu yo futuro te lo agradecerá.
¿Pueden las personas causar un único punto de falla?
Quizás no quieras leer esto, pero las personas son algunos de los instigadores más comunes a la hora de provocar un SPOF.
Ahora bien, no quiere decir que sus empleados estén programando intencionalmente un único punto de falla.
Podría ser simplemente que una persona haya cometido un error de entrada inocente.
Pero no hay duda: los empleados descontentos podrían tener intenciones maliciosas.
Se podría pensar que esto podría suceder más comúnmente en empresas más grandes.
Pero, de hecho, los empleados de las pequeñas empresas a menudo tienen acceso a contraseñas y sistemas que las empresas más grandes tendrían que administrar por separado.
Entonces, ¿cuál es una de las mejores formas de prevenir un SPOF causado por humanos?
Debe desarrollar una política empresarial de punto único de falla que implique cambios de contraseña.
¿Su empleado renunció o fue despedido?
Cambiar las contraseñas a las que tuvieron acceso.
¿Qué tal un ascenso o descenso de categoría de empleado?
Cambie las contraseñas de cualquier cosa a la que ya no tengan acceso.
Cambiar las contraseñas ofrece a las empresas una gran cantidad de beneficios, por lo que promoverá un entorno empresarial más seguro, aparte de los SPOF.
¿Cómo se supera un único punto de falla?
Ahora: probablemente ya se esté preguntando cómo superar el problema del punto único de falla.
La respuesta está en el concepto de redundancia.
La redundancia es el acto de duplicar componentes de hardware y software (haciéndolos redundantes) para que siempre tenga una versión replicada.
Hacerlo con servidores de directorio es el uso más eficaz de la redundancia.
Existen ventajas y desventajas al implementar la redundancia. Echemos un vistazo a ambos.
Ventajas de implementar la redundancia
- Normalmente es más económico que arreglar un SPOF sin redundancia
- La implementación es fácil
- Requiere poca gestión
Desventajas de implementar la redundancia
- Puede ofrecer poca disponibilidad durante una falla
- Puede tener tiempos de respuesta lentos
¿Cuál es el resultado final aquí?
No existe un único punto de falla en el software o la redundancia que pueda garantizar que no se produzca un SPOF.
Sin embargo, implementar estrategias de redundancia en su empresa puede ayudar a mitigar el impacto de un SPOF.
¿Cómo puede ayudar la redundancia con un único punto de falla?
Ya sabe que las tres categorías amplias a las que puede afectar un único punto de fallo son la corrupción del hardware, el software y la base de datos.
Ahora bien, quizás te preguntes: ¿cómo encaja exactamente la redundancia en esto?
El hardware es el SPOF que requiere más mano de obra.
Dado que se trata de un mecanismo físico que no funciona correctamente, necesitará que alguien repare la pieza con la pieza redundante que tiene a mano.
¿Las buenas noticias?
Después de eso se vuelve más fácil.
Si tiene un SPOF relacionado con el software, generalmente en forma de falla de un servidor de directorio o de un servidor proxy de directorio, el servidor debería reiniciarse automáticamente. Eso es todo.
No se necesita ninguna otra intervención de su parte.
Cuando se trata de corrupción de bases de datos, la redundancia a menudo puede solucionarlo por sí sola.
Sin embargo, depende de la arquitectura y es algo que debe gestionar un profesional de TI.
Cuellos de botella y redundancia
Un cuello de botella es un concepto vinculado a la redundancia en un intento de evitar un único punto de falla.
¿Cómo funciona esto, preguntas?
Digamos que ha hecho su tarea y tiene redundancias en su lugar.
Sin duda, deberías sentirte bien con esto.
Sin embargo, si las redundancias tienen que entrar en vigor, un proceso podría volverse demasiado lento (o “obstruido”), suponiendo que esas redundancias requieran procesar una gran cantidad de datos.
Quiere evitar cuellos de botella porque pueden afectar negativamente a todo el sistema operativo.
Antes de preocuparse demasiado, sepa que el miedo a los cuellos de botella no es motivo para evitar implementar despidos.
Más bien, es algo que debe discutir con su equipo de TI.
Podrán decirle si su redundancia requiere un alto nivel de procesamiento de datos.
Cuando la seguridad no funciona para evitar SPOF
Aquí hay algunas noticias sorprendentes: el punto único de falla en los servidores también puede ocurrir con el software de seguridad.
Así es: la misma herramienta que se supone debe ayudarlo a evitar un SPOF puede causarlo.
¿La razón?
Las herramientas de seguridad dependen de Internet y cualquier cosa conectada a Internet es susceptible a ataques y cortes de energía.
Además, pueden sufrir fallas en la NIC, lo que significa que pueden confundirse acerca de bloquear el tráfico bueno y permitir el tráfico malo.
Para protegerse de un SPOF como resultado de una amenaza a la seguridad, debe buscar redundancias en su software de seguridad.
Quizás se pregunte: ¿qué tipo de software de seguridad debería comprar?
Los sistemas de prevención de intrusiones, los firewalls de aplicaciones web y la protección avanzada contra amenazas son variaciones del software de seguridad.
Investigue, lea reseñas y elija el que le resulte más cómodo y que se ajuste a su presupuesto.
Iniciar sesión en los sistemas de la empresa y SPOF
Hoy en día, es común que las empresas permitan a sus usuarios iniciar sesión en el sistema de su empresa a través de Google o Facebook.
Esta es la verdad: utilizar los inicios de sesión de Google y Facebook para configurar perfiles en los sitios web de otras empresas es una opción atractiva para los nuevos usuarios.
Seamos realistas: ninguno de nosotros necesita agregar otra contraseña a nuestra ya considerable lista.
Pero esta conveniencia tiene una desventaja.
Si Google, Facebook o cualquier otro proveedor se enfrenta a un SPOF, sus usuarios estarán sujetos al problema.
En el mejor de los casos, no podrán acceder a su sistema hasta que se resuelva el SPOF.
En el peor de los casos, su información privada podría verse comprometida.
Si le preocupan los inicios de sesión con otros proveedores, puede animar a sus usuarios a establecer una autenticación de dos factores.
La autenticación de dos factores es una opción que ofrecen empresas como Google.
De esta manera, si un SPOF afecta a un proveedor de inicio de sesión que usted utiliza, sus usuarios con autenticación de dos factores pueden tener menos posibilidades de que su información se vea comprometida.
Resultado empresarial de punto único de fallo
SPOF es algo que desea evitar, pero no es una excusa para evitar la tecnología que depende de sistemas que pueden generar SPOF.
Según medioempresas como Google, Instagram e Internet en su conjunto se gestionan total o parcialmente mediante sistemas únicos sin una opción alternativa como la redundancia.
Entonces, si bien debe implementar activamente estrategias de gestión de riesgos SPOF, sepa que en algunos casos, para ciertos sistemas, incluso los grandes no están demasiado preocupados por ello.
SPOF intencional
Hasta ahora, hemos considerado mal a SPOF, y por una buena razón, ¿no crees?
Pero aquí está la cuestión: en ocasiones, un SPOF es intencional.
¿Cómo es eso?
Tomemos, por ejemplo, las contraseñas para iniciar sesión en una computadora portátil.
Las contraseñas están diseñadas para permitir el acceso de los usuarios correctos.
O, para verlo de otra manera, las contraseñas son un único punto de falla de la red para personas que no deberían acceder al sistema.
Cuando se trata de computadoras portátiles personales, naturalmente querrás mantener los ojos errantes de tu familia fuera de la pantalla.
Pero pensemos en las implicaciones de los SPOF intencionales para los empleos de alta seguridad.
Los SPOF intencionales son esenciales para mantener la información clasificada.
¿Cómo se puede prevenir un único punto de falla? (3 cosas)
Ya hemos cubierto la redundancia, por lo que quizás te preguntes: ¿de qué otra manera puedes evitar un SPOF?
De acuerdo a investigación realizada en la Universidad Estatal del Sureste de Oklahomahay tres factores que intervienen en la prevención de un SPOF.
Incluyen:
- Gestión de riesgos
- Respuesta efectiva
- Prevención
Echemos un vistazo a cada uno con más detalle.
1 Gestión de Riesgos
La idea detrás de la gestión de riesgos es identificar posibles SPOF de TI.
La gestión de riesgos es una función activa que busca problemas antes de que provoquen el cierre del sistema.
Hablaremos en detalle sobre esto en la siguiente sección.
2 Respuesta efectiva
Las personas de un equipo SPOF deben practicar la flexibilidad y la adaptación.
La forma en que una empresa responde al SPOF afecta la rapidez con la que tendrá éxito y les ayuda a minimizar la pérdida de ganancias.
3 Prevención
El concepto de prevención se diferencia de la gestión de riesgos porque es el estudio y la implementación de lecciones aprendidas.
Evalúa todo, desde un único punto de falla en la gestión de proyectos hasta por qué ocurrió el SPOF.
Juntos, la gestión de riesgos, la respuesta eficaz y el conocimiento de la prevención respaldan la continuidad del negocio sin un único punto de falla.
Esto da como resultado mayores ganancias y sistemas de TI de mejor calidad.
¿Cuáles son los pasos a seguir en la gestión de riesgos para minimizar el riesgo SPOF?
Cuando se trata de un punto único de gestión del riesgo de fallas, existen algunos pasos que puede seguir para minimizar el riesgo SPOF.
Incluyen lo siguiente:
- Instalar un firewall o conmutador secundario
- Observa tu red
- Asegure sus datos
Estas estrategias están diseñadas para proteger los datos de su empresa en caso de que se produzca un SPOF.
Cuando se trata de un punto único de falla de TI, un instigador común es la arquitectura de red.
En otras palabras, su empresa está conectada en línea a través de un solo enrutador, firewall o conmutador.
Le alegrará saber esto: los firewalls modernos vienen con una opción de alta disponibilidad.
Alta disponibilidad significa que si su firewall principal no funciona correctamente, el firewall secundario se activará automáticamente.
Otra estrategia de gestión de riesgos de SPOF es monitorear su red.
El concepto detrás de la observación de su red es simple e incluye conceptos como verificar la seguridad de las contraseñas, con qué frecuencia se actualizan las contraseñas e identificar cualquier equipo al que pueda acceder un usuario no autorizado.
Finalmente, en caso de un SPOF, querrás saber que tus datos están protegidos. Echemos un vistazo más de cerca a esto.
Arquitectura de microservicios
Al evaluar cómo reducir las posibilidades de que se produzca un SPOF, es una buena idea considerar la arquitectura de microservicios.
Básicamente, la arquitectura de microservicios distribuye partes de los sistemas en diferentes lugares.
Mientras trabaja con su equipo o consultor de TI, es posible que le recomienden las siguientes opciones de red:
- Abrir primero la ruta más corta (OSPF)
- Puente del camino más corto (SPB)
- Sistema Intermedio a Sistema Intermedio (IS-IS)
Independientemente del sistema que elija, el enrutamiento multiruta es una excelente opción para mover rápidamente información dentro de una red informática y proteger a su empresa del SPOF.
¿Es necesaria la prevención del SPOF para las pequeñas empresas?
Si está leyendo este artículo como propietario de una pequeña empresa, puede estar pensando: ¿vale la pena gastar tiempo y dinero en la gestión de riesgos SPOF?
Esta es la verdad: las empresas multimillonarias implementarán más prevención SPOF que las pequeñas empresas, y las empresas de cualquier tamaño con un modelo de negocio 100% en línea querrán más prevención SPOF que una empresa que no lo haga.
Cuando se trata de SPOF para pequeñas empresas, estas son las estrategias SPOF más importantes (y más baratas) a tener en cuenta:
- Asegúrese de que sus datos estén respaldados en un dispositivo diferente o software en la nube.
- Tenga dos programas de seguridad en caso de que uno falle.
- Asegúrese de tener un proveedor de WiFi de calidad y un módem de respaldo.
Entendemos que un único punto de riesgo de falla para las pequeñas empresas no es comparable al de las empresas más grandes.
Su encargado de TI también podría ser su recepcionista y repartidor, suponiendo que tenga la suerte de tener un empleado con conocimientos de tecnología.
Y eso está bien.
A veces tiene que estar bien cruzar puentes cuando llegas a ellos.
Proteger sus datos
Los SPOF son lo suficientemente estresantes sin la preocupación adicional de preguntarse si los datos de su empresa se han visto comprometidos o no.
Quizás se pregunte: ¿cuál es la mejor copia de seguridad de punto único de falla?
El mejor centro de respaldo de datos varía de una empresa a otra como parte de su plan de gestión de punto único de falla, pero un factor esencial a considerar es la ubicación.
Por ejemplo, si se encuentra en un área propensa a huracanes o tornados, querrá asegurarse de que el centro de datos que elija esté diseñado para resistirlos.
Los centros de datos deben estar equipados para hacer frente a cortes de energía, pero también es importante verificarlo.
La conclusión aquí es que proteger sus datos no evitará un SPOF, pero es una forma de estar tranquilo por la noche sabiendo que la información de su empresa y de sus clientes está segura en caso de que ocurra un SPOF.
El otro lado de la gestión de riesgos
¿Recuerda el ejemplo de Amazon que dimos al principio de este artículo?
En ese momento, fue devastador que los datos de DynamoDB no funcionaran correctamente.
Pero esto empujó a Amazon a mejorar su sistema.
Tres años despues, Amazon desarrollado un cifrado en reposo para su base de datos DynamoDB.
¿Qué significó esto para los usuarios?
Que cualquier servicio con integración de DynamoDB se benefició instantáneamente de la actualización.
Entonces, si bien es crucial eliminar un único punto de falla y gestionar los riesgos, este ejemplo demuestra que puede haber beneficios al mantener la tecnología limitada a un solo sistema.
¿Cuál es el resultado final aquí?
Debe trabajar con su equipo de TI para desarrollar un plan de gestión de riesgos que se ajuste a sus objetivos y presupuesto.
Auditorías TI
Idealmente, debería intentar auditar su sistema de TI una vez al año para reducir la posibilidad de que se produzca un SPOF.
Quizás se pregunte: ¿cuál es el punto único de falla en lo que respecta a la prevención mediante auditoría?
La respuesta podría sorprenderte.
A continuación se detallan algunas cosas clave que debe tener en cuenta durante su auditoría anual:
- Asegúrese de que sus fuentes de alimentación de respaldo no estén caducadas. ¿Tienes un generador? Asegúrate de tener gasolina a mano.
- Verifique la infraestructura física de su hardware. Esta revisión incluye cables y cordones para asegurarse de que no estén deshilachados.
- Revise su punto de contacto de TI. Asegúrese de que tengan los recursos que necesitan para realizar su trabajo lo mejor posible.
- Actualice los registros que mantiene de hardware y software que serán su referencia si ocurre un SPOF. Como mínimo, su edad debería aumentarse en un año.
- Comuníquese con sus proveedores de Internet, seguridad y otros. Infórmese sobre los cambios que hayan realizado y aproveche las mejoras que puedan ofrecer a sus usuarios.
Una de las formas más económicas de abordar la posibilidad de que se produzca un SPOF es dedicar tiempo y dinero a evitarlo.
Por lo tanto, comience a adoptar un buen hábito ahora al incluir auditorías de TI anuales en su calendario.
¿Por qué es difícil una prevención 100% SPOF?
En un mundo perfecto, siempre tendríamos un rollo de papel higiénico de repuesto a mano, nuestras articulaciones permanecerían tan flexibles como cuando éramos niños y los aviones nunca se retrasarían por reparaciones mecánicas.
Pero aquí está la cuestión: no importa cuánto papel higiénico tengas, qué tan saludable comas o cuántas revisiones mecánicas rutinarias hagan en los aviones, siempre algo saldrá mal.
Lo mismo ocurre con SPOF.
Puedes hacer planes, tener un equipo de TI capacitado y tener redundancias, pero algún día algo malo sucederá.
Y eso está bien.
De hecho, está tan bien que es un consejo estándar no caer en la madriguera de perseguir cada despido para el que puedas prepararte.
Hacerlo puede resultar costoso y consumir más tiempo que arreglar un SPOF cuando surge.
Estamos hablando de redundancias menores aquí, no de las grandes como la seguridad y la copia de seguridad de datos.
¿Cuál es el costo de un único punto de falla?
¿De qué sirve saber cuál es un único punto de falla sin comprender sus implicaciones de costos?
Desafortunadamente, la respuesta no le entusiasmará.
Es imposible decir cuánto puede costar arreglar el único punto de falla.
La razón es que depende de qué hardware, software o base de datos se haya dañado.
Otros factores incluyen el tamaño de su empresa y si su equipo de TI (si tiene uno) puede solucionarlo sin necesidad de asistencia externa.
La buena noticia es que la prevención suele ser menos costosa que lidiar con una base de datos de un único punto de falla una vez que ya ha ocurrido.
Por lo tanto, debería centrarse en desarrollar despidos.
Además, asegúrate de mantener una lista actualizada con el detalle de tus componentes técnicos y si tienen o no redundancias.
Pequeños preparativos como estos contribuirán en gran medida a reducir el estrés en caso de que alguna vez ocurra un SPOF en su negocio.