Tolerancia a fallos en sistemas distribuidos

Tolerancia a fallos por replicación en sistemas distribuidos

ResumenUn sistema distribuido está formado por varios componentes de procesamiento independientes que interactúan entre sí a través de una red de enlaces de comunicación interconectada formada por componentes de comunicación. La computación distribuida se refiere al control algorítmico de los componentes de procesamiento del sistema distribuido mediante un programa distribuido para alcanzar un objetivo colectivo, es decir, prestar un determinado servicio. Desgraciadamente, los componentes de, literalmente, todos los sistemas son naturalmente imperfectos y, por tanto, propensos a sufrir fallos que pueden hacer que el sistema sea incapaz de prestar el servicio. Para poder tolerar el fallo de algunos componentes, es decir, para mantener el servicio disponible a pesar de estos fallos, el sistema debe estar dotado de redundancia en el espacio y en el tiempo. La primera se refiere a los componentes redundantes que asumen el papel que desempeñan los componentes que fallan. La segunda se refiere a la sobrecarga adicional necesaria para gestionar estos componentes. La computación distribuida tolerante a fallos se refiere al control algorítmico de los componentes del sistema distribuido para proporcionar el servicio deseado a pesar de la presencia de ciertos fallos en el sistema mediante la explotación de la redundancia en el espacio y el tiempo.Palabras claveEstas palabras clave han sido añadidas por la máquina y no por los autores. Este proceso es experimental y las palabras clave pueden actualizarse a medida que mejore el algoritmo de aprendizaje.

¿Qué son los tipos de tolerancia a fallos?

Un sistema tolerante a fallos puede ser capaz de tolerar uno o más tipos de fallos, entre los que se incluyen: i) fallos de hardware transitorios, intermitentes o permanentes, ii) errores de diseño de software y hardware, iii) errores de los operadores, o iv) alteraciones o daños físicos inducidos externamente.

  Retrospectiva que es

¿Por qué es importante la tolerancia a los fallos en los sistemas distribuidos?

El objetivo de los sistemas informáticos tolerantes a fallos es garantizar la continuidad del negocio y la alta disponibilidad evitando las interrupciones derivadas de un único punto de fallo. Por ello, las soluciones de tolerancia a fallos tienden a centrarse más en las aplicaciones o sistemas de misión crítica.

¿Qué es un ejemplo de tolerancia a fallos?

Alta tolerancia a fallos

Aquí, incluso cuando hay uno o más fallos, el sistema sigue funcionando al mismo nivel. Por ejemplo, una instalación puede tener generadores de reserva que, en caso de apagón, suministran el mismo nivel de electricidad que la red eléctrica.

Computación tolerante a fallos

La tolerancia a los fallos es el proceso de funcionamiento de un sistema de forma adecuada a pesar de que se produzcan fallos en el sistema. Incluso después de realizar tantos procesos de prueba, existe la posibilidad de que se produzcan fallos en el sistema. Por lo tanto, los sistemas se diseñan de tal manera que, en caso de que se produzcan errores o fallos, el sistema funcione correctamente y ofrezca un resultado adecuado. Cualquier sistema tiene dos componentes principales: el hardware y el software. Las técnicas de tolerancia a fallos del hardware son sencillas en comparación con las del software. Las técnicas de tolerancia a fallos hacen que el hardware funcione correctamente y dé un resultado correcto incluso cuando se produce algún fallo en la parte de hardware del sistema. Hay básicamente dos técnicas utilizadas para la tolerancia a fallos de hardware: Técnicas de tolerancia a fallos de software: Las técnicas de tolerancia a fallos de software se utilizan para hacer que el software sea fiable en caso de que se produzca un fallo. Hay tres técnicas utilizadas en la tolerancia a fallos de software. Las dos primeras técnicas son comunes y son básicamente una adaptación de las técnicas de tolerancia a fallos del hardware.

  Diferencia entre base de datos relacional y no relacional

Tolerancia a fallos en sistemas distribuidos pdf

Un sistema distribuido es un conjunto de sistemas independientes que pueden comunicarse entre sí mediante la transferencia de mensajes. Hay algunos problemas importantes en los sistemas distribuidos, pero en este artículo nos centramos en la tolerancia a los fallos. Se trata de la capacidad del sistema para funcionar cuando se produce algún tipo de fallo en el sistema, como un fallo en la comunicación, el hardware o los recursos. Es un tema muy importante en los sistemas distribuidos, en este artículo presentamos un estudio de los diferentes tipos de técnicas de tolerancia a fallos y su comparación.

Un sistema distribuido es una colección de ordenadores que son independientes y aparecen ante su usuario como un único sistema coherente. El sistema distribuido está vinculado por algunas redes locales y están interconectadas físicamente entre sí. Utiliza una red de ordenadores en la que cada uno de ellos trabaja en una parte de la tarea global, de esta manera se puede realizar una gran tarea de manera muy eficiente y rápida que un solo ordenador. El sistema distribuido es mucho mejor que el sistema centralizado, ya que no tiene ningún controlador centralizado, por lo que no hay posibilidad de fallo en el sistema distribuido, ya que en los ordenadores del sistema distribuido están conectados con varios servidores, por lo que si un servidor se cae, puede obtener datos de otro servidor. Se puede ampliar fácilmente añadiendo más ordenadores a la red. Permite que muchos usuarios compartan datos al mismo tiempo y facilita la comunicación de hombre a hombre[6]. Algunos ejemplos de sistemas informáticos distribuidos son los sistemas de reserva de trenes, los sistemas de control del tráfico aéreo, la red celular, el sistema de control industrial, el sistema bancario, la red de sensores inalámbricos, los juegos multijugador en línea, etc.

  Diferencia entre cio y cto

Fallos en los sistemas distribuidos

Autores:  Ramnatthan Alagappan, Aishwarya Ganesan, Jing Liu, Andrea Arpaci-Dusseau y Remzi Arpaci-Dusseau, Universidad de Wisconsin – MadisonResumen: Introducimos actualizaciones conscientes de la situación y recuperación de fallos (SAUCR), un nuevo enfoque para realizar actualizaciones de datos replicados en un sistema distribuido. SAUCR adapta el protocolo de actualización a la situación actual: con muchos nodos en funcionamiento, SAUCR almacena las actualizaciones en la memoria; cuando se producen fallos, SAUCR descarga las actualizaciones en el disco. Este conocimiento de la situación permite a SAUCR alcanzar un alto rendimiento, al tiempo que ofrece fuertes garantías de durabilidad y disponibilidad. Implementamos un prototipo de SAUCR en ZooKeeper. Mediante rigurosas pruebas de choque, demostramos que SAUCR mejora significativamente la durabilidad y la disponibilidad en comparación con los sistemas que siempre escriben sólo en la memoria. También demostramos que las mejoras de fiabilidad de SAUCR tienen un coste mínimo o nulo: Los gastos generales de SAUCR se sitúan entre el 0% y el 9% de un sistema basado exclusivamente en la memoria.

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad