точка отказа что такое
СОДЕРЖАНИЕ
Обзор
Системы можно сделать устойчивыми, добавив избыточность во все потенциальные SPOF. Избыточность может быть достигнута на разных уровнях.
Возможные SPOF в простой настройке.
Использование избыточности во избежание некоторых SPOF.
Система с полным резервированием без SPOF. (Примечание: предполагается, что генератор и сеть имеют номинальное значение N, каждый ИБП имеет номинал N, а «A / C» и «Электрический» сами по себе являются полностью отказоустойчивыми системами.
Вычисление
Компьютерная система отказоустойчивой может быть достигнута на внутреннем уровне компонентов, на системном уровне (несколько машин), или на уровень сайта (репликация).
Обычно можно развернуть балансировщик нагрузки, чтобы обеспечить высокую доступность кластера серверов на системном уровне. В кластере серверов высокой доступности каждый отдельный сервер может обеспечить резервирование внутренних компонентов за счет наличия нескольких источников питания, жестких дисков и других компонентов. Избыточность системного уровня может быть достигнута за счет наличия запасных серверов, ожидающих выполнения работы другого сервера в случае его сбоя.
Поскольку центр обработки данных часто является центром поддержки других операций, таких как бизнес-логика, он сам по себе представляет собой потенциальный SPOF. Таким образом, на уровне сайта весь кластер может быть реплицирован в другом месте, где к нему можно будет получить доступ в случае, если основное местоположение станет недоступным. Обычно это делается в рамках программы аварийного восстановления (отказоустойчивости) ИТ.
Программная инженерия
Инженерия производительности
Компьютерная безопасность
Ошибка в одном компоненте может поставить под угрозу всю систему.
Другие поля
Концепция единой точки отказа также применялась к областям, выходящим за пределы инженерии, компьютеров и сетей, таких как корпоративное управление цепочкой поставок и управление транспортом.
Структуры проектирования, которые создают единые точки отказа, включают узкие места и последовательные цепи (в отличие от параллельных цепей ).
Системы жизнеобеспечения
Компонент системы жизнеобеспечения, который будет представлять собой единую точку отказа, должен быть чрезвычайно надежным.
точка отказа
Смотреть что такое «точка отказа» в других словарях:
единая точка отказа — SPOF (ITIL Service Design) Любая конфигурационная единица, отказ которой может вызвать инцидент, для которого не определена контрмера. Единой точкой отказа может быть как сотрудник или шаг в процессе или деятельности, так и компонент ИТ… … Справочник технического переводчика
единичная точка отказа — [Интент] См. также полевая шина Тематики автоматизированные системы EN single point of failureSPOF … Справочник технического переводчика
полевая шина — [Интент] полевая магистраль по зарубежной терминологии Имеет много терминов синонимов и обозначает специализированные последовательные магистрали малых локальных сетей (МЛС), ориентированны на сопряжение с ЭВМ рассредоточенных цифровых датчиков и … Справочник технического переводчика
полевая шина — [Интент] полевая магистраль по зарубежной терминологии Имеет много терминов синонимов и обозначает специализированные последовательные магистрали малых локальных сетей (МЛС), ориентированны на сопряжение с ЭВМ рассредоточенных цифровых датчиков и … Справочник технического переводчика
полевая шина — [Интент] полевая магистраль по зарубежной терминологии Имеет много терминов синонимов и обозначает специализированные последовательные магистрали малых локальных сетей (МЛС), ориентированны на сопряжение с ЭВМ рассредоточенных цифровых датчиков и … Справочник технического переводчика
промышленная сеть верхнего уровня — коммуникационная сеть верхнего уровня сеть операторского уровня Сеть верхнего уровня АСУ ТП. Сеть передачи данных между операторскими станциями, контроллерами и серверами. [http://kazanets.narod.ru/NT PART2.htm] В данной статье речь пойдет о… … Справочник технического переводчика
Список версий MongoDB — Значимость предмета статьи поставлена под сомнение. Пожалуйста, покажите в статье значимость её предмета, добавив в неё доказательства значимости по частным критериям значимости или, в случае если частные критерии значимости для… … Википедия
ГОСТ Р ИСО/МЭК 10746-2-2000: Информационная технология. Взаимосвязь открытых систем. Управление данными и открытая распределенная обработка. Часть 2. Базовая модель — Терминология ГОСТ Р ИСО/МЭК 10746 2 2000: Информационная технология. Взаимосвязь открытых систем. Управление данными и открытая распределенная обработка. Часть 2. Базовая модель оригинал документа: 6.3 Абстракция процесс отбрасывания… … Словарь-справочник терминов нормативно-технической документации
СТО Газпром 2-2.3-141-2007: Энергохозяйство ОАО «Газпром». Термины и определения — Терминология СТО Газпром 2 2.3 141 2007: Энергохозяйство ОАО «Газпром». Термины и определения: 3.1.31 абонент энергоснабжающей организации : Потребитель электрической энергии (тепла), энергоустановки которого присоединены к сетям… … Словарь-справочник терминов нормативно-технической документации
Средняя — периодическое увлажнение пола, при котором поверхность покрытия пола влажная или мокрая; покрытие пола пропитывается жидкостями. Источник: МДС 31 12.2007: Полы жилых, общественных и производственных зданий с применением м … Словарь-справочник терминов нормативно-технической документации
источник — 3.18 источник (source): Объект или деятельность с потенциальными последствиями. Примечание Применительно к безопасности источник представляет собой опасность (см. ИСО/МЭК Руководство 51). [ИСО/МЭК Руководство 73:2002, пункт 3.1.5] Источник … Словарь-справочник терминов нормативно-технической документации
Введение в HACMP
Что такое HACMP
HACMP является сокращением от » High Availability Cluster Multi-Processing». Главными составляющими здесь являются высокая доступность и мультиобработка в кластерной (многоузловой) среде.
Высокая доступность
В современных сложных средах обеспечение непрерывности работы приложений является основным компонентом эффективной реализации IT-системы. Высокая доступность – одна из составляющих, способствующих обеспечению непрерывности обслуживания клиентов приложения путем маскирования (скрытия) или устранения как запланированных, так и незапланированных простоев (остановок) в работе систем и приложений. Это достигается путем устранения единых точек отказа (Single Point Of Failure, SPOF 1 Здесь и далее мы будем упоминать в скобках оригинальные названия терминов (на английском языке), чтобы читателю было проще соотнести термины, используемые в этом руководстве, с теми терминами, которые он встретит в англоязычной документации и при непосредственной работе с HACMP. ) в аппаратном и программном обеспечении. Решение высокой доступности гарантирует, что отказ любого компонента решения (аппаратного обеспечения, программного обеспечения или управления системой) не вызовет длительной недоступности приложения и его данных для конечного пользователя.
Решения высокой доступности должны устранять единые точки отказа посредством соответствующего проектирования, планирования, выбора оборудования, конфигурирования программного обеспечения, управления приложениями, тщательного управления средой и дисциплин управления изменениями.
Вкратце высокую доступность можно определить как процесс обеспечения доступности приложения для использования посредством дублирования и/или реализации общего доступа к аппаратным ресурсам, управляемым специализированным программным компонентом.
Кластерная мультиобработка
Краткое определение кластерной мультиобработки может иметь такой вид: множество приложений, выполняющихся на нескольких узлах с общим или одновременным доступом к данным.
Хотя компонент кластерной мультиобработки и является желательным, эффективное использование им всех доступных в многоузловой (кластерной) среде ресурсов зависит от возможностей приложения и реализации системы. Их реализация должна начинаться на этапе планирования и проектирования кластеров.
Решение высокой доступности на основе HACMP обеспечивает автоматическое обнаружение сбоев, диагностику, восстановление приложений и реинтеграцию узлов. При использовании соответствующего приложения HACMP также может обеспечивать одновременный доступ к данным для приложений параллельной обработки, предлагая таким образом отличную горизонтальную и вертикальную масштабируемость (с добавлением возможностей управления динамическим LPAR).
Решения по обеспечению доступности: обзор
Существует множество решений, обеспечивающих широкий диапазон опций доступности. В таблице 1.1 описаны различные типы решений обеспечения доступности и их характеристики.
Решение | Время простоя (отключения) | Доступность данных | Стоимость |
---|---|---|---|
Автономное (Standalone) | Дни | С последней резервной копии | Базовые затраты на аппаратное и программное обеспечение ($) |
Улучшенное автономное (Enhanced standalone) | Часы | До последней транзакции | Двойные затраты на аппаратное обеспечение ($$) |
Кластеры высокой доступности (High availability clusters) | Минуты | До последней транзакции | Двойные затраты на аппаратное обеспечение и дополнительное обслуживание ($$+) |
Отказоустойчивые вычислительные системы ( fault-tolerant computing ) | Никогда не отключаются | Без потери данных | Специализированное аппаратное и программное обеспечение, очень дорогостоящее ($$$$$$) |
HACMP/XD | Минуты | До последней транзакции | Двойная или тройная стоимость аппаратного обеспечения + дополнительные затраты на связь ($$$$) |
Решения по обеспечению высокой доступности в целом предлагают следующие преимущества:
Решение высокой доступности от компании IBM для IBM eserver® pSeries предлагает различные преимущества, включая следующие:
При планировании внедрения решения HACMP следует учитывать следующие аспекты:
Время отключения (простоя)
Время отключения (простоя) означает период, когда приложение недоступно для обслуживания своих клиентов. Можно разделить отключения на две категории:
Таким образом, роль HACMP состоит в том, чтобы обеспечивать доступность приложения как при незапланированных отказах, так и при выполнении обычных повседневных административных задач. HACMP обеспечивает мониторинг и автоматическое восстановление ресурсов, от которых зависит приложение.
Единая точка отказа
Единой точкой отказа (single point of failure, SPOF ) является любой отдельно взятый компонент в составе кластера, который в случае сбоя делает приложение недоступным для конечных пользователей.
Хорошее проектирование позволяет устранить единые точки отказа (узлы, устройства хранения, сети) в кластере. HACMP осуществляет управление этими компонентами, а также управление ресурсами, необходимыми для приложения (включая скрипты запуска-перезапуска приложений).
В конечном счете цель любого информационного решения в критической среде состоит в том, чтобы обеспечить непрерывную доступность приложения и защиту данных. Высокая доступность – только один из элементов в обеспечении непрерывной работы. В основе высокой доступности лежит доступность оборудования, программного обеспечения (операционной системы и ее компонентов), приложения и сетевых компонентов.
Во избежание возникновения единых точек отказа необходимы:
Как говорилось выше, хорошее проектирование позволяет устранить единые точки отказа, и HACMP осуществляет управление доступностью приложения во время отключений. В табл. 1.2 перечислены все объекты кластеров, сбой которых может вызвать недоступность приложения. Каждый объект кластера может представлять собой физический или логический компонент.
Объекты кластера | Способ устранения единой точки отказа |
---|---|
Узел (серверы) | Использование нескольких узлов |
Электропитание | Использование нескольких цепей или источников питания и/или ИБП |
Сетевой адаптер | Избыточность сетевых адаптеров |
Сеть | Несколько сетей, подключенных ко всем узлам, избыточные сетевые пути с независимым оборудованием между каждым узлом и клиентами |
Подсистема TCP/IP | Использование сетей «точка-точка» для подключения каждого узла к соседнему узлу в кольце |
Адаптер ввода-вывода | Избыточность адаптеров ввода-вывода |
Контроллеры | Избыточность контроллеров |
Хранение | Избыточность оборудования, дисковые стойки, зеркальное отображение/технология RAID, избыточность путей данных |
Приложение | Конфигурирование мониторинга приложения и резервных узлов для «подхвата» приложения и его данных |
Сайты | Использование более одного сайта для аварийного восстановления |
Группы ресурсов | Использование групп ресурсов для управления всеми ресурсами, требуемыми приложению |
HACMP также обеспечивает оптимизацию доступности, допуская динамическое реконфигурирование работающих кластеров. Задачи обслуживания, такие, как добавление или удаление узлов, можно выполнять без остановки и перезапуска кластера.
Кроме того, на работающем кластере можно выполнять другие задачи управления, такие, как изменение конфигурации системы хранения, управление пользователями с применением eдиной точки управления кластером (Cluster Single Point of Control, C- SPOC ), не прерывая доступ пользователя к приложению, выполняющемуся на узлах кластера ( cluster nodes ). C- SPOC также обеспечивает репликацию изменений, выполненных на одном узле, по всему кластеру последовательным образом.
Единая точка отказа
Под единой точкой отказа (сокращенно SPOF или по- немецки единая точка отказа ) понимается часть технической системы, отказ которой сам по себе влечет за собой отказ всей системы.
Оглавление
принцип
В зависимости от требований резервные устройства могут не работать в одном месте, в противном случае SPOF все еще существует:
В сфере IT
В компании компьютерная сеть должна быть защищена от сбоев питания и серверов. «SPOF» означает отдельный элемент, отказ которого влияет на всю систему.
Возможные точки отказа при незащищенной операции. Помимо других слабых мест: в случае сбоя питания срабатывает источник бесперебойного питания (ИБП); однако соединение между ИБП и компьютером не защищено от сбоев. Точно так же нет второго компьютера (ПК), если он покажет неисправности.
Первое сокращение точек сбоя в работе ИТ. Некоторые SPOF были устранены. Однако обмен данными возможен только через сервер. В случае сбоя питания вы можете работать только до тех пор, пока два блока ИБП подают питание.
Резервное и кросс-кабельное питание в дата-центре. Работа очень хорошо защищена от сбоев одной электросети, сервера и электрических / электронных соединений.
Авиация
В авиации исключение единых точек отказа имеет первостепенное значение. Однако, если отказ не влияет на безопасность или если анализ безопасности подтверждает, что отказ происходит достаточно редко, допускается наличие единой точки отказа.
Измерительные приборы и авионика
В случае гидравлической передачи сигнала, вопреки всему, в отдельных случаях было возможно, что все три системы были повреждены в результате одного и того же инцидента и вышли из строя из-за близости резервных систем. Например, на рейсе 232 United Airlines в результате раскола частей двигателя DC-10 были разрушены все три гидравлические системы. На рейсе 123 Japan Air Lines все четыре системы Боинга 747 были разрушены после сброса давления из герметичной кабины.
Отказоустойчивость
Отказоустойчивость следует отличать от отказобезопасности — способности системы при отказе некоторых частей переходить в режим работы, не представляющий опасности для людей, окружающей среды или материальных ценностей. Однако в реальных системах эти два требования могут выступать совместно.
Отказоустойчивость связана со следующими техническими характеристиками систем:
В ряде технических приложений отказоустойчивость путем резервирования является обязательным требованием, предъявляемым государственными надзорными органами к техническим системам.
Литература
См. также
Полезное
Смотреть что такое «Отказоустойчивость» в других словарях:
отказоустойчивость — Способность системы самой устранять возникающие в ней отказы. Отказоустойчивость сводится к обнаружению отказов, оценке ситуаций, локализации и принятии мер по их устранению. Система способная обеспечить управление отказами и выполнять все… … Справочник технического переводчика
отказоустойчивость — 3.33 отказоустойчивость: Свойство системы продолжать правильное выполнение функций при наличии ограниченного числа аппаратных или программных дефектов. Источник: ГОСТ Р 51904 2002: Программное обеспечение встроенных систем. Общие требования к… … Словарь-справочник терминов нормативно-технической документации
отказоустойчивость — atsparumas gedimui statusas T sritis radioelektronika atitikmenys: angl. fault tolerance vok. Beständigkeit gegen Versagen, f; Fehlertoleranz, f rus. отказоустойчивость, f pranc. tolérance des pannes, f … Radioelektronikos terminų žodynas
отказоустойчивость — отказоуст ойчивость, и … Русский орфографический словарь
ОТКАЗОУСТОЙЧИВОСТЬ — свойство компьютерной системы после возникновения какой либо неисправности в ее аппаратном или программном компонентах продолжать работу без вмешательства человека, обеспечивать непрерывность работы, целостность данных и восстановление работы в… … Словарь понятий и терминов, сформулированных в нормативных документах российского законодательства
отказоустойчивость — отказ/о/у/стой/чив/ость/ … Морфемно-орфографический словарь
отказоустойчивость системы управления техническими средствами корабля — отказоустойчивость СУ ТС Составляющая качества структурной организации системы управления техническими средствами корабля, проявляющаяся при отказах отдельных устройств, сбоях в их работе и (или) проявлении ошибок в программном обеспечении и… … Справочник технического переводчика
отказоустойчивость (в информационных технологиях) — Способность ИТ услуги или конфигурационной единицы продолжать обеспечивать эксплуатирование корректно после сбоя части компонента. [http://www.dtln.ru/slovar terminov] отказоустойчивость (ITIL Service Strategy) Способность ИТ услуги или другой… … Справочник технического переводчика
отказоустойчивость гидротехнического сооружения — Способность гидротехнического сооружения препятствовать возникновению неисправностей и отказов, которые могут привести к аварии, и обеспечивать его защищенность от неблагоприятных воздействий окружающей среды, ошибок эксплуатационного персонала и … Справочник технического переводчика
отказоустойчивость программного средства — Совокупность свойств программного средства, характеризующая его способность поддерживать необходимый уровень пригодности при проявлении дефектов программного средства или нарушении установленных интерфейсов. Примечание Необходимый уровень… … Справочник технического переводчика