Обзор
IT-инфраструктуры современных средних и крупных предприятий и организаций насчитывают от нескольких сотен и до сотен тысяч сетевых устройств и систем. Управление и поддержание их работоспособности и доступности является основной заботой и зоной ответственности IT подразделений.
В то же время, ситуации, когда происходит даже незначительный сбой, отказ или ошибка в работе какого либо устройства/системы, требуют от административного персонала оперативной и корректной идентификации первопричины такой проблемы и ее устранения. Что зачастую является нетривиальной задачей - результатами сбоев/отказов/ошибок являются сотни а, подчас, тысячи, оповещений, исходящих от всех затронутых сбоем систем и устройств и даже опытному IT персоналу требуется достаточно много времени для поиска первопричины сбоя. При этом, часто поиск первичного сбоя требует координации усилий целой группы специалистов - администратора по системам хранения, сетевого администратора, менеджеров приложений, администратора СУБД. Это усложняется и тем, что даже схожие ситуации требуют индивидуального анализа, то есть трудно стандартизуются и "разбираются" на основе правил. Некритичный локальный сбой может просто стать незначительной неприятностью и головной болью администратора системы. Ряд возможных проблем:
- Идентификация первопричины сбоя/отказа/ошибки занимает слишком много времени, что приводит к продолжительным неплановым простоям систем и/или снижению производительности ключевых приложений.
- Административный персонал центров обработки данных получает огромное количество оповещений разной степени критичности о сбоях на уровне сетей и приложений, обработать которые "вручную" практически не представляется возможным.
- Затруднительно определение приоритетов возникающих проблем.
- Эффективность дорогостоящих высококвалифицированных технических ресурсов существенно снижена - их время уходит на обработку малозначимых оповещений и на выполнение тактических задач.
- Отсутствие четкого понимания того, как случившийся сбой/отказ/ошибка влияет на работу приложений и бизнес-процессы.
Помощь административному персоналу IT служб и призваны оказывать системы, причисляемые к классу "Fault Management".
Системы управления неисправностями (Fault Management) - представляют собой системы контроля и управления аварийными сигналами, предназначенные для их фильтрации и корреляции с целью выявления первопричины, породившей поток взаимосвязанных аварийных сообщений.
Несмотря на наличие на рынке множества систем класса "Fault Management", претендующих на некую "универсальность", пожалуй, ЕМС Smarts - единственная, в достаточной степени отвечающая таким требованиям как - непрерывность бизнес-процессов, и надежность, точность, быстродействие и удобство использования инструментов IT-инфраструктуры.
Исторический экскурс
Система Smarts (изначально аббревиатура от System Management Arts, от английского "искусство управления системами") родилась в недрах некогда грандиозного транснационального проекта "Iridium" (системы спутниковых телекоммуникаций) в 1993 году. Ее предназначение состояло в автоматизации управления и мониторинге динамически распределенных систем спутниковой составляющей проекта, что предполагало высочайшие требования к ее надежности и точности работы.
Разработчиками системы стали математики научно-исследовательской лаборатории проекта Iridium, которые и стали авторами уникальной запатентованной Технологии Корреляционной Матрицы (ССТ - Codebook Correlation Technology) и собственного варианта Общей Информационной Модели, получившего название ICIM - InCharge (оригинальное название системы) Common Information Model. Проект Iridium, впоследствии, был свернут по коммерческим причинам, но эти две компоненты являются фундаментом для всей системы и по сей день.
В 2005 году лидер на рынке управления и хранения информации компания ЕМС приобрела как компанию-разработчика, так и права на саму систему Smarts. Уже весной 2006 года были сделаны первые реальные шаги по определению места системы Smarts на различных этапах стратегии Управления Жизненным Циклом Информации (ILM - Information Lifecycle Management), выпустив программный модуль для автоматизации управления и мониторинга сетей и систем хранения данных под названием SIA (Storage Insight for Availability). В июне 2006 года была приобретена еще одна компания - nLayers с ее продуктом nLayers InSight, позволяющим осуществлять связку приложений с аппаратной инфраструктурой предприятия и, тем самым, обеспечить анализ сбоев на уровне приложений - новый продукт получил название ЕМС ADM (Application Discovery Manager). Его интеграция в систему ЕМС Smarts в ближайшее время позволит обеспечить последней статус единственной в IT-мире системы класса "Fault Management", способной работать на 6 из 7 уровней модели OSI (!).
В настоящее время пользователи систем семейства ЕМС Smarts - это тысячи крупнейших компаний и организаций по всему миру. Это телекоммуникационные гиганты и транснациональные банки, государственные учреждения и всемирно-известные торговые сети.
Подходы к управлению сбоями
Идеологически системы класса "Fault Management" можно разделить на два основным типа. Это системы, в основе которых лежит использование правил (rules-oriented) и системы, которые используют математические модели (model-oriented).
Для первого типа требуется определять правила поведения элементов инфраструктуры и их взаимодействия в случае сбоя, а также, какие типы оповещений будет генерировать система. Однако при наличии сложной сетевой топологии использование правил становится затруднительным, поскольку даже незначительные изменения в данной топологии могут потребовать реорганизации правил, созданных ранее.
Эффективность таких систем невысока - поиск необходимой информации в массе генерируемых ими данных проблематичен, отсутствуют требуемые гибкость и масштабируемость. Большинство современных систем позволяет осуществлять лишь разрозненный мониторинг систем (сетей передачи данных, приложений, баз данных, серверов и т.п.). При этом мало учитываются или вообще игнорируются взаимосвязи между элементами.
ЕМС Smarts представляет собой систему другого типа. Модель топологии IT-инфраструктуры в ней строится автоматически, также как и автоматически (на базе специализированного ПО) устанавливаются отношения между элементами.
ЕМС Smarts можно также смело отнести к классу систем Business Service Management (BSM).
Возможности EMC Smarts по автоматизации
Одной из основных задач ЕМС Smarts является выполнение большего объема работы меньшими ресурсами. Это особенно актуально в развитых и сложных информационных средах, где отсутствие автоматизации означает полную потерю контроля над инфраструктурой.
ЕМС Smarts автоматизирует выполнение следующих задач управления IT:
- Построение топологии - процесс Discovery - система быстро и точно производит автоматическое "обнаружение" физических и логических устройств на уровнях инфраструктуры и приложений, их взаимосвязи, взаимное влияние и поведение
- Моделирование - результаты процесса Discovery используются для автоматического построения развитой семантической модели всей информационной среды. ЕМС Smarts поддерживает более 100 абстрактных классов устройств и более 50 типов их взаимосвязей.
- Анализ - не требуя написания правил, ЕМС Smarts автоматизирует корреляцию, поиск первопричины сбоя/отказа/ошибки, а также анализ их влияния.
- Про-активные действия - в системе предусмотрен развитый функционал автоматизации действий по устранению сбоя/отказа/ошибки и политики эскалации. Благодаря им возможны приоритезация работы с проблемами, выбор адекватных действий по их устранению, гибкое определение времени реакции на те или иные проблемы
- Актуализация - при любых изменениях информационной среде, ЕМС Smarts автоматически обновляет у себя информацию о взаимосвязях, поведении, взаимодействии компонент и пересчитывает варианты потенциальных проблем и соответствующие им шаблоны наборов симптомов (сигнатуры).
Логическая архитектура EMC Smarts
Логическая архитектура ЕМС Smarts включает четыре функциональных уровня:
- уровень построения топологии (Mediation);
- уровень абстрагирования (Abstraction);
- аналитический уровень (Analytics);
- уровень автоматизации (Actionable Intelligence).
Каждый из указанных уровней представляет собой отдельный логический слой, что обеспечивает системе в целом высокую масштабируемость и гибкость.
 Функциональность EMS SMARTS
Уровень построения топологии (Mediation) отвечает за быструю и точную идентификацию физических и логических компонент IT инфраструктуры и среднего слоя (приложений). На нем также происходит обнаружение взаимосвязей и факторов взаимного влияния этих компонент. В реальности, уровень построения топологии выражается в процессе т.н. Discovery, т.е. "обнаружении" физических и логических устройств инфраструктуры, их конфигураций и взаимосвязей. При этом происходит автоматическое заполнение т.н. репозитория Общей Информационной Модели ЕМС Smarts (ЕМС Smarts Common Information Model Repository), т.е. актуального "инвентори" -хранилища всей "обнаруженной" информации.
Уровень абстрагирования (Abstraction) отвечает за фильтрацию полученной информации. По сути, на уровне абстрагирования отфильтровываются данные, не являющиеся существенными и значимыми при дальнейшем процессинге. Этот уровень приводит всю собранную информацию о физических и логических устройствах, их взаимосвязях, "поведении" и взаимном влиянии к унифицированному виду, т.е. "абстрагирует" их. При этом, "обнаруженные" объекты, попавшие в репозиторий, сопоставляются с т.н. классами "generic" объектов, содержащихся в библиотеке Общей Информационной Модели ЕМС Smarts (ЕМС Smarts Common Information Model™).
Аналитический уровень (Analytics) - это "мозг" ЕМС Smarts. Именно на аналитическом уровне происходит определение исходной причины сбоя/отказа/ошибки и анализ влияния возникших проблем на предоставление сервисов. Автоматизация анализа практически любой проблемы, возникшей в любом из поддерживаемых типов доменов, возможна благодаря использованию запатентованной технологии корреляционной матрицы ЕМС Smarts (ЕМС Smarts Codebook Correlation Technology™).
Корреляционная матрица в своей работе исходит из двух посылок:
- Каждая исходная проблема (сбой/отказ/ошибка) проявляется в характерных, именно для нее, симптомах.
- Набор симптомов, называемый в терминологии ЕМС Smarts сигнатурой, для каждой проблемы уникален тем, как эти симптомы проявляются на окружающих объектах.
Сопоставление заранее известной сигнатуры той или иной проблемы с реальными симптомами (получаемыми из опроса устройств (т.н. поллинг) или асинхронных событий), позволяет безошибочно автоматически распознать ее.
Технология корреляционной матрицы ЕМС Smarts позволяет рассчитывать сигнатуры для всех первичных проблем в любом из поддерживаемых типов доменов.
Сами сигнатуры содержатся в корреляционной матрице, где и происходит их сопоставление реальным симптомам проблем. Таким образом, происходит ускоренный поиск первичной причины сбоя/отказа/ошибки.
 Схема корреляционной матрицы
К преимуществам и особенностям организации аналитического уровня ЕМС Smarts следует отнести следующее:
- Простое внедрение системы и отсутствие издержек по разработке (в отличие от систем, ориентированных на написание правил) - Технология корреляционной матрицы ЕМС Smarts использует готовые решения, которые не требуют существенных ресурсов по разработке и внедрению.
- Простая эксплуатация - автоматический характер корреляционной логики ЕМС Smarts позволяет избежать дополнительных эксплуатационных издержек по переписыванию правил и переконфигурированию системы при изменениях в информационной среде - ЕМС Smarts автоматически адаптируется к изменениям топологии и конфигурации устройств.
- Высокая производительность и надежность - технология корреляционной матрицы ЕМС Smarts позволяет найти первопричину сбоя даже в том случае, если информация о части событий задерживается или пропала, а также, если имеет неполное знание топологии.
Уровень автоматизации (Actionable Intelligence) отвечает за представление информации оператору системы посредством графических интерфейсов - т.н. глобальной консоли (ЕМС Smarts Global Console) или web-интерфейса удаленного доступа (ЕМС Smarts Business Dashboard).
Набор программных продуктов - EMC Smarts Management Suite
SAM - Service Assurance Manager
Системные требования для ЕМС Smarts версии 6.2 и выше - ОС Solaris 8 и 9; HP-UX 11.00 и 11.11; Windows 2000 Server и Windows 2003 Server; Red Hat Linux Advanced Server ES, AS u WS2.1.
Ядро системы составляет т.н. ЕМС Smarts Service Assurance Manager или, коротко, SAM. В его задачи входят интеграция и корреляция топологий, событий и данных анализа от различных источников данных (обычно, от т.н. домен-менеджеров). При работе с SAM, оператор использует два типа графического интерфейса - т.н. глобальную консоль (ЕМС Smarts Global Console) или web-интерфейс для удаленного доступа (ЕМС Smarts Business Dashboard). Обе отображают практически одну и ту же информацию - результаты обработки данных системой в режиме реального времени, сквозное представление IT инфраструктуры, влияние инфраструктурного и прикладного слоев на бизнес-процессы предприятия.
По сути, SAM представляет собой высокоинтеллектуальную систему типа Manager of Managers (MoM), или, иначе говоря, надстройку над всеми управляющими модулями системы Smarts. Кроме собственных домен-менеджеров, SAM поддерживает возможность работы с управляющими системами сторонних разработчиков.
В то же время, следует отметить, что встроенные функциональные возможности SAM на порядки превосходят возможности традиционных систем типа МоМ и консолей статуса систем.
Используя запатентованные технологии Общей Информационной Модели ЕМС Smarts (ЕМС Smarts Common Information Model™) и Корреляционной Матрицы ЕМС Smarts (ЕМС Smarts Codebook Correlation Technology™), SAM производит интеллектуальную обработку данных, включая следующее:
- Используя данные, получаемые от разнообразных источников данных в различных IT доменах, компилирует топологию инфраструктуры объектов и их взаимосвязей. К таким источникам следует отнести:
- агенты приложений (реализуют функцию автоматического построения топологии - ЕМС Smarts Auto-discovery);
- базы данных SQL (реализуют функцию системы управления на уровне элементов - Element Management Systems (EMS)).
- Строит топологию, получая данные из сторонних систем управления, специализированных баз данных и др. источников.
- Определяет влияние инфраструктурных сбоев/отказов/ошибок на доступность приложений и работу групп пользователей, бизнес-процессы и качество предоставления сервисов.
- Коррелирует данные, события и первопричины проблем, влияющих на предоставление сервисов с соответствующими им объектами топологии.
- Создает причинно-следственные связи между событиями. Это позволяет коррелировать данные, получаемые из различных IT доменов для более точной сквозной идентификации первопричин сбоев/отказов/ошибок и анализа их влияния на доступность приложений и работу групп пользователей, бизнес-процессы и качество предоставления сервисов.
По итогам такой обработки данных, SAM выстраивает общую картину IT инфраструктуры предприятия, представленной в форме репозитория Общей Информационной Модели ЕМС Smarts (EMC Smarts Common Information Model Repository). Данные, содержащиеся в указанном репозитории, используются при горизонтальном и вертикальном анализе проблем, возникших на уровне инфраструктуры и приложений, а также при анализе их влияния на бизнес-слой.
Основная часть актуальной информации приходит в SAM из других подсистем, называемых в терминологии ЕМС Smarts домен-менеджерами, или аналитическими серверами.
Наиболее распространенными являются ЕМС Smarts IP Availability Manager - IP AM (уровень инфраструктуры) и ЕМС Smarts Application Services Manager - ACM (уровень приложений), которые экспортируют в SAM выборочные события и данные о первопричинах сбоев, обнаруженных в подконтрольных им технологических доменах.
Кроме того, поддерживаются следующие менеджеры технологических доменов:
- IP Performance Manager - поиск первичной причины проблем с производительностью в IP сетях и анализ их влияния на остальную часть инфраструктуры.
- ATM/Frame Relay Manager - управление топологией и поиск первичной причины сбоев/отказов/ошибок в сетях WAN использующих ATM/Frame Relay;
- MPLS Management Suite - работает совместно с ЕМС Smarts IP Availability Manager. Обеспечивает процесс Discovery, поиск первичной причины сбоев/отказов/ошибок и анализ влияния в сетях MPLS, сетях VPN, сконфигурированных поверх них (layer 3 (L3VPN) и 2 (L2VPN)) и VPLS (Virtual Private LAN Services);
- Optical Transport Manager - сети SDH/SONET, DWDM/CWDM;
- Network Protocol Manager - поиск первичной причины сбоев/отказов/ошибок в событиях OSPF, BGP.
|