Оборудование в дата-центре стабильно работает не только благодаря сложным инженерным системам, но и людям. Многое зависит от их компетенций, скорости реагирования на инциденты и даже таких человеческих качеств как ответственность и желание приносить пользу. Мы расспросили Дмитрия Геккеля, IT-Projektmanager in DC компании Colobridge, о том, как выглядит типичный день технического специалиста дата-центра.
В чем заключается ваша ежедневная работа в дата-центре?
Я обеспечиваю бесперебойную работу бизнеса клиентов. Зона моей ответственности — физические компоненты инфраструктуры. Ежедневно совместно со службой технической поддержки я реагирую на запросы клиентов для максимально быстрого и качественного решения их проблем.
Помимо получения, обработки заявок и работы непосредственно с оборудованием у вас есть какие-то задачи?
Почти каждый день я получаю посылки с оборудованием, которые обычно приходят в почтовое отделение дата-центра Telehouse. Мне необходимо убедиться, что с содержимым посылки все в порядке. Например, я получаю комплект SSD-накопителей, проверяю их, а затем проклеиваю и передаю на склад. Если это собранный сервер, его обязательно тестирует специалист службы поддержки. На складе оборудование задерживается редко: как только поддержка согласует время выполнения работ, мы сразу приступаем к его установке. И так по кругу: я получаю оборудование (серверы или компоненты к ним) — проверяю на работоспособность — передаю на проверку в службу поддержки, после чего коммутирую и передаем клиенту. Вся проделанная работа должна быть задокументирована. Поэтому я каждый день оформляю техзадания, фиксирую изменения в инфраструктуре клиентов, вношу правки в файл учета, описываю выполненные работы. Это не самая интересная задача, но необходимая.
У вас много рутинных обязательств, которые, скажем честно, выглядят довольно скучными. Есть что-то, что может в разгар рабочего дня подарить какие-то положительные эмоции?
О, у меня куча интересных историй, смешных и не очень! Еще мне нравится пропускать через себя огромный объем оборудования — совершенно разного. Тем, кому неинтересно железо, возможно, будет и скучно, но мне нравится то, что я делаю. Например, недавно для клиента на Dedicated я получил новую модель сервера известного вендора с NVMe RAID-контроллерами — было любопытно с ним разобраться.
А как насчет нештатных ситуаций в вашей работе? Если они случаются, то как выглядят?
Бывают, конечно, и совсем неординарные ситуации. Однажды все начиналось достаточно обыденно: сработала учебная пожарная тревога — такие регулярно бывают в нашем дата-центре. Но вместо привычных 20 минут она длилась четыре часа. Оказалось, что во время строительства нового корпуса дата-центра обнаружили авиабомбу времен Второй мировой. В итоге бомбу весом 500 кг извлекли и отвезли к месту уничтожения, а всю территорию досконально проверили на наличие других бомб. К счастью, их там не оказалось и все закончилось хорошо.
Вы рассказали, что коллеги могут присоединиться к вам, если придет интересное оборудование. А как обычно бывает — работаете соло или есть какие-то задачи командные задачи?
Мы постоянно находимся в контакте со специалистами службы поддержки. Недавно мы проверяли с ними отказной сервер — клиент решил перейти на использование виртуальных машин с расширением. В итоге я разобрал сервер, а его компоненты отправил на склад. Или еще пример — когда нужно было проапгрейдить IT-инфраструктуры в разных дата-центрах через DWDM. Это обычная история, когда клиент размещает свои данные в обоих наших ЦОДах, чтобы добиться еще большей отказоустойчивости. Такую работу мы выполняем совместно с техником и сотрудником сетевого отдела.
Что происходит с нерабочими компонентами? Какая их судьба?
Из последнего примера: на оборудовании клиента вылетел GPU; по договору с клиентом мы закупили и хранили у себя на складе идентичную модель. Это позволило быстро выполнить замену и вернуть сервис в штатный режим работы. Неисправную GPU я упаковал и отправил в сервисный центр. На тот момент на нее все еще распространялась гарантия производителя, поэтому он прислал новую исправную, а мы положили ее в резервный фонд клиента.
Бывает иначе: однажды нам предстояло заменить по гарантии накопитель от HPE для VIP-клиента, который размещает у нас оборудование. Мне нужно было встретить представителя вендора и сопроводить его до клиентского сервера. Обычно это занимает довольно много времени, поэтому до конца смены я успел лишь его дождаться и зарегистрировать как посетителя. А дальше я передал информацию о нем своему коллеге, который сменил меня на рабочем месте.
С неисправными накопителями отдельная история. Каждую последнюю пятницу месяца у нас hardware day, когда мы физически уничтожаем и утилизируем вышедшие из строя диски с помощью специального станка. Проделываем это раз в месяц и довольно давно, поэтому на сегодня уже утилизировано очень много накопителей.
Клиенты контролируют работу технических специалистов в ЦОДе? У них есть возможность установить контакт с вами напрямую, например, чтобы донести свои пожелания?
Обычно мы общаемся через службу поддержки, но бывают исключения — когда клиент заказывает у нас услугу «удаленные руки» и мы по его техзаданию выполняем на месте необходимые работы. Мы предоставляем более качественные услуги, чем большинство дата-центров, поэтому периодически получаем запросы на обслуживание клиентов других ЦОДов. Там мы точно также документируем изменения в IT-инфраструктуре и опционально, если пожелает клиент, управляем его подменным фондом.
В одном из недавних таких случаев мне довелось выехать в другой, не относящийся к Colobridge, дата-центр, где также размещалась IT-инфраструктура нашего клиента. Там мне предстояло получить в собственном почтовом отделении ЦОДа два накопителя и установить их в сервер. Работу я выполнял фактически вместе с администратором клиента — мы общались с ним в режиме реального времени по телефону и в чате.
Вы можете свободно посещать любые другие дата-центры? Это нормальная практика?
В большинстве случаев да. Единственный момент — в других дата-центрах время регистрации посещения может занимать более 30 минут. По этому во время первого ознакомительного визита мы проходим и описываем полностью процесс регистрации, чтобы коллегам была понятна процедура. Далее клиент регистрирует посещение через внутренний портал своего дата-центра, после чего мы можем беспрепятственно выполнять свою работу. Также мы согласовываем с клиентом время реакции на запрос с учетом подобных задержек. Например, в наших дата-центрах процедура настолько отработана, что время контроля доступа не превышает 5 минут. И здесь дело не в потраченном рабочем времени — намного важнее оперативно отреагировать на запрос клиента.
Надеемся, вам понравился фрагмент нашего бэкстейджа и вы открыли для себя нашу компанию немного с другой стороны. Предлагаем убедиться в профессиональном и ответственном подходе всего коллектива Colobridge. Для этого напишите нам в чате или закажите обратный звонок, чтобы получить консультацию по выбору услуги или бесплатно протестировать наше облако.