Цена роковых ошибок и способы их избежать

Новости и события

Цена роковых ошибок и способы их избежать

Экспертиза ФОРС

Сергей Горбунов, главный инженер-программист службы внедрения и сопровождения компании «Форс – Центр разработки» (ГК Форс)

#Уголок_профессора

Культура и защищённость

25 апреля 2005 года, Япония, Амагасаки. Машинист пригородного поезда превышает скорость в повороте и тот сходит с рельс. Погибает 107 человек, 562 ранено, участок пути закрыт на 55 дней. Вскоре расследование приходит к страшному выводу — виной отношение компании к своим сотрудникам. Ключевой причиной катастрофы стала боязнь машиниста за нарушение графика отправиться на “курсы переподготовки”, которые сводились к регулярным оскорблениям и запугиванию.

В этой статье я хотел бы поделиться своими мыслями о том, что влияет на скорость и качество выполнения своей работы сотрудниками, как одни решения приводят к катастрофам, а другие спасают от многомиллионных убытков, как влияет на них комфорт, питание и даже окружающие цвета в помещении. И начнём мы с того, о чём многие забывают — защищённости сотрудника и культуры поведения в компании.

Интересные выводы содержатся в книге “Кадровое обеспечение: продуктивные проекты и команды” (Peopleware: Productive Projects and Teams), 1987 год. В ней рассматривается то, как человеческий фактор влияет на продуктивность. Ключевые идеи включают: важность правильной организации рабочего пространства и рабочего времени; осознание, что главная проблема не в технологиях, а в людях и их взаимодействии; акцент на создании мотивирующей и продуктивной командной среды.

К схожим выводам приходит и Google в своём проекте “Аристотель”: психологическая безопасность — важнейший фактор. Запугивание сотрудника приводит лишь к повышению стресса и увеличению количества ошибок. Вместо этого сотрудник должен быть уверен в завтрашнем дне, получать отклик от работодателя, мотивацию и поощрение. Развитие проекта “Аристотель” привело к созданию сайта rework.withgoogle.com, где Google публикует своё видение работы с персоналом.

Небезопасная безопасность

19 июля 2024 года. Отменено свыше 5000 рейсов самолётов, на Филиппинах не работали электронные кошельки, сайты, приложения DenizBank недоступны, перебои в работе служб 911 и 112 в США и ЕС, больницы США приостанавливают несрочную медицинскую помощь. Обновление CrowdStrike Falcon приводит к одной из самых массовых аварий в истории IT. Сбой в работе программного обеспечения, отвечающего за информационную безопасность, приводит к ущербу, который оценивается по меньшей мере в 10 миллиардов долларов США.

Защита информационных систем — крайне важная задача, особенно если это касается государственных учреждений. Но защита от внешних угроз не менее важна, чем защита от внутренних. А ведь часто бывает так, что в стремлении обеспечить безопасный внутренний периметр «ставятся палки в колёса» администраторам и разработчикам. Безусловно, внутренние угрозы существуют, однако всегда необходимо соблюдать баланс между защитой серверов и удобством сопровождающих систему сотрудников и подрядчиков.

Давайте представим — у вас отобрали ручку, бумагу, закрыли глаза, а потом удивляются, почему это на подписание документа уходит столько времени. Звучит странно? А ведь именно это часто происходит с администраторами — у них отбирают прямой доступ к системе (ssh и rdp), заменяя консоли эмуляторами. Фактически это уничтожает такие инструменты как Ansible, Zabbix, ELK и т.д.

Важно отметить, что если в компании хотя бы часть сотрудников работает удалённо, то использовать защищенные рабочие места полноценно станет невозможно.

Ошибки в настройке систем безопасности ничуть не менее опасны, а часто — и крайне сложно обнаружимы. Системы часто работают со сторонними API, но вызовы от некоторых сервисов или систем могут случаться крайне редко. Например, это касается системы оповещения о ЧС. В случае её запуска она должна связаться с системами сотовых операторов, операторов связи, телевидением, радио и т.д., но что если кто-то закрыл доступ в интернет и не прописал исключение для API? Проверить это практически невозможно, если только не реализовать тестовые отправки на тех же узлах. Проверка доступности (health check) может не спасти — ограничения могут стоять на размер пакета или тип данных.

Внедряя системы информационной безопасности, крайне важно уделять значительное время тестированию, но не на проникновение, как это часто принято, а на последствия внедрения — всё ли работает, не блокируется ли функционал, все ли сотрудники имеют необходимый доступ, обеспечена ли достаточная скорость реакции, работают ли интеграции, обновления и т.д. Причём такое тестирование необходимо проводить не только при внедрении ПО, но и в процессе его обновления сначала на тестовом контуре, а лишь затем на «боевом». Было бы такое тестирование произведено, ошибки CrowdStrike не привели к столь серьёзным последствиям.

Время на сон

8 декабря 1946 года, станция Обь. В результате столкновения поездов погибло 110 человек, 133 получили ранения. Причиной было то, что машинисты паровоза уснули на спуске перед станцией. По местному времени было 3 часа ночи, а локомотивная бригада грузового поезда работала непрерывно уже 18 часов. В результате была значительно сокращена продолжительность рабочих смен до 12, а в ряде случаев и до 8 часов. Машинисты были оправданы.

16 июля 2021 года. Разбился самолёт Ан-28 авиакомпании «Сибирская лёгкая авиация». Из отчета следует, что двигатели отказали из-за срыва льда. Аварии способствовали усталость экипажа и неисправность датчика сигнализации обледенения. Противообледенительная система не была своевременно включена из-за невнимательности летчиков, вызванной усталостью. За сутки это был десятый полет, выполненный экипажем.

А вы соблюдаете режим отдыха специалистов? Есть ли у вас сотрудники дежурной смены, которые реагируют на события в нерабочее время? Если да, это здорово, но если вы ночью лишаете сна инженеров, работавших днём, у меня для вас плохие новости. Последствия описаны еще в 1997 году в статье Доусона Д. и Рида К. “Усталость, алкоголь и снижение работоспособности” (Fatigue, alcohol and performance impairment).

Сон — крайне важная составляющая полноценного отдыха человека, а устроен он не так просто. Спать 8 часов в сутки просто необходимо — после 17 часов непрерывного бодрствования когнитивные и психомоторные показатели снижаются до уровня, эквивалентного ухудшению производительности, наблюдаемому при концентрации алкоголя в крови 0,05%. После 24 часов без сна эффект может быть еще сильнее, эквивалентным 0,1% промилле, что превышает допустимый предел для вождения в некоторых странах, например, в США.

Не менее важны и фазы сна. Если разбудить человека в фазе глубокого сна, он будет когнитивно заторможен даже через час. Таким образом, разбудив администраторов ночью, вы получите сотрудника со способностью быстро диагностировать проблему, сопоставимой с состоянием легкого опьянения.

Устаревание документации

28 марта 1979, США. Авария на АЭС Три-Майл-Айленд. Не обнаруженная своевременно утечка теплоносителя привела к расплавлению активной зоны реактора. Одной из причин считается морально устаревшая документация, а также длительное неустранение дефектов.

Вы когда-нибудь пытались восстановить из архива систему 5-летней давности? А 10-летней? Вроде дистрибутив есть, документация в наличии, но вот беда — репозитории ОС удалены, системного ПО тех лет давно нет, а на современном она просто не работает. Рекомендую, попробуйте поставить CentOS 5 и установить на него хотя бы веб-сервер — увлекательный процесс, вы даже китайский язык выучите в процессе чтения форумов.

Упомянутая документация тоже дает о себе знать. Далеко не все вендоры оставляют документацию по неподдерживаемым версиям доступной, а документация по системам многолетней давности может быть давно утеряна, либо вообще никогда не существовала. Ожидать быстрой работы с такими системами не стоит.

Подход «главное продукт, а документация потом» хорош для старта, но стоит только с этим повременить и проблемы будут копиться как снежный ком. Подключение новых сотрудников с каждым разом будет становиться всё сложнее, а уход ключевых фигур может положить конец проекту. Уже на старте необходимо выделять время на документирование и наведение порядка.

Устаревшее оборудование тоже часто преподносит сюрпризы — если проблемы с запасными частями еще хоть как-то ожидаемы и решаемы, то невозможность установить тот или иной современный софт на устаревшие сервера может стать серьёзным препятствием.

Конечно, когда мы говорим об устаревании, нужно помнить и об уязвимостях, ведь уязвимым может быть не только системный софт и ОС, но и самописные решения, а самое главное — железо.

Только офис

2019 год. COVID-19 привёл к катастрофическим последствиям. Из-за невозможности быстро организовать удалённый доступ была парализована работа множества организаций. Даже некоторые IT-компании оказались к этому не готовы.

Большинство крупных исследований (Stanford, Gartner, Harvard, Buffer, GitLab) сходятся в одном: удаленная работа в среднем повышает производительность при решении индивидуальных задач, но может снижать эффективность в задачах, требующих тесной синхронной коммуникации, инноваций или наставничества.

Работая дома, можно обустроить своё рабочее место, использовать более качественное оборудование, удобную мебель, комфортный температурный режим — больше никаких драк за пульт от кондиционера. Всегда есть возможность отключить телефон, чтобы сосредоточиться на сложной задаче. По данным Buffer (2024), 91% удаленщиков говорят, что у них улучшился баланс работы и личной жизни.

Но есть и негативные факторы: исследование Microsoft в 2022 году показало, что удаленка снижает «информационную связность» в командах на 25%, а Всемирная Организация Здравоохранения в 2023 году озаботилась отсутствием личных границ, что особенно остро для “on-call” специалистов: пуш-уведомления, письма и звонки преследуют даже в выходные.

Есть и другие проблемы — домашние ПК и сети менее защищены, что может приводить к утечкам и проникновению злоумышленников в корпоративные системы. Страдает обмен опытом, коммуникация между сотрудниками, падает скорость принятия решений, согласований, получения необходимых доступов.

Определяя график работы своих специалистов, стоит найти баланс. Безусловно, есть ряд задач, где удалённая работа невозможна, но если всё, что нужно человеку для работы — его ноутбук, зачем заставлять его работать в офисе, тратя деньги на аренду и заставляя его проводить лишние 2 часа в дороге?

А что еще?

Мы уже знаем, что повышение уверенности сотрудника в завтрашнем дне положительно сказывается на его работе и результатах, информационная безопасность может значительно увеличивать время реагирования, а документация быть причиной крупных аварий. Но удивитесь ли вы, если я скажу, что цвет помещения, приём пищи, запахи и даже порядок на рабочем столе тоже влияют на производительность труда? На самом деле, на производительность и результативность работы влияет практически всё.

Исследование "Self-control relies on glucose as a limited energy source: Willpower is more than a metaphor" 2007 года показывает, что на работоспособность влияет и прием пищи — повышение глюкозы в крови может приводить к «пищевой сонливости», когда мозг переходит в режим отдыха, но и нехватка глюкозы приводит к снижению продуктивности.

Недостаток света приводит к утомлению глаз, головным болям, снижению концентрации и увеличению вероятности травм. Холодный свет повышает внимательность и скорость реакции, хорошо подходит для задач, требующих высокой концентрации. Нейтральный оптимален для длительной работы, обеспечивая баланс между комфортом и продуктивностью. Теплый свет способствует расслаблению, креативному мышлению и отдыху, подходит для брейнштормов.

Музыка, запахи, наличие растений, даже погода могут влиять на работоспособность. Поэтому в следующий раз, когда захотите отругать сотрудника за низкую производительность, задумайтесь о его распорядке дня, окружении, удобстве инструментов для работы и его мотивации.

Работай!

В заключение я хотел бы поделиться тем, что опытные руководители и так знают, но зачастую игнорируют. Для оценки загруженности сотрудника недостаточно просто посмотреть, что он делает, особенно это касается высококвалифицированных должностей. Заходите вы к разработчикам, а они играют в настольный футбол — почему не за работой?

Ну, во-первых, они могут в это время совещаться и обсуждать решение сложной задачи, для этого не обязательно сидеть с кислым выражением лица в переговорной. Во-вторых, решение сложных задач приводит к повышенной усталости и без перерыва работать просто невозможно.

Обратите внимание на то, как решают задачи начинающий (Junior), уже обученный (Middle) и профессионал (Senior) на примере системных администраторов. Junior большую часть времени будет что-то искать, суетиться, пытаться кого-то спросить или сидеть, не зная, что делать. В последнем случае — это большая недоработка курирующего его специалиста. Middle, скорее всего, бросится быстро решать задачу, уже зная, какие команды необходимо выполнить и на каком сервере. Но вот Senior будет вести себя совсем по-другому. Во-первых, скорость набора команд у него будет ниже, потому что он точно знает, к чему приводят опечатки. Во-вторых, во многих случаях он не побежит немедленно выполнять задачу, а сначала подумает, как это сделать лучше, быстрее и эффективнее. В-третьих, он чаще будет пользоваться профессиональным инструментарием — зачем выполнять команду на нескольких серверах, когда есть Ansible? Зачем руками составлять отчёт, когда есть SQL и Zabbix?

Ещё Генри Форд использовал поистине гениальную систему — он оплачивал ремонтным бригадам время, когда на заводе не было поломок. Это стимулировало сотрудников быстрее и качественнее выполнять ремонт, а также своевременно обслуживать оборудование. К сожалению, сейчас такой подход невозможен, с большой вероятностью численность их будет такова, чтобы только и успевать устранять аварии.

Что важнее — чтобы сотрудник «работал» или чтобы он показывал результат? Оценивайте в первую очередь решённые задачи, а не способ их решения. Да, внешне сотрудник может сидеть и ничего не делать, на деле же он обдумывает очередную крайне сложную и трудоёмкую задачу, либо отдыхает от предыдущей. И помните, если ваш системный администратор ничего не делает, а всё работает, то это крайне хороший специалист.