Google использует машинное обучение, чтобы повысить эффективность центров обработки данных

Интернет-гигант применяет машинное обучение и искусственный интеллект для повышения эффективности своих дата центров. Как сообщил Джо Кава, вице-президент направления ЦОД в Google, компания начала применять нейронные сети для анализа огромного количества данных, собираемых на серверах, и выдачи рекомендаций по усовершенствованию их работы.

Фактически, Google построил компьютер, который знает о его дата-центрах даже больше, чем сами инженеры. Человеческий ресурс не списывается со счетов, но Кава считает, что использование нейронной сети даст Google возможность достичь новых горизонтов в эффективности работы серверных ферм благодаря выходу за рамки того, что могут увидеть и проанализировать инженеры.





Под управлением Google уже находится несколько наиболее энергоэффективных дата-центров на планете. Использование искусственного интеллекта даст Google возможность заглянуть в будущее и смоделировать тысячи схем работы своих ЦОДов.

На ранних этапах использования нейронные сети позволяли Google предсказать коэффициент PUE с точностью 99,6%. Рекомендации эти при всей кажущейся незначительности привели к существенной экономии средств, т.к. были применены к тысячам серверам.

Почему же Google обратился к машинному обучению и нейронным сетям? Главная причина кроется в том, что дата центры постоянно расширяются, что становится вызовом для Google, использующего сенсоры для сбора миллионов значений данных об инфраструктуре и потреблении энергии.

«В такой динамической среде, как ЦОД, человеку порой сложно увидеть все взаимосвязи переменных системы», – говорит Кава. – «Мы долго работаем над оптимизацией работы ЦОД. Все безусловно лучшие способы уже были внедрены, но мы не должны останавливаться!»



Знакомьтесь, мальчик-гений

Нейронная сеть Google создана Джимом Гао, инженером Google, которого коллеги прозвали “мальчик-гений” из-за способности анализировать большие объемы данных. Гао занимался анализом систем охлаждения, применяя принципы гидродинамики и данные мониторинга для создания 3D модели воздушных потоков внутри серверного зала.

Гао считал, что можно создать модель, отслеживающую еще больший набор переменных, включая загруженность ИТ-оборудования, погодные условия, работу охладительных башен, водяных насосов и теплообменников, которые поддерживают нормальную температуру серверов Google.

«Компьютеры хороши тем, что могут видеть всю сокрытую в данных историю. Джим взял информацию, которую мы собираем ежедневно и прогнал ее через свою модель, чтобы прийти к пониманию сложных цепочек взаимодействия, к пониманию смысла, который могли не заметить работники, будучи простыми смертными» – пишет Кава в своем блоге. «Благодаря серии проб и ошибок, модель Джима теперь дает точность 99,6% в подсчете PUE. Это значит, он теперь может применять модели в поисках новых способов увеличить эффективность наших действий». Изображение ниже показывает корреляцию между предсказанным (черная кривая) и фактическим (жёлтая кривая) изменениями PUE.



Как это работает

Гао начал работать над машинным обучением как над «20-процентным проектом». По традиции Google позволяет своим работникам тратить часть своего рабочего времени на разработку инноваций, помимо своих основных обязанностей. Гао не был специалистом в искусственном интеллекте. Чтобы изучить ключевые моменты в машинном обучении, Гао прошел курс в Стэнфорде у профессора Эндрю Ына.

Нейросеть имитирует работу мозга человека, позволяя компьютеру понимать и «учить» задачи без необходимости их программирования в явном виде. Поисковик Google часто приводится как пример такого типа обучения, что также является одним из ключевых направлений исследований в компании. «Эта модель – не более чем набор вычислений дифференциальных уравнений – объяснил Кава. – «Но вы должны понимать математику. Модель начинается с изучения взаимодействия переменных».

Для начала Гао нужно было выявить ключевые факторы, влияющие на энергоэффективность в ЦОДах Google. Он сузил количество этих показателей до 19 и спроектировал нейронную сеть, машинную систему обучения, способную распознавать шаблоны в крупных массивах данных.

«Огромное количество комбинаций оборудования и настроек усложняет нахождение оптимальной эффективности», – пишет Гао в своем докладе. – «В работающем ЦОДе задачи могут быть реализованы множеством комбинаций оборудования (механического и электрического) и ПО (стратегии управления и установки). Проверить каждую комбинацию для повышения эффективности практически невозможно – есть временные ограничения, частые колебания нагрузки в работе ИТ-оборудования, погодные условия, а также необходимость поддерживать стабильную работу ЦОД.»



Работает на единственном сервере

Что касается оборудования, то по заявлению Кавы, система не требует невероятных вычислительных мощностей и работает на одном сервере, а смогла бы работать даже на одном высококлассном настольном компьютере.

Система была запущена на нескольких дата-центрах Google. Инструмент машинного обучения смог предложить несколько изменений, приведших к постепенному улучшению PUE, включая усовершенствование распределения нагрузки при увеличении мощности инфраструктуры, а также небольшие изменения температуры водяной системы охлаждения.

«Последние тесты в ЦОДах Google показали, что машинное обучение — эффективный метод использования существующих показаний датчиков для моделирования распределения энергии в ЦОД и ведет к существенной экономии средств», – пишет Гао.

Машины не берут верх

Кава считает, что этот инструмент поможет Google моделировать и совершенствовать другие проекты в будущем. Но не стоит волноваться, дата-центры Google еще не скоро обзаведутся самосознанием. Сейчас компания интересуется автоматизацией, и даже недавно приобрела компании-разработчиков робототехники, но пока ни один из ЦОДов Google не работает исключительно на автоматизированном управлении».

«Нам все еще нужны люди, чтобы делать правильные выводы обо всем этом», – говорит Кава. – «И я все еще хочу, чтобы наши инженеры ознакомились с этими рекомендациями».

Наибольшие бонусы использования нейросети проявятся в грядушие годы, при строительстве новой серверной площадки Google. «Я предвижу использование этого принципа в проектировании дата центров», – говорит Кава. – «Эту передовую технологию можно использовать и при проектировании, и при дальнейших усовершенствованиях. Думаю, мы найдем и другие способы применения».

Google поделился своим подходом к машинному обучению в статье Гао, надеясь, что те, кто также управляет мощными дата-центрами, смогут применить это на практике. «Этот механизм – не что-то особенное, что может применять только Google или только Джим Гао», – говорит Кава. – «Мне бы очень хотелось увидеть более широкое применение этой технологии. Я думаю, вся отрасль только выиграет от этого. Это восхитительный инструмент, позволяющий стать настолько эффективным, насколько это возможно».

Источник: habrahabr.ru/company/ua-hosting/blog/230627/