Сегодня мы живем в эпоху бурного роста возможностей, которые демонстрируют модели искусственного интеллекта (ИИ). Наиболее заметны успехи языковых и генеративных моделей, например, ChatGPT или Midjourney, поскольку благодаря им нейросети уже стали частью повседневного быта миллионов людей.
Этот прогресс обязан экспоненциальному росту сложности и размера моделей ИИ. С 2012 года эти характеристики удваиваются в среднем каждые 3-4 месяца, и сегодня рекордный размер моделей ИИ превышает 170 триллионов параметров.
Вычислительные ресурсы, требуемые для обучения ключевых моделей машинного обучения между 2010 и 2022 годами. Источник: Jaime Sevilla et al., arXiv.2202.05924
Но у такого прогресса есть и обратная сторона. Вычисления на центральных и графических процессорах потребляют большое количество энергии, что в конечном итоге приводит к заметному увеличению выбросов углекислого газа. Управление обучением таких моделей с точки зрения экологического вклада, то есть минимизация потребления электроэнергии и эквивалентных выбросов CO2, становится важным фактором устойчивого развития.
Пытаясь решить эту проблему, группа учёных из AIRI и Сбера под руководством Семёна Будённого использовала тот факт, что углеродоемкость электроэнергии подвержена значительным суточным колебаниям, а также существенно варьируется между регионами мира. Это означает, что можно запланировать обучение моделей ИИ только на определенные периоды или в регионах с более низкой углеродоемкостью электроэнергии, чтобы уменьшить общий углеродный след, сохраняя при этом желаемую скорость обучения.
Углеродоемкость электроэнергии по странам на 2022 год. Источник: https://ourworldindata.org/grapher/carbon-intensity-electricity
Чтобы реализовать эту идею, исследователи разработали пакет с открытым исходным кодом под названием eco4cast. Это программное обеспечение динамически прогнозирует углеродоемкость электроэнергии и распределяет вычисления по временным интервалам или вычислительным зонам с наименьшим прогнозируемым значением. Прогнозирование осуществляется разработанной авторами нейронной сетью, анализирующей данные о углеродоемкости и 20 показателях погоды в рассматриваемых регионах. Для точного расчета сокращения выбросов углекислого газа eco4cast использует ранее разработанный пакет eco2ai. Планировщик eco4cast может работать как в однозонном, так и в многозонном режиме, а выбор оптимального региона для вычислений на данный момент реализован за счет интеграции с Google Cloud API. Авторы учитывали углеродоемкость электроэнергии для 13 регионов, представленных в Google Cloud.
Однозонный вариант хорошо подходит для пользователей, имеющих доступ к вычислительным ресурсам с единственным поставщиком электроэнергии. Серия экспериментов показала, что этот сценарий обеспечивает значительное сокращение выбросов CO2 (в некоторых случаях до 70%, в среднем до 25%), но требует некоторого увеличения времени обучения. При использовании Google Cloud API доступен многозонный подход, который обеспечивает оптимальный компромисс между временем обучения модели ИИ и сокращением выбросов CO2 (в некоторых случаях до 90%, в среднем до 77%).
Демонстрация работы eco4cast при обучении модели ИИ, начатого 29 мая 2022 года для однозонного режима (Бельгия) и многозонного режима (2 зоны — Бельгия и Швейцария, 3 зоны — Бельгия, Финляндия и Швейцария). Закрашенная область указывает временные интервалы, используемые для обучения в выбранных зонах. Косвенная эмиссия СО2 составила 21,4 кг в базовом эксперименте без использования планировщика, 17,8 кг в однозонном режиме, 16,7 кг в многозонном режиме с использованием 2 зон и 15,2 кг в многозонном режиме с использованием 3 зон.
Авторы надеются, что eco4cast станет важным шагом на пути повышения экологичности столь важного процесса, как обучения моделей ИИ. Код и документация пакета размещены на Github под лицензией Apache 2.0, статья с результатами исследования направлена для публикации в журнал Doklady Mathematics.