Новые флагманские видеокарты NVIDIA столкнулись с проблемами в виртуальных машинах
Последние топовые графические ускорители NVIDIA — GeForce RTX 5090 и RTX 6000 PRO — неожиданно обнаружили неприятный баг при использовании в виртуальных машинах. Разработчики из компании CloudRift, которая создаёт облачные сервисы с GPU-вычислениями для искусственного интеллекта, заметили, что спустя несколько дней или недель работы видеокарты могут внезапно «зависать». При этом виртуальная машина блокируется, а GPU перестаёт отвечать на любые запросы.
Интересно, что проблема проявляется только у новейших флагманов — RTX 5090 и профессиональной модели RTX 6000 PRO. Старшие карты предыдущего поколения, например GeForce RTX 4090, а также серверные видеоускорители NVIDIA — такие как H100 и B200 — сбоев не показывают.
В чём корень проблемы?
Сбой связан с особенностями перезапуска видеокарты в средах виртуализации. Когда виртуальная машина перестаёт использовать GPU, хост-система должна отправить так называемый PCIe Function Level Reset (FLR) — «функциональный перезапуск» интерфейса PCIe. Это сбрасывает видеокарту в исходное состояние, чтобы её можно было повторно назначить другой виртуальной машине.
У RTX 5090 и RTX 6000 PRO этот сброс работает некорректно — карта «застревает» в неподходящем состоянии. В Linux через несколько секунд появляется ошибка с тайм-аутом: «not ready 65535ms after FLR; giving up» — то есть «устройство не готово спустя более 65 секунд после FLR; отказ». Это указывает на проблему в самом железе или его микропрограмме, а не в программной части виртуализации, так как на других видеокартах NVIDIA сброс проходит без проблем.
Распространённость и текущие решения
Разработчики из CloudRift — не единственные, кто столкнулся с этим багом. Пользователи и специалисты на профильных форумах, например Level1Techs, также сообщают о схожих симптомах. Это значит, что проблема затрагивает всех, кто пытается использовать новинки NVIDIA в виртуализированных рабочих нагрузках.
В NVIDIA уже подтвердили наличие проблемы и предложили временное решение — использовать кастомное ядро Proxmox версии 6.14.8-2-bpo12-pve. Этот патч снижает частоту зависаний, но не устраняет баг полностью, и сбои по-прежнему возможны.
Что делать пользователям и компаниям?
Из-за нестабильности новых карт в виртуальных средах компании, работающие с облачными GPU-платформами, советуют временно оставаться на более проверенных решениях: GeForce RTX 4090 или серверных ускорителях серии H100. Для тех, кому важна максимальная надёжность при работе с виртуализацией, RTX 5090 и RTX 6000 PRO пока что — не лучший выбор.
CloudRift даже объявила приз в $1000 за полноценное решение проблемы, что подчёркивает серьёзность ситуации.
Перспективы и выводы
Эксперты ожидают, что NVIDIA в ближайших обновлениях драйверов или, возможно, в сотрудничестве с сообществом Linux, всё же выпустит полноценный фикс. Однако на данный момент пользователям следует учитывать риск и ограничивать использование новых топовых видеокарт именно в задачах с виртуальными машинами.
Для российского рынка это значит, что при покупке RTX 5090 или RTX 6000 PRO для профессиональных облачных или виртуальных сред стоит тщательно взвесить риски. Профессиональные решения на базе H100, несмотря на высокую стоимость — от 1,5 миллиона рублей и выше — пока выглядят более надёжными.
Комментарий эксперта: «Проблемы с виртуализацией на старте — не редкость для новых видеокарт, ведь функционал сбросов и восстановления состояния GPU сложно отладить сразу. NVIDIA активно работает над устранением багов, но в промежутке рекомендую выбирать проверенные платформы и внимательно тестировать оборудование в рабочих сценариях», — отмечает системный архитектор облачных систем Максим Иванов.