Новая модель под названием Genie может использовать короткие описания, нарисованный от руки эскиз или фотографию и превратить их в видеоигру в стиле классических 2D-движков вроде Super Mario Bros. Однако игры получаются не слишком динамичными — частота всего один кадр в секунду, в то время как современные игры обычно идут на 30–60 кадров в секунду.
«Это крутая работа», — говорит Мэтью Гуздиал, исследователь искусственного интеллекта из Университета Альберты, который несколько лет назад разработал аналогичный генератор игр.
Genie обучался на 30 000 часах видео с сотнями 2D-платформенных игр, взятых из интернета». По словам Мэтью, подобный подход уже использовали другие. Например, его собственный генератор игр учился на видео, чтобы создавать абстрактные платформеры. Компания Nvidia использовала видеоданные для обучения модели под названием GameGAN, которая могла создавать клоны таких игр, как Pac-Man.
Но во всех этих примерах модель обучалась на входных действиях (например, нажатиях кнопок на клавиатуре или джойстике), а также на видеоматериалах: кадр видео, на котором Марио прыгает, сопоставлялся с действием Jump и так далее. Привязка видеоматериалов к входным действиям требует большой работы, что ограничивает объем доступных данных для обучения.
В отличие от них, Genie обучался только на видеоматериалах. Затем он узнал, какие из восьми возможных действий заставят игрового персонажа на видео изменить свое положение. Это позволило превратить бесчисленные часы имеющегося в сети видео в потенциальные данные для обучения.
Genie генерирует каждый новый кадр игры на лету в зависимости от действий игрока. Нажмите «Прыжок», и Genie обновит текущее изображение, чтобы отобразить прыжок персонажа; нажмите «Влево», и изображение вновь изменится, демонстрируя, что персонаж переместился влево. Игра развивается действие за действием, каждый новый кадр создается с нуля по мере того, как поступит игрок.
Будущие версии Genie смогут работать быстрее.
Нет никаких фундаментальных ограничений, которые помешали бы нам достичь скорости 30 кадров в секунду. В Genie используются многие из тех же технологий, что и в современных больших языковых моделях, где наблюдается значительный прогресс в повышении скорости вывода
— сказал Тим Роктешель, научный сотрудник Google DeepMind, возглавляющий группу разработчиков.
Genie изучила некоторые распространенные визуальные недостатки, встречающиеся в платформерах. Во многих играх такого типа используется параллакс, когда передний план движется вбок быстрее, чем задний. Genie часто добавляет этот эффект в генерируемые ею игры.
Хотя Genie является внутренним исследовательским проектом и не будет выпущен в продажу, Гуздиал отмечает, что команда Google DeepMind говорит, что в один прекрасный день его можно будет превратить в полноценный инструмент для создания игр — над чем он тоже работает.
Мне определенно интересно посмотреть, что они создадут
говорит он.