MuZero осваивает го, шахматы, сёги и игры Atari не зная правил

По

25.12.2020

270

views

DeepMind поставил перед собой задачу показать, что ИИ не только может стать профессионалом в определенной игре, но и может преуспеть в ней, даже не зная правил. Новый AI-агент под названием MuZero выполняет это не только с визуально простыми стратегическими играми, такими как го, шахматы и сёги, но и с визуально сложными играми от Atari.

ИИ, победивший чемпионов мира в Го, AlphaGo, знал правила и держал их в «уме», изучая игры между людьми и формируя набор лучших практик и стратегий. Следующая версия AlphaGo Zero сделал это без человеческих данных, играя только против себя. AlphaZero сделал то же самое с шахматами и сёги в 2018 году, создав единую модель искусственного интеллекта, которая могла бы умело играть во все эти игры.

Но во всех этих случаях ИИ был представлен набор неизменных, известных правил игр, создавая основу, вокруг которой он мог строить свои стратегии. Если вам говорят, что пешка может стать ферзем, вы планируете это с самого начала, но если вам самим предстоит это выяснить, вы можете разработать совершенно другие стратегии.

Как поясняет DeepMind в своем новом исследовании, что если ИИ сообщают правила заранее, «это затрудняет их применение к беспорядочным проблемам реального мира, которые обычно сложны и их трудно свести к простым правилам».

Таким образом, последним достижением компании является MuZero, который играет не только в вышеупомянутые игры, но и во множество игр Atari, и делает это без знания свода правил. Последняя модель научилась играть во все эти игры не только путем экспериментов, но и без указания даже самых элементарных правил.

Возможно, вы помните Agent57, еще одно творение DeepMind, которое преуспело в наборе из 57 игр Atari. MuZero берет лучшее от этого ИИ и сочетает его с лучшим от AlphaZero. MuZero отличается от первого тем, что он не моделирует всю игровую среду, а фокусируется на частях, влияющих на принятие решений, а от второго тем, что он основывает свою модель правил исключительно на собственных экспериментах и самостоятельно полученных знаниях.

Понимание игрового мира позволяет MuZero эффективно планировать свои действия, даже если игровой мир, как и многие игры Atari, частично рандомизирован и визуально сложен. Это приближает его к ИИ, который сможет безопасно и разумно взаимодействовать с реальным миром, учиться понимать мир вокруг него.

Источник: robogeek.ru