Меню

Новый алгоритм DeepMind добавляет искусственному интеллекту «память»

16 марта 2017, четверг

Компания DeepMind стала широко известна в 2014 году, тем, что научила системы машинного обучения играть в игры Atari — играть и побеждать лучше чем люди, но она все еще не могла научить искусственный интеллект «запомнить», то, как это было сделано. И вот сейчас команда исследователей DeepMind и Imperial College London разработала алгоритм, который позволяет нейронным сетям учиться, сохранять информацию и использовать ее снова.

«Раньше у нас была система, которая могла научиться играть в любую игру, но она могла научиться играть только в одну игру», — говорит James Kirkpatrick, научный сотрудник DeepMind. «Здесь мы демонстрируем систему, которая может научиться играть в несколько игр одну за другой». Работа, опубликованная в журнале «Proceedings of the National Academy of Sciences journal», объясняет, как искусственный интеллект от DeepMind может последовательно обучаться, используя контролируемое обучение и обучающие тесты.

«Способность последовательно изучать задачи, не забывая, является ключевым компонентом биологического и искусственного интеллекта», — пишут авторы доклада. James Kirkpatrick говорит, что «существенным недостатком» в нейронных сетях и искусственном интеллекте является неспособность передать то, чему он научился, от одной задачи к другой.

Группа говорит, что смогла показать «постоянное обучение», основанное на «синаптической консолидации». В человеческом мозге процесс описывается как «основа обучения и памяти».

Чтобы дать системам искусственного интеллекта память, исследователи DeepMind разработали алгоритм под названием EWC. «Наш алгоритм помнит старые задачи, выборочно замедляя обучение на более важных задачах», — говорится в статье. Kirkpatrick объясняет, что алгоритм выбирает то, как он научился успешно играть в одну игру, и сохраняет самые полезные данные.

Чтобы проверить алгоритм, DeepMind использовала глубокие нейронные сети, называемые Deep Q-Network (DQN), которые ранее использовались для прохождения игр Atari. Однако на этот раз DQN был «усилен» алгоритмом EWC. Он протестировал алгоритм и нейронную сеть на случайном выборе из десяти игр Atari. Каждая игра была сыграна 20 миллионов раз, прежде чем система автоматически переходила к следующей игре Atari.

«Раньше DQN приходилось учиться играть в каждую игру по отдельности», — говорится в статье. «В то время как расширение DQN при помощи EWC позволяет ему учиться последовательно во многих играх, без ущерба от катастрофического забывания». По сути, глубокая нейронная сеть, использующая алгоритм EWC, смогла научиться играть в одну игру, а затем перенести то, что чему она научилась в новую игру.

Но это далеко еще не конец и не полный успех, как может показаться. «На данный момент мы продемонстрировали последовательное обучение, но мы не доказали, что это улучшило эффективность обучения», — говорит Kirkpatrick. «На следующих этапах мы попытаемся использовать последовательное обучение, чтобы улучшить обучаемость искусственного интеллекта в реальном мире».