Что значит чему-то научиться?

В 1948 году Дональд Хебб, описал предположительный метод, которым мозг человека тренирует и обучает себя. Тогда это было настоящей революцией, настолько, что гипотеза Хебба, превратилось в “обучение Хебба”, который стал один из фундаментальных алгоритмов машинного обучения.

Гипотеза Хебба, заключается в том, что нейроны головного мозга, при взаимодействии возбуждаются друг об друга, эффективность и длительность возбуждения усиливается со временем, а связь между двумя нейронами укрепляется, возникают новые шаблоны и модели поведения.

Чтобы обучить AlphaGo, ученым необходимо создать алгоритм, который повторяет работу мозга. Для победы в игре, программа должна повторить, не только образ мышления живого человек, но еще и интуитивные действия при изменяющихся условиях, код из 0 и 1 необходимо “ожить”. Да в контролируемой и “узкой” среде доски для игры в го с полем 19 на 19, но ожить. Научить выбирать самостоятельно наиболее оптимальное действие, для оказания воздействия на среду обитания.

Deep Blue, для того чтобы, научиться перебирать комбинации потребовалась группа экспертов, в то время как AlphaGo использовала кардинально иной подход. Она научилась играть в го, как это сделал бы человек. Методом проб и ошибок. Разработчики загрузили в программу 100 000 любительских партий и позволили программе играть против самой себя. Со временем программа играла против разных версия себя и училась, училась и училась. До тех пор, пока однажды не победили чемпиона Европы, Фань Хуэем, который на момент матча обладал 2 даном в рейтинге игры.

Игра против самой себя, разными версиями, позволила программе научиться на собственных ошибках. Идея, заложенная программистами в основу Alpha Go, вдохновила последующие исследования ИИ, но самое важное, как нам кажется, заставило задуматься над тем, что это значит быть человеком.

Искусственные нейронные сети, которые стали возможными, в том числе благодаря Alpha Go, позволяют современным компьютерам и человеку делать много больше чем раньше. Сегодня нейронная сеть может научить себя, бесспорно в пределах того, что ей позволит человек, но может. Тем не менее вопрос, что значит научиться и что такое интеллект остается открытым. Более того, не просто открытым, а проблемой, к которой пока сложно подступиться.

Нам кажется, что если мы сможем ответить, что такое интеллект, то и создать искусственный интеллект не будет великой проблемой. Ближе всего к этому подобрались Барто и Саттон. В 1998 году они издали книгу “Обучение с подкреплением”, в которой формализовал принцип обучения с подкреплением. Мы предполагаем немного пересмотреть термин и использовать, обучение с “сильной” петлей обратной связи.

Любой учитель скажет, что не сложно выдать работу ученикам для самостоятельной отработки и проверить любой объем тоже не станет серьезной сложностью при обучении чему-либо. Проблема возникает в момент, когда необходимо предоставить обратную связь и скорректировать будущие действия. Форма и формат обратной связи от учителя к ученику, одно из узких мест системы обучения. Барто и Саттон пытаются решить проблему интеллекта через “сильную” петлю обратной связи, обучая исполнителя, действующего в определенных условиях взаимодействовать со средой.

В самом широком смысле слова, средой может быть что угодно. Для трейдера, торгующего на рынке, может быть график котировок. Учительская среда, это класс с обучающимися. Исследователю, для успешной публикации нужна среда научных работ. Писатель, учится рисовать миры в безграничной среде своего воображения. Средой игрока в шахматы, го, шашек, нард является поле для игры и фигуры.

Цель очевидна, исполнитель взаимодействует со средой, а среда предоставляет обратную связь. То что можно увидеть или прочувствовать. Однако существует один особый вид обратной связи, который и делает из нее “сильную”, вознаграждение. Чем оно выше, в ходе действия, тем корректней принятое решение.

Отдельно стоит выделить, что в нашем случае не идет речь о теории вознаграждения, а скорее о математическом расчете. Трейдеру для принятия решений нужно точно понимать отношение между риском между доходностью и убыточностью сделки, учителю в школе “силу” группы и способ обучения. Ученому, возможно, понимание усилий на написание и актуальность темы. Игроку в го, рассчитать ход, который увеличит вероятность победы.

Подобная модель взаимодействия с окружающей средой превосходно переноситься на повседневную жизнь. Проголодались, решили разогреть обед, и даже это простое действие имеет сложную модель принимаемых решений и действий. С задачами, подзадачами, которые вместе делают из простого “разогреть обед”, сложный процесс:

Открыть холодильник.
Достать из холодильника, контейнер со вчерашним пловом.
- Для этого нужно открыть холодильник.
- Найти среди полок нужный контейнер.
- Протянуть руку и вынуть.

Другой набор сложных взаимодействий связан с подготовкой тарелки, вилки и разогрева. Каждое действие требует поиск объекта, создания целенаправленного движения тела. На ходу принимаются моментальные решения о том в какую руку брать, как нести, по отдельности или все вместе. Каждый шаг подзадачи регулируется целью, и он выступает подкреплением и основанием для следующего действия, для того чтобы избавиться о чувства голода. Мы не говорим о том, какую роль в этом процессе играет тело, которое регулирует необходимость утолить чувство голода и определяет предпочтения в еде.

Решения принимаются в зависимости от той вероятности получения награды, которая будет в результате действия. Очевидно, что никто не выберет следующую последовательность для утоления голода: взять в руки телефон, полистать ленту социальной сети, выключить телефон.

Гроссмейстер поступает аналогичным образом, принимает решение следующего хода в соответствии как он представляет ожидаемое ответное действие оппонента и его реакции. Полагается при этом на моментальное, интуитивное ощущение ситуации, желаемого результата, который может получиться в результате отдельного перемещения фигуры или серии ходов.

Ребенок впервые встает на ноги, опираясь на предметы, балансирует, недалеко от того что может помочь ему избежать падения, пытается сделать первые шаги, понимая, что ходить это лучше, чем когда тебя переносят из одного место в другое. Наградой за многократные падения станет возможность перемещаться самостоятельно.

Таким образом и происходит естественное обучение, природа учит через взаимодействия с объектами среды, подталкивает тестировать и проверить пределы доступного. Удивительным образом этот же подход лежит в основе многих теорий обучения и развития интеллекта.

Следует поднять вопрос, почему современные образовательные учреждения не используют подход при котором обучение случается в результате органичного взаимодействия со средой. Учителя, впервые видят детей во время практики, а это четвертый курс. Финансисты работают с деньгами только после того как окончили университет и это если повезет. Почему бы не сделать обратный цикл, когда обучаешься при взаимодействии. Мы согласны, что подобное обучение не подходит в тех областях, в которых действия сопряжены с риском и здоровьем, например медицины. Проблема в том что подобное не практикуется и там где можно позволить себе некоторые “вольности”.

Через взаимодействие со средой, обучаясь на своих ошибках и успехах, оценивании вознаграждения, которое получает лишь в конце партии, Alpha Go, научилась играть с человеком на нечеловеческом уровне. Программа принимает решения о каждом следующем ходе, после того как “ощутила” среду, и через многократные попытки понимает, какое действие кажется наилучшим. Для программы доска для игры го, черный или белые камни, определенное их положение не является отдельными элементами системы. Они расцениваются как целостный механизм, проблемное пространство, в которое ей придется следовать цели, победить, оказывая влияние на среду с большим числом неизвестных и высокой степени неопределенности. Соответственно ее задача, изменять своими действиями среду, придавая ей такую форму, которая увеличит шанс на победу.

Оставить комментарий Отменить ответ