Разное

Что такое alphago: AlphaGo на пальцах / Хабр

Содержание

AlphaGo на пальцах / Хабр

Итак, пока наши новые повелители отдыхают, давайте я попробую рассказать как работает AlphaGo. Пост подразумевает некоторое знакомство читателя с предметом — нужно знать, чем отличается Fan Hui от Lee Sedol, и поверхностно представлять, как работают нейросети.

Disclaimer: пост написан на основе изрядно отредактированных логов чата closedcircles.com, отсюда и стиль изложения, и наличие уточняющих вопросов

Как все знают, компьютеры плохо играли в Го потому, что там очень много возможных ходов и пространство поиска настолько велико, что прямой перебор помогает мало.

Лучшие программы используют так называемый Monte Carlo Tree Search — поиск по дереву с оценкой нодов через так называемые rollouts, то есть быстрые симуляции результата игры из позиции в ноде.

AlphaGo дополняет этот поиск по дереву оценочными функциями на основе deep learning, чтобы оптимизировать пространство перебора. Статья изначально появилась в Nature (и она там за пейволлом), но в интернетах ее можно найти. Например тут — https://gogameguru.com/i/2016/03/deepmind-mastering-go.pdf

Шаг 1: тренируем нейросеть, которая учится предсказывать ходы людей — SL-policy network

Берем 160K доступных в онлайне игр игроков довольно высокого уровня и тренируем нейросеть, которая предсказывает по позиции следующий ход человека.
Архитектура сети — просто 12 уровней convolution layers с нелинейностью и softmax на каждую клетку в конце. Такая глубина в целом сравнима с сетями для обработки изображений прошлого поколения (гугловский Inception-v1, VGG, все эти дела)
Важный момент — что нейросети дается на вход:

Для каждой клетки на вход дается 48 фич, они все есть в таблице (каждое измерение — это бинарная фича)

Набор интересный. На первый взгляд кажется, сети нужно давать только есть ли в клетке камень и если есть, то какой. Но фиг там!

Есть и тривиально вычисляющиеся фичи типа «количество степеней свободы камня», или «количество камней, которые будут взяты этим ходом»

Есть и формально неважные фичи типа «как давно было сделан ход»

И даже специальная фича для частого явления «ladder capture/ladder escape» — потенциально долгой последовательности вынужденных ходов.

а что за «всегда 1» и «всегда 0»?

Они просто чтобы добить количество фич до кратного 4-м, мне кажется.

И вот на этом всем сетка учится предсказывать человеческие ходы. Предсказывает с точностью 57% и к этому надо относиться осторожно — цель предсказания, человеческий ход, все же неоднозначен.

Авторы показывают, впрочем, что даже небольшие улучшения в точности сильно сказываются на силе в игре (сравнивая сетки разной мощности)

Отдельно от SL-policy, тренируют fast rollout policy — очень быструю стратегию, которая является просто линейным классификатором.

Ей на вход дают еще больше заготовленных фич


То есть, ей дают фичи в виде заранее заготовленных паттернов

Она гораздо хуже, чем модель с глубокой сетью, но зато сверх-быстрая. Как она используется — будет понятно дальше

Шаг 2: тренируем policy еще лучше через игру с собой (reinforcement learning) — RL-policy network

Выбираем противника из пула прошлых версий сети случайно (чтобы не оверфитить на саму себя), играем с ним партию до конца просто выбирая наиболее вероятный ход из предсказания сети, опять же без всякого перебора.

Единственный reward — это собственно результат игры, выиграл или проиграл.

После того, как reward известен, вычисляем как нужно сдвинуть веса — проигрываем партию заново и на каждом ходу двигаем веса, влияющие на выбор выбранной позиции, по градиенту в + или в — в зависимости от результата. Другими словами, применяем этот reward как направление градиента к каждому ходу.

(для любознательных — там чуть более тонко и градиент умножается на разницу между результатом и оценкой позиции через value network)

И вот повторяем и повторяем этот процесс — после этого RL-policy значительно сильнее SL-policy из первого шага.

Предсказание этой натренированной RL-policy уже рвет большинство прошлых программ, играющих в Го, без всяких деревьев и переборов.

Включая DarkForest Фейсбука?

С ней не сравнивали, непонятно.

Интересная деталь! В оригинальной статье пишется, что этот процесс длился всего 1 день (остальные тренировки — недели).

Шаг 3: натренируем сеть, которая «с одного взгляда» на расстановку говорит нам, какие у нас шансы выиграть! — Value network

Т.е. предсказывает всего одно значение от -1 до 1.
У нее ровно та же архитектура, что и у policy network (есть один лишний convolution layer, кажется) + естественно fully connected layer в конце.

То есть у нее те же фичи?

value network дают еще одну фичу — играет игрок черными или нет (policy network передают «свой-чужой» камень, а не цвет). Я так понимаю, это чтобы она могла учесть коми — дополнительные очки белым, за то что они ходят вторыми

Оказывается, что ее нельзя тренировать на всех позициях из игр людей — так как много позиций принадлежит игре с тем же результатом, такая сеть начинает оверфитить — т.е. запоминать, какая это партия, вместо того, чтобы оценивать позицию.

Поэтому ее обучают на синтетических данных — делают N ходов через SL network, потом делают случайный легальный ход, потом доигрывают через RL-network чтобы узнать результат, и обучают на ходе N+2 (!) — только на одной позицию за сгенерированную игру.

TL;DR: Policy network предсказывает вероятные ходы чтобы уменьшить ширину перебора (меньше возможных ходов в ноде), value network предсказывает насколько выигрышна позиция, чтобы уменьшить необходимую глубину перебора

Внимание, картинко!

Итак, у нас есть дерево позиций, в руте — текущая. Для каждой позиции есть некое значение Q, которое означает насколько она ведет к победе.

Мы на этом дереве параллельно проводим большое количество симуляций.

Каждая симуляция идет по дереву туда, где больше Q + m(P). m(P) — это специальная добавка, которая стимулирует exploration. Она больше, если policy network считает, что у этого хода большая вероятность и меньше, если по этому пути уже много ходили

(это вариация стандартной техники multi-armed bandit)

Когда симуляция дошла по дереву до листа, и хочет походить дальше, где ничего еще нет…

То новый созданный нод дерева оценивается двумя способами

  • во-первых, через описанный выше value network
  • во-вторых, играется до конца с помощью супер-быстрой модели из Шага 1 (это и называется rollout)

Результаты этих двух оценок смешиваются с неким весом (в релизе он натурально 0.5), и получившийся score записывается всем нодам дерева, через которые прошла симуляция, а Q в каждом ноде апдейтится как среднее от всех score для проходов через эту ноду.
(там совсем чуть-чуть сложнее, но можно пренебречь)
Т.е. каждая симуляция бежит по дереву в наиболее перспективную область (с учетом exploration), находит новую позицию, оценивает ее, записывает результат вверх по всем ходам, которые к ней привели. А потом Q в каждом ноде вычисляется как усреднение по всем симуляциям, которые через него бежали.

Собственно, все. Лучшим ходом объявляется нод, через который бегали чаще всех (оказывается, это чуть стабильнее чем этот Q-score). AlphaGo сдается, если у всех ходов Q-score < -0.8, т.е. вероятность выиграть меньше 10%.

Интересная деталь! В пейпере для изначальных вероятностей ходов P использовалась не RL-policy, а более слабая SL-policy.

Эмпирически оказалось, что так чуть лучше (возможно, к матчу с Lee Sedol уже не оказалось, но вот с Fan Hui играли так), т.е. reinforcement learning нужен был только для того, чтобы обучить value network

Напоследок, что можно сказать про то, чем версия AlphaGo, которая играла с Fan Hui (и была описана в статье), отличалась от версии, которая играет с Lee Sedol:

  • Кластер мог стать больше. Максимальная версия кластера в статье — 280 GPUs, но Fan Hui играл с версией с 176 GPUs.
  • Похоже, стала больше тратить времени на ход (в статье все эстимейты даны для 2 секунд на ход) + добавился некий ML на тему менеджмента времени
  • Было больше времени на тренировку сетей до матча. Мое личное подозрение — принципиально то, что больше времени на reinforcement learning. 1 день в изначальной статье это как-то даже не смешно.

Пожалуй, все. Ждем 5:0!

Бонус: Попытка опенсурсной реализации. Там, конечно, еще пилить и пилить.

Пошаговая инструкция по удалению рекламного вируса “ALPHAGO” из браузеров Chrome, Firefox, IE, Edge.

ALPHAGO — это рекламный вирус, при заражении которым браузер вашего компьютера начинает перенаправлять вас на сайты с рекламой вне зависимости от используемого вами браузера.
Вирусы, подобные ALPHAGO, как правило занимаются подменой домашних страниц вашего браузера, меняют поисковый сайт, создают собственные задания в расписании, видоизменяют свойства ярлыков ваших браузеров.

Как происходит заражение вирусом ALPHAGO?

Я очень часто пишу в рекомендациях о вреде установки программ по-умолчанию. Ведь в результате такого необдуманного поступка вы рискуете установить себе кучу нежелательного софта.

А вот сегодня я сам облажался подобным же образом. В результате этого браузер принялся постоянно демонстрировать мне тонны рекламы с сайта ALPHAGO. Я слегка попенял на себя, и приступил к лечению.

Как избавиться от рекламы ALPHAGO?

Конечно для меня это было уже рутинной операцией. Но прежде, чем поделиться инструкцией по удалению вируса ALPHAGO, опишем, что он из себя представляет.

На самом деле это типичный перенаправитель на сайт с рекламой. После доменного имени могут идти разнообразные оконцовки, но домен ALPHAGO присутствует всегда. Во всех этих вариантах ваш браузер переходит на те же рекламные страницы. Также зловред поражает ярлыки ваших браузеров и настройки домашней страницы.

Кроме того рекламный вирус ALPHAGO создает задания для исполнения, для поддержания своего присутствия на вашей машине. Подвергаются атаке все браузеры, которые он сможет найти в вашей системе. Поэтому в результате такой массовой рекламной атаки не мудрено подцепить и что-нибудь более серьезное.

Именно поэтому данный вирус следует уничтожить сразу по обнаружению. Ниже я приведу несложные инструкции, которые помогут вам в лечении. Но как всегда я рекомендую использовать автоматизированный метод как наиболее эффективный и простой.

Инструкция по ручному удалению рекламного вируса ALPHAGO

Для того, чтобы самостоятельно избавиться от рекламы ALPHAGO, вам необходимо последовательно выполнить все шаги, которые я привожу ниже:

  1. Поискать «ALPHAGO» в списке установленных программ и удалить ее.
  2. Открыть Диспетчер задач и закрыть программы, у которых в описании или имени есть слова «ALPHAGO». Заметьте, из какой папки происходит запуск этой программы. Удалите эти папки.
  3. Запретить вредные службы с помощью консоли services.msc.
  4. Удалить “Назначенные задания”, относящиеся к ALPHAGO, с помощью консоли taskschd.msc.
  5. С помощью редактора реестра regedit.exe поискать ключи с названием или содержащим «ALPHAGO» в реестре.
  6. Проверить ярлыки для запуска браузеров на предмет наличия в конце командной строки дополнительных адресов Web сайтов и убедиться, что они указывают на подлинный браузер.
  7. Проверить плагины всех установленных браузеров Internet Explorer, Chrome, Firefox и т.д.
  8. Проверить настройки поиска, домашней страницы. При необходимости сбросить настройки в начальное положение.
  9. Очистить корзину, временные файлы, кэш браузеров.

И все же автоматика лучше!

Если ручной метод — не для вас, и хочется более легкий путь, существует множество специализированного ПО, которое сделает всю работу за вас. Я рекомендую воспользоваться UnHackMe от Greatis Software, выполнив все по пошаговой инструкции.
Шаг 1. Установите UnHackMe. (1 минута)
Шаг 2. Запустите поиск вредоносных программ в UnHackMe. (1 минута)
Шаг 3. Удалите вредоносные программы. (3 минуты)

UnHackMe выполнит все указанные шаги, проверяя по своей базе, всего за одну минуту.

При этом UnHackMe скорее всего найдет и другие вредоносные программы, а не только редиректор на ALPHAGO.

При ручном удалении могут возникнуть проблемы с удалением открытых файлов. Закрываемые процессы могут немедленно запускаться вновь, либо могут сделать это после перезагрузки. Часто возникают ситуации, когда недостаточно прав для удалении ключа реестра или файла.

UnHackMe легко со всем справится и выполнит всю трудную работу во время перезагрузки.

И это еще не все. Если после удаления редиректа на ALPHAGO какие то проблемы остались, то в UnHackMe есть ручной режим, в котором можно самостоятельно определять вредоносные программы в списке всех программ.

Итак, приступим:

Шаг 1. Установите UnHackMe (1 минута).

  1. Скачали софт, желательно последней версии. И не надо искать на всяких развалах, вполне возможно там вы нарветесь на пиратскую версию с вшитым очередным мусором. Оно вам надо? Идите на сайт производителя, тем более там есть бесплатный триал. Запустите установку программы.
  2. Затем следует принять лицензионное соглашение.
  3. И наконец указать папку для установки. На этом процесс инсталляции можно считать завершенным.

Шаг 2. Запустите поиск вредоносных программ в UnHackMe (1 минута).

  1. Итак, запускаем UnHackMe, и сразу стартуем тестирование, можно использовать быстрое, за 1 минуту. Но если время есть — рекомендую расширенное онлайн тестирование с использованием VirusTotal — это повысит вероятность обнаружения не только перенаправления на ALPHAGO, но и остальной нечисти.
  2. Мы увидим как начался процесс сканирования.

Шаг 3. Удалите вредоносные программы (3 минуты).

  1. Обнаруживаем что-то на очередном этапе. UnHackMe отличается тем, что показывает вообще все, и очень плохое, и подозрительное, и даже хорошее. Не будьте обезьяной с гранатой! Не уверены в объектах из разряда “подозрительный” или “нейтральный” — не трогайте их. А вот в опасное лучше поверить. Итак, нашли опасный элемент, он будет подсвечен красным. Что делаем, как думаете? Правильно — убить! Ну или в английской версии — Remove Checked. В общем, жмем красную кнопку.
  2. После этого вам возможно будет предложено подтверждение. И приглашение закрыть все браузеры. Стоит прислушаться, это поможет.
  3. В случае, если понадобится удалить файл, или каталог, пожалуй лучше использовать опцию удаления в безопасном режиме. Да, понадобится перезагрузка, но это быстрее, чем начинать все сначала, поверьте.
  4. Ну и в конце вы увидите результаты сканирования и лечения.

Итак, как вы наверное заметили, автоматизированное лечение значительно быстрее и проще! Лично у меня избавление от перенаправителя на ALPHAGO заняло 5 минут! Поэтому я настоятельно рекомендую использовать UnHackMe для лечения вашего компьютера от любых нежелательных программ!

AlphaGo — Википедия

Материал из Википедии — свободной энциклопедии

AlphaGo — программа для игры в го, разработанная компанией Google DeepMind в 2015 году. AlphaGo стала первой в мире программой, которая выиграла матч без гандикапа у профессионального игрока в го на стандартной доске 19 × 19[⇨], и эта победа ознаменовала собой важный прорыв в области искусственного интеллекта, так как большинство специалистов по искусственному интеллекту считало, что подобная программа не будет создана ранее 2020—2025 годов[⇨]. В марте 2016 года программа выиграла со счётом 4:1 у Ли Седоля, профессионала 9-го дана (высшего ранга), во время исторического матча, широко освещавшегося в прессе[1][⇨]. После победы в матче Корейская ассоциация падук присвоила AlphaGo «почётный 9-й дан» за «искренние усилия» программы в овладении мастерством игры[2].

Победу AlphaGo над Ли Седолем часто сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[3].
В отличие от Deep Blue, AlphaGo — это программа, которая не привязана к конкретному аппаратному обеспечению. Кроме того, AlphaGo основана на общих принципах машинного обучения и практически не использует (в отличие от шахматных программ) ни алгоритмов, ни оценочных функций, специфичных для игры в го. При разработке AlphaGo авторы использовали только самую элементарную теорию игры в го, программа достигла высокого уровня игры, обучаясь сама на партиях профессионалов[⇨]. Таким образом, её методы машинного обучения могут быть использованы в других областях применения искусственного интеллекта. В частности, команда разработчиков планирует применить опыт, полученный при написании AlphaGo, для создания системы медицинской диагностики[⇨].

AlphaGo комбинирует технику, которая дала большой прорыв в силе программ для игры в го в 2007—2012 годах (метод Монте-Карло для поиска в дереве[en]), и недавние успехи в области машинного обучения, а именно глубинное обучение с помощью многоуровневых нейронных сетей[⇨].

История

По словам одного из авторов AlphaGo, Давида Сильвера[en], работа над программой началась в 2014 году с исследования того, как новые методы глубинного обучения будут работать в го[4].

Чтобы оценить силу своей программы, авторы устроили турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone[en], Zen[en], Pachi, Fuego), которые использовали метод Монте-Карло, и GNU Go, которая была лучшей свободной программой до использования метода Монте-Карло. В результате версия AlphaGo, использующая один компьютер, выиграла 494 матча из 495[5].

Матч с Фань Хуэем

В октябре 2015 года AlphaGo выиграла у трёхкратного чемпиона Европы Фань Хуэя (2 профессиональный дан) матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи[6] в Nature[7][8]. На каждую партию игрокам давалось по одному часу и 3 бёёми по 30 секунд.

После своего поражения Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те элементы игры, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[9].

Ниже приведён пример партии, в которой AlphaGo играла чёрными. Фань Хуэй сдался после 165 ходов[5].

Первые 99 ходов (96 в 10)

AlphaGo — Википедия. Что такое AlphaGo

AlphaGo — программа для игры в го, разработанная компанией Google DeepMind в 2015 году. AlphaGo стала первой в мире программой, которая выиграла матч без гандикапа у профессионального игрока в го на стандартной доске 19 × 19[⇨], и эта победа ознаменовала собой важный прорыв в области искусственного интеллекта, так как большинство специалистов по искусственному интеллекту считало, что подобная программа не будет создана ранее 2020—2025 годов[⇨]. В марте 2016 года программа выиграла со счётом 4:1 у Ли Седоля, профессионала 9-го дана (высшего ранга), во время исторического матча, широко освещавшегося в прессе[1][⇨]. После победы в матче Корейская ассоциация падук присвоила AlphaGo «почётный 9-й дан» за «искренние усилия» программы в овладении мастерством игры[2].

Победу AlphaGo над Ли Седолем часто сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[3].
В отличие от Deep Blue, AlphaGo — это программа, которая не привязана к конкретному аппаратному обеспечению. Кроме того, AlphaGo основана на общих принципах машинного обучения и практически не использует (в отличие от шахматных программ) ни алгоритмов, ни оценочных функций, специфичных для игры в го. При разработке AlphaGo авторы использовали только самую элементарную теорию игры в го, программа достигла высокого уровня игры, обучаясь сама на партиях профессионалов[⇨]. Таким образом, её методы машинного обучения могут быть использованы в других областях применения искусственного интеллекта. В частности, команда разработчиков планирует применить опыт, полученный при написании AlphaGo, для создания системы медицинской диагностики[⇨].

AlphaGo комбинирует технику, которая дала большой прорыв в силе программ для игры в го в 2007—2012 годах (метод Монте-Карло для поиска в дереве[en]), и недавние успехи в области машинного обучения, а именно глубинное обучение с помощью многоуровневых нейронных сетей[⇨].

История

По словам одного из авторов AlphaGo, Давида Сильвера[en], работа над программой началась в 2014 году с исследования того, как новые методы глубинного обучения будут работать в го[4].

Чтобы оценить силу своей программы, авторы устроили турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone[en], Zen[en], Pachi, Fuego), которые использовали метод Монте-Карло, и GNU Go, которая была лучшей свободной программой до использования метода Монте-Карло. В результате версия AlphaGo, использующая один компьютер, выиграла 494 матча из 495[5].

Матч с Фань Хуэем

В октябре 2015 года AlphaGo выиграла у трёхкратного чемпиона Европы Фань Хуэя (2 профессиональный дан) матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи[6] в Nature[7][8]. На каждую партию игрокам давалось по одному часу и 3 бёёми по 30 секунд.

После своего поражения Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те элементы игры, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[9].

Ниже приведён пример партии, в которой AlphaGo играла чёрными. Фань Хуэй сдался после 165 ходов[5].

Первые 99 ходов (96 в 10)

Выучился сам. Алгоритм AlphaGo Zero может обыграть человека во что угодно | Наука | Общество

Что такое AlphaGo? 

Люди среднего и старшего поколений хорошо помнят исторический матч 1997 г. между Гарри Каспаровым и компьютерной программой Deep Blue, созданной корпорацией IBM. Тогда машина победила действующего чемпиона мира по шахматам, и это стало символической точкой отсчёта новой эпохи, в которой компьютеры уже готовы превзойти людей по интеллектуальным навыкам.

Следующим испытанием, в котором человеку предстояло помериться силами с машиной, была го — древняя китайская игра, которая, несмотря на кажущуюся простоту правил, намного сложнее шахмат. Специалисты по искусственному интеллекту предсказывали, что программа, способная обыграть ведущих игроков мира в го, будет создана не ранее 2020-2025 гг. Однако такой алгоритм, названный AlphaGo, появился в 2015 г., а год спустя он одолел трёхкратного чемпиона Европы Фань Хуэя в пяти партиях со счётом 5:0. В марте 2016 г. программа выиграла со счетом 4:1 у ещё более продвинутого профессионального игрока — Ли Седоля. Наконец, в 2017 г. AlphaGo трижды одержал победу над сильнейшим в мире игроком в го Кэ Цзе

После этого разработчики нейросети заявили, что официальных матчей в го больше не будет, и анонсировали появление новой, более мощной программы. 

В чём отличие новой версии?

Её назвали AlphaGo Zero. Слово Zero означает нулевое вмешательство человека. Если предыдущие версии программы обучались игре по предоставленным им тысячам партий, сыгранных ранее людьми, то теперь искусственный интеллект постигал игру самостоятельно, с нуля. И не одну игру, а сразу три — го, сёги и шахматы. Единственное, что разработчики изначально в него заложили — это правила, условия побед и поражений.

Получив задачу, алгоритм взялся играть против самого себя, выстраивая партии абсолютно случайным образом. Система обучения строилась на анализе ходов. Нейросеть, имитирующая работу нейронов в головном мозге, запоминала те ходы, которые приближали её к победе, и отбраковывала те, что вели к проигрышу.

Обучение продолжалось несколько циклов. В каждом из них производительность программы росла, что привело к появлению более точных нейросетей и всё более сильных версий искусственного интеллекта. Алгоритм совершенствовал сам себя без участия человека, и результат не заставил долго ждать: AlphaGo Zero, зная лишь правила игры в го, смог победить своего предшественника AlphaGo (в свою очередь одолевшего всех сильнейших игроков-людей) со счётом 100:0. То есть выиграл сто партий подряд! По наблюдениям разработчиков, программа начала использовать для победы стратегии, которые ранее были неизвестны профессиональным игрокам в го.

По мнению Мюррея Кэмпбелла, который в своё время участвовал в создании программы Deep Blue, победившей Каспарова, теперь искусственный интеллект способен в кратчайшие сроки без посторонней помощи обучиться любой игре и одерживать в ней верх над человеком. К примеру, следующим шагом могут стать компьютерные игры Starcraft и Dota 2. 

Какая от этого практическая польза?

Для разработчиков искусственного интеллекта его участие в играх не является основной задачей. Оно воспринимается ими лишь как этап тестирования алгоритма. В будущем компания DeepMind, которая и создала систему AlphaGo, намерена использовать её в различных прикладных целях. Это поиск лекарств от тяжёлых болезней, изучение взаимодействий белков в теле человека, сокращение потребления электроэнергии, разработка новых материалов или, к примеру, какого-нибудь супераккумулятора..

«Возможно, не за горами появление сверхпроводника, работающего при комнатной температуре, — говорил глава DeepMind Демис Хассабис, представляя научной общественности AlphaGo Zero. — Я мечтал об этом, когда ещё был ребенком и читал книги по физике».

Кстати, машинное обучение, подобное тому, через которое прошла программа AlphaGo, уже применяется в медицине. С его помощью учёные, например, диагностируют болезнь Альцгеймера задолго до появления её симптомов.

Надо ли бояться искусственного интеллекта?

Споры о том, друг он нам или враг, идут с 1920-х годов, когда эта тема стала популярной в научной фантастике. Понятно, что писателям, а позже — киносценаристам и режиссёрам, хотелось сгустить краски, пощекотать нервы обывателю. Но учёные к подобной угрозе (что искусственный интеллект выйдет из-под контроля и захватит власть над людьми) относятся скептически. 

«Если разумно его использовать, он всегда останется нам другом, никакой угрозы в нём нет, — уверен руководитель лаборатории интеллектуальных робототехнических систем Университета Иннополис Александр Климчик. — Ведь искусственный интеллект — это всего лишь свойство машины принимать решения самостоятельно, без участия человека. Если внимательно писать программное обеспечение, тщательно всё проверять, создать несколько уровней защиты, то опасаться нечего». 

С другой стороны, считает Климчик, не стоит безоговорочно доверять алгоритмам, какими бы «умными» они ни были. Это вопросы контроля над ядерными реакторами и тем более ядерным оружием. Цена ошибки здесь слишком высока. Уж точно выше, чем от проигранной партии в го.

AlphaGo — Википедия

Материал из Википедии — свободной энциклопедии

AlphaGo — программа для игры в го, разработанная компанией Google DeepMind в 2015 году. AlphaGo стала первой в мире программой, которая выиграла матч без гандикапа у профессионального игрока в го на стандартной доске 19 × 19[⇨], и эта победа ознаменовала собой важный прорыв в области искусственного интеллекта, так как большинство специалистов по искусственному интеллекту считало, что подобная программа не будет создана ранее 2020—2025 годов[⇨]. В марте 2016 года программа выиграла со счётом 4:1 у Ли Седоля, профессионала 9-го дана (высшего ранга), во время исторического матча, широко освещавшегося в прессе[1][⇨]. После победы в матче Корейская ассоциация падук присвоила AlphaGo «почётный 9-й дан» за «искренние усилия» программы в овладении мастерством игры[2].

Победу AlphaGo над Ли Седолем часто сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[3].
В отличие от Deep Blue, AlphaGo — это программа, которая не привязана к конкретному аппаратному обеспечению. Кроме того, AlphaGo основана на общих принципах машинного обучения и практически не использует (в отличие от шахматных программ) ни алгоритмов, ни оценочных функций, специфичных для игры в го. При разработке AlphaGo авторы использовали только самую элементарную теорию игры в го, программа достигла высокого уровня игры, обучаясь сама на партиях профессионалов[⇨]. Таким образом, её методы машинного обучения могут быть использованы в других областях применения искусственного интеллекта. В частности, команда разработчиков планирует применить опыт, полученный при написании AlphaGo, для создания системы медицинской диагностики[⇨].

AlphaGo комбинирует технику, которая дала большой прорыв в силе программ для игры в го в 2007—2012 годах (метод Монте-Карло для поиска в дереве[en]), и недавние успехи в области машинного обучения, а именно глубинное обучение с помощью многоуровневых нейронных сетей[⇨].

История

По словам одного из авторов AlphaGo, Давида Сильвера[en], работа над программой началась в 2014 году с исследования того, как новые методы глубинного обучения будут работать в го[4].

Чтобы оценить силу своей программы, авторы устроили турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone[en], Zen[en], Pachi, Fuego), которые использовали метод Монте-Карло, и GNU Go, которая была лучшей свободной программой до использования метода Монте-Карло. В результате версия AlphaGo, использующая один компьютер, выиграла 494 матча из 495[5].

Матч с Фань Хуэем

В октябре 2015 года AlphaGo выиграла у трёхкратного чемпиона Европы Фань Хуэя (2 профессиональный дан) матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи[6] в Nature[7][8]. На каждую партию игрокам давалось по одному часу и 3 бёёми по 30 секунд.

После своего поражения Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те элементы игры, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[9].

Ниже приведён пример партии, в которой AlphaGo играла чёрными. Фань Хуэй сдался после 165 ходов[5].

Первые 99 ходов (96 в 10)

AlphaGo — Википедия

Материал из Википедии — свободной энциклопедии

AlphaGo — программа для игры в го, разработанная компанией Google DeepMind в 2015 году. AlphaGo стала первой в мире программой, которая выиграла матч без гандикапа у профессионального игрока в го на стандартной доске 19 × 19[⇨], и эта победа ознаменовала собой важный прорыв в области искусственного интеллекта, так как большинство специалистов по искусственному интеллекту считало, что подобная программа не будет создана ранее 2020—2025 годов[⇨]. В марте 2016 года программа выиграла со счётом 4:1 у Ли Седоля, профессионала 9-го дана (высшего ранга), во время исторического матча, широко освещавшегося в прессе[1][⇨]. После победы в матче Корейская ассоциация падук присвоила AlphaGo «почётный 9-й дан» за «искренние усилия» программы в овладении мастерством игры[2].

Победу AlphaGo над Ли Седолем часто сравнивают с шахматным матчем между программой Deep Blue и Гарри Каспаровым 1997 года, где победа программы, созданной IBM, над действовавшим чемпионом стала символической точкой отсчёта новой эпохи, когда компьютеры превзошли людей в шахматах[3].
В отличие от Deep Blue, AlphaGo — это программа, которая не привязана к конкретному аппаратному обеспечению. Кроме того, AlphaGo основана на общих принципах машинного обучения и практически не использует (в отличие от шахматных программ) ни алгоритмов, ни оценочных функций, специфичных для игры в го. При разработке AlphaGo авторы использовали только самую элементарную теорию игры в го, программа достигла высокого уровня игры, обучаясь сама на партиях профессионалов[⇨]. Таким образом, её методы машинного обучения могут быть использованы в других областях применения искусственного интеллекта. В частности, команда разработчиков планирует применить опыт, полученный при написании AlphaGo, для создания системы медицинской диагностики[⇨].

AlphaGo комбинирует технику, которая дала большой прорыв в силе программ для игры в го в 2007—2012 годах (метод Монте-Карло для поиска в дереве[en]), и недавние успехи в области машинного обучения, а именно глубинное обучение с помощью многоуровневых нейронных сетей[⇨].

История

По словам одного из авторов AlphaGo, Давида Сильвера[en], работа над программой началась в 2014 году с исследования того, как новые методы глубинного обучения будут работать в го[4].

Чтобы оценить силу своей программы, авторы устроили турнир между AlphaGo и лучшими свободными и коммерческими программами для игры в го (Crazy Stone[en], Zen[en], Pachi, Fuego), которые использовали метод Монте-Карло, и GNU Go, которая была лучшей свободной программой до использования метода Монте-Карло. В результате версия AlphaGo, использующая один компьютер, выиграла 494 матча из 495[5].

Матч с Фань Хуэем

В октябре 2015 года AlphaGo выиграла у трёхкратного чемпиона Европы Фань Хуэя (2 профессиональный дан) матч из пяти партий со счётом 5—0. Это первый в истории случай, когда компьютер выиграл в го у профессионала в равной игре. Об этом было публично объявлено в январе 2016 года после публикации статьи[6] в Nature[7][8]. На каждую партию игрокам давалось по одному часу и 3 бёёми по 30 секунд.

После своего поражения Фань Хуэй заявил, что благодаря этому матчу он стал играть лучше и стал видеть те элементы игры, которые не замечал ранее; к марту 2016 года мировой рейтинг Фань Хуэя поднялся примерно на 300 позиций[9].

Ниже приведён пример партии, в которой AlphaGo играла чёрными. Фань Хуэй сдался после 165 ходов[5].

Первые 99 ходов (96 в 10)

Вот что означает историческая победа AlphaGo для предприятия

15 марта 2016 года стало важной вехой в области искусственного интеллекта на 10 лет раньше, чем ожидали эксперты: AlphaGo, компьютер на базе искусственного интеллекта, созданный Google DeepMind, победил в игре чемпиона мира по игре в го Ли Седола. Го — одна из самых древних игр: простая по концепции, но невероятно сложная для освоения. Окончательный счет в матче из пяти игр был 4-1, но после того, как AlphaGo повела в счете 3-0, стало ясно, что мы вступаем в новую эру.Сам Седол после матча сказал: «Никогда не думал, что проиграю. Это так шокирует ».

Это может показаться знакомым, возвращая вас к победе над чемпионом IBM по шахматам Deep Blue Каспаровым в 1997 году. Но по сути AlphaGo так же отличается от Deep Blue, как DVD, представленные в 1997 году, взяты из загруженного фильма Netflix. Сила Deep Blue заключалась в вычислениях методом грубой силы — буквально в оценке вероятного результата каждого возможного хода. При игре в Го поиск методом грубой силы недоступен.Количество возможных игр просто слишком велико, даже по сравнению с шахматами. На доске го находится около 10 170 разрешенных игр. Чтобы представить это поразительное число в перспективе, вся наша Вселенная содержит всего около 10 80 атомов. Вот почему Go считается святым Граалем для исследований в области искусственного интеллекта (ИИ). Победа в Go — это не оценка всех возможных ходов, это требует стратегии — и, по словам самого Седола, стратегия AlphaGo была «превосходной».

Но хватит об играх.Здесь есть более широкие последствия. Мы можем ожидать аналогичных достижений в коммерческих приложениях, таких как беспилотные автомобили. Демис Хассабис, возглавляющий группу машинного обучения Google, ранее сказал: «Используемые нами методы являются универсальными; мы надеемся, что однажды их можно будет расширить, чтобы помочь нам решить некоторые из самых сложных и насущных проблем общества, от моделирования климата до комплексного анализа болезней ».

Эти методы машинного обучения также окажут значительное влияние на то, как мы выполняем неструктурированные и сложные бизнес-процессы и задачи принятия решений в повседневной работе.

Компании уже используют ИИ и машинное обучение, чтобы ежедневно предоставлять миллионы ценных рекомендаций и наблюдений. Хорошо известные примеры включают рекомендации по продуктам от Amazon, рекомендации по фильмам от Netflix и персонализированные результаты поиска от Google. На предприятии примеры включают таргетинг на клиентов, оценку потенциальных клиентов, анализ возможных рисков, прогнозирование продаж и прогнозирование оттока. Итак, с учетом того, что ИИ уже приносит ежедневную пользу для бизнеса, а AlphaGo — это победа в новостях, у тех из нас, кто занимается корпоративными вычислениями, возникает естественный вопрос: чего нам ждать дальше от ИИ и машинного обучения на предприятии?

Что нового в AlphaGo?

Что отличает AlphaGo от предыдущей технологии, так это возможность обучения .AlphaGo учится, используя две взаимодополняющие глубокие нейронные сети: одна решает, какие ходы более перспективны (специалисты по данным говорят, что это «уменьшает ширину пространства поиска»), другая учится «интуиции» о том, насколько вероятно, что это будет потенциальная игра. результат в выигрыше («уменьшение глубины области поиска»). Эти две сети учатся — или, можно сказать, обучаются — сначала путем анализа многих прошлых матчей, сыгранных профессионалами. Это известно как «обучение на собственном примере» или «обучение с учителем».«Основываясь на этой основе, AlphaGo затем совершенствуется, играя в игры против самого себя — миллионы игр с невероятной скоростью, которую большинство из нас даже не может себе представить. Эта игра с самим собой известна как «обучение с подкреплением». Если вы помните фильм 1983 года «Военные игры», в котором компьютер «решает» не начинать Третью мировую войну, проигрывая различные сценарии с молниеносной скоростью, только чтобы узнать, что каждый сценарий приводит к разрушению мира, у вас есть такой образ. самостоятельной игры. AlphaGo не питается выигрышными паттернами го.Вместо этого он абстрагирует и суммирует паттерны из фактического игры в Go. Таким образом, AlphaGo действительно «умна» в игре.

Какие новые возможности может предложить обучающая система?

Не так давно даже самый продвинутый суперкомпьютер не мог угнаться за четырехлетним ребенком в распознавании кошек на фотографиях. Больше никогда. Благодаря быстрому развитию ИИ мы наблюдаем прорывы во многих задачах, которые считаются серьезными проблемами для компьютеров — не только распознавание объектов на изображениях, но и беспилотные автомобили, ответы на вопросы на естественном языке, составление газетных статей, даже живопись и рисование.

Повторение действий, которые люди считают тривиальными, — это только начало. ИИ обычно рассматривает варианты, игнорируемые людьми. Например, в первых трех играх AlphaGo он делал «неожиданные» ходы, которые типичный профессионал-человек не учел бы. Тогда некоторые наблюдатели сочли эти шаги ошибочными. И все же еще 20 шагов подтвердили, что эти удивительные ходы являются гениально новаторской тактикой. Я верю, что профессионалы го изучат эти приемы и тем самым расширят набор вариантов, которые они рассматривают в будущих чемпионатах только для людей.В этом смысле ИИ — это творческий , помогающий людям добиваться большего.

Неужто ограничения есть? Абсолютно.

Хотя исследования в области ИИ начались в 1950-х годах, настоящие системы обучения все еще находятся в зачаточном состоянии. Это правда, что AlphaGo быстро научилась. AlphaGo понадобилось всего пять месяцев, чтобы перейти от победы над профессионалом уровня 2 к победе над Седолом, чемпионом 9 уровня. На этот прогресс у талантливых людей уйдут годы. Но если мы сравним AlphaGo с этим талантливым человеком, путь будет совсем другим.AlphaGo смогла сыграть в десятки миллионов игр за эти пять месяцев, в то время как человек может играть не более 1000 игр в год. Итак, AlphaGo и AI в целом — это данных, неэффективных с точки зрения обучения. Вы можете подумать, что это спорный вопрос, потому что система ИИ способна на играть в миллионы игр. Но имейте в виду, что для многих приложений, не связанных с играми, самостоятельная игра нецелесообразна, поэтому обучение становится серьезным препятствием. Так что это остается областью интенсивных исследований ученых ИИ.

Более того, Go — относительно простая задача для ИИ, потому что, даже с его пугающим набором опций, он хорошо определен. У каждого игрока есть полная информация о состоянии игры, прошлых ходах и доступных будущих ходах — никакой неопределенности. Сравните это с такой игрой, как бридж, где каждый игрок должен делать предположения о неизвестных картах, или покером, где способность игрока блефовать добавляет новые возможности. А в таких играх, как Го, каждый ход детерминирован, и окончательные награды явно указаны: победа или поражение.В реальном мире, особенно во многих ситуациях на предприятии, доступна только частичная информация, а окончательное вознаграждение трудно определить количественно.

Что такое AlphaGo для предприятия?

Как я уже упоминал в недавнем посте, Data Science, Self-driving Applications, and the Rise of Conversational UI , «самоуправляемые» корпоративные приложения, способные искать данные, применять аналитические данные и представлять результаты в удобной форме. — это новый рубеж. С добавлением ИИ многие корпоративные приложения станут больше похожи на человеческих помощников.Они обнаружат соответствующие изменения контекста (местоположение, целевой клиент, время) и предоставят релевантную информацию в тот момент, когда она будет наиболее полезной. Взаимодействие между пользователем и их приложениями будет более естественным, больше похоже на разговор с доверенным человеком-помощником, чем на бесконечный набор текста и нажатие. И ценность со временем растет по мере того, как ИИ анализирует результаты текущих операций, таких как маркетинговые кампании, конверсии потенциальных клиентов, встречи по продажам, поток электронной почты, взаимодействие с командами успеха клиентов или отток клиентов.

Вы можете поймать себя на мысли: «Конечно, если бы у меня было бесконечно много времени на изучение отчетов, я бы тоже смог увидеть полезные тенденции». В этом, конечно, суть. Искусственный интеллект позволяет машинам выполнять утомительные задачи, позволяя людям сосредоточиться на задачах, которые лучше подходят для нас, людей. Это возвращает нас к тому моменту, когда системы искусственного интеллекта, такие как AlphaGo, превосходны там, где существуют «кодифицированные правила». Вариантов го может быть так много, что кажется бесконечным, но правила игры ясны. Даже 10 170 возможных ходов не включают в себя отбрасывание вашего противника, показывая ему фотографии вашего кота.Позволяя машинам справляться со скукой, люди могут совершать скачки творческой интуиции, которые еще очень недосягаемы для ИИ.

Реальный мир требует взаимодополняемости искусственного интеллекта и человеческого интеллекта. ИИ преуспевает в вычислениях, запоминании и даже рассуждениях, пока проблемное пространство ограничено. Люди превосходны в восприятии, принятии решений, разрушительном творчестве и межличностных отношениях. Успех на предприятии требует множества рутинных задач: обновление записей данных, отслеживание изменений в базах данных, оценка результатов маркетинговых кампаний в реальном времени, определение того, какие клиенты, вероятно, уйдут, и т. Д.Все они являются кандидатами на автоматизацию и, в частности, кандидатами на ИИ, потому что им требуется система, способная распознавать разницу между критическими наблюдениями и нерелевантными аномалиями. В результате люди могут сосредоточиться на задачах, требующих уникальной искры человеческого интеллекта: создании беспрецедентной кампании, личных встречах для привлечения клиентов или разработке ИИ следующего поколения. Palintir, компания, создающая аналитическое программное обеспечение для антитеррористических усилий правительства США и финансовой индустрии, предлагает изощренный пример, выстраивая то, что они называют «симбиозом человека и машины».”

Прежде чем оставить тему совместной работы человека и ИИ, мы должны признать, что люди и машины тоже делают ошибки. Таким образом, сила совместной работы заключается не только в достижении новых высот, но и в уменьшении количества ошибок. Машины защиты могут предлагать самые разные вещи, например, систему электронной почты, которая предупреждает вас, когда содержание сообщения подразумевает наличие вложения, до спасательных средств, таких как громкое предупреждение «сваливание» в кабине коммерческого самолета. И никому, кто использовал распознавание голоса или автокоррекцию на своем телефоне, не нужно напоминать, что компьютеры делают ошибки.Машины и люди должны работать вместе для достижения оптимальных результатов.

Как бы впечатляюще ни была победа AlphaGo, мы находимся на раннем этапе разработки систем искусственного интеллекта. Это означает, что мы также рано начинаем понимать, как лучше всего объединить усилия людей и систем ИИ. Но точно так же, как AlphaGo предприняла новаторские шаги в Го, которые пробудят новое мышление и творчество среди лучших игроков в Го, мы уверены, что ИИ завтрашнего дня вызовет новые инновации среди тех, кто ценит его ценность.

Лей Тан (Lei Tang) — главный специалист по анализу данных в компании Clari, занимающейся прогнозированием и прогнозной аналитикой.

.

Alphago — Википедия, свободная энциклопедия

Википедия todavía no tiene una página llamada «Alphago».


Busca Alphago en otros proyectos hermanos de Wikipedia:

Wikcionario (diccionario)
Wikilibros (обучающие / руководства)
Викицитатник (цитаты)
Wikisource (biblioteca)
Викинотики (нотиции)
Wikiversidad (contenido académico)
Commons (изображения и мультимедиа)
Wikiviajes (viajes)
Викиданные (данные)
Викивиды (особые)
  • Comprueba si имеет кодовое обозначение правильного искусства, y que Wikipedia es el lugar donde debería estar la información que buscas.Si el título es righto, a la derecha figuran otros proyectos Wikimedia donde quizás podrías encontrarla.
  • Busca «Alphago» en el texto de otras páginas de Wikipedia que ya existen.
  • Проконсультируйтесь с листом произведений искусства, который комментирует «Alphago».
  • Busca las páginas de Wikipedia que tienen объединяет «Alphago».
  • Si ya habías creado la página con este nombre, limpia la caché de tu navegador.
  • También puede que la página que buscas haya sido borrada.

Si el artículo incluso así no existe:

  • Crea el artículo utilizando nuestro asistente o solicita su creación.
  • Puedes traducir este artículo de otras Wikipedias.
  • En Wikipedia únicamente pueden include enciclopédicos y que tengan derechos de autor Compatible con la Licencia Creative Commons Compartir-Igual 3.0. No son válidos textos tomados de otros sitios web o escritos que no cumplan alguna de esas condiciones.
  • Ten en cuenta también que:
    • Artículos vacíos o con información minima serán borrados —véase «Википедия: Esbozo» -.
    • Artículos de publicidad y autopromoción serán borrados —véase «Википедия: Lo que Wikipedia no es» -.

.

Alphago Games — Visual Archive

AlphaGo Zero (40 блоков) против AlphaGo Master Alphago Zero 20 Октябрь 2017 Полная сила Alphago Zero — Да, ее окончательная форма …
AlphaGo Zero против AlphaGo Zero — 40 блоков Alphago Zero 20 Октябрь 2017 Добавлен в дополнение к статье Deepmind in Nature — Not Full Strength of Alphago Zero.Исключение составляет последняя (20-я) игра, в которой она достигает своей финальной формы.
AlphaGo Zero против AlphaGo Zero — 20 блоков Alphago Zero 20 Октябрь 2017 Добавлен в дополнение к статье Deepmind in Nature — Not Full Strength of Alphago Zero
AlphaGo Zero (20 блоков) против AlphaGo Lee Alphago Zero 20 Октябрь 2017 Добавлен в дополнение к статье Deepmind in Nature — Not Full Strength of Alphago Zero
WeiQi TV — 5 дополнительных игр Alphago Master 5 июль 2017
Alphago против Alphago — 2017 — партия 1 Alphago Master 10 мая 2017
Alphago против Alphago — 2017 — партия 2 Alphago Master 10 мая 2017
Alphago против Alphago — 2017 — партия 3 Alphago Master 10 мая 2017
Alphago против Alphago — 2017 — партия 4 Alphago Master 10 мая 2017
Alphago против Alphago — 2017 — партия 5 Alphago Master 10 мая 2017
Future of Go Summit Alphago Master 5 мая 2017
Онлайн-серия Alphago на Tygem и Fox Alphago Master 60 Декабрь 2016
Alphago против Alphago — 2016 v18 3 Февраль 2016
Ли Седол против Alphago v18 5 марта 2016
Fan Hui против Alphago v13 5 Октябрь 2015

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

2021 © Все права защищены. Карта сайта