*Хуанг Хуамяо работает в фонде Kleiner Perkins, инвестирующем в ранние этапы создания вычислительной техники и коммерческого программного обеспечения. Он также является основателем Kuna, стартапа по системам безопасности для дома. Будучи студентом Калифорнийского технологического института, Хуанг участвовал в проекте по созданию беспилотного автомобиля, а после продолжил научную карьеру в Стэнфорде, где защитил диссертацию по аэродинамике и системам управления многороторных БПЛА.
Прогресс в системах искусственного интеллекта часто выглядит цикличным. Каждые несколько лет вдруг выясняется, что компьютеры теперь умеют то, чего раньше не умели. "Вот!" — говорят в такой момент адепты ИИ, — "вот и наступает эра искусственного интеллекта!". "Ерунда!" — отвечают скептики, — "что там у нас с беспилотными автомобилями, не напомните?"
Истина, как обычно, где-то посередине.
Сейчас, вместе с генеративными ИИ, мы находимся в восходящей фазе очередного цикла. Пока материал для заголовков медиа поставляют в основном генераторы изображений: тут прорыв в буквальном смысле очевиднее. В 2022 году ИИ начали невероятно широко использовать во множестве совершенно различных областей: в программировании, в биологии, в моушен-дизайне, а также при работе с текстами — в диапазоне от редактуры до написания.
Вы наверняка в курсе последних событий в мире AI: видели отмеченные наградами художественные работы, слышали интервью, взятые одними умершими людьми у других, и читали о прорывах в создании новых белков. Прогресс новых систем искусственного интеллекта не ограничивается эффектными демонстрациями в лабораторных условиях, они быстро превращаются в практические инструменты и коммерческие продукты для самых широких масс пользователей.
Такой взрывной рост в разных областях связан с тем, что в основе всех этих новых прорывных инструментов лежит один и тот же новый класс моделей ИИ, гораздо более гибких и мощных, чем все предыдущие. Поскольку поначалу они использовались для решения языковых задач, вроде ведения диалога или написания эссе, их часто называют большими языковыми моделями (Large Language Models - LLM). И созданный OpenAI GPT-3 и BARD от Google — все это LLM.
Но гибкость этих моделей и способность их к адаптации так велики, что их использование оказалось чрезвычайно эффективным при решении совершенно других, не собственно языковых задач, — скажем, в области машинного зрения или в биологии. Исследователи стали называть их фундаментальными моделями, — чтобы подчеркнуть их принципиальное значение для для нынешнего этапа развития ИИ.
Откуда взялись эти модели? Как они вышли за пределы языка и стали движущей силой современного искусственного интеллекта?
Святая троица машинного обучения выглядит так: модели, данные и вычисления.
Модели — это алгоритмы, у которых на входе — данные, а на выходе — результаты; данные — это примеры, на которых обучают алгоритмы. Чтобы алгоритмы могли обучиться и начать производить полезные результаты, в их распоряжении должно быть достаточно данных достаточной глубины. Для того, чтобы учесть сложность данных, модели, в свою очередь, должны быть достаточно гибкими. И, наконец, для работы алгоритмов должно быть достаточно вычислительной мощности.
2012 год стал первым этапом современной AI-революции, когда оказалось, что сверточные нейронные сети (Convolutional Neural Networks, CNN), напоминающие по структуре визуальную кору головного мозга, позволяют решать задачи, связанные с машинным зрением. CNN существуют с 1990-х годов, но из-за высоких требований к вычислительным мощностям до 2006 года их практическое применение было невозможным.
В 2006 году компания Nvidia выпустила CUDA — язык программирования, позволяющий использовать графические процессоры (Graphic Processor Unit, GPU) в качестве суперкомпьютеров общего назначения. А в 2009 году исследователи ИИ из Стэнфордского университета представили Imagenet, коллекцию данных из 100 000 снабженных описаниями изображений (labeled images), предназначенную для обучения алгоритмов машинного зрения. В 2012 году AlexNet объединил CNN, обученные на данных Imagenet с использованием GPU: так возник лучший в мире (на тот момент) визуальный классификатор. Его появление стало отправной точкой глубокого обучения и ИИ.
Так сочетание CNN, данных ImageNet и GPU открыло огромные возможности в областях, связанных с машинным зрением. В 2012 году невиданный всплеск энтузиазма дал толчок развитию целых новых отраслей, — в частности, всего, что связано с беспилотным вождением. Однако, довольно быстро выяснилось, что у глубокого обучения такого рода есть существенные ограничения. Областью задач, связанных с машинным зрением, тогдашний прорыв оказался и ограничен. За пределами этой области ничего особенного не происходило, — и одной из главных нерешенных проблем оставалась обработка естественного языка (Natural Language Processing, NLP). Для ее решения необходимо было научить компьютеры обрабатывать естественный язык, который люди используют для хранения и передачи информации, — а не числовые данные или программный код.
Обработка и понимание языка принципиально отличаются от обработки и распознавания изображений: в случае языка ключевую роль играет последовательность слов. Кошка всегда остается кошкой, вне зависимости от того, где именно на картинке она находится. А вот фразы "читатель узнает об ИИ" и "ИИ узнает о читателе" описывают две принципиально разных ситуации.
До недавнего времени для мгновенного распознавания речи исследователи прибегали к рекуррентным нейронным сетям (Recurrent Neural Networks, RNN) и используемой в них архитектуре долгой краткосрочной памяти (Long Short-Term Memory, LSTM). Соответствующие модели вполне справлялись с распознаванием коротких фраз и отлично подходили для простых голосовых помощников вроде Siri и Alexa, но на то, чтобы уловить сложность и разнообразие смыслов, возникающих при объединении предложений в абзацы и, скажем, эссе, их не хватало.
Еще одной проблемой стала добыча данных необходимых для обучения. Текстов в интернете, конечно, более чем достаточно, но создание осмысленного массива данных, необходимых для того, чтобы научить компьютер работать с человеческим языком, не ограничиваясь отдельными словами, является невероятно ресурсоемкой задачей. ImageNet с его 100 000 снабженных описаниями изображений потребовало большого количества "ручного" труда (в основном студентов и пользователей краудсорсинговой платформы Amazon Mechanical Turk), потому что размечать изображения нужно было вручную.
То есть нужно было решить две проблемы: во-первых, получить возможность обучать модели на немаркированных данных, то есть на текстах, к которым не нужны создаваемые людьми пояснительные описания. Во-вторых, найти способ задействовать действительно большие массивы данных и текста, чтобы иметь возможность воспользоваться технологическим прорывом в области GPU и параллельных вычислений — ту же возможность, которую на предыдущем этапе дали сверточные сети.
Решение этих двух проблем должно было позволить выйти за рамки рекуррентных сетей и архитектуры долгой краткосрочной памяти LSTM. Иными словами, необходима была модель, которая позволила бы воспользоваться уже имевшимся прогрессом в области вычислительных мощностей и уже существовавшими данными. Нужно было как-то ликвидировать отставание одной части триады — моделей — от двух других.
Настоящим прорывом стала созданная Google модель "Трансформер" (The Transformer). Исследователи из Google работали над очень конкретной проблемой естественного языка: переводом. Перевод — это сложно: порядок слов здесь не просто важен, он ещё и отличается от языка к языку. По-английски "Тоторо видит детей"; по-японски "Тоторо детей видит", а по-русски можно и так и так — но есть нюансы.
Модель ИИ, способная обучаться и работать с такого рода проблемами, должна иметь очень гибкий подход к порядку слов. В старые модели на основе LSTM и рекуррентных сетей порядок слов был встроен имплицитно: модель знала, какое слово идет первым, потому что именно это слово она видела первым. Трансформер вместо этого обрабатывает порядок следования, присваивая каждому слову номер — это называется позиционным кодированием. В результате предложение "Я люблю ИИ; я хотел бы, чтобы ИИ любил меня" выглядит примерно так: (Я 1) (люблю 2) (ИИ 3) (; 4) (Я 5) (хотел 6) (бы 7) (чтобы 8) (ИИ 9) (любил 10) (меня 11).
Позиционное кодирование стало первым большим шагом вперед. Вторым оказалось появление технологии множественного внимания (multi-head attention): когда дело доходит до порядка слов на выходе, модель не обязательно располагает их в том же порядке, в котором они поступали на вход (input). Вместо этого она “смотрит” на то, что в рамках входящей фразы предшествует нашей последовательности из слов (“Тоторо видит детей”) — и на то, что после них в этой фразе следует (attention). Кроме того, она может отдельно “посмотреть” на разные части всей фразы (multi-head attention) и определить, что из этого наиболее релевантно для результата.
Можно сказать, что до появления этой модели ИИ был похож на переводчика, который переводит написанное слово за словом, — а благодаря ей, получил возможность прежде, чем переводить, прочесть сначала предложение целиком. В смысле перевода это была настоящая революция — но кроме того, появление "Трансформера" приблизило нас к решению и других языковых задач. А еще эта модель эффективно использует возможности GPU благодаря своему свойству обрабатывать длинные последовательности слов параллельно, а не в линейной последовательности одно за другим.
То есть, перед нами модель, которая входящую упорядоченную последовательность символов — в данном случае, слов (строго говоря, фрагментов слов, "токенов") — обрабатывает, создавая на выходе другую упорядоченную последовательность: слова на другом языке. Этот новый перевод не требует трудоемкого предварительного описания данных. Вы просто даете компьютеру текст на одном языке — а получаете на другом. Можно даже обучить модель достраивать предложения и заполнять лакуны, чтобы она угадывала, что должно следовать за тем или иным текстовым фрагментом. Это позволяет модели выучивать новые паттерны самостоятельно, без предварительного ручного описания данных. При этом совершенно не обязательно, чтобы на входе был, скажем, английский текст, а на выходе — японский. Можно же переводить и с английского на английский, решая распространенные языковые задачи: резюмировать статью одним абзацем (Summary), прочитать отзыв покупателя о продукте и определить его тональность, и даже написать по запросу статью на определенную тему.
Итак, теперь у нас есть модель ИИ, у которой есть две принципиально важные функции: во-первых, она умеет заполнять лакуны — это значит, что не нужно больше маркировать данные, на которых она обучается. Во-вторых, на вход модели можно подавать большие фрагменты текста или целые книги.
Не нужно объяснять, какие строки текста посвящены Гарри Поттеру, а какие — Гермионе; кто из них мальчик, а кто — девочка. И определять понятия "мальчик" и "девочка" тоже не нужно. А нужно случайным образом заменить лакунами имена “Гарри” и “Гермиона”, точно так же поступив при этом с местоимениями “он” и “она” — и обучить модель эти лакуны заполнять. В процессе корректировки результата ИИ научится не только определять, в каком фрагменте действует какой персонаж, но и тому, как в целом определять, в каком качестве выступают существительные — субъектов или объектов действия. А GPU позволяя масштабировать модели, задействуя все более большие по объему порции текста.
Наконец, у нас есть модель, которая умеет, с одной стороны, использовать уже имеющиеся в интернете огромные объемы неструктурированных данных, а с другой — в состоянии эффективно утилизировать вычислительные возможности GPU. OpenAI использовала этот подход при создании языковой модели GPT2, а затем и GPT3. Обе модели представляют собой генеративный, предварительно обученный трансформер (Generative Pre-trained Transformer, GPT). “Генеративность” означает, что речь идет о модели, преобразующей одни (входящие) последовательности слов в другие. Термин “предварительно обученный” сообщает нам, что модели были обучены методом заполнения лакун на больших объемах текста.
GPT2 (2019) могла целыми абзацами генерировать тексты, удивительно похожие на написанные человеком и удивительно непротиворечивые. Больше всего это напоминало игру “Чепуха”: аккуратно подавая на вход модели определенные текстовые последовательности, называемые запросами (prompts), можно было получать на выходе другие последовательности, определяемые содержанием запросов. В целом, все это неплохо работало на коротких текстах, но на длинных довольно быстро ломалось. Кроме того, возможности языка этих запросов были примерно как у поисковика AltaVista в догугловские времена (небольшой гибкости был инструмент).
Главный прорыв произошел при переходе от GPT2 к GPT3 в 2020 году. У GPT2 было 1,5 миллиарда параметров, которые легко поместились бы в памяти стандартной видеокарты, которую можно купить в магазине. У GPT3 параметров было уже в 100 раз больше — 175 млрд в самой большой версии. В конце концов, не зря он теперь умеет писать длинные эссе, логичные и почти неотличимые от сочиненных человеком.
Но и этим дело не ограничилось.
Исследователи из OpenAI обнаружили, что при увеличении размера моделей они не просто совершенствовались в письме, но и начинали самостоятельно вырабатывать и осваивать на новых данных новые стратегии поведения. В частности, оказалось возможным научить модель выполнять инструкции на естественном языке, без внесения в нее изменений.
Теперь не нужно специально обучать отдельные модели, например, резюмировать текст или переписывать его в определенном стиле. Можно просто попросить модель “перепиши абзац в стиле Эрнеста Хемингуэя” — и она превратит длинный фрагмент многословного текста в короткое высказывание по сути.
Иными словами, мы получили максимально доступный для пользователя мультизадачный языковой инструмент, использование которого не требует изучения языков программирования.
А теперь давайте поговорим о том, как так вышло, что модели-трансформеры проникли и в другие области.
Еще в 2014 году XKCD, главный бодхисаттва по технологической части, опубликовал вот такой комикс:
Десяти лет не прошло, как мы преодолели дистанцию, которая отделяла компьютер, не знающий, как выглядит птица, от... ну, вот от этого, в общем:
Мы уже говорили немного о том, с чего все началось: триада ImageNet, AlexNet, GPU и революция глубокого обучения. Это сочетание моделей, данных и вычислительных мощностей обеспечило совершенно невероятный набор инструментов для работы с изображениями.
До появления глубокого обучения дела в области машинного зрения шли ни шатко, ни валко. Исследователи мучительно пытались обнаружить паттерны (которые мы обычно называем ”чертами лица”) и, подобрав наиболее подходящие “элементарные блоки”, понять, как именно они в эти паттерны (то есть, черты) складываются, определить и описать признаки, а затем объединить их в модели. Хороший пример — метод определения лиц по Виоле-Джонсу, основанный на шаблоне лица, состоящем из светлой области лба, T-образного носа и двух темных областей под ними.
Благодаря глубокому обучению, нужда в ручном определении черт и дальнейшей работе с ними отпала.
Вместо этого модели ИИ начали сами изучать и черты и то, как они складываются в объекты: лица, автомобили, животных и т.д. Прибегая к аналогии с языком, можно сказать, что модели изучали "язык" зрения; "словари" линий, форм и паттернов оказывались элементарными конструкционными блоками, объединившимися на следующем уровне сложности в сеть по определенным “грамматическим” правилам. При работе с таким количеством данных модели глубокого обучения оказывались эффективнее любого количества специалистов-людей.
Этот подход обладал, как выяснилось, огромным потенциалом — он обеспечил нам масштабируемый инструмент для исследования изображений с целью определения правил, по которым эти изображения строятся. Но и этого было недостаточно. Теперь модели умели производить категоризацию пикселов с тем, чтобы разложить их потом по ячейкам: “это вот у нас кошачьи пикселы, а это — собачьи”. Но вот обратно собрать из кошачьих пикселов кошку, а из собачьих — собаку они уже не могли. Так турист, выучивший на незнакомом языке сколько-то слов и вызубривший разговорник, все равно не может переводить с этого языка (или на него).
Трансформеры были созданы в качестве переводчиков с одного языка на другой. Можно переводить с английского на французский, с английского на английский, на английский с поросячьей латыни и так далее. Но, на самом деле, языки представляют собой просто упорядоченные последовательности символов, а перевод — это просто преобразование одного набора упорядоченных последовательностей в другой. Трансформеры — это инструменты общего назначения, позволяющие определить правила одного языка, а затем найти им соответствие в другом. Таким образом, если вы понимаете, как описать что-либо на одном "языке" (т.е. при помощи упорядоченных последовательностей символов), а что-нибудь другое — на другом "языке", то вы можете обучить модели-трансформеры переводу с одного "языка" на другой.
После того, как при помощи глубокого обучения выявили, из чего состоит и как устроен "язык" изображений, модель смогла взаимосвязи и паттерны в данных, а затем представлять их в таком виде, чтобы эти данные было легче анализировать и манипулировать ими. Так, если наши данные — это набор изображений человеческих лиц, то алгоритм может научиться представлять различные элементы лица (глаза, нос, рот и т.д.) как отдельные наборы параметров в так называемом латентном пространстве.
Латентное пространство — это просто координатная сетка с осями, на которых отмечено разное, — например, "похоже на часы". Модель берет изображение (или его часть) и помещает его где-нибудь на этой оси (чем больше сходство, тем выше). Если это изображение (или фрагмент) похоже не только на часы, но и на человеческое лицо, оно помещается также на ось с надписью "похоже на лицо". Таким образом, мы представляем изображение в виде двух координат как объект, похожий одновременно на часы и лицо. На самом деле, координат существенно больше — но все их наборы представляют собой упорядоченные последовательности символов, с которыми модель может работать (как с любым языком). Описания изображений на таком "языке" называются их латентными представлениями.
То есть перенос изображений в латентное пространство — это способ выразить их на "языке" и дать, таким образом, моделям-трансформерам возможность с ними работать. Латентным (т.е. "скрытым") это пространство называется потому, что параметры ("похоже на лицо", "похоже на часы"), которые алгоритм учится представлять координатами на осях, нам не видны. В исходных данных они "не обозначены" — модель их выбирает/определяет сама на основе закономерностей, которые она — опять же самостоятельно — обнаружила, "изучая" изображения. После того, как мы "транслировали" изображения в латентные представления (описали "на языке"), алгоритм получает возможность манипулировать изображениями точно так же, как и текстами. Скажем, алгоритм, натренированный (как раньше на "Гарри Поттере") на латентном пространстве лиц, может генерировать новые лица, манипулируя параметрами, определяющими лицо в латентном пространстве.
Теперь у нас есть язык изображений, с которым можно работать, и инструмент (модель-трансформер), позволяющий перевод. Нет у нас только своего "Розеттского камня" в виде массива данных, объединяющего изображения с их со словесными описаниями. Зато таких данных полно в интернете: в коде страницы часто прописывается специальный текст, который мы иногда видим на пустом месте незагрузившейся почему-либо картинки. OpenAI извлек из интернета большой массив таких данных, необходимый для тренировки моделей на перевод мира изображений в мир текстов и наоборот. Так на свет появился Dall-E. Трансформер с модульной конструкцией, который собран из разных ИИ.
Первая модель переводит с английского на язык латентного представления, создавая описание изображения в латентном пространстве. Затем другая модель осуществляет перевод с языка латентного представления на язык визуального. Есть, наконец, еще одна модель CLIP, которая работает в обратном направлении. Она ранжирует изображения в соответствии с тем, насколько они похожи на свои описания на английском языке.
В моделях, работающих с изображениями — таких как Midjourney и Stable Diffusion — используется процесс, называемый латентной диффузией. Идея такая: если взять изображение и начать добавлять к нему шум, мы получим в итоге нерезкое изображение шума — или просто шумовое размытие (noisy blur). Однако, если потом начать с этим изображением производить обратный процесс, то оказывается, что можно удалить шум и вернуться к изображению — только не к начальному, а к другому. Делать это нужно с умом — то есть, следить за тем, чтобы каждый шаг приближал нас к желаемому результату.
В этом случае, вместо трансформера, генерирующего изображения, есть другой трансформер, сопоставляющий латентное представление изображения моделью с текстом пользовательского запроса, так чтобы оно точнее соответствовало этому запросу. Всего несколько десятков итераций — и размытое пятно превращается в четкую сгенерированную ИИ-картинку.
Необязательно начинать именно с шумового размытия. Можно оттолкнуться от любого другого изображения, которое трансформер подкорректирует, так чтобы оно лучше, по его "мнению", соответствовало текстовому запросу. Так получается модель, способная получать фотореалистичные изображения из самых приблизительных, схематичных набросков (Например newarc.ai). Stability.ai связан и сотрудничает с несколькими ИИ-инициативами, работающими на принципах открытого исходного кода (Open Source Software), в первую очередь с проектами Eulethera и LAION. В рамках Eleuthera создан огромный массив текстовых данных под название Pile, а усилия LAION были сконцентрированы на создании колоссального (5 миллиардов) массива визуальных данных с текстовыми описаниями LAION-5B, использование которого позволило другим исследователям быстро догнать разработки OpenAI в области как тестовых, так и визуальных моделей.
Подход, состоящий в том, чтобы сначала описать изображение при помощи языка, т.е. последовательностей символов, выстроенных по определенным правилам, а потом утилизировать все удивительные способности языковых моделей уже для манипуляций образами, а не словами, представляет собой лишь один частный случай. Если вообще можно создать репрезентацию чего-либо, структурированную как язык, и существуют при этом массивы данных, достаточные для тренировки моделей, то трансформер можно обучить переводу с языка на язык.
Модель Copilot научилась переводу с естественного (английского) языка на различные языки программирования (скоро можно будет программировать, не будучи программистом). Созданная Google модель Alphafold может переводить с языка ДНК на язык белковых последовательностей. Идет работа над тем, чтобы научить ИИ модель автоматизировать процессы решения задач (вроде создания таблицы с данными) по запросам на естественном языке.
Мощность и степень гибкости моделей, о которых шла речь выше, совершенно поразительны. Кажется, правильно будет в конце этого разговора взглянуть на них из чуть более широкой перспективы.
Свойства, которые имеются в виду, это зависимость моделей данных, их непредсказуемость, способность демонстрировать эмерджентное поведение и, наконец, универсальность. Если благодаря этой статье ваше представление о предмете разговора сколько-нибудь прояснилось, то вы знаете, что успех обучения моделей ИИ определяется наличием (а также качеством и количеством) данных. С текстовыми и визуальными данными проблем нет — текста и изображений много. Это обстоятельство, в частности, позволило моделям для работы с изображениями, вроде Stable Diffusion и Google Imagen, быстро нагнать Dall-E.
Зависимость скорости развития моделей от наличия и качества данных означает, среди прочего, что степень влияния технологий ИИ в разных областях будет разной. Скажем, робототехника не располагает пока необходимыми ей массивами данных для тренировки моделей управляющих движениями, поскольку не существует хотя бы просто качественных универсальных форматов для обмена данными о движении в 3D, формах и касаниях. В индустрии создания новых лекарств, для которой биотехнологические компании сейчас обучают модели конструировать новые молекулы, сейчас часто обусловлено и лимитируется по скорости возникновением и развитием новых полей исследований и подходов в биологии. Это видно как раз на примере работ по созданию новых белков, иногда существенно отличающихся от тех, что возникли в ходе эволюции. Здесь создание новых моделей и выработка новых подходов должны идти рука об руку с очень интенсивной экспериментальной работой в лабораториях: необходимые данные не просто не собраны или не структурированы, а их приходится добывать на ходу.
Еще одно важное соображение заключается в том, что модели ИИ при обучении используют совокупность методов, называемую градиентным спуском, — а это делает их принципиально непредсказуемыми, стохастическими. Модели "генерируют, оценивают и итерируют", чтобы приблизиться к правильному ответу, но однозначно правильных или неправильных ответов для них не существует. В каком-то смысле, ИИ-модель похожа на слот-машину, в которой может выпасть выигрышная комбинация, а может — и нет. Такая непредсказуемость полезна: она дает алгоритму доступ к вновь возникающим возможностям, которые не были явно запрограммированы заранее.
Наконец, модели, о которых мы сегодня говорили, практически универсальны: описав те или иные сущности при помощи языка, мы получаем возможность использовать их для трансляции одного в другое. Универсальность этого принципа означает, что ИИ-модели будут распространяться все шире, и им найдется место во всех областях человеческой деятельности. Это может изменить мир вокруг нас даже сильнее, чем в свое время печатный станок, а совсем недавно — интернет. Инструменты на базе ИИ будут становиться все мощнее, все дешевле и все проще в использовании. Это обещает технологическую (и не только) революцию по масштабу, близкую к той, что принес собой закон Мура.
Будущее уже здесь, и совсем скоро его будет гораздо больше.
В этом эссе автор объясняет, почему методы, основанные на вычислениях, намного эффективнее подходов, использующих человеческие знания. Через примеры из истории AI он показывает, как интуитивные подходы тормозят прогресс, тогда как мощные вычисления открывают путь к прорывам. Это вдохновляющее чтение для тех, кто задумывается о будущем искусственного интеллекта.