Ожидания от Sora были высокими. До релиза нам казалось, что создание видео сведётся к тому, чтобы его придумать. Когда дошло до дела, оказалось, что генерации дороги и нестабильны, кадры «прыгают», референсные изображения теряются, стиль не держится. Тут возникло ощущение, что Sora просто уступает другим whatever-to-video моделям, для которых уже сложились не всегда простые, но более или менее надежные рабочие процессы (workflows).
Пример Workflow из курса AI-Movie:
Cначала разрабатываем сториборд в Midjourney, а потом генерируем по готовым кадрам в Runway добавляя инструкции “оператору” в промпт.
В этих процессах изображения и/или текстовые промпты направляют генерацию видео продолжительностью в несколько секунд, которое тут же передается на цифровой монтажный стол. Развить результат практически невозможно — после первых нескольких секунд в видео перестает происходить что-либо новое, а начинается наоборот, постепенная деградация картинки. Однако, когда мы взяли и понесли свои референсы и инструкции в Sora, предварительно внимательно ознакомившись с документацией OpenAi, которая подтвердила, что это правильно, то оказалось, что глупая модель даже с этим не справляется, и мы вернулись к своим прежним инструментам.
На выходных я решила дать ей второй шанс, и, при ближайшем рассмотрении выяснилось, что — Sora да, все-таки делает нечто абсолютно уникальное, а именно — пытается придумать, как соединить два отрезка видео так, чтобы избежать монтажной склейки.
На предыдущем этапе похожим образом влиять на монтаж мы могли только в программах вроде After Effects. C помощью композитинга, который позволяет не просто «монтировать» кадры друг за другом, а создавать совершенно новые сцены, которые невозможно было снять на камеру, достраивая недостающее из подручных средств и избегая монтажных склеек.
В генераторах изображений мы встречаем похожую идею в инструментах inpainting и outpainting, с помощью которых можно заменить деталь в готовом изображении или дорисовать его.
Предлагаю так и называть – нейросеть, которая делает композитинг. К тому же у нее, как и в After Effects есть таймлайн, а значит, можно бесконечно (т.е. без ограничения по таймингу) сводить и смешивать отдельные видеофрагменты.
Концепция, давно знакомая специалистам по медиа, — поиск средств развития нарратива вне “постановочных” сцен, и без применения монтажа — в области генеративного AI совершенно не обсуждалась. А жаль, похоже Sora, поместив композитинг в основу генерации, обращается именно к этой идее.
Проблем на этом пути, конечно же, возникает множество. Так, в частности, склейка выходит органичной, прямо скажем, не всякий раз. Это раздражает, но тут безусловно есть что-то очень человеческое: между кульминационными/яркими моментами жизни всегда находится гигантский объем чего-то не укладывающегося ни в какой последовательный нарратив.
На тот случай, если мне удалось временно хоть немного реабилитировать Sora, вот пара технических советов, по работе с ее (потенциально) бесконечным таймлайном.
1.
Размещайте фрагменты на таймлайне, оставляя между ними пространство (оно же — время и фреймы) для генерации перехода.
В пространство, предназначенное для перехода можно написать короткий промпт, чтобы облегчить модели задачу. Но при этом, во-первых, не стоит полагаться на подсказки, а главное — не нужно вдаваться в детали никогда кроме самой первой генерации. (По мнению OpenAi – нужно, но пока что практика этого не подтверждает.)
2.
Смешивайте видео, используя разные варианты функции Blend — от назначения направляющего видео (Sample) до полного смешения (Mix or Custom).
3.
Наконец, последний совет, не относящийся, на самом деле, к композитингу: всю эту машинерию гораздо проще заставить работать, если у вас есть стилизующий пресет, — что-то вроде системного промпта или, скорее, интегрированного технического задания для оператора, художника-постановщика и осветителей, вместе взятых.
Пошаговый гид для эффективной работы в Sora: превращайте изображения в анимацию, комбинируя разные видео, создавайте плавные и выразительные сцены, используя Storyboard и уникальную функцию Blend.
Три свежих исследования о том, как люди и даже целые семьи доверяли свою кукушечку Midjourney и разным другим моделям, и что из этого вышло. Если вы чувствуете, что ваш внутренний художник вот-вот убежит в закат с криком "я устал, я ухожу", самое время разобраться в возможностях AI-терапии.
В этом эссе автор объясняет, почему методы, основанные на вычислениях, намного эффективнее подходов, использующих человеческие знания. Через примеры из истории AI он показывает, как интуитивные подходы тормозят прогресс, тогда как мощные вычисления открывают путь к прорывам. Это вдохновляющее чтение для тех, кто задумывается о будущем искусственного интеллекта.