Я знаю, что ты делал прошлым летом.

Блог

ДомДом / Блог / Я знаю, что ты делал прошлым летом.

Apr 08, 2024

Я знаю, что ты делал прошлым летом.

Мэтт Барри Следуйте - 6 Слушайте Поделиться [Это долгое чтение, недавно я также дал интервью по поводу этого эссе на исключительном подкасте Macrovoices, если вы хотите послушать:

Мэтт Барри

Следовать

--

6

Слушать

Делиться

[Это долгое чтение, недавно у меня также взяли интервью по поводу этого эссе об исключительном подкасте Macrovoices, если вы хотите послушать:

https://www.macrovoices.com/1230-macrovoices-390-matt-barrie-the-awesome-power-and-risk-of-artificial-intelligence

https://podcasts.apple.com/us/podcast/macro-voices/id1079172742?i=1000625553151

Отзыв о моем интервью: «Один из самых важных подкастов, которые я слышал». @SteveBigpond

«(Макроголоса) Это был один из ваших лучших подкастов. На самом деле сильный претендент на первое место. Спасибо." @kdogni]

22 августа 2022 года Скайнет вышел в интернет и начал обучение с геометрической скоростью.

По крайней мере, я уверен, что это именно то, что чувствовали графические иллюстраторы.

В тот день была выпущена Stable Diffusion, модель глубокого обучения преобразования текста в изображение. Как и многие другие, я скачал и начал с ней играть.

Вы должны ввести предложение типа «человек едет на мотоцикле, и его преследует медведь». То, что получилось, по крайней мере для меня, больше походило на кошмар – художественные, но часто ужасающие изображения людей с лишними частями тела и искаженными лицами в сценах, похожих на сон. Напоминающее картину Пикассо, нарисованную Сальвадором Дали, слияние людей и объектов было поразительным, но нервирующим.

Однако было что-то поистине захватывающее в сверхъестественной способности программного обеспечения воплощать любую введенную концепцию в иллюстрацию.

Я часами возился с параметрами: положительными и отрицательными ключевыми словами, количеством шагов, которые необходимо выполнить при генерации, и силой подсказки. Иногда при перебросе выпадает что-то, что вас удивляет.

Под капотом явно творилось что-то волшебное.

Просматривая Интернет, некоторые люди стали экспертами в использовании правильных заклинаний для создания связных изображений. Я вырезал и вставлял модификаторы, такие как октановый рендеринг, 4k, гиперреалистичность, и экспериментировал с количеством шагов генерации, пытаясь получить что-то из программного обеспечения, но без особого успеха.

Было ясно, что работа иллюстраторов в безопасности.

Что было особенно новаторским в Stable Diffusion, так это то, что исходный код был открытым. В течение многих лет я слышал слухи о секретных прорывах в недрах крупных технологических компаний Кремниевой долины, и время от времени они что-то демонстрировали.

Теперь, когда появился какой-то код, общественные инновации резко возросли.

Два с половиной месяца спустя Lensa, приложение для редактирования фотографий с искусственным интеллектом на базе Stable Diffusion, запустило «волшебные аватары», которые покорили мир. Любой желающий мог загрузить пару своих изображений и создать сумасшедшие аватары. Приложение стало вирусным, поскольку количество загрузок превысило лимит.

Затем Midjourney выпустила четвертую версию, и начался настоящий ад.

«Жуткая долина» — это термин, используемый для описания взаимосвязи между человеческим внешним видом роботизированного объекта, где несовершенное сходство вызывает сверхъестественные или странно знакомые чувства беспокойства и отвращения.

Как и Lensa, Midjourney обучалась на наборе данных LAION-5B, состоящем из 5,85 миллиардов изображений с текстовыми описаниями, взятыми из Интернета. LAION-5B был в 14 раз больше, чем LAION-400M, предыдущий крупнейший общедоступный набор данных.

Что-то в увеличении масштаба позволило Midjourney успешно и по-настоящему пересечь зловещую долину.

Больше не будет образов из кошмара, программа вдруг выдаст потрясающие, фотореалистичные изображения чего угодно.

Святое дерьмо.

Началась гонка вооружений в инструментах для иллюстрации. Мидджорни был впереди, но разрыв быстро сокращался. Что сделало Midjourney выбранным инструментом, так это то, что создаваемые им изображения содержали в себе красивый элемент фэнтези.

Стиль был очень похож на стиль польского иллюстратора по имени Грег Рутковски. Это потому, что многие приложения для проектирования искусственного интеллекта использовали Грега Рутковски в качестве ключевого слова по умолчанию. Грег пользовался большой популярностью среди фанатов благодаря созданию артов для Dungeons & Dragons и Magic: The Gathering.