Что такое ДАЛЛ·Е 2?

DALL·E 2 — это программа искусственного интеллекта, которая создает изображения из текстовых описаний, опубликованных в четверг исследовательской компанией OpenAI.

Он использует обучающую версию модели преобразователя GPT-3 с 12 миллиардами параметров для интерпретации входных данных на естественном языке и создания соответствующих изображений. Например, при наличии предложения «черно-белая фотография маленькой собаки» он правильно воспроизвел черно-белое изображение чихуахуа.

Система не идеальна — иногда она создает изображения, которые трудно интерпретировать, или они совершенно не соответствуют действительности. Например, когда его попросили сгенерировать изображение «человека, едущего на одноколесном велосипеде по канату над вулканом», он выдал (красивое, на мой взгляд), но совершенно не относящееся к делу изображение заката над водой с маленькой фигуркой на переднем плане. .

Тем не менее, результаты впечатляют, и OpenAI заявляет, что DALL·E 2 «является первой моделью искусственного интеллекта, которая генерирует изображения из текстовых описаний, которые могут соперничать с качеством профессиональных художников-людей».

Система была обучена на наборе данных пар текст-изображение, состоящем примерно из 1,3 миллиона изображений и подписей из Интернета, которые были отобраны и отобраны OpenAI. Затем обучающие данные использовались для точной настройки модели GPT-3, чтобы она могла генерировать изображения из текстовых описаний.

OpenAI заявляет, что система может генерировать «высококачественные» изображения из широкого спектра текстовых описаний, в том числе абстрактных, конкретных или даже поэтических.

В дополнение к примеру с чихуахуа другие примеры изображений, созданных DALL·E 2, включают правильно отрендеренный портрет Адольфа Гитлера, изображение дракона, сделанное из овощей, и изображение Моны Лизы, сделанное из тостов.

Система также способна генерировать образы вещей, которых не существует, таких как «флуф» (выдуманное животное) или «тульпа» (мыслеформа).

В целом результаты впечатляют, и OpenAI заявляет, что система «открывает новые возможности для создания изображений из текстовых описаний».

ИЗ Е 2 Этот CLIP-система преобразует текстовую информацию в визуальную. Это парадигма кодировщик-декодер, что означает, что когда предоставляется входной текст, он сначала преобразуется в машинный ввод, затем обрабатывается системой и, наконец, передается декодеру, который преобразует закодированные данные в изображение.

Что такое ДАЛЛ Е 2

Что такое ДАЛЛ·Е 2?

Это последнее поколение DALL·E, генеративной языковой модели, использующей фразы для создания совершенно новых визуальных эффектов. DALL E 2 — это огромная модель на 3,5 В, хотя и не такая массивная, как GPT-3. Интересно, что он также легче своего предшественника (12B). С точки зрения выравнивания описания и фотореализма DALL·E 2 на 70 % лучше, чем DALL·E 2, несмотря на больший размер.

DALL.E 2- объяснение для начинающих с примерами

В частности, DALL·E 2 представляет собой иерархическую условную модель синтеза текстовых изображений, которая сочетает в себе глубокое обучение для обработки естественного языка с компьютерным зрением для генерации изображений. Его цель — обучить две модели, а обучающий набор состоит из парных картинок и описаний. Во-первых, это априори, что при заданном письменном заголовке можно обучить генерировать встраивание изображения CLIP. Затем у нас есть декодер, который при встраивании CLIP-изображения (и подписи, если она есть) может генерировать обученное изображение.

DALLE 2 обучается с использованием сотен миллионов фотографий с подписями из Интернета, и некоторые из этих изображений удаляются и перетасовываются, чтобы изменить то, что изучает модель. Он извлекает несколько вариантов изображения КЛИП вложения а затем использовать его декодер пройтись по каждому из них. Затем он создает интересное сочетание всей этой информации с учетом ввода пользователя.

Пример ДАЛЛ ИС 2

Давайте поиграем в небольшую игру, чтобы понять DALL·E. Давайте разобьем его на следующие три шага.

Представьте себе радугу, облака и единорогов, летящих по голубому небу. Представьте, какой может быть картина в вашем воображении. Люди — это самое близкое, что у нас есть, к идеальному аналогу встроенного изображения, и картинка, которая только что возникла у вас в голове, — прекрасный тому пример. Вы можете только догадываться о конечном продукте, но у вас есть хорошее представление о том, что должно быть включено. Априорная модель переводит читателя от слов во фразе к сцене в его или ее воображении.
Теперь можно приступать к рисованию. Что делает unCLIP, так это превращает вашу мысленную картинку в реальный набросок. Теперь вы можете точно воссоздать другого персонажа по тому же описанию, с теми же основными характеристиками, но с совершенно новым визуальным стилем. DALL·E 2 также может генерировать уникальные изображения из существующего изображения, встроенного таким образом.
Обратите внимание на сделанный вами эскиз. Вот что происходит, когда вы набрасываете описание «единорог посреди облаков, а радуга поднимается на фоне неба». Теперь изучите изображение и текст, чтобы определить, что лучше всего иллюстрирует другое (солнце, дом, дерево и т. д.), а что лучше всего иллюстрирует предмет, стиль, цвета и т. д. Что делает CLIP, так это кодирует характеристики. текст и изображения.

Теперь, когда мы знаем, что такое DALL-E, давайте перейдем к следующему разделу и разберемся в его особенностях.

Кончик: Как создавать реалистичные изображения с помощью ИИ-сервиса DALL-E-2

Особенности ДАЛЛ Е 2

Ниже приведены технические характеристики DALL·E 2.

Вариации
Раскраски
Текстовые различия

Поговорим о них подробно.

как сделать визитки в word 2010

1] Вариации

DALL·E 2 выходит за рамки простого преобразования предложения в изображение. OpenAI может экспериментировать с процессом генерации, получая разные результаты для данной подписи благодаря надежным встраиваниям CLIP. CLIP «видит» в своем «разуме» то, что считает важным из входных данных (остается одинаковым для всех изображений) и что можно заменить (что меняется для разных изображений). Когда это возможно, DALL·E 2 будет сохранять как «значимую информацию…, так и эстетические аспекты».

2] Окраска

DALL·E 2 может изменять существующие фотографии с помощью автоматического заполнения. В следующем примере левое изображение является исходным изображением, а центральная и правая фотографии имеют элемент, нарисованный в разных местах. DALL·E 2 соответствует дополнительному элементу стиля изображения. Он также обновляет текстуры и отражения, чтобы отразить новый элемент.

Читать : Что вы можете сделать с ChatGPT

3] Различия в тексте

DALL·E 2 преобразует изображения, используя текстовые различия. DALL·E 2 также имеет расширенные возможности интерполяции, которые позволяют изменять объекты. Один пользователь Twitter смог «разморденизировать» свой iPhone. twitter.com чтобы проверить это.

Если вам нравятся эти функции, все, что вам нужно сделать, это перейти к openai.com а потом зарегистрироваться. Вы можете создать новую учетную запись или использовать существующие учетные записи Microsoft или Google для регистрации. Как только вы это сделаете, вы получите несколько бесплатных кредитов, если вы хотите больше, вы должны заплатить за это.

Это некоторые из особенностей DALL·E 2, у него есть много отличных вариантов использования, однако всегда рекомендуется не слишком полагаться на инструменты ИИ. В конце концов, они не что иное, как инструменты, используемые для выполнения работы, они никогда не смогут заменить эмоциональный интеллект человека.

Также читайте: Лучшие приложения, программное обеспечение и веб-сайты для дипфейков.