
Идея
Для обучения нейросети я решила выбрать фотографии волнистых попугайчиков и посмотреть, насколько хорошо модель сможет сгенерировать фотографии без артефактов, которые так характерны для ИИ-изображений.
Датасет состоял из 30 изображений попугаев, вся работа проходила в среде разработки Google Colab.
Примеры исходных изображений


Пример исходных изображений

Пример исходных изображений


Пример исходных изображений
Процесс обучения
После того, как весь датасет был собран и подготовлен, можно было приступать к работе с кодом. Сначала были импортированы нужные библиотеки, после загружены изображения через встроенную функцию в Google Colab.

Импорт библиотек
Вывод превью изображений
Один из этапов обучения — генерация подписей к картинкам. Так можно понять, что нейросеть правильно распознает изображения в датасете.
Генерация подписей к изображениям
Генерация подписей к изображениям и обозначение префикса
Также было необходимо сгенерировать токен на Hugging Face и с помощью него зайти в систему внутри Google Colab, чтобы потом сохранить обученную модель.
Вход в аккаунт Hugging Face
Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 47 минут.
Обучение модели
После того как обучение было завершено, модель можно было сохранить на Hugging Face.
Сохранение модели на Hugging Face
Итоговая серия изображений


Сгенерированное изображение / Реальное фото
Сгенерированные изображения вышли довольно удачными, попугаи выглядят как попугаи, как можно заметить, сложно понять, где оригинальное фото, а где ИИ-изображение.
Сгенерированные изображения
Помимо самих попугаев, модель неплохо обучилась генерировать и окружение. На одной из картинок можно заметить человеческую руку, которая легко распознается, несмотря на наличие лишнего пальца. При этом какие-то объекты на заднем плане тоже выглядят как что-то реальное.


Сгенерированное изображение / Реальное фото
Конечно не обошлось и без артефактов. На некоторых изображениях птицы стоят друг на друге, либо попугай является частью другого, где-то птица вроде летит, но крылья ее собраны, либо есть одно лишнее.
Сгенерированные изображения


Сгенерированное изображение / Реальное фото
В остальном же, попугаи генерируются анатомически правильно в хорошем качестве.


Сгенерированные изображения


Сгенерированные изображения
Описание применения генеративной модели
В проекте были использованы следующие инструменты:
• LoRA: Low-Rank Adaptation of Large Language Models; • Stability AI Stable Diffusion XL (SDXL); • Hugging Face Hub.