
ТЕМА ПРОЕКТА
Обучение модели Stable Diffusion (через LoRA-адаптацию) на реальных изображениях альпак для генерации фотореалистичных сцен и портретов животных в различных условиях освещения и окружения.
КОНЦЕПЦИЯ
Идея проекта — научить нейросеть формировать изображения, максимально приближённые к фотографиям альпак, сохранив при этом естественную фактуру шерсти, пропорции тела и реалистичные выражения морды. Основная цель — показать, как дообучение модели позволяет не просто воспроизводить форму объекта, но и имитировать особенности реальной съёмки: глубину резкости, свет, перспективу и цветовой баланс.
ИСХОДНЫЕ ИЗОБРАЖЕНИЯ ДЛЯ ОБУЧЕНИЯ
РЕЗУЛЬТИРУЮЩАЯ СЕРИЯ ИЗОБРАЖЕНИЙ
Описание серии: Каждое изображение было сгенерировано на основе промптов, описывающих реалистичные сцены:
«a realistic portrait of an alpaca in sunlight, ultra-detailed fur, shallow depth of field» «two alpacas standing in a mountain field, natural lighting, realistic colors, 8k photo» «close-up photo of an alpaca with blurred background, cinematic light
РАЗВЕРНУТЫЙ КОММЕНТАРИЙ И ВИЗУАЛЬНЫЙ АНАЛИЗ
Анализ результатов:
Модель точно воспроизводит структуру шерсти: переданы как мягкие, так и жёсткие участки волосков. Свет проработан естественно — особенно при боковом и рассеянном освещении. Отдельные изображения демонстрируют «глубину кадра» и размытый фон (эффект боке), что усиливает реализм. Цветовая температура варьируется от холодных утренних до тёплых вечерних тонов.
Стилистические особенности:
- Реалистичная фактура шерсти и мягкие переходы цвета. - Чистые естественные оттенки — белый, кремовый, бежевый, серый. - Естественная анатомия и мимика животных. - Отсутствие цифровых артефактов и признаков генеративного искажения.
Неудачные генерации:
В отдельных случаях нейросеть допускала артефакты: искажённые пропорции головы, неестественно вытянутая морда или асимметричные глаза.
Иногда текстура шерсти выглядела чрезмерно «пластиковой» или с повторяющимися паттернами, что выдавало синтетическое происхождение изображения. Были зафиксированы случаи неправильного формирования ушей или рта, особенно при сложном освещении или наклонённой позе.
Соответствие концепции: Цель проекта достигнута — обученная модель создаёт изображения, неотличимые от реальных фотографий в большинстве случаев. Иногда нейросеть даже усиливает визуальные качества (чёткость деталей, баланс цвета), формируя эстетически выразительные «фото», которых не существовало в исходной выборке.
JUPYTER/COLAB НОУТБУК
Включает: - датасет с изображениями альпак - обучение LoRA и сохранение промежуточных чекпоинтов; - генерацию итоговой серии изображений. - датасет сгенерированых изображений
ИСПОЛЬЗОВАНИЕ GENAI
В проекте дополнительно использовался ChatGPT (GPT-5) для:
- составления промптов для генерации; - формулировки текстовых описаний для caption-пар;