
описание проекта
В этом проекте нейросеть Stable Diffusion была обучена создавать картинки в пиксельном стиле. В качестве датасета был собран набор из 20 пиксельных изображений с милыми героями. Далее приведены примеры исходных изображений:




итоговые изображения





комментарий
В серии результирующих изображений мы можем увидеть, что нейросеть обучилась создавать пиксельные картинки с милыми животными. Так как большинство исходных изображений были с белым фоном и в бежевых тонах (что обусловлено цветом шерсти самих животных), алгоритм перенял и эту особенность. Можно заметить, что в некоторых изображениях получилась абстракция с намеками на мордочки животных, а в одном случае у котенка получилось больше глаз, чем необходимо. Однако мы видим, что в трех случаях из пяти генерация прошла удачно и получились четкие и понятные образы.
код и описание процесса
https://disk.yandex.ru/d/-Z3ep-cemf624Q
ссылка на ноутбук с кодом
Для обучения нейросети сначала был собран и выгружен в kaggle датасет с пиксельными картинками. Затем с помощью команды нейросеть описывала, что видит на картинках (самым часто повторяющимся словом в описании картинок было «pixel»). Потом начался процесс обучения нейросети. Был написан промт. Основной запрос был сформулирован как «a photo Cell type», разрешение — 512, было установлено проверочное (250) и максимальное (500) количество шагов. Процесс обучения суммарно занял около восьми часов. Далее полученная система была загружена на аккаунт hugging face. Для получения картинок были написаны промты (например, «cat a photo in Cell style») и получены соответствующие результаты, которые можно увидеть выше.
*в проекте генИИ использован не был
описание применения генеративной модели
В данном проекте была использована нейросеть Stable Diffusion 2-1 для генерации изображений