Введение
Проект посвящен тренду ностальгии по «Старому Minecraft» который остался заперт в нашем детстве. Этот тренд подразумевает сразу 2 типа изображений:
- Малиновая обработка скриншотов мира в ночи или на рассвете с эффектом аберрации
- Стандартная версия 1.7.4 игры, когда освещение было плоским, дальность прорисовки была сильно ограничена из-за слабых комплектующих в компьютерах.
Я решил сделать симбиоз сразу 2х направлений и посмотреть на результат. В моих планах было напомнить через генерации о том самом мире с другом/братом/сестрой, который остался где-то на жестком диске твоего компьютера.
Источником изображений стали скриншоты из игровых форумов 2012 и фанатские обработки
Я допускаю нелогичные строения, странные формы, которые только усиливают восприятие изображения как демонстрация детского хаоса без взрослой дотошности. Всё будто застыло в ожидании продолжения приключения, но его никогда уже не будет
Целью проекта я ставлю обучение генеративной модели на построение форм на вымышленной сетке, из кубов и при этом пиксельными текстурами. Освещение должно работать как сырой шейдер для старых версий
Датасет изображений / примеры
Примеры из датасета (Minecraft)
Примеры из датасета (Minecraft)
Примеры из датасета (Minecraft)
Собрано 50 скриншотов в один датасет для обучения модели. Как было описано выше, используются скриншоты с обработкой и без для имитации быстрого майнкрафт-шейдера
Датасет включает:
- Кадры дневные природы
- Постройки из булыжника, стекла и досок
- Кадры в пещерах
- Кадры берега и моря
- Карты крупных строений с воздушной перспективой
Кадры очищены, обрезаны под квадрат, 512px на вход. Разные ракурсы, удаленность от объектов, погодные условия, а также время суток
Обучение модели
В проекте использовалась модель Stable Diffusion XL (SDXL), дообученная с помощью метода LoRA (Low-Rank Adaptation). Этот подход позволяет адаптировать модель под конкретный стиль без полного переобучения, что значительно снижает вычислительные требования.
Обучение проводилось с использованием единого текстового описания, задающего стиль:
… in TOK minecraft style, cubic pixel art…
Параметры обучения: — разрешение: 512 px — количество шагов: 600 — batch size: 2 — rank LoRA: 16 — оптимизация через 8-bit Adam
negative_prompt="realistic, smooth, photographic, rounded shapes, organic forms, blurry»
Финальная серия изображений
В результате обучения получена серия изображений, демонстрирующих различные сцены в усвоенном стиле. Серия включает: — лесные и природные биомы — горные и песочные ландшафты — подземные пещеры с лавой — архитектурные сцены и интерьеры
Создалась приятная воздушная перспектива которую модель переняла из изображений с ограниченной дальностью прорисовки (малая отрисовка чанков) на скриншотах старой версии игры
Хорошо получилось: Лава воспринимается как жидкость между блоков, а не как единый блок (она ниже по высоте)
Анализ результатов
Модель уверенно воспроизводит ключевые визуальные характеристики стиля: — блочную, кубическую геометрию всех объектов — пиксельные текстуры с характерной детализацией — условное освещение с резкими границами тени для дня и плавность для вечера/утра — цветовую палитру
В ряде изображений наблюдаются незначительные отклонения от исходного стиля — сильная хаотичность рельефа и неразборчивые блоки мебели, что можно решить увеличением количества изображений стандартных генераций мира, а также добавлением всех блоков быта через интерьеры под разными ракурсами и освещением.
В моей работе я хотел добиться эффекта ностальгического освещения, лесного биома и хаотичных строений, что удачно получилось реализовать
Что у неё получается лучше всего: обычный лесной биом, рассвет, замки на горах в силу увеличенной выборки в датасете
Ограничения обученной модели
Наличие более 2х строений приводит к излишнему хаосу в ландшафте и композиции в целом, потому что обучал именно на единичных строениях по центру экрана. Также другие биомы игры не занесены в датасет и поэтому модель предсказывает с большими неточностями в сравнении с игрой, например она считает: снежный биом — это обычный лес но с белой травой и большим количеством снежинок, без льда на воде. Она может предсказать вид биома, но делает это с большими допущениями и докидывая детали которых нет в игре. Именно пренебрегая этим дефектом я сгенерировал пирамиду, где она сделала кактусы другой формы и попыталась уйти в умеренный реализм
Генеративные нейросети в проекте
Stable Diffusion XL — базовая генеративная модель
LoRA — метод дообучения
Claude — для: — создания корневого промта и негативных промтов — помощи с дообучением




