💾 Archived View for ostov.ml › articles › nai-1.gmi captured on 2023-05-24 at 17:54:24. Gemini links have been rewritten to link to archived content

-=-=-=-=-=-=-

Файнтьюним собственную модель на базе Stable Diffusion

Я уже говорил, что прогресс в сфере ML идет семимильными шагами.

Если раньше, чтобы обучать/дообучать нейросети нужно было разбираться в пайтоне, керасе и тензорфлоу, то сейчас этот процесс может освоить даже домохозяйка. И для файнтьюна не нужны часы, достаточно 15-20 минут (без учета сбора датасета).

Для чего файнтьюним

Если поиграться подольше с диффьюженнами, то через некоторое время наткнешься на ограничения. Модель может не знать стиль какого-то автора, или не может рисовать какие-либо сцены или предметы.

К примеру модель animefull-pruned, которая используется в NovelAI, не знает мангаку Юкино Минато.

Я решил исправить это недоразумение, собрал коллекцию его работ (сначала 50, затем 100 штук). И о чудо, нейронка начала рисовать в его стиле!

DreamBooth

Есть такой прекрасный инструмент - Dreambooth. Его можно запустить локально, если имеется хорошее GPU.

Для людей со слабым железом есть колаб:

Fast-Dreambooth

Перед, собственно, файнтьюном нужно собрать датасет. Датасет - самое важное в ML. Чем он больше и разнообразней, тем лучше будет конечный результат.

Впрочем данных для файнтьюна диффьюженнов требуется не так уж и много. 50 изображений будет достаточно, но для более качественного результата желательно бы иметь хотя бы 100. Главное - картинки должны быть разнообразные. Объект на картинках должен быть в разных ракурсах, если речь о человеке, то желательно с разной мимикой и в разных позах, ну и так далее.

После того, как датасет собран, можно уже запускать DreamBooth:

В колабе прокликиваем несколько блоков для запуска системы
Выбираем базовую модель, которую будем дообучать (можно указать ссылку на huggingface)
Загружаем картинки (не забываем нажать на галочку "Crop")
В блоке Captions подписываем картинки текстовым описанием/тегами
Запускаем обучение и немного ждем

(Гайд так себе, но там действительно ничего сложного нет)

После всех проделанных операций в гугл-диске (или в FS, если запуск локальный) появится ckpt-файл - собственно дообученная модель.

Не только мы такие умные

В интернете появилось огромное количество самых разных моделей. Некоторые заточены под какого-то определенного аниме-персонажа, некоторые используя для стилизации, некоторые позволяют использовать интересные фильтры.

К примеру сейчас популярна модель OrangeMixs (там же и примеры работ):

https://huggingface.co/WarriorMama777/OrangeMixs

Диффьюжены стали **народными** моделями. Пока корпорации пытаются закораптить нейросети под "европейские ценности", энтузиасты на домашних пекарнях занимаются генерацией картинок без всякой цензуры.

Ответ flayer'у

Заодно ответ по теме статьи:

Технари 2020-х:

мы создаем Al, который будет писать все ваши книги, музыку и телевидение, чтобы вы могли сосредоточиться на бессмысленном, нудном однообразии вашего рабочего места.

Не стоит впадать в неолуддизм. AI не заменяет художника, а помогает ему. Это инструмент, как кисть. Очень умная кисть, помогающая раскрывать творческий потенциал, облегчающая труд.