В инфополе ворвалась новая диффузионная модель Flux и порвала всех конкурентов. Из своих тестов и того, что видел на Reddit, изображения значительно лучше, особенно в плане анатомии и злосчастных рук, чем то, что делает Stable Diffusion. Модель доступна в двух вариантах Schnell (разрешено использование в коммерческих проектах) и Dev (не для коммерческого использования). Обе версии имеют один размер, но Schnell генерирует изображения за меньшее число шагов и немного худшего качества чем Dev. Модели значительно больше по размеру чем SDXL и новая (неудачная) SD3, и весят почти 24ГБ.
Чтобы запустить Flux на 12ГБ нам понадобятся:
- Обновить ComfyUI до последней версии
- Собственно сами модели, уже доступны fp8 варианты, весят в два раза меньше чем fp16, скачать можно здесь: https://huggingface.co/Kijai/flux-fp8/tree/main
- Энкодер текста. Берем
t5xxl_fp8_e4m3fn.safetensors
(можете скачать fp16 если у вас больше 32ГБ ОЗУ) иclip_l.safetensors
здесь: https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main - VAE здесь: https://huggingface.co/black-forest-labs/FLUX.1-schnell/blob/main/ae.sft
Копируем:
flux1-schnell-fp8.safetensors
вcomfyui/models/unet/
t5xxl_fp8_e4m3fn.safetensors
иclip_l.safetensors
вcomfyui/models/clip/
ae.sft
вcomfyui/models/vae/
Запускаем ComfyUI и закидываем этот пайплайн как пример для старта:
На моей RTX 3060 12GB 4 шага Schnell считается довольно быстро. Результат очень впечатляет, особенно руки и лица на людях в полный рост.
Какие минусы я заметил, модель не знает стили художников, в пайплайне выше я пытался сделать изображение в стиле Moebius (Жан Жиро), но получилось в стиле обычного комикса. Возможно разработчики сознательно избегали упоминаний художников при тренировке, чтобы избежать обвинений в плагиате и нарушении прав. Stable Diffusion в этом плане знает больше. Еще из минусов - размер модели, не все могут её запустить, и тренировать Flux на потребительских устройствах уже не получится, и вообще не понятно насколько это возможно, с тренировкой LoRa тоже пока не ясно. Но модель однозначно получилась великолепной и заслуживает внимания.
Потестировать бесплатно
Попробовать Flux.Schnell бесплатно можно в telegram с помощью бота PixelMuse. Просто напишите ему тектовый запрос и выберите соотношение сторон изображения. Запросы можно писать и на русском, и на английском. В первом случае бот сам переведет запрос на английский.
UPD
Появились bitsanbytes NF4 версии моделей, весят 10.7ГБ и считаются быстрее чем fp8, скачать можно на civitai.
В ComfyUI для загрузки модели необходима нода CheckpointLoaderNF4 и установить bitsandbytes (pip install -U bitsandbytes
).
На 3060 12Gb Flux.Dev считет 20 шагов за минуту.
UPD
Появилась информация об успешной тренировки Flux на видеокарте c 24ГБ VRAM (источник). Скоро нас ждет поток файнтюненых моделей.