В инфополе ворвалась новая диффузионная модель Flux и порвала всех конкурентов. Из своих тестов и того, что видел на Reddit, изображения значительно лучше, особенно в плане анатомии и злосчастных рук, чем то, что делает Stable Diffusion. Модель доступна в двух вариантах Schnell (разрешено использование в коммерческих проектах) и Dev (не для коммерческого использования). Обе версии имеют один размер, но Schnell генерирует изображения за меньшее число шагов и немного худшего качества чем Dev. Модели значительно больше по размеру чем SDXL и новая (неудачная) SD3, и весят почти 24ГБ.

Чтобы запустить Flux на 12ГБ нам понадобятся:

Копируем:

  • flux1-schnell-fp8.safetensors в comfyui/models/unet/
  • t5xxl_fp8_e4m3fn.safetensors и clip_l.safetensors в comfyui/models/clip/
  • ae.sft в comfyui/models/vae/

Запускаем ComfyUI и закидываем этот пайплайн как пример для старта:

На моей RTX 3060 12GB 4 шага Schnell считается довольно быстро. Результат очень впечатляет, особенно руки и лица на людях в полный рост.

Какие минусы я заметил, модель не знает стили художников, в пайплайне выше я пытался сделать изображение в стиле Moebius (Жан Жиро), но получилось в стиле обычного комикса. Возможно разработчики сознательно избегали упоминаний художников при тренировке, чтобы избежать обвинений в плагиате и нарушении прав. Stable Diffusion в этом плане знает больше. Еще из минусов - размер модели, не все могут её запустить, и тренировать Flux на потребительских устройствах уже не получится, и вообще не понятно насколько это возможно, с тренировкой LoRa тоже пока не ясно. Но модель однозначно получилась великолепной и заслуживает внимания.

Потестировать бесплатно

Попробовать Flux.Schnell бесплатно можно в telegram с помощью бота PixelMuse. Просто напишите ему тектовый запрос и выберите соотношение сторон изображения. Запросы можно писать и на русском, и на английском. В первом случае бот сам переведет запрос на английский.

UPD

Появились bitsanbytes NF4 версии моделей, весят 10.7ГБ и считаются быстрее чем fp8, скачать можно на civitai. В ComfyUI для загрузки модели необходима нода CheckpointLoaderNF4 и установить bitsandbytes (pip install -U bitsandbytes).

На 3060 12Gb Flux.Dev считет 20 шагов за минуту.

UPD

Появилась информация об успешной тренировки Flux на видеокарте c 24ГБ VRAM (источник). Скоро нас ждет поток файнтюненых моделей.