Погружение в 90е (SDXL версия)

Натренировал новую SDXL версию своей лоры под стиль аналоговых фото 90-х. LoRa добавляет тени от вспышки, утечки света, цвета в стиле ломо. Для SDXL версии пришлось пересобрать датасет, исправить описания и неделю поэксперементировать с параметрами. Скачать для экспериментов можно на HuggingFace.

5 мая 2025

Как обучить языковую модель самостоятельно

Мне не давал покоя вопрос, можно ли на моей нищенской RTX3060 12Gb натренировать свою (не)большую языковую модель. И как оказалось - да, это сделать можно используя Low-Rank Adaptation (LoRA). Т.к. VRAM немного, 8B - это самая большая модель из семейства лама которую можно натренировать на этой карте. Что для этого надо? 1. Грабим данные У меня была идея сделать модель которая будет помогать с трактовкой карт Таро, поэтому идем и грабим корованы сайты с описанием карт и раскладов таро. Для ограбления я написал небольшой python скрипт и с использованием beautifulsoup4 сохранил результат в отдельные JSON файлы. ...

23 марта 2025

Погружение в 90е

Для ностальгирующих по эстетике 90х. После пары недель экспериментов с kohya_ss и подробом параметров зарелизил вторую версию LoRa для создания картинок в стиле фотографий на мыльницы со вспышкой. Скачать для экспериментов можно на Civitai. По сравнению с первой версией эту лору можно использовать с большей strength не ломая изображение. В последний заход потратил часов восемь на тренировку и около 80 эпох. По факту оказалось, что после 5-6 эпох LoRa уже сильно перетренирована, хотя Loss так и не достиг минимума и продолжал уменьшаться. ...

5 ноября 2023

Controlnet для тг-бота pixelmuse

Добавил новую функцию для telegram-бота @pixelmuse_bot. Теперь на вход ему можно отправить кривой рисунок с командой в описании /imagine2 текст запроса и на выходе получить что-то осмысленное и даже красивое. Как это работает под капотом. Никакой магии, для управления нейросетью используем controlnet. Controlnet заставляет нейросеть использовать информацию о границах объектов как опору для создания нового изображения. После получения изображения от пользователя обрабатываем его с помощью cv2.Canny для определения краев. Тут пришлось поэксперементировать с параметрами чтобы края определялись в том числе на фотографиях, где переходы, например на лице, могут быть плавными, а потеря этих границ даёт модели слишком много свободы для творчества. ...

17 октября 2023
Красивая девушка с сухими цветами в волосах

Telegram-бот для создания изображений нейросетью

В общем, кому не хватало Midjourney у нас дома - добро пожаловать в @pixelmuse_bot. Что бот умеет на данный момент: Создавать картинки по текстовому запросу Используется автоматический машинный перевод текста на английский, поэтому запрос может быть практически на любом языке Можно выбрать из 5 моделей: реализм, аниме, киборги, sci-fi окружение, стикеры (по факту под капотом две модели + разные LoRa) Можно загрузить свою фотографию для обработки img2img Можно сделать апскейл результата x1.5. Для апскейла используется нейронка Real-ESRGAN Даю 20 токенов для тестов (20 изображений) с лимитом 10 токенов в день Dev-лог Какое-то время ковырял Stable Diffusion в Автоматик111 и ComfyUI. В один прекрасный депрессивный день решил посмотреть, как работать с сетью напрямую в python. Сделать это можно с помощью библиотеке diffusers от Hugging Face. Написал пятистрочный скрипт и подумал почему бы ради прикола не приделать к нему телеграм бота, и тут понеслось. ...

22 сентября 2023

У нас есть ChatGPT дома

В статье опишу настройку web API и web-чат похожего на ChatGPT для LLaMA-подобных моделей. Всё это довольно сносно работает на CPU Ryzen 3600 + 32ГБ ОЗУ. API + веб чат Для настройки нам понадобятся три проекта: llama.cpp - мозг нашей системы gpt-llama.cpp - эмулирует API от OpenAI. Реализовано не всё chatbot-ui - web интерфейс для доступа к моделям OpenAI После установки компонентов должна получиться такая структура: local-chat - корень проекта ├── chatbot-ui ├── gpt-llama.cpp └── llama.cpp ├── main* └── models/your-ggml-model.bin llama.cpp Думаю многие уже попробовали установить и пообщаться с llama-подобными моделями, но в любом случае опишу процесс установки. ...

27 апреля 2023

Как поговорить с LLaMA голосом

Наверное уже все пообщались в текстовом режиме с llama-подобными моделями, в этой заметке расскажу как можно настроить полностью голосовое общение с моделью. Для общения нам понадобятся: whisper.cpp - преобразование голоса в текст silero - синтез речи модель совместимая с llama.cpp Silero TTS По моему Silero лучший синтезатор речи который можно запустить под Linux с довольно приличной скорость на CPU. На хабре есть несколько статей от разработчиков, поищите, интересное чтиво. Пользователи Mac могу пропустить этот шаг и использовать для синтеза Siri. ...

26 апреля 2023

Этика ИИ. Корпорации врут, а мы катимся в пропасть?

Если попытаться спросить ChatGPT о чем-то связанном с насилием, криминалом и т.п. - он ответит, что не будет обсуждать эту тему т.к. это не этично. OpenAI и Microsoft постоянно рассказывают о своих усилиях в области безопасности ИИ. Тот же Google какое-то время назад прикрыл доступ к своей языковой модели после того как пользователи научили её “плохим” вещам. Но так ли всё хорошо с безопасным и этичным использованием ИИ и куда мы идем? ...

23 марта 2023

Подготовка данных для нейронной сети

На волне шумихи вокруг GPT-3 появилось желание покапаться во внутреннем устройстве нейронных сетей и попробовать написать сеть для классификации текстов по категориям/тэгам. Это первая заметка из серии, речь в ней пойдет о предварительной подготовке данных. Зачем необходима подготовка данных? Текстовые данные не могут быть использованы напрямую в моделях машинного обучения, так как в нейронах используются простые математические функции которые работают с числовыми данными. Для подготовки текстовых данных используют так называемое кодирование слов - это преобразование текстовых данных в числовые (векторные) представления, которые затем можно использовать для машинного обучения. Существует много способов кодирования, вот некоторые из них: ...

11 февраля 2023

ИИ, назад в будущее

Департамент образования Нью-Йорка запретил доступ к чат-боту ChatGPT в сетях и на устройствах гос школ города. Отдельные школы смогут запросить доступ к ChatGPT если они занимаются изучением ИИ. “Инструмент не развивает навыки критического мышления” - заявила чиновник отдела образования. Также международная конференция по машинному обучению (ICML) запретила учёным представлять статьи, созданные с помощью больших языковых моделей. В то же время Microsoft объявила, что до апреля 2023 года запустит версию поисковика Bing с системой ИИ на основе ChatGPT. Microsoft надеется, что это позволит им стать более конкурентой по отношению к поиску Google. Компания выступает одним из крупнейших инвесторов OpenAI с 2019 года (см. Новый дивный мир). ...

6 января 2023