Digital

04.04.2023 13:15:14
Digital

«Сбер» представил новую версию нейросети Kandinsky

«Сбер» запустил новую версию своей нейросети — Kandinsky 2.1, котораяспособна создавать изображения по их текстовому описанию на естественном языке.Об этом AdIndex сообщила пресс-служба компании. 

Инструмент также может смешивать несколько рисунков, изменять их потекстовому описанию, генерировать изображения, похожие на заданное,дорисовывать недостающие части картинки и формировать изображения в режимебесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101языке и умеет рисовать в различных стилях.

Нейросеть разработали и обучили исследователи Sber AI при партнерскойподдержке ученых из Института искусственного интеллекта AIRI на объединенномдатасете Sber AI и компании SberDevices.

Модель Kandinsky 2.1 была дополнительно обучена на 170 млн пар «текст —изображение» высокого разрешения к уже имеющемуся набору в 1 млрд пар «текст —изображение». Затем она дообучалась на отдельно собранном датасете из 2 млн паризображений. В этот сет попали картинки с описаниями в таких областях, кактексты и лица людей.

Нейросеть также усовершенствовали за счет новой обученной моделиавтоэнкодера, которая используется в числе прочего в качестве декодеравекторных представлений изображений. Это улучшило генерацию картин в высокомразрешении. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2млрд в Kandinsky 2.0.

Кроме того, Kandinsky 2.1 использует не только закодированное текстовоеописание, но и специальное представление изображения моделью CLIP. В таком виденейросеть формирует представление картинки на основе текстовой информации иподает его на вход основной генеративной модели.

«Сбер» выпустилпервую версию Kandinsky в июне 2022 г. Это была улучшенная версия нейросетиruDALL-E, которая генерировала картинки по описанию на русском языке. Втораяверсия Kandinsky 2.0 былапредставлена в ноябре того же года. 

Примеры работ Kandinsky 2.1:

 

Автор: Pupkin

Источник: ria novosti