
С ее помощью пользователи по всему миру создали уже более 600 млн изображений.
Ровно два года назад Сбер впервые презентовал широкой аудитории собственную нейросеть Kandinsky (*Кандински) для генерации изображений по текстовому описанию на русском языке. Её разработала объединённая команда исследователей и инженеров из Sber AI (*Сбер Ол) и SberDevices (СберДивайсес) при поддержке учёных из Института AIRI.
Kandinsky* стал продолжением нейросети ruDALL-E (*руДейли), представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбер дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
На текущий момент линейка Kandinsky* представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E* и Kandinsky* 1.0, диффузионные модели с image prior-блоком Kandinsky* 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky* 3.0 и 3.1. Также нами было разработано семейство моделей Kandinsky Video (*Кандински видео) (1.0 и 1.1) для генерации полноценных видео по тексту.
При создании моделей Kandinsky* были реализованы и исследованы новые подходы, улучшающие качество генерируемых изображений и видео, в том числе с учётом культурно-исторического контекста. Так, модель отлично понимает отечественный культурный код - например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели Kandinsky* обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).
Модель Kandinsky* 2.1 стала одним из самых быстрорастущих сервисов в мире — так, всего за 4 дня после её релиза 4 апреля 2023 года аудитория нейросети превысила 1 млн уникальных пользователей. Кроме того, в прошлом году модель Kandinsky* 2.2 заняла первое место по темпу роста и стала второй после Stable Diffusion (*пер. с анг. Стабильная диффузия) по популярности среди разработчиков по версии AI-ресурса Hugging Face (*пер. с анг. Обнимая лицо), где собраны лучшие open source (*пер. с анг. Открытый исходный код ) решения. Также Kandinsky* стала одной из самых упоминаемых в социальных медиа российских нейросетей в 2023−2024 годах согласно исследованию Brand Analytics (*Бренд Аналитик).
«Нашей нейросети Kandinsky* уже два года. За это время команда проекта проделала колоссальную работу. Теперь это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное. За два года нам удалось сократить время одной генерации почти в 10 раз, значительно повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — всё это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее. Наша задача сделать так, чтобы Kandinsky* становился еще функциональнее, проще и эффективнее. Это позволит выйти на новый уровень креативности и дать людям и компаниям новые и ещё более интересные идеи для творчества», - рассказал старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев.
Kandinsky* помогает сохранять и популяризировать культурное наследие страны. Так, с помощью нейросети Kandinsky* 3.0 удалось восстановить образы утраченных картин известных русских художников (совместный с музеями Воронежа и Волгограда проект «Возрождённая коллекция»). Муралы, созданные с участием Kandinsky* 2.2, украсили девять школ в Волгограде в рамках проекта «Уроки истории». В феврале 2024 года Императорский фарфоровый завод выпустил коллекцию кружек с рисунками от нейросети Сбера.
Мультимедийный контент от нейросети используется на главных мероприятиях страны, таких как международная выставка-форум «Россия», Всемирный фестиваль молодёжи, «Игры будущего», Петербургский международный экономический форум и другие.
Оценить возможности искусственного интеллекта можно на платформе fusionbrain.ai, в Telegram- и VK-ботах, а также в мобильном приложении СберБанк Онлайн.
Фото: fusionbrain.ai