Расширенная версия нейросети mGPT способна генерировать тексты на 61 языке.

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. (*руГПТ) Её дообученная версия лежит в основе сервиса GigaChat. (*ГигаЧат) Также банк выложил новую версию модели mGPT 13B (*мГПТ) — самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке. Обе модели доступны на HuggingFace (*пер. с анг. «Обнимающий лицо») , и их могут использовать все разработчики (модели опубликованы под открытой лицензией MIT*).

ruGPT-3.5

Внутри GigaChat (*ГигаЧат) находится целый ансамбль моделей — NeONKA (NEural Omnimodal Network with Knowledge-Awareness (*пер. с анг. «Всемодальная сеть с осведомленностью о знаниях) ). Для его создания нужно было выбрать базовую языковую модель, которую потом можно было обучать на инструктивных данных. Russian Generative Pretrained Transformer (* пер. с анг. «Российская возрождающая обучение трансформация) версии 3.5 с 13 млрд параметров (ruGPT-3.5 13B) — новая версия нейросети ruGPT-3 13B.

Это современная модель генерации текста для русского языка на основе доработанной исследователями Сбера архитектуры GPT-3 от OpenAI. (*ОпенОл) Модель ruGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Она обучена на текстовом корпусе размером около 1 Тб, в который, помимо уже использованной для обучения ruGPT-3 большой коллекции текстовых данных из открытых источников, вошли, например, часть открытого сета с кодом The Stack (*Стек) от коллаборации исследователей BigCode (*БигКод) и корпусы новостных текстов. Финальный чекпоинт модели — это базовый претрейн для дальнейших экспериментов.

Модель также доступна на российской платформе ML Space (*пер. с анг. «Космос») в хабе предобученных моделей и датасетов DataHub. (*ДатаХаб) В обучении модели участвовали команды SberDevices (*СберДевайс) и Sber AI (*Сбер Ол) при поддержке Института искусственного интеллекта AIRI. (*АИРИ)

mGPT

Также в открытом доступе опубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит 13 млрд параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 512 токенов. Она была обучена на 600 Гб текстов на разных языках, собранных из очищенных и подготовленных датасетов multilingual (* пер. с анг. «Многоязычность»)C4 и других открытых источников.

Модель может использоваться для генерации текста, решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путём дообучения или в составе ансамблей моделей.

Модель также доступна на российской платформе ML Space (*пер. с анг. «Космос») в хабе предобученных моделей и датасетов DataHub. (*ДатаХаб)

Андрей Белевцев, старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка:

«Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами».

*Лицензия MIT (англ. MIT License) — лицензия открытого и свободного программного обеспечения, разработанная Массачусетским технологическим институтом.

Источник: sberbank.com

Фото: unsplash