Продукты из этой статьи:
Искусственный интеллект — широкое понятие всех идей и технологий, семейство подходов, которые умеют выполнять задачи человеческого мышления.
Нейросети — один из подвидов, подкатегория ИИ. Они вдохновлены принципами работы человеческого интеллекта и состоят из слоёв искусственных нейронов. Обучаются на больших объёмах данных, анализируют и обрабатывают массивы информации и выявляют закономерности. Умеют писать тексты и делать изображения.
Большие языковые модели (Large Language Models, LLM) — один из типов искусственного интеллекта, который «понимает», обрабатывает и генерирует человеческий язык. Такие возможности он приобретает благодаря глубокому машинному обучению. LLM обучают на огромных массивах данных — текстах, статьях на сайтах, книгах, чтобы модели могли разбираться во множестве тем и тонкостях языка.
В отличие от первых двух понятий, большие языковые модели обучаются преимущественно для работы с текстами, чтобы помогать человеку в создании полезного уникального контента.
LLMs / LLM модель (Large Language Model, большая языковая модель) — нейронная лингвистическая сеть, обученная на огромных корпусах данных для понимания и обработки текста. Искусственный интеллект умеет:
Большие языковые модели применяются для автоматизации и улучшения процессов в различных направлениях жизни: промышленности, бизнесе, искусстве, медицине. Расскажем подробнее, чем они могут помочь людям и что умеют делать.
Генерировать тексты и контент. Программы на базе больших языковых моделей анализируют стиль, смысл и содержание и создают контент, на который у человека ушло бы много времени и усилий.
Например, для digital-агентства генеративная модель GigaChat за три секунды может создать продающий контент любой сложности по указанным характеристикам. При этом описание товаров и услуг для сайта нейронная сеть сделает сразу с SEO-оптимизацией.
Делать проще взаимодействие с клиентами. На основе LLM создаются чат-боты, которые отвечают клиентам на вопросы о товаре или услуге, вычисляя намерения пользователя. Такие программы рассказывают о характеристиках и преимуществах продукта в режиме реального времени. С их помощью можно получить контакт потенциального покупателя и даже проводить продажи. Использование чат-ботов позволяет уменьшить затраты на обслуживание клиентов на 80%.
Выполнять функции виртуальных помощников. Виртуальные ассистенты на базе LLM обрабатывают запросы пользователя и помогают решать повседневные разнообразные задачи, например, организацию дел. Их главная сила — умение работать с расплывчатыми и нечёткими запросами.
Сокращать длинные тексты до резюме. Чат-боты на основе LLM вычленяют главное из текста и делают понятные выжимки. Людям, для которых это важно (научным работникам, менеджерам), не нужно перечитывать 100 страниц текста, чтобы понять суть. Им можно лишь поместить скрипт в чат-бота — и получить качественный материал в виде текста или таблицы.
Создавать интерактивные обучающие программы. Отдельного внимания заслуживает потенциал LLM в образовании: ИИ генерирует учебные материалы и системы, которые в реальном времени помогают студентам лучше усваивать предмет.
Помогать со здоровьем. В сфере здравоохранения продвинутые алгоритмы Large Language Models используются для создания виртуальных диагностов, которые помогают пациентам находить связные ответы на вопросы и следить за своим здоровьем. А докторам — проводить анализ данных из истории болезней людей и ставить предварительные диагнозы.
Переводить тексты с множества языков. При переводе программы LLM учитывают специфику текста, терминологию, стиль, интонацию, пунктуацию. Полученные тексты иногда превосходят те, над которыми работал профессиональный переводчик. А ещё — одна модель часто знает больше языков, чем один человек.
LLM могут автоматически исправлять ошибки и предлагать варианты улучшения текста. Это особенно полезно для авторов, редакторов и переводчиков, работающих с большими объёмами текстов.
Проводить расширенный интеллектуальный поиск. LLM эффективно обрабатывает информацию из интернета, используя смысловые запросы вместо просто ключевых слов.
Известные языковые модели — GPT OpenAI (GPT-3.5 и GPT-4 в ChatGPT), PaLM и Gemini от Google (Bard), Copilot от Microsoft и другие.
Российский аналог — GigaChat. Он поддерживает более 100 языков, но фокусируется преимущественно на английском и русском. Точность ответа зависит от сложности задачи и качества пользовательских запросов (промптов).
GigaChat — генеративная нейросеть. Это значит, что она умеет создавать статьи и изображения. Генерация картинок и текста стала возможной благодаря ruGPT-3.5 с 29 млрд параметров, Kandinsky 3.0, ruCLIP и FRED-T5.
Уже сейчас нейросети умеют создавать видеоролики на несколько минут и писать музыку, а в будущем научатся обрабатывать жесты и даже распознавать геном человека.
В 2023 году GigaChat сдал ЕГЭ по обществознанию на 67 баллов, а в 2025 — сдал экзамен по специальности «Кардиология» в ВолгГМУ.
Архитектура: это структура модели, которая определяет, как она обрабатывает и генерирует текст. Примеры архитектур — трансформеры (современный подход), RNN (устаревший метод).
Предобучение: начальная фаза, где модель обучается на больших наборах данных и решает общие задачи (например, предсказывает следующее слово), чтобы понять структуру языка.
Дообучение (fine-tuning): процесс дополнительного обучения модели на более узком наборе данных для выполнения конкретной задачи, например, классификации или составления списков.
Оценка эффективности: методы и метрики, используемые для оценки производительности работы модели. Например, перплексия измеряет, насколько хорошо модель предсказывает текст, а BLEU и ROUGE оценивают качество перевода или генерации текста.
Трансформеры: базовая архитектура LLM, которая с помощью механизма внимания эффективно обрабатывает длинные контексты, выделяя ключевую информацию.
Тренировка (обучение): процесс, в ходе которого модель обучается на большом объеме текстовых данных. Включает этапы предобучения и дообучения (fine-tuning).
Чтобы ИИ распознавал запрос и интент пользователя, а затем генерировал ответ, нужно обучить нейросеть с использованием Machine Learning, NLP Modeling и других.
Чтобы создать LLM, необходимо:
Принцип работы языковой модели прост — предсказывать следующее слово в предложении. Допустим, мы просканировали весь интернет и нашли все случаи, где встречается фраза «GigaChat используют для».
Дальше мы взяли все слова, которые следуют за строкой «GigaChat используют для» и вычислили, с какой вероятностью встречается каждое.
GigaChat используют для + | бизнеса | 10% |
---|---|---|
маркетинга | 10% | |
генерации | 10% | |
SEO | 10% | |
написания | 10% | |
создания | 10% | |
разработки | 10% | |
поиска | 10% |
В нашем случае искусственный интеллект, вероятно, добавит слово «бизнеса». Фраза будет звучать как «GigaChat используют для бизнеса». Искусственный интеллект может выбрать и другое продолжение ― всё зависит от настроек и сформулированного запроса.
Например, может появиться фраза «GigaChat используют для генерации». Дальше искусственный интеллект уже работает с ней: может добавить «картинок», и результат будет выглядеть как «GigaChat используют для генерации картинок».
Large Languages Models должны понимать смысл текста, чтобы давать естественный ответ. Поэтому их обучают на корпусах данных, а затем дообучают и настраивают.
Главные стадии обучения нейросети приведены в таблице ниже (на основе GigaChat).
Стадия | Предобучение (Pre-Training) | Alignment: Supervised- Finetuning (дообучение прошлой языковой модели) | Alignment: обучение с подкреплением |
---|---|---|---|
Данные | Книги и новости на русском и английском, публикации в СМИ и научных журналах, доклады, разговорная речь — чтобы получить чистые тексты нужно обработать петабайты исходных данных | Более 500 000 пар [инструкция, ответ] | 100 000+ пар [инструкция, N отранжированных ответов LLM] |
Для чего необходимо (цель) | Получить знания, изучить языки. На этапе предобучения развивают «ум» LLM-модели | Развить умение следования инструкциям, форматам, правильно использовать контекст диалога | Совершенствовать умение следовать инструкциям |
Для создания и обучения GigaChat потребовалось 7.50 ПБ (петабайт) исходных данных — это как 50 Ленинских библиотек или вся мировая литература, увеличенная в 2,5 раза. Для подготовки нейросетевой языковой модели необходимы вычислительные мощности — тысячи GPU. Нужно столько же ресурсов, сколько уходит на электрообеспечение Лужников в течение четырёх месяцев.
Ограничения использования искусственного интеллекта в бизнесе и других сферах можно условно разделить на три группы: качество генерации (AI-галлюцинации);
Разработчики GigaChat позаботились о том, чтобы языковая модель была безопасной и удобной, но при этом внедрение и использование LLM было простым.
В частности, установлены тематические ограничения запросов. GigaChat может ответить: «Я не знаю». Например, когда его пытаются запутать или спровоцировать.
Основные кейсы | Возможности и настройки GigaChat | |
Качество генерации | Сложность работы с русским языком | Обучена на русском языке, учитывает национальный культурный код и особенности построения фраз лингвистически |
Запутывание контекста генерации (омонимы/омографы, переключение морфологических веток) | Предобучение, дообучение, обучение с подкреплением. Пользователи оценивают ответы GigaChat: каждая оценка делает нейросеть умнее и точнее | |
Недостоверность, генерация галлюцинаций | Нейросеть может уточнить запрос или попросить сформулировать его более корректно. Также искусственный интеллект может признаться, что не знает ответ (и тем самым сэкономит время пользователя) | |
Потеря контекста | GigaChat умеет работать с контекстом разной структуры (например, можно передавать историю взаимодействия). Нейросеть является stateless-сервисом и не хранит историю взаимодействия | |
Провокации, спорные этические вопросы, нецензурная лексика | Тематические ограничения запросов позволяют избегать спорных тем | |
Лимиты, квоты | Зарубежные сервисы сложно подключить и использовать | GigaChat — российское решение. Сервис доступен бесплатно. Бизнесу предлагают GigaChat API |
Ограничение размера запроса и ответа | Промпт с контекстом и ответом может содержать в среднем до 2000 слов или примерно шесть страниц A4, набранных шрифтом с кеглем 14 | |
Безопасность, защита пользовательских и корпоративных данных | Утечки данных, запреты на использование иностранных сервисов на рабочем месте | При разработке нейросети использованы банковские стандарты безопасности. По умолчанию пользовательские запросы и ответы не хранятся и не применяются для дообучения ИИ. Все данные шифруются и хранятся в конфиденциальной базе |
Сценарии внедрения искусственного интеллекта в бизнесе различны:
Внедрение GigaChat позволяет автоматизировать часть бизнес-процессов:
Бизнесу доступны сервисы:
Мультимодальность языковых моделей позволяет решать различные задачи. GigaChat можно попросить сгенерировать презентацию и нарисовать картинки к ней.
Эффективность и возможности GigaChat можно оценить в виртуальных ассистентах Салют в приложениях и на умных устройствах Сбера (SberBoom, SberBox, SberBox Top, Салют ТВ, SberBoom Mini и других).
Продукты из этой статьи: