Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Облачная терминология
    • Модели машинного обучения
    • Чат-бот
    • Большая языковая модель

В этой статье:

  • История возникновения LLM
  • Виды LLM
  • Принципы работы LLM
  • Примеры использования LLM в разных областях
  • Анализ настроения клиентов
  • Генерация описаний товаров
  • Автоматизация процесса обработки заказов
  • Общение с клиентами
  • Постановка диагнозов
  • Проблемы LLM
  • LLM в сервисах Yandex Cloud
  1. Искусственный интеллект
  2. Большая языковая модель

Большая языковая модель (LLM)

Статья создана
Yandex Cloud
Обновлена 26 марта 2025 г.
  • История возникновения LLM
  • Виды LLM
  • Принципы работы LLM
  • Примеры использования LLM в разных областях
    • Анализ настроения клиентов
    • Генерация описаний товаров
    • Автоматизация процесса обработки заказов
    • Общение с клиентами
    • Постановка диагнозов
  • Проблемы LLM
  • LLM в сервисах Yandex Cloud

Большая языковая модель (Large language model, LLM) — продвинутая вычислительная модель, способная анализировать и генерировать тексты на любую тематику. Она работает по принципу нейронных сетей и может образовывать сложные шаблоны и взаимосвязи между изученными языковыми данными.

История возникновения LLMИстория возникновения LLM

Первые языковые модели появились еще в 1990-х годах и могли работать только над лексическим переводом, выравниванием порядка слов в предложениях и другими относительно несложными задачами. Работа над полноценными LLM началась в начале 2010-х годов, когда нейронные сети хорошо зарекомендовали себя в работе с изображениями.

Уже к 2016 году переводчик Google начал работать на основе нейронной сети. В 2017 году исследователи компании представили архитектуру Transformer, которая легла в основу всех популярных LLM. В 2018 OpenAI создали GPT-1, но она не стала особо популярной. GPT-2, выпущенную годом позже, компания отказалась делать общедоступной из-за опасений по поводу ее злонамеренного использования.

К 2022 году OpenAI пересмотрела свое отношение и представила миру ChatGPT (GPT 3.5), которая стала первой большой языковой моделью, привлекшей огромное внимание. За следующие два года LLM проникли практически во все сферы бизнеса и науки.

Виды LLMВиды LLM

Все наиболее популярные большие языковые модели базируются на архитектуре Transformer, но могут быть дополнительно настроены под конкретные задачи, например:

  • GPT (Generative Pre-trained Transformer) — наиболее актуальные LLM для генерации текста. Имеют обширную область применения: чат-боты, генерация рекламного контента, написание программ и другое.
  • BERT (Bidirectional Encoder Representation Transformers) – модель, которая распознает текст как слева направо, так справа налево. Используется для генерации релевантной поисковой выдачи, переводов и других задач, завязанных на контекстуальном анализе текста.
  • T5 (Text-to-Text Transfer Transformer) — модели, обученные преобразовывать один вид текстовых данных в другой. Например, системы машинного перевода и декодирования.

Не так давно начали появляться модели, основанные на новых архитектурах. Например, рекуррентные нейросети (RNN) и Mamba (модель пространства состояний), которые особенно хорошо справляются с последовательностями слов и событий и требуют меньше ресурсов.

Принципы работы LLMПринципы работы LLM

Большие языковые модели выполняют свои задачи за доли секунды, однако пользователи не видят, как сложно они устроены внутри. Разберем принцип работы LLM на простом примере:

  1. Запрос — пользователь обращается к модели. Например, спрашивает: «Какая погода в Москве?»
  2. Токенизация — модель разбивает запрос на токены, что позволяет ей лучше понимать естественный язык. Например, YandexGPT Pro разобьет наш запрос на пять токенов: «Какая», «погода», «в», «Москве», «?».
  3. Векторизация — токены преобразуются в векторы, называемые эмбеддингами. Эти векторы отражают смысловое значение и контекст так, чтобы нейросеть могла применять к ним математические алгоритмы.
  4. Формулирование ответа — модель пропускает эмбеддинги через многочисленные слои информации, то есть собственную базу знаний. Каждый слой помогает модели лучше понять написанное и дать наиболее точный ответ.
  5. Корректировка — модель редактирует текст с учетом заложенных в нее фильтров. Например, убирает потенциально опасные призывы, нецензурные слова и прочее.
  6. Декодирование — ответ модели преобразуется обратно в текст, чтобы человек смог его понять.

На такой простой запрос большинство LLM с легкостью даст релевантный ответ, однако даже самые мощные из них часто не справляются с более сложными запросами, если их плохо сформулировать. Для составления понятных машине запросов существует целая дисциплина — проектирование промтов (запросов).

Также пользователю часто доступны дополнительные параметры ответа, такие как его максимальная длина и температура. Второй параметр сообщает модели, насколько творчески она может подойти к задаче. С низкими значениями температуры LLM выдаст более детерминированный ответ, что подходит для фактических запросов, а с высокими — будет больше «фантазировать» и напишет, например, более удачную песню или сочинение.

Примеры использования LLM в разных областяхПримеры использования LLM в разных областях

Большие языковые модели позволяют бизнесу автоматизировать многие процессы, повысить качество контента или эффективность работы многих специалистов. Разберем популярные сценарии их использования.

Анализ настроения клиентовАнализ настроения клиентов

Стриминговый сервис Netflix использует LLM для формирования персональных рекомендаций контента. Алгоритмы анализируют отзывы пользователей на сайте и в соцсетях, а также их историю просмотров и оценок. Эти данные позволяют определить, какой контент будет наиболее интересен конкретному пользователю. Для обработки такого объёма информации вручную потребовалось бы привлечь тысячи сотрудников, LLM же нужно всего несколько минут. Модель запоминает даже то, какой контент более релевантен для пользователя в определенное время суток.

Генерация описаний товаровГенерация описаний товаров

Компании Лемана ПРО (Леруа Мерлен) с помощью модели YandexGPT удалось снизить стоимость написания карточек товаров для дома и ремонта в 95 раз. В ассортименте магазинов более 390 000 товаров, генерировать описания которых вручную — задача колоссального объема.

Ритейлер также обращается к модели YandexART для генерации медиаконтента. Модель может органично представить ту или иную вещь в разных интерьерах и экстерьерах, что помогает покупателям упростить выбор, а магазину — увеличить продажи.

Автоматизация процесса обработки заказовАвтоматизация процесса обработки заказов

Разработчик Макс Бродер-Урбас поделился опытом обработки более 30 000 ежегодных заказов компании по оптовой продаже алкогольной продукции с помощью LLM. Заказы осуществляются по электронной почте и каждый из них — отдельная головоломка, потому что нужно рассчитать скидку, проверить доступность товара на складе и добавить к заказу недостающую информацию.

Процесс был реализован в три этапа: обработка электронной почты, поиск недостающей для заказа информации и отправка нового письма с корректно оформленным заказом, который останется только принять. До внедрения LLM обработка заказов требовала времени множества сотрудников и была самым уязвимым местом компании для масштабирования.

Общение с клиентамиОбщение с клиентами

Производителю обуви Ralf Ringer с помощью YandexGPT удалось наполовину автоматизировать обработку обращений в клиентскую поддержку. За день модель успевает «пообщаться» более чем с 2 000 пользователей.

Модель специально дообучили под бренд на парах «вопрос — ответ». Каждый новый качественный ответ также заносится в базу данных для дообучения. В качестве тестирования продавцам предложили сравнить ответы оператора и модели: 65% выбрали модель. Правда, негативные отзывы ей пока не доверяют — модель самостоятельно выявляет тональность сообщения и передает его оператору, если она негативная.

Постановка диагнозовПостановка диагнозов

Если обучить модель на больших массивах медицинских данных, она способна анализировать и интерпретировать сложную медицинскую информацию, складывая в одну картину множество фактов из анамнеза пациента. Медицина — та область, в которой потенциал LLM огромен.

Модели могут подмечать закономерности, которые невооруженным взглядом не увидит даже опытный диагност. Помимо индивидуальной помощи пациентам, большие языковые модели используются в исследованиях болезней и разработке лекарств.

Чтобы подробнее ознакомиться с примерами использования LLM, см. Библиотека промтов YandexGPT.

Проблемы LLMПроблемы LLM

Несмотря на позитивную динамику развития LLM, перед разработчиками все еще стоит ряд вызовов:

  • Галлюцинации — модели склонны генерировать фактически неверную, нарушающую логику или несоответствующую контексту информацию. Зачастую сложно найти причины такого поведения — это может быть некорректный промт, проблемы с данными для обучения, несовершенство архитектуры и многое другое.

  • Этические проблемы — создатели LLM иногда закладывают в модели свои собственные или обусловленные законами страны ценности и предубеждения. Это может сделать модель необъективной. Например, на какой-то сложный запрос она выдаст предвзятый ответ или вовсе откажется отвечать.

  • Ограниченные рассуждения — LLM все еще плохо справляются с задачами, требующими долгих размышлений. Без дообучения они представляют собой эрудированного на первый взгляд сотрудника, все знания которого оказываются поверхностными, если попробовать углубиться в тему.

  • Однотипные и неуместные ответы — модель иногда чрезмерно ориентируется на конкретный результат. Например, если стимулировать модель давать безвредные ответы, она может добавлять предостерегающие дисклеймеры там, где это не нужно. «Не ешьте слишком много яблок», — может добавить LLM к ответу на безобидный запрос о сортах этого фрукта.

  • Интерпретация контекста — в сложных текстах модели могут не понимать, как согласуются между собой те или иные их части. Особенно это заметно в задачах, где нужно распознать отношения между сущностями.

  • Эмерджентность — LLM могут проявлять поведение, которое не закладывалось разработчиками. Например, модель Bard научилась переводить с бенгальского языка, хотя ее этому не обучали. Умение модели самостоятельно искать информацию может быть полезно, но многие исследователи считают это поводом насторожиться — поведение нейросетей трудно предсказать.

  • Нарушение авторских прав — нейросети обучаются на информации из интернета, но многие не заинтересованы в передаче им своих материалов. Законодательства многих стран пока не приспособились к новой реальности, что служит почвой для судебных разбирательств.

  • Ресурсозатратность — чем больше модель, тем большие вычислительные мощности ей нужны. Только один центр обработки данных потребляет энергию, которой хватило бы для годового энергообеспечения 50 000 домов.

LLM в сервисах Yandex CloudLLM в сервисах Yandex Cloud

Для работы с большими языковыми моделями Yandex Cloud предлагает следующие инструменты:

  • Сервис Yandex Foundation Models, включающий:
    • Модели генерации текста.
    • Классификаторы на базе YandexGPT.
  • Yandex DataSphere — сервис, позволяющий создавать новые модели, а также дообучать фундаментальные, чтобы они точнее отвечали на ваши запросы. Подробнее см. в документации.
  • Yandex SpeechSense — сервис для организации аналитики контактных центров, использующий технологии SpeechKit и YandexGPT. Подробнее см. в документации.

Для продвинутой работы с запросами к большим языковым моделям вы также можете изучить Руководство по проектированию промтов.

См. такжеСм. также

  • Модели машинного обучения
  • Чат-бот с искусственным интеллектом

Была ли статья полезна?

Предыдущая
Чат-бот
Следующая
LAMP и LEMP
Проект Яндекса
© 2025 ООО «Яндекс.Облако»