О чём эта история
Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) — один из ведущих университетов России, который предлагает для выбора на своём сайте свыше 750 образовательных программ основного и дополнительного образования.
Сотрудники создали пайплайн, с помощью которого пользователи сайта университета подбирают программы онлайн-формата и дополнительного образования на основе личных предпочтений и других параметров. Используя YandexGPT API и Yandex SpeechKit, команда проекта создала ИИ‑бота и внедрила его в портал НИУ ВШЭ.
Найти решение для подбора программ для абитуриентов
Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ) — один из крупнейших университетов России, занимающий лидирующие позиции в образовательных рейтингах. Это многопрофильный вуз, ведущий подготовку по экономическим, гуманитарным, инженерным, социальным и другим образовательным направлениям.
Чтобы облегчить будущим студентам и слушателям выбор одной из нескольких сотен образовательных программ, университет решил внедрить на сайте решение, помогающее определиться с программой на основе личных предпочтений абитуриентов.
Сотрудники ВШЭ разработали большой единый каталог всех образовательных курсов, снабдив его многочисленными фильтрами, сквозным меню и несколькими калькуляторами. Но, кроме того, университету нужно было внедрить решение, которое позволит пользователям задавать вопросы, сформулированные максимально широко. Команда проекта решила создать помощника, который порекомендует абитуриенту конкретную образовательную программу на основе того, что пользователь рассказывает о своих предпочтениях и интересах, в том числе и голосом. Рассмотрев несколько вариантов, сотрудники ВШЭ решили разработать чат-бота с использованием большой языковой модели и интегрировать его в портал.
Разработчики ВШЭ подбирали LLM по нескольким параметрам. Они учитывали рейтинг GPT-моделей и ориентировались на российские либо бесплатные иностранные open-source-решения. Проект преследовал не только задачу разработки чат-бота, но и более глобальную цель — популяризировать технологии генеративного искусственного интеллекта в НИУ ВШЭ.
В итоге, отобрав три LLM-решения, команда провела нагрузочное тестирование. Испытания показали преимущество в скорости и точности работы сервиса YandexGPT, и ВШЭ остановилась именно на этом решении для создания собственного чат-бота.
Сервис подбора образовательных программ для абитуриентов на базе YandexGPT API и Yandex SpeechKit
Для реализации решения ВШЭ извлекла и проанализировала контент сайтов образовательных программ с помощью открытой библиотеки BeautifulSoup. При этом команда проекта очистила данные от HTML/XML-тегов, определила все дочерние и родительские элементы для каждого объекта.
Весь контент нарезали на чанки размером 1024 символа с перекрытием в 200 символов, преобразовали в эмбеддинги с помощью Yandex Foundation Models Embedding API и собрали в векторную базу данных ClickHouse®, которую разместили на собственном сервере ВШЭ. Размер БД — около 500 МБ. Когда преподаватели обновляют или добавляют новые образовательные программы, обновляется и база ClickHouse®.
Рекомендательный сервис разработали на языке Python и встроили в корпоративный сайт ВШЭ, кроме того, создали пайплайн, чтобы текстовые запросы обрабатывал сервис YandexGPT, а голосовые вопросы — Yandex SpeechKit.
Чат-бот прост в использовании для абитуриентов. Пользователь задаёт текстовый или голосовой вопрос чат-боту на сайте, указывая свои интересы, достижения, возраст, город, где хочет обучаться, результаты ЕГЭ и любую другую информацию, которую посчитает нужным. Если пользователь задал голосовой вопрос, то Yandex SpeechKit преобразовывает его в текст. Текстовый запрос передаётся в YandexGPT API, который выделяет ключевые данные для получения точного ответа. После этого запрос векторизуется с помощью Yandex Foundation Models Embedding API. Длина промт-запросов на вход и выход составляет около 40 000 символов. После этого команда использует RAG (Retrieval Augmented Generation), то есть по векторизованному запросу в векторной базе знаний находятся ближайшие соответствия о наиболее подходящих для пользователя образовательных программах. Все найденные чанки вместе с запросом пользователя и системным промтом передаются в YandexGPT, который, в свою очередь, формирует ответ на запрос пользователя, учитывая информацию из чанков.
Сначала разработчики решили выдавать пользователю информацию о подходящих программах и дополнительное описание этих программ, сформированное YandexGPT. Но на этом этапе возникли сложности. Пока не удалось научить нейросеть правильно расставлять акценты в ответах — на первый план выходили второстепенные признаки. Поэтому сейчас остановились на выдаче только информации о программах из базы знаний.
На весь проект команда ВШЭ затратила около двух месяцев, при этом много времени ушло на дизайн-макетирование, уточнение нюансов, связанных с интерфейсом пользователя. Университетские инженеры выполнили работы самостоятельно при помощи специалистов Yandex Cloud.
Основные сложности в проекте возникли из-за недостатка опыта работы с генеративным искусственным интеллектом. Много времени ушло на осознание того, что недостаточно просто задавать вопросы YandexGPT API, поэтому разработчики перешли к пайплайну, в котором для ответа используется информация из векторной базы данных. После этого разработка проекта пошла быстрее.
70% положительных отзывов от пользователей чат‑бота
Команда ВШЭ разработала и запустила в эксплуатацию чат-бота, помогающего будущим студентам университета подобрать наиболее подходящую им образовательную программу.
С помощью метода RAG создали пайплайн, который помогает при выборе образовательного продукта. Сейчас новый инструмент позволяет подобрать только программы онлайн-формата и программу дополнительного образования. Но команда проекта планирует, что в будущем список рекомендаций расширится и в него добавят информацию об образовательных программах бакалавриата и магистратуры, которых пока нет в базе данных.
Сегодня сервисом пользуется примерно 5% из посетителей страниц сайта НИУ ВШЭ, на которых был размещён виджет чат-бота. Команда отслеживала поведение пользователей и замеряла их количество в течение всего лета 2024 года. Каждый из 300 пользователей за этот период совершал три-четыре операции: задавал боту вопросы, оставлял контактные данные. 10% этих пользователей совершали целевые действия после перехода на страницы образовательных программ.
Свыше 70% пользователей чат‑бота оставили положительные отзывы о сервисе.
В дальнейшем специалисты ВШЭ для большего удобства пользователей планируют ввести дополнительные параметры для пайплайна. В частности, чтобы учесть все особенности, заложенные в структуру образовательных программ. Кроме того, планируется разработка гибридного бота, в который чат‑бот войдёт как одна из составляющих. Другая часть будет отвечать на типовые вопросы, которые требуют максимальной точности, используя дерево готовых вопросов-ответов.
ВШЭ также планирует создать нулевую линию поддержки с помощью чат‑бота на базе YandexGPT API. Но для реализации этого проекта команде сначала нужно собрать базу знаний.
Мнение
Мы достаточно системно подошли к выбору модели генеративного искусственного интеллекта для нашего чат-бота. YandexGPT очень неплохо себя показал при тестировании и, учитывая наличие других сервисов Yandex Cloud, по многим параметрам превзошёл конкурентов.
* Фото предоставлено пресс-службой НИУ ВШЭ