Как учёные ускорили обработку зашифрованных данных в 30 раз

Исследователи из СКФУ при поддержке РНФ и Yandex Cloud сделали гомоморфное шифрование практичным для машинного обучения, разработав методы, которые сокращают потребление памяти при обработке зашифрованных данных в 1500 раз.

Краткий пересказ YandexGPT
  • Гомоморфное шифрование — это технология, которая позволяет выполнять математические операции над зашифрованными данными без их расшифровки. До недавнего времени её применение было ограничено из-за высокой вычислительной сложности.
  • Технология гомоморфного шифрования имеет большой потенциал для применения в финансовом секторе, медицине, государственном управлении, облачных сервисах и промышленности.
  • Научная группа из Северо-Кавказского федерального университета добилась значительного сокращения требований к вычислительным ресурсам для гомоморфного шифрования.
  • Учёные используют две схемы полностью гомоморфного шифрования: CKKS (поддерживает операции умножения и сложения над зашифрованными числами) и TFHE (работает с целочисленными данными).
  • Для ускорения вычислений и адаптации алгоритмов машинного обучения применяются методы дистилляции знаний (передача опыта от большой модели к маленькой) и квантизации (приведение вещественных параметров нейронной сети к целочисленному формату).
  • Архитектура системы включает пять ключевых модулей: адаптация под CKKS, обучение и сжатие, адаптация под TFHE, управление ключами, оценка эффективности.
  • Вычислительные мощности Yandex Cloud значительно ускорили исследования и оптимизировали процесс работы.
  • Потребление памяти при классификации изображений сократилось в 1500 раз, скорость обработки увеличилась в 30 раз, потери точности составляют 0,5–1%.
  • В дальнейшем планируется создание масштабируемых алгоритмов конфиденциального машинного обучения и разработка программной платформы Privacy Preserving Machine Learning as a Service (PPMLaaS).
Тезисы сформулированыYandexGPT
Спасибо!

Облачные сервисы, предоставляющие готовые инструменты для разработки, обучения и развёртывания моделей машинного обучения.

Машинное обучение становится ключевым инструментом для бизнеса, науки и государственного управления. Облачные сервисы MLaaS (Machine Learning as a Service) предоставляют мощные вычислительные ресурсы и готовые алгоритмы, но требуют передачи данных провайдеру. Для медицинских карт, банковских транзакций и государственных документов такая передача означает, что необходимо соответствовать строгим требованиям по безопасности, что усложняет обработку данных в облачных платформах, включая шифрование на всём протяжении жизненного цикла.

Но даже если полностью доверять провайдеру, возникает вторая технологическая проблема: традиционные методы защиты требуют расшифровки данных для их обработки, что означает работу с ними в открытом виде (например, в памяти виртуальной машины). Перспективной альтернативой выглядит гомоморфное шифрование — технология, позволяющая проводить вычисления напрямую с зашифрованными данными. Однако до недавнего времени её применение было ограничено: высокая вычислительная сложность делала технологию неприменимой для больших объёмов данных.

В статье расскажем о прорыве в развитии гомоморфного шифрования, которого добилась научная группа из Северо‑Кавказского федерального университета: как исследователям удалось значительно сократить требования к вычислительным ресурсам, почему эти вычисления стали возможны благодаря поддержке Yandex Cloud и какие перспективы это открывает для создания платформ безопасного машинного обучения.

Исследования проводятся в рамках гранта РНФ № 25‑71‑30007 «Новые технологии для проектирования облачных сервисов машинного обучения, сохраняющих конфиденциальность». Проект реализуется по программе поддержки научных лабораторий мирового уровня.

Гомоморфное шифрование — математика, которая защищает данные

Чтобы понять вклад учёных СКФУ, для начала нужно разобраться в самой технологии. Если говорить просто, гомоморфное шифрование — это особый вид криптографии, который позволяет выполнять математические операции непосредственно над зашифрованными данными, не видя их содержимого. Результат таких операций после расшифровки совпадает с тем, который получился бы при работе с открытыми данными.

Это можно сравнить с работой в запертом прозрачном ящике с перчатками: вы можете манипулировать предметами внутри (выполнять вычисления), не открывая сам ящик (не расшифровывая данные). Только владелец ключа может в итоге открыть ящик и забрать готовый результат.

Важно понимать, что сама идея такого шифрования не нова. Впервые она была предложена ещё в 1978 году криптографами Рональдом Ривестом, Леонардом Адлеманом и Майклом Дертузосом в их работе «On Data Banks and Privacy Homomorphisms». Однако на протяжении более 30 лет не существовало системы, которая могла бы выполнять все виды математических операций, оставаясь надёжной. Технология считалась «святым Граалем» криптографии.

Настоящий прорыв произошел только в 2009 году, когда исследователь Крейг Джентри в своей диссертации для Стэнфордского университета представил первую в мире работающую систему полностью гомоморфного шифрования (Fully Homomorphic Encryption, FHE). Именно его работа дала старт современным исследованиям и сделала технологию реальной, хоть и очень медленной.

Таким образом, учёные СКФУ работают над решением главной проблемы, оставшейся после прорыва Крейга Джентри, — над практической эффективностью. Они ищут способы адаптировать алгоритмы машинного обучения и ускорить вычисления, чтобы сделать этот «святой Грааль» криптографии доступным для реального бизнеса и науки.

Схема шифрования для вычислений над вещественными числами (например: –15,7, 3,14). Эффективна для моделей машинного обучения, работающих с нецелыми данными.

Fully Homomorphic Encryption over the Torus — схема шифрования для вычислений над целыми числами. Позволяет выполнять над зашифрованными данными любую, даже очень сложную, математическую функцию.

Целые числа без дробной части (например: –10, 0, 42). Используются для вычислений, где требуется абсолютная точность.

Проект учёных из СКФУ использует две схемы полностью гомоморфного шифрования (ПГШ):

  • CKKS поддерживает операции умножения и сложения над зашифрованными числами.
  • TFHE работает с целочисленными данными.

Готовые программные инструменты для работы с гомоморфным шифрованием.

«Другие схемы гомоморфного шифрования, например BFV, не могут обеспечить надлежащую скорость и точность при работе с методами искусственного интеллекта. Применение набора из этих двух схем позволяет обеспечивать компромисс между точностью и скоростью обработки: CKKS точнее, но медленнее, а TFHE быстрее, но менее точная».

В качестве технической основы для реализации этих схем команда использует готовые криптографические библиотеки TenSEAL и Concrete‑ML. Этот выбор позволяет учёным сосредоточиться на главном — адаптации и ускорении моделей машинного обучения, — не отвлекаясь на создание собственных низкоуровневых криптографических инструментов.

Система вычислений, в которой вместо чисел используются их остатки от деления на заданный модуль. Это позволяет упрощать и распараллеливать сложные операции.

Математический инструмент для создания шифров, который позволяет получать тот же уровень надёжности, что и старые системы, но при помощи более коротких и быстрых ключей.

Передача опыта от большой модели к маленькой.

Снижение точности вычислений для ускорения.

От экспертизы к прорыву: как учёные добились ускорения в 30 раз

Успех проекта не случаен и опирается на многолетний опыт команды. Изначально научная группа СКФУ проводила исследования в области нейрокомпьютерных технологий на базе модулярной арифметики. Позднее исследовательские интересы расширились на обеспечение конфиденциальности данных с применением эллиптических кривых. Этот опыт в смежных областях криптографии и оптимизации вычислений стал фундаментом для текущей работы.

Чтобы решить проблему производительности, команда разработала методы сжатия и ускорения моделей машинного обучения, которые сохраняют эффективность при работе с зашифрованными данными. Основными подходами стали дистилляция знаний и квантизация свёрточных нейронных сетей.

author
Николай Кучеров
Доцент кафедры вычислительной математики и кибернетики, СКФУ

«Стандартные ML‑модели зачастую применяют функции активации несовместимые с гомоморфным шифрованием, кроме того, стандартные модели зачастую слишком крупные и потребуют огромное количество времени на обработку в зашифрованном виде».

Дистилляция знаний изначально применялась для сжатия больших языковых моделей. Научная группа модифицировала метод для задач классификации изображений. Процесс включает обучение большой свёрточной нейронной сети с высокой точностью распознавания. Затем компактная модель обучается под руководством большой сети‑учителя и перенимает её знания, оставаясь при этом меньшего размера.

Квантизация приводит вещественные параметры нейронной сети к целочисленному формату, что критически важно для схемы TFHE, поскольку эта схема по своей математической природе может выполнять операции только с целыми числами. Обычные нейросети обучаются на вещественных числах (например, –15,7 или 3,14), поэтому без квантизации применение TFHE к ним было бы попросту невозможным. Квантизация выступает необходимым «переводчиком», который адаптирует модель к формату, понятному для схемы шифрования.

Результаты исследований в области квантизации команда представила в статье, которая подана на международную конференцию Artifical Intelligence for Cyber Security (AICS). В ближайшее время ожидается решение о её принятии.

Упрощённые версии стандартных функций нейросети. Их математика достаточно проста, чтобы работать с зашифрованными данными, но при этом они сохраняют приемлемую точность вычислений.

Дело в том, что CKKS не может вычислять сложные функции (например, деление или экспоненты) напрямую — она хорошо справляется только со сложением и умножением. Поэтому для работы нейросети необходимо заменить её стандартные функции активации на их упрощённые, «дружественные» для CKKS аналоги.

Архитектура системы включает пять ключевых модулей, каждый из которых отвечает за свой этап работы:

  • Адаптация под CKKS. Первый модуль создаёт приближённые функции активации, которые корректно работают в рамках математических ограничений схемы CKKS.
  • Обучение и сжатие. Второй обучает открытые свёрточные нейронные сети, в том числе с применением дистилляции для уменьшения их размера.
  • Адаптация под TFHE. Третий выполняет квантизацию параметров, переводя модель в целочисленный формат, необходимый для схемы TFHE.
  • Управление ключами. Четвёртый генерирует параметры шифрования и ключи, которые будут использоваться для защиты данных.
  • Оценка эффективности. Пятый модуль анализирует финальные характеристики системы — точность предсказаний, скорость работы и потребление памяти.

Все ресурсоёмкие этапы работы, особенно исследования по дистилляции знаний и квантизации, стали возможны благодаря вычислительным мощностям, предоставленным Yandex Cloud. Исследования проводятся в среде для полного цикла ML‑разработки Yandex DataSphere, а масштабируемость инфраструктуры позволяет эффективно работать с моделями и данными различных объёмов.

author
Антон Назаров
Доцент кафедры вычислительной математики и кибернетики, СКФУ

«Самым главным вызовом является вычислительная сложность схем ПГШ и подбор параметров шифрования для CKKS, так как при неправильной настройке вычисления будут либо слишком сильно округляться, либо при большой длине наоборот значимые биты могут зашумиться. В принципе, при работе с гомоморфным шифрованием всегда нужно чем‑то жертвовать, либо точностью, либо затратами ресурсов, в данном случае удалось получить некий компромисс».

author
Егор Ширяев
Старший преподаватель кафедры вычислительной математики и кибернетики, СКФУ

«Архитектура системы, построенная совместно с Егором, позволяет с большей эффективностью разворачивать полученные решения на различных устройствах».

Мощности Yandex Cloud помогли команде оптимизировать проведение исследований и ускорить их в несколько раз, кроме того, метрики, полученные в логах, позволили получить более точные временные метки и снимки памяти.

Потенциал технологии: ключевые сферы применения

Разработка найдёт применение в отраслях, где высоки требования к конфиденциальности данных:

  • В финансовом секторе технология позволяет банкам обрабатывать транзакции и проводить кредитный скоринг без раскрытия персональных сведений о клиентах, а платёжным системам — анализировать мошеннические операции в защищённом режиме.
  • Для медицины открываются возможности анализа электронных медицинских карт и диагностики с сохранением врачебной тайны.
  • Государственным структурам технология даёт инструменты для защищённого анализа данных в специфических областях — например, в сфере борьбы с преступностью.
  • Облачные провайдеры и телеком‑компании получают возможность предлагать клиентам безопасные сервисы машинного обучения с гарантией конфиденциальности. Промышленность — инструменты для анализа производственных процессов и предиктивной аналитики без риска утечки коммерчески ценных данных.
author
Владислав Луценко
Ассистент кафедры вычислительной математики и кибернетики, СКФУ

«Полученные в ходе данного исследования методы сжатия нейронных сетей позволят применять методы искусственного интеллекта ближе к источникам данных, что даст возможность проводить потоковый анализ геномики, кластеризацию клеточных типов и ускорение предсказания строения белков».

Modified National Institute of Standards and Technology database — коллекция из 70 тысяч чёрно‑белых изображений рукописных цифр, которая является общепринятым отраслевым стандартом для проверки моделей машинного обучения.

Текущие результаты и планы развития

Количественные показатели демонстрируют эффективность разработанных методов. Потребление памяти при классификации изображений сократилось в 1500 раз (с 118 389 970 байт до 72 264 байт). Скорость обработки для одной итерации увеличилась в 30 раз (с 267,24 с до 7,86 с). Потери точности составляют всего 0,5–1% на тестовом наборе MNIST.

Проект находится на стадии завершения разработки методов дистилляции знаний для свёрточных нейронных сетей. Продолжаются исследования методов квантизации и расчёты по ним.

В дальнейшем планируется создание масштабируемых алгоритмов конфиденциального машинного обучения и анализ угроз с разработкой методов противодействия атакам. Конечной целью станет программная платформа Privacy Preserving Machine Learning as a Service (PPMLaaS). Пользователи смогут обучать открытые модели на общедоступных данных, преобразовывать их в зашифрованные версии и разворачивать в облачных сервисах для безопасной обработки конфиденциальной информации.

author
Екатерина Коваленко
Младший научный сотрудник научно‑исследовательской лаборатории медицинской и биологической информатики, СКФУ

«В настоящий момент мы сделали первые шаги на пути разработки систем машинного обучения, сохраняющего конфиденциальность, однако уже сейчас можно говорить о том, что определённые успехи уже есть. Мы смогли не только получить метод машинного обучения, адаптированный под ограничения гомоморфных шифров, но и сохранить требуемую точность. Дальнейшие исследования в рамках проекта РНФ 25‑71‑30007 в итоге приведут нас к системе доверенного искусственного интеллекта в рамках машинного обучения, сохраняющего конфиденциальность».

Разработанные методы командой СКФУ при поддержке Yandex Cloud позволяют обрабатывать зашифрованную информацию с минимальными потерями производительности.

author
Михаил Бабенко
Руководитель проекта РНФ, заведующий кафедрой вычислительной математики и кибернетики, СКФУ

«Мы убеждены, что фундаментальная наука — основа будущих технологий. Сегодня в российских университетах и научных лабораториях ведётся множество исследований в области искусственного интеллекта, способных менять индустрию.

Нам, как технологическому провайдеру, важно поддерживать такие инициативы: делиться инфраструктурой, помогать учёным формулировать амбициозные задачи и достигать значимых результатов, которые уже в ближайшем будущем станут частью технологической экосистемы».

Технология открывает путь к новому поколению доверенного искусственного интеллекта, способного работать с чувствительной информацией без ущерба для безопасности.

Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.

author
Даниил Ефимов
Менеджер проектов направления «Образование и наука» в Yandex Cloud
Как учёные ускорили обработку зашифрованных данных в 30 раз
Войдите, чтобы сохранить пост