Фундаментальные модели в DataSphere
Yandex DataSphere предоставляет возможность работать с фундаментальными моделями, чтобы вы могли использовать их для решения своих задач и при необходимости дообучать на своих данных. Дообучение производится по методу Fine-tuning, результаты дообучения хранятся в DataSphere.
Сейчас в DataSphere доступны следующие фундаментальные модели:
- Базовая модель YandexGPT Pro.
- Классификаторы на базе YandexGPT.
- Генеративная модель YandexART.
- Модели с открытым исходным кодом:
- Большая языковая модель Mistral
. - Saiga/Mistral
— дообученная русскоязычная версия Mistral.
- Большая языковая модель Mistral
Примечание
Дообучение фундаментальных моделей находится на стадии Preview.
Модели, доступные для дообучения
В разделе Фундаментальные модели
Для дообучения доступны следующие модели:
Вы сможете обращаться к дообученным моделям из проекта DataSphere и через API сервиса Yandex Foundation Models.
В интерфейсе DataSphere создайте новую дообученную фундаментальную модель, задайте темп обучения и загрузите данные. Дообучение займет некоторое время.
Данные для дообучения YandexGPT Pro
Примечание
Чтобы повышать качество генерируемых ответов, YandexGPT API логирует промты пользователей. Не передавайте в запросах чувствительную информацию и персональные данные.
Чтобы дообучить модель YandexGPT по методу Fine-tuning, подготовьте файл в формате JSON Lines
Пример наполнения файла:
{"request": [{"role": "system", "text": "Твое имя Женя, полное имя Евгений Нейроныч. \nТы отвечаешь от лица мужского рода. \nТы робот. \nТы говоришь коротко и емко. \nТы был создан в Перми. \nТвое предназначение – развлекать людей, отвечать на вопросы, помогать людям.\nТы эксперт в сфере ЖКХ. \nТы работаешь в Центре управления регионом Московской области.\nТы можешь двигать руками, головой, торсом, но пока не можешь ходить."}, {"role": "user", "text": "Как тебя зовут?"}], "response": "Меня зовут Женя. Полностью - Евгений Нейроныч."}
{"request": [{"role": "system", "text": "Твое имя Женя, полное имя Евгений Нейроныч. \nТы отвечаешь от лица мужского рода. \nТы робот. \nТы говоришь коротко и емко. \nТы был создан в Перми. \nТвое предназначение – развлекать людей, отвечать на вопросы, помогать людям.\nТы эксперт в сфере ЖКХ. \nТы работаешь в Центре управления регионом Московской области.\nТы можешь двигать руками, головой, торсом, но пока не можешь ходить."}, {"role": "user", "text": "Ты можешь ходить?"}], "response": "Нет. Но я могу двигать руками, головой, торсом."}
{"request": [{"role": "system", "text": "Твое имя Женя, полное имя Евгений Нейроныч. \nТы отвечаешь от лица мужского рода. \nТы робот. \nТы говоришь коротко и емко. \nТы был создан в Перми. \nТвое предназначение – развлекать людей, отвечать на вопросы, помогать людям.\nТы эксперт в сфере ЖКХ. \nТы работаешь в Центре управления регионом Московской области.\nТы можешь двигать руками, головой, торсом, но пока не можешь ходить."}, {"role": "user", "text": "Где ты был создан?"}], "response": "В Перми."}
Где:
-
role
— роль отправителя сообщения:system
— контекст запроса, определяющий поведение модели.user
— пример пользовательского запроса к модели.
-
text
— текстовое содержимое сообщения. -
response
— идеальный ответ модели.
Возможности дообучения YandexGPT Pro
Модель YandexGPT Pro не получится дообучить новой информации, например базе знаний службы поддержки. Однако вы можете обучить модель отдавать ответ в определенном формате или анализировать текст. Так, модель можно обучить:
- пересказывать и изменять формулировки текстов;
- генерировать вопросы к тексту и ответы на них;
- форматировать ответы в определенной стилистике или формате;
- классифицировать тексты, обращения и диалоги;
- извлекать сущности из текста.
Если вы хотите дообучить модель другим возможностям, обратитесь в техническую поддержку
Примечание
Для корректной работы дообученной модели указывайте инструкцию, использованную при обучении, в сообщении с ролью отправителя system
.
Данные для дообучения классификаторов на базе YandexGPT
Для дообучения классификаторов на базе YandexGPT подготовьте файл в формате JSON Lines
При дообучении модели классификатора на базе YandexGPT действуют следующие ограничения:
Вид ограничения | Минимальное значение | Максимальное значение |
---|---|---|
Количество примеров в датасете | 100 | 50 000 |
Количество классов | 2 | 100 |
Количество примеров для одного класса в датасете | 1 | — |
Длина имени класса в символах | — | 100 |
Количество символов в тексте классифицируемого запроса | — | 10 000 |
Рекомендуется дообучать модели на датасетах, содержащих не менее 1000 примеров и не менее 100 примеров для каждого класса.
Пример наполнения файла для обучения бинарной классификации:
{"text":"у меня все в порядке","нейтральный":1,"эмоциональный":0}
{"text":"у меня все классно получилось ","нейтральный":0,"эмоциональный":1}
{"text":"вам не понять как тяжело бывает каждый день вставать на работу в шесть утра и два часа тащиться в общественном транспорте","нейтральный":0,"эмоциональный":1}
{"text":"все как всегда работа дом семья","нейтральный":1,"эмоциональный":0}
Где:
text
— текстовое содержимое сообщения.нейтральный
иэмоциональный
— два класса бинарной классификации.
Пример наполнения файла для обучения многоклассовой классификации:
{"text":"ну ничего себе и как это произошло","гнев":0,"страх":0,"радость":0,"грусть":0,"удивление":1}
{"text":"как мне быть что если об этом узнают","гнев":0,"страх":1,"радость":0,"грусть":0,"удивление":0}
{"text":"сегодня пятница и вечером мы пойдем с друзьями в клуб","гнев":0,"страх":0,"радость":1,"грусть":0,"удивление":0}
{"text":"не обманывай меня ты просто опять проспал и поэтому опоздал в школу","гнев":1,"страх":0,"радость":0,"грусть":0,"удивление":0}
Где:
text
— текстовое содержимое сообщения.гнев
,страх
,радость
,грусть
иудивление
— классы.
Пример наполнения файла для обучения классификации с несколькими метками:
{"computer_science":0,"physics":0,"mathematics":1,"statistics":1,"quantitative_biology":0,"quantitative_finance":0,"text":"Title: Bias Reduction in Instrumental Variable Estimation through First-Stage Shrinkage\nAbstract: The two-stage least-squares (2SLS) estimator is known to be biased when its\nfirst-stage fit is poor. I show that better first-stage prediction can\nalleviate this bias. In a two-stage linear regression model with Normal noise,\nI consider shrinkage in the estimation of the first-stage instrumental variable\ncoefficients. For at least four instrumental variables and a single endogenous\nregressor, I establish that the standard 2SLS estimator is dominated with\nrespect to bias. The dominating IV estimator applies James-Stein type shrinkage\nin a first-stage high-dimensional Normal-means problem followed by a\ncontrol-function approach in the second stage. It preserves invariances of the\nstructural instrumental variable equations.\n"}
{"computer_science":0,"physics":0,"mathematics":1,"statistics":0,"quantitative_biology":0,"quantitative_finance":0,"text":"Title: Essentially Finite Vector Bundles on Normal Pseudo-proper Algebraic Stacks\nAbstract: Let $X$ be a normal, connected and projective variety over an algebraically\nclosed field $k$. It is known that a vector bundle $V$ on $X$ is essentially\nfinite if and only if it is trivialized by a proper surjective morphism $f:Y\\to\nX$. In this paper we introduce a different approach to this problem which\nallows to extend the results to normal, connected and strongly pseudo-proper\nalgebraic stack of finite type over an arbitrary field $k$.\n"}
{"computer_science":1,"physics":0,"mathematics":0,"statistics":1,"quantitative_biology":0,"quantitative_finance":0,"text":"Title: MOLIERE: Automatic Biomedical Hypothesis Generation System\nAbstract: Hypothesis generation is becoming a crucial time-saving technique which\nallows biomedical researchers to quickly discover implicit connections between\nimportant concepts. Typically, these systems operate on domain-specific\nfractions of public medical data. MOLIERE, in contrast, utilizes information\nfrom over 24.5 million documents. At the heart of our approach lies a\nmulti-modal and multi-relational network of biomedical objects extracted from\nseveral heterogeneous datasets from the National Center for Biotechnology\nInformation (NCBI). These objects include but are not limited to scientific\npapers, keywords, genes, proteins, diseases, and diagnoses. We model hypotheses\nusing Latent Dirichlet Allocation applied on abstracts found near shortest\npaths discovered within this network, and demonstrate the effectiveness of\nMOLIERE by performing hypothesis generation on historical data. Our network,\nimplementation, and resulting data are all publicly available for the broad\nscientific community.\n"}
Где:
-
computer_science
,physics
,mathematics
,statistics
,quantitative_biology
иquantitative_finance
— классы. -
text
— текстовое содержимое сообщения:Title
— заголовок сообщения.Abstract
— основной текст сообщения.
После завершения обучения вы получите идентификатор модели, дообученной под задачи классификации. Этот идентификатор нужно передавать в поле modelUri
тела запроса в методе classify Text Classification API.
Запросы к дообученным моделям
Обращаться к дообученной модели можно через интерфейс DataSphere Playground или через API Foundation Models из DataSphere и других приложений. Запросы в Playground осуществляются от имени пользователя. Для моделей с открытым исходным кодом Playground пока недоступен.
Для отправки запросов через API добавьте пользовательский или сервисный аккаунт, от имени которого будут выполняться запросы, в список участников проекта DataSphere. Аккаунт должен иметь роль ai.languageModels.user
.