Фото: © Владимир Васильев / «Татар-информ»

Ученые Исследовательского центра в сфере ИИ Университета Иннополис нашли способ ускорить обучение больших языковых моделей (LLM) в 1,5-2 раза. В основу метода легло моделирование человеческого взгляда при чтении текста, что в будущем позволит быстрее и дешевле создавать «умных» ИИ-помощников, сообщили в пресс-службе университета.

Специалисты представили новый подход к методу обучения с подкреплением на основе отзывов людей. Традиционные алгоритмы дают модели одну общую оценку за весь сгенерированный текст, не уточняя, какие именно фрагменты были удачными. Исследователи из Татарстана предложили использовать данные о том, в какой последовательности человек изучает текст и на каких частях задерживает внимание.

«Сбор большого набора данных о предпочтениях людей для обучения нейросетей – дорогостоящая процедура. Обычно исследователи собирают маленький набор данных и обучают модель наград, которую затем используют для дообучения основной модели. Модель наград предсказывает одно значение – награду – то, насколько ответ основной модели соответствует предпочтениям людей. Это малоинформативно, потому что множество факторов влияют на предпочтения, а при таком подходе мы пытаемся сжать их до одного числа»,– отметил программист-математик Лаборатории искусственного интеллекта в медицине Университета Иннополис Карим Галлямов.

«Недавно международные ученые представили подход с плотной наградой, когда награда распределяется между каждыми частями ответа модели на основе внимания самой модели – это дает больше полезной информации в процессе дообучения основной модели. Мы же сделали шаг вперед и стали использовать данные о взгляде человека при изучении текста, что более естественно», – добавил он.

Для получения данных о взгляде ученые используют специальные модели предсказания, которые имитируют поведение реальных пользователей. Эксперименты проводились на популярных языковых моделях LLaMa и Mistral. Исследователи протестировали два метода интеграции, наиболее эффективным из которых оказался вариант, накладываемый поверх любой существующей модели наград.

Тесты подтвердили, что предложенный способ значительно сокращает время и ресурсы на оптимизацию параметров ИИ, не ухудшая при этом производительность системы. Результаты признаны универсальными: они остаются устойчивыми для разных наборов данных и алгоритмов обучения.