В настройках чат-ботов на платформе NeuroSpace можно активировать функцию «Отвечать на картинки без подписей». К примеру, это может быть актуально для ателье — клиенты могут отправлять изображения товаров для пошива на заказ чат-боту, а тот консультировать по стоимости и срокам.
Токенизация изображений в контексте GPT-моделей обычно не применяется напрямую, так как GPT изначально разработан для обработки текстовой информации. Кроме того, не у всех моделей есть такая возможность.
Те GPT-модели, которые могут распознавать изображения, выполняют это в соответствии со следующим алгоритмом:
- Сперва происходит предобработка, которая может включать в себя изменение размера, нормализацию и преобразование изображения в формат, подходящий для обработки моделью.
- Далее происходит извлечение признаков при помощи технологии CNN (свёрточной нейронной сети) или другой архитектуры, предназначенной для извлечения признаков. Эта сеть преобразует изображение в набор признаков, которые представляют его содержимое.
- Далее происходит кодировка извлеченных признаков в токены.
Пример обработки изображения с Эйфелевой башней (в prompt к чат-боту был заранее прописан скрипт, как бот должен реагировать, если клиент отправит такое изображение):