О токенах, стоимости и оптимизации расходов

Для понимания и обработки естественного языка нейросетевые модели преобразуют текст в токены — числовые значения слов, фраз и других языковых частиц и символов. Каждая GPT-модель может делать это по-разному, в зависимости от своего функционала. Читайте, как чат-боты понимают ваших клиентов, сколько стоит один диалог и можно ли оптимизировать расход токенов.
Содержание:

Что такое токены

Токены — это фундаментальные и минимальные единицы текста в обработке запросов естественного языка LLM-моделями. Токенами могут быть символы, слова и подсимволы:

  • Символы: буквы, цифры или специальные символы, например решетка (#) или астериск (*) в разметке текста.
  • Слова: отдельные слова или фразы, которые представляют собой смысловые единицы.
  • Подсимволы: части слов, которые представляют собой отдельные морфемы или фонемы, в зависимости от языка.

Например, в романе «Война и мир» 466 тыс. слов (во всех четырех томах). В среднем, 1 слово на русском языке = 1-2 токена. Получается, 1 000 токенов = ~750 слов. Если переводить «Войну и мир» в токены, то это примерно 621 тыс. токенов.

Что такое токенизация

Токенизация — это процесс преобразования естественного языка в векторный формат, то есть разбивка запроса на токены. Например, так выглядит токенизация предложения «Сколько стоит тур в Париж?» (модель GPT-4o):
Каждый токен имеет своё собственное векторное представление, то есть числовые данные. Благодаря этому LLM-модели могут воспринимать и обрабатывать текстовые данные.

Например, так выглядит векторное представление токенов в предложении «Сколько стоит тур в Париж?».
Разные GPT-модели могут по-разному делить текст на токены. Например, слово «машинка»:

  • Модель GPT-3.5 Turbo разделит это слово на четыре токена: «м», «аш», «ин», «ка».
  • Модель GPT-4o — на два токена: «маш», «инка».

Чем сложнее слово и реже его встречаемость, тем больше токенов будет затрачено на обработку запроса.

Как происходит токенизация голосовых сообщений

В настройках чат-ботов NeuroSpace вы можете включить опцию «Whisper», чтобы ваш нейросотрудник мог распознавать речь. Когда AI чат-боту поступает голосовое сообщение, то сперва он преобразует аудио в текст, а затем разбивает его на токены.

Например:
В диалогах чат-бота результат транскрибации аудиосообщения будет отображаться под самим сообщением.

Как токенизируются изображения

В настройках чат-ботов на платформе NeuroSpace можно активировать функцию «Отвечать на картинки без подписей». К примеру, это может быть актуально для ателье — клиенты могут отправлять изображения товаров для пошива на заказ чат-боту, а тот консультировать по стоимости и срокам.

Токенизация изображений в контексте GPT-моделей обычно не применяется напрямую, так как GPT изначально разработан для обработки текстовой информации. Кроме того, не у всех моделей есть такая возможность.

Те GPT-модели, которые могут распознавать изображения, выполняют это в соответствии со следующим алгоритмом:

  1. Сперва происходит предобработка, которая может включать в себя изменение размера, нормализацию и преобразование изображения в формат, подходящий для обработки моделью.
  2. Далее происходит извлечение признаков при помощи технологии CNN (свёрточной нейронной сети) или другой архитектуры, предназначенной для извлечения признаков. Эта сеть преобразует изображение в набор признаков, которые представляют его содержимое.
  3. Далее происходит кодировка извлеченных признаков в токены.

Пример обработки изображения с Эйфелевой башней (в prompt к чат-боту был заранее прописан скрипт, как бот должен реагировать, если клиент отправит такое изображение):

Как тарифицируются токены

*Данные на февраль 2025 года

Тарификация зависит от количества токенов, модели и контекста. В рамках ведения диалогов нейросотрудника с клиентами учитываются и тарифицируются два типа токенов:

  • Входящие токены (In). Это количество токенов, которые отправляются выбранной GPT-модели в качестве запроса для анализа или генерации ответа: запрос клиента, описание задачи, инструкция чат-бота, историю диалога. Стоимость будет рассчитываться в совокупности всей переданной информации.
  • Исходящие токены (Out). Это количество токенов в исходящих сообщениях, которые бот отправляет клиенту в ответ на его запрос или команду. Стоимость будет ниже, чем у входящих токенов.

Например, для модели с 4K-контекстом стоимость составляет $0.0015 за тысячу токенов на входе и $0.002 за тысячу токенов на выходе, а для модели с 16K контекстом — $0.003 за 1K токенов.
4K-контекст

Вход: $0.0015 за 1000 токенов | Выход: $0.002 за 1000 токенов


16K-контекст

Вход: $0.003 за 1000 токенов | Выход: $0.004 за 1000 токенов

Тарификация распознавания изображений

Изображения оцениваются и тарифицируются в токенах — так же, как и текстовые вводы. Стоимость токенов определяется двумя факторами: размером изображения и параметром детализации для каждого блока.

Квадратное изображение 1024x1024 px в режиме detail: high стоит 765 токенов; изображение 4096x8192 px в режиме detail: low будет стоить 85 токенов.

Где смотреть расход токенов

Посмотреть расход токенов чат-ботом можно в диалогах чат-бота. Для этого нужно навести курсор мыши на изображение. Синим цветом будет отображаться количество входящих токенов (in). Зеленым — количество исходящих токенов (out).

Средняя стоимость диалогов

Стоимость токенов и диалогов зависит от трех ключевых факторов:

  • Длины контекста — всей информации, которая передается чат-боту: инструкции, история диалога, дополнительные данные.
  • Длины ответа чат-бота — чем длиннее результат, тем дороже запрос. Ограничить длину ответов ChatGPT можно в настройках чат-бота.
  • Выбранной модели — чем сложнее и умнее модель, тем выше расход. Также не забывайте, что устаревшие модели могут токенизировать запросы на большее количество токенов, чем современные модели.

В среднем за один диалог можно заплатить 10 рублей. За один ответ — порядка 3 рублей. Учитыйте также сложность бизнесс-процессов: чем они сложнее, тем дороже диалоги.

Как оптимизировать расход токенов

Для оптимизации расхода токенов можно выполнить следующие действия:

  • Пробуйте разные модели GPT и сверяйте расход конкретно для своего бизнеса. Ориентируйтесь на функциональность моделей. И помните, что современный — не значит дешевый.
  • Старайтесь составить максимально лаконичный промт для чат-бота. Советы по написанию мы привели в этой статье.
  • Не рекомендуется использовать устаревшие модели, так как они могут расходовать больше токенов при обработке запросов (пример с фразой «Сколько стоит тур в Париж?» мы привели ранее).
  • Возможно, вам стоит ограничить использование смайлов, так как они могут состоять из нескольких токенов (в зависимости от модели). Например, смайлик 🤖 — это два токена (GPT-4o) и три токена (GPT-3.5 Turbo).
  • Чем больше накапливается контекст диалога, тем больше расход токенов. Если вы тестируете чат-бота, то рекомендуется периодически «чистить» диалог для обновления контекста.
  • Если вы используете Базу знаний «NeuroSpace», убедитесь, что разделили текст на чанки. В противном случае стоимость обращений чат-бота к Базе может стоить столько же, сколько и при обращении к Базе «OpenAI». Подробнее о Базах знаний читайте тут.
Если у вас возникли вопросы или трудности, вам нужен оптимизированный промт или настройка чат-бота, свяжитесь с нами любым удобным для вас способом: Telegram-канал службы поддержки или info@neurospace.pro.
Полезные статьи по теме:

Создать своего нейросотрудника

Создавайте нейросотрудников и интегрируйте в свой бизнес для оптимизации процессов
Свяжитесь с нами
Если у вас возникли вопросы или трудности, свяжитесь с нами любым удобным для вас способом
Эл. почта
Стать партнером
Контакты
Республика Казахстан, г.Алматы,
ул. Ауэзова, д.175, н.п. 9а