РУКОВОДСТВО ПО NEUROSPACE

О токенах, стоимости и оптимизации расходов

Начало
→
О токенах, стоимости и оптимизации расходов

Для понимания и обработки естественного языка нейросетевые модели преобразуют текст в токены — числовые значения слов, фраз и других языковых частиц и символов. Каждая GPT-модель может делать это по-разному, в зависимости от своего функционала. Читайте, как чат-боты понимают ваших клиентов, сколько стоит один диалог и можно ли оптимизировать расход токенов.

Содержание:

Что такое токены
Что такое токенизация
Как происходит токенизация голосовых сообщений
Как токенизируются изображения
Как тарифицируются токены
Тарификация распознавания изображений
Где смотреть расход токенов
Средняя стоимость диалогов
Как оптимизировать расход токенов

Что такое токены

Токены — это фундаментальные и минимальные единицы текста в обработке запросов естественного языка LLM-моделями. Токенами могут быть символы, слова и подсимволы:

Символы: буквы, цифры или специальные символы, например решетка (#) или астериск (*) в разметке текста.
Слова: отдельные слова или фразы, которые представляют собой смысловые единицы.
Подсимволы: части слов, которые представляют собой отдельные морфемы или фонемы, в зависимости от языка.

Например, в романе «Война и мир» 466 тыс. слов (во всех четырех томах). В среднем, 1 слово на русском языке = 1-2 токена. Получается, 1 000 токенов = ~750 слов. Если переводить «Войну и мир» в токены, то это примерно 621 тыс. токенов.

Что такое токенизация

Токенизация — это процесс преобразования естественного языка в векторный формат, то есть разбивка запроса на токены. Например, так выглядит токенизация предложения «Сколько стоит тур в Париж?» (модель GPT-4o):

Каждый токен имеет своё собственное векторное представление, то есть числовые данные. Благодаря этому LLM-модели могут воспринимать и обрабатывать текстовые данные.

Например, так выглядит векторное представление токенов в предложении «Сколько стоит тур в Париж?».

Разные GPT-модели могут по-разному делить текст на токены. Например, слово «машинка»:

Модель GPT-3.5 Turbo разделит это слово на четыре токена: «м», «аш», «ин», «ка».
Модель GPT-4o — на два токена: «маш», «инка».

Чем сложнее слово и реже его встречаемость, тем больше токенов будет затрачено на обработку запроса.

Как происходит токенизация голосовых сообщений

В настройках чат-ботов NeuroSpace вы можете включить опцию «Whisper», чтобы ваш нейросотрудник мог распознавать речь. Когда AI чат-боту поступает голосовое сообщение, то сперва он преобразует аудио в текст, а затем разбивает его на токены.

Например:

В диалогах чат-бота результат транскрибации аудиосообщения будет отображаться под самим сообщением.

Как токенизируются изображения

В настройках чат-ботов на платформе NeuroSpace можно активировать функцию «Отвечать на картинки без подписей». К примеру, это может быть актуально для ателье — клиенты могут отправлять изображения товаров для пошива на заказ чат-боту, а тот консультировать по стоимости и срокам.

Токенизация изображений в контексте GPT-моделей обычно не применяется напрямую, так как GPT изначально разработан для обработки текстовой информации. Кроме того, не у всех моделей есть такая возможность.

Те GPT-модели, которые могут распознавать изображения, выполняют это в соответствии со следующим алгоритмом:

Сперва происходит предобработка, которая может включать в себя изменение размера, нормализацию и преобразование изображения в формат, подходящий для обработки моделью.
Далее происходит извлечение признаков при помощи технологии CNN (свёрточной нейронной сети) или другой архитектуры, предназначенной для извлечения признаков. Эта сеть преобразует изображение в набор признаков, которые представляют его содержимое.
Далее происходит кодировка извлеченных признаков в токены.

Пример обработки изображения с Эйфелевой башней (в prompt к чат-боту был заранее прописан скрипт, как бот должен реагировать, если клиент отправит такое изображение):

Как тарифицируются токены

*Данные на февраль 2025 года

Тарификация зависит от количества токенов, модели и контекста. В рамках ведения диалогов нейросотрудника с клиентами учитываются и тарифицируются два типа токенов:

Входящие токены (In). Это количество токенов, которые отправляются выбранной GPT-модели в качестве запроса для анализа или генерации ответа: запрос клиента, описание задачи, инструкция чат-бота, историю диалога. Стоимость будет рассчитываться в совокупности всей переданной информации.
Исходящие токены (Out). Это количество токенов в исходящих сообщениях, которые бот отправляет клиенту в ответ на его запрос или команду. Стоимость будет ниже, чем у входящих токенов.

Например, для модели с 4K-контекстом стоимость составляет $0.0015 за тысячу токенов на входе и $0.002 за тысячу токенов на выходе, а для модели с 16K контекстом — $0.003 за 1K токенов.

4K-контекст

Вход: $0.0015 за 1000 токенов | Выход: $0.002 за 1000 токенов

16K-контекст

Вход: $0.003 за 1000 токенов | Выход: $0.004 за 1000 токенов

Тарификация распознавания изображений

Изображения оцениваются и тарифицируются в токенах — так же, как и текстовые вводы. Стоимость токенов определяется двумя факторами: размером изображения и параметром детализации для каждого блока.

Квадратное изображение 1024x1024 px в режиме detail: high стоит 765 токенов; изображение 4096x8192 px в режиме detail: low будет стоить 85 токенов.

Где смотреть расход токенов

Посмотреть расход токенов чат-ботом можно в диалогах чат-бота. Для этого нужно навести курсор мыши на изображение. Синим цветом будет отображаться количество входящих токенов (in). Зеленым — количество исходящих токенов (out).

Средняя стоимость диалогов

Стоимость токенов и диалогов зависит от трех ключевых факторов:

Длины контекста — всей информации, которая передается чат-боту: инструкции, история диалога, дополнительные данные.
Длины ответа чат-бота — чем длиннее результат, тем дороже запрос. Ограничить длину ответов ChatGPT можно в настройках чат-бота.
Выбранной модели — чем сложнее и умнее модель, тем выше расход. Также не забывайте, что устаревшие модели могут токенизировать запросы на большее количество токенов, чем современные модели.

В среднем за один диалог можно заплатить 10 рублей. За один ответ — порядка 3 рублей. Учитыйте также сложность бизнесс-процессов: чем они сложнее, тем дороже диалоги.

Как оптимизировать расход токенов

Для оптимизации расхода токенов можно выполнить следующие действия:

Пробуйте разные модели GPT и сверяйте расход конкретно для своего бизнеса. Ориентируйтесь на функциональность моделей. И помните, что современный — не значит дешевый.
Старайтесь составить максимально лаконичный промт для чат-бота. Советы по написанию мы привели в этой статье.
Не рекомендуется использовать устаревшие модели, так как они могут расходовать больше токенов при обработке запросов (пример с фразой «Сколько стоит тур в Париж?» мы привели ранее).
Возможно, вам стоит ограничить использование смайлов, так как они могут состоять из нескольких токенов (в зависимости от модели). Например, смайлик 🤖 — это два токена (GPT-4o) и три токена (GPT-3.5 Turbo).
Чем больше накапливается контекст диалога, тем больше расход токенов. Если вы тестируете чат-бота, то рекомендуется периодически «чистить» диалог для обновления контекста.
Если вы используете Базу знаний «NeuroSpace», убедитесь, что разделили текст на чанки. В противном случае стоимость обращений чат-бота к Базе может стоить столько же, сколько и при обращении к Базе «OpenAI». Подробнее о Базах знаний читайте тут.

Если у вас возникли вопросы или трудности, вам нужен оптимизированный промт или настройка чат-бота, свяжитесь с нами любым удобным для вас способом: Telegram-канал службы поддержки или info@neurospace.pro.

Полезные статьи по теме:

Как пополнить баланс в OpenAI

Как пополнить баланс NeuroSpace

О балансе, ключах и тарифах

← Как подключить тариф PRO

Про уровни ключа (tier) →