Технологии извлечения и анализа данных

Аналитика и наблюдаемость

Аналитика и наблюдаемость обеспечивают валидацию на макроуровне: эффективны ли ваши сессии ИИ, рентабельны ли они и продуктивны ли? Пока проверка отдельных сообщений валидирует правильность, а валидация сборки ловит ошибки кода, аналитика валидирует общее качество вашего рабочего процесса, раскрывая паттерны в использовании токенов, стоимости, скорости ответа и активности коммитов во всех ваших сессиях.

Analytics page

Метрики для каждого сообщения

Каждое сообщение в представлении чата несет подробные метаданные использования. Наведите курсор на любое сообщение, чтобы увидеть его статистику, или посмотрите на заголовок страницы для итоговых сумм:

  • Время обработки — Сколько времени модель потратила на генерацию этого вывода
  • Входные токены — Токены промпта, отправленные модели для этого шага
  • Выходные токены — Токены завершения, которые сгенерировала модель
  • Прочитанные токены кэша — Токены, переданные из кэша промптов (быстрее и дешевле, чем новый ввод)
  • Стоимость — Рассчитанная стоимость на основе ценовой модели окружения (ставки токенов ввода, вывода и кэша)

Эти метрики для каждого сообщения помогают вам обнаруживать проблемные паттерны в реальном времени. Необычно высокое количество входных токенов suggests, что контекст становится слишком большим. Очень долгое время обработки с высокими выходными токенами может указывать на то, что модель генерирует ненужный контент.


Панель аналитики

Страница аналитики предоставляет комплексную панель с 24 компонентами диаграмм, организованными в сворачиваемые разделы:

Обзорные карточки

Сводные карточки метрик вверху показывают ключевые числа для выбранного периода времени: общее количество проектов, сессий, промптов, сообщений, использованных инструментов, общую стоимость, выходные токены, входные токены, токены чтения/записи кэша, время обработки и коммиты. Они обновляются динамически при изменении диапазона дат.

Диаграммы использования

  • Разбивка стоимости — Круговая диаграмма, показывающая распределение стоимости по категориям
  • Токены по гранулярности — Диаграмма площади с накоплением, показывающая входные, выходные, прочитанные из кэша и записанные в кэш токены с течением времени
  • Сообщения по гранулярности — Общее количество сообщений с течением времени на выбранном уровне гранулярности
  • Токены в секунду — Диаграмма скорости ответа ИИ, полезная для сравнения производительности
  • Почасовая стоимость — Разбивка стоимости по часам дня, показывающая пиковые времена расходов
  • Почасовые промпты — Сколько промптов вы отправляете каждый час, показывающий ваши паттерны использования
  • Почасовые коммиты — Когда коммиты происходят относительно вашего цикла активности

Анализ паттернов

  • Токены по часам дня — Определите, когда вы потребляете больше всего токенов
  • Сообщения по часам дня — Посмотрите, когда вы наиболее активны
  • Токены по дням недели — Недельные паттерны использования
  • Сообщения по дням недели — Какие дни наиболее продуктивны

Распределения

  • Распределение токенов — Как использование токенов распределено по сессиям
  • Распределение сообщений — Как количества сообщений варьируются между сессиями
  • Распределение стоимости — Как стоимость распределена по чатам
  • Распределение длительности — Как варьируются времена обработки

Сравнения окружений

  • Стоимость окружения — Сравните расходы по разным моделям/провайдерам ИИ
  • Токены окружения — Сравните потребление токенов для каждого окружения
  • Скорость окружения — Сравните скорость ответа по окружениям, полезно для выбора наиболее экономически эффективной модели

Диапазон дат и гранулярность

Все диаграммы реагируют на селектор диапазона дат вверху панели:

  • Пресеты — Быстрый выбор общих диапазонов: сегодня, последние 7 дней, последние 30 дней, последние 90 дней
  • Пользовательский диапазон — Выберите конкретные даты начала и конца

Четыре уровня гранулярности управляют разрешением данных:

  • Почасовой — Одна точка данных в час, лучше всего для коротких диапазонов (сегодня, вчера)
  • Дневной — Одна точка данных в день, по умолчанию для большинства представлений
  • Недельный — Агрегированные недельные итоги, лучше всего для диапазонов от месяца до квартала
  • Месячный — Агрегированные месячные итоги, лучше всего для долгосрочного анализа трендов

Панель автоматически заменяет почасовую гранулярность на дневную, когда выбранный диапазон превышает 31 день, предотвращая подавляющие диаграммы.


Таблица чатов

Под диаграммами сортируемая таблица перечисляет все сессии чата в выбранном диапазоне. Каждая строка показывает заголовок чата, окружение, общую стоимость, количества токенов, время обработки, количество промптов, количество сообщений и количество коммитов. Щелкните любой заголовок столбца для сортировки по этой метрике. Таблица поддерживает разбиение на страницы для больших наборов результатов.

Таблица включает как обычные чаты, так и чаты субагентов (из промпт-сборок), связанные по их parentChatId. Это позволяет вам проследить полную цепочку от разговора пользователя через любые субагенты валидации, которые он запустил.


Интеграция с ClickHouse

Для наблюдаемости нескольких проектов Pastukhov Code может передавать данные аналитики в базу данных ClickHouse. Данные собираются из каждой сессии чата и включают как метрики основного чата, так и метрики субагента (входные токены, выходные токены, токены кэша, стоимость, время обработки, количество сообщений, коммиты) — 30 полей в строке.

  • Хранилище — Данные секционируются ежемесячно по toYYYYMM(updated_at) и упорядочиваются по имени проекта, временной метке и ID чата
  • Пакетная обработка — Данные передаются в настраиваемых размерах пакетов с логикой повторов для надежности
  • Конфигурация — Установите PASTUKHOV_CODE_CLICKHOUSE_URL для включения. Кнопка “Push to ClickHouse” на странице аналитики также запускает ручную передачу

Интеграция с ClickHouse позволяет создавать панели Grafana или пользовательские отчеты по всем вашим проектам, а не просматривать аналитику каждого проекта изолированно.


Эффективные паттерны валидации

  • Следите за коэффициентами попадания в кэш — Высокие прочитанные токены кэша относительно входных токенов означают эффективное повторное использование контекста. Низкие попадания в кэш suggest, что каждый шаг обрабатывается много нового контекста
  • Сравнивайте стоимость окружений — Диаграмма стоимости окружения показывает, дают ли более дешевые модели приемлемые результаты для рутинных задач. Переключайтесь на более дешевый вариант, когда качество сопоставимо
  • Отслеживайте циклы AutoFix — Рост стоимости за чат после включения AutoFix может указывать на то, что модель застряла в циклах исправления. Проверьте таблицу чатов на сессии с необычно высоким количеством сообщений
  • Мониторьте скорость ответа — Токены в секунду варьируются по окружениям. Если модель постоянно медленная, рассмотрите возможность переключения на более быструю альтернативу для этого типа задач
  • Используйте корреляцию коммитов — Диаграмма почасовых коммитов показывает, когда пик вашего продуктивного вывода. Согласуйте свои наиболее важные задачи с вашими часами наивысшей производительности

Полный справочник по функциям аналитики см. в Аналитика. Для мониторинга каждого сообщения во время сессий см. Валидация вывода чата. Для управления контекстом см. Использование контекста.