Производитель станков: RAG-ассистент и аналитика звонков в Bitrix24
RAG в Bitrix24 на 11 000 файлах + AI-аналитика звонков. В проде с 05.2026.
- Масштаб
- 130 менеджеров, отдел продаж по РФ
- Этап
- Фаза 1
- Сдан
- 2026-05-01
TL;DR. RAG-ассистент в мессенджере Bitrix24 поверх 11 000 файлов техдокументации и 60 обучающих видео (~120 ГБ) + транскрибация и AI-оценка звонков. Один процесс end-to-end, всё на серверах в РФ.
Ситуация
База знаний — 11 000 файлов PDF / DOCX / PPTX и 60 обучающих видео, около 120 ГБ. Менеджер ищет техпараметры по конкретной модели станка минутами: техпаспорта, каталоги, инструкции — разбросаны по папкам. Записи звонков пишутся, но никто их не слушает — руководители не видят, как менеджеры общаются с клиентами. Новые сотрудники выходят на полную продуктивность за 3+ месяца.
Задача
- Дать менеджеру ответ за секунды по любой модели станка прямо в Bitrix24-мессенджере, где он уже работает.
- Запустить AI-оценку каждого звонка с рекомендациями менеджеру и сводкой для руководителя.
- Всё на серверах в РФ — требование службы безопасности.
Что сделали
Архитектура. Backend на Python + FastAPI. LLM — Gemini 3 Flash через API (оптимальный баланс качества и стоимости под объём запросов). Vector DB — Qdrant с гибридным поиском: семантика + BM25. Whisper large-v3-turbo для транскрибации звонков. Очереди на Celery, всё в Docker на VPS в России.
Этапы.
- Инвентаризация и загрузка базы знаний — 11 000 документов + 60 видео, с парсингом таблиц и структурой техпаспортов.
- RAG-пайплайн с гибридным поиском (см. ниже про номера моделей).
- Интеграция в мессенджер Bitrix24 — менеджер пишет ассистенту в той же ленте, где общается с клиентом.
- Транскрибация звонков на Whisper и AI-анализ с рекомендациями менеджеру.
- Пилот на ограниченной группе менеджеров, затем раскатка.
Результат
- Ассистент отвечает менеджерам в Bitrix24 секунды вместо минут.
- Руководство получает AI-оценку каждого звонка с конкретными рекомендациями менеджеру.
- Онбординг новых менеджеров укорачивается за счёт ассистента: вопросы по продукту закрываются на лету, без отвлечения коллег.
- Решение в проде с 05.2026, обе фазы сданы.
Ключевые технические решения
- Гибридный поиск. Чисто семантический поиск плохо работает с номерами моделей станков — СТД-120, ТВ-320. Добавили BM25 для точного совпадения по артикулам и индексам. Без этого менеджер получал «похожие» модели вместо запрошенной.
- Оптимизация GPU. Whisper для транскрибации и эмбеддинги для RAG конкурируют за GPU-память. Развели через Celery-очереди с приоритетами: интерактивные ответы менеджеру вперёд, пакетная обработка звонков в фон.
- Парсинг таблиц. Технические характеристики станков часто в сложных таблицах — несколько уровней заголовков, объединённые ячейки. Сделали отдельный парсинг, чтобы сохранить структуру и не потерять связь параметр-значение.
Что было бы дальше
Естественное продолжение — расширение на смежные процессы: AI-обработка входящих заявок, авто-сегментация лидов в воронке, ассистент сервисной службы для типовых вопросов по эксплуатации.
Если у вас похожая задача — техническая база знаний, разбросанная по сотням файлов, или массив звонков, который никто не слушает — обсудим за 30 минут.
Стек
- Python
- FastAPI
- Gemini 3 Flash
- Qdrant
- Whisper
- Bitrix24
- Docker
- Celery