Как компании внедряют AI в поддержку: RAG, LLM и автоматизация тикетов
![]() |
| Командный цент с ИИ-ассистентом |
Почему большинство AI-внедрений в бизнесе проваливаются
За последние два года почти каждая компания начала говорить про внедрение искусственного интеллекта. Но на практике многие проекты заканчиваются одинаково:
бюджет потрачен;
сотрудники всё равно делают работу вручную;
AI ошибается на реальных запросах;
руководство не понимает, где обещанная экономия.
Причина обычно не в самой модели.
Главная проблема — отсутствие нормальной инженерной архитектуры.
Многие компании делают одну и ту же ошибку:
они подключают ChatGPT API к существующей системе и ожидают магии.
В реальности production AI — это:
мониторинг;
quality gates;
RAG;
fallback-сценарии;
очереди;
контроль стоимости;
работа с latency.
В этой статье разберём:
как выглядит рабочая AI-архитектура;
как автоматизировать поддержку;
где LLM реально экономит деньги;
почему нельзя пускать модель напрямую к клиенту;
какие проблемы появляются в продакшне спустя несколько недель.
Что такое AI для бизнеса на практике
Термин «AI для бизнеса» сейчас используют слишком широко.
Под этим могут понимать:
чат-бота;
AI-копирайтинг;
поиск по документам;
генерацию кода;
автоматизацию поддержки;
AI-агентов.
Но с инженерной точки зрения большинство систем делятся на три уровня.
1. Простая API-интеграция
Самый популярный вариант.
Компания:
берёт GPT-4o, Claude или Gemini;
подключает API;
отправляет текст;
получает ответ.
Плюсы:
быстро;
дешёвый старт;
минимальная разработка.
Минусы:
слабый контроль качества;
галлюцинации;
высокая стоимость на больших объёмах;
отсутствие контекста компании.
Большинство внедрений останавливаются именно здесь.
2. RAG и работа с внутренними данными
Следующий уровень — Retrieval-Augmented Generation.
Модель начинает использовать:
внутреннюю документацию;
базу знаний;
FAQ;
историю тикетов;
CRM;
wiki компании.
Именно здесь появляются действительно полезные AI-системы.
Промпт для изображения
Схема AI-системы RAG, векторная база данных, поиск по знаниям компании, LLM отвечает клиенту, потоки данных между API, AI и базой знаний, минималистичная техническая инфографика, тёмная тема, современный стиль
3. AI orchestration и агенты
На этом этапе LLM становится не просто чат-ботом, а координатором процессов.
Модель:
вызывает инструменты;
маршрутизирует запросы;
принимает решения;
управляет workflow;
запускает разные пайплайны.
Именно здесь начинается полноценная инженерия:
retries;
monitoring;
очереди;
caching;
observability;
контроль latency.
Где AI действительно окупается
Лучше всего AI работает там, где задачи:
повторяются;
связаны с текстом;
плохо описываются правилами;
требуют понимания языка.
Типичные кейсы:
поддержка клиентов;
triage тикетов;
обработка документов;
поиск по базе знаний;
summarization;
внутренние copilot-системы.
А вот задачи с жёсткой логикой и детерминированными правилами часто дешевле решать обычным backend-кодом.
Реальный кейс: автоматизация поддержки
Рассмотрим production-сценарий.
Компания получает около 500 тикетов в день:
проблемы с оплатой;
вопросы по тарифам;
доступы;
технические ошибки;
feature requests.
Цель:
автоматически отвечать на типовые вопросы;
снизить нагрузку на операторов;
сократить время ответа;
не ухудшить качество поддержки.
Архитектура системы
Промпт для изображения
Архитектура AI-поддержки клиентов, API Gateway, AI classifier, router, RAG agent, очередь операторов, quality gate, генерация ответов LLM, современная техническая схема, стиль DevOps и backend engineering
[Клиент]
↓
[API Gateway]
↓
[Classifier Service]
↓
[Router]
┌──────────────┬──────────────┬─────────────┐
↓ ↓ ↓
[RAG Agent] [Template Engine] [Human Queue]
↓
[LLM]
↓
[Quality Gate]
↓
[Ответ / Эскалация]
Главный принцип системы:
LLM никогда не отвечает пользователю напрямую.
Каждый ответ проходит:
confidence scoring;
policy checks;
escalation logic;
quality validation.
Для критичных категорий ответы сразу отправляются операторам.
Шаг 1. Классификация тикетов
Первый production-фейл появился уже в начале запуска.
Мы ожидали ошибки на редких запросах, но проблема оказалась в смешанных тикетах.
Например:
«Меня списали дважды и теперь не работает VPN»
Такой тикет одновременно относится:
к billing;
к technical_issue.
Из-за этого пришлось:
вводить confidence threshold;
добавлять fallback-логику;
отправлять неоднозначные кейсы людям.
Пример классификатора
import anthropic
import json
client = anthropic.Anthropic()
TICKET_CATEGORIES = [
"billing",
"technical_issue",
"feature_request",
"account_access",
"general_inquiry"
]
def classify_ticket(ticket_text: str) -> dict:
prompt = f"""
Classify this support ticket.
Return valid JSON only.
Ticket:
{ticket_text}
"""
response = client.messages.create(
model="claude-sonnet-4-5",
max_tokens=256,
messages=[{
"role": "user",
"content": prompt
}]
)
return json.loads(response.content[0].text)
После few-shot примеров accuracy выросла примерно с 91% до 96%.
Но даже здесь возникла проблема:
операторы поддержки сами иногда не соглашались друг с другом при разметке тикетов.
Шаг 2. RAG и база знаний
Через две недели после запуска появилась новая проблема.
Одна из страниц базы знаний содержала старые тарифы.
В результате AI:
отвечал уверенно;
ссылался на неправильные данные;
вызывал всплеск эскалаций.
После этого пришлось вводить:
versioning базы знаний;
nightly re-index;
владельцев разделов KB;
TTL для документации.
Пример RAG-пайплайна
from anthropic import Anthropic
import chromadb
from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer(
"all-MiniLM-L6-v2"
)
chroma = chromadb.Client()
collection = chroma.get_or_create_collection(
"knowledge_base"
)
def get_relevant_docs(query: str):
embedding = embedder.encode(query).tolist()
results = collection.query(
query_embeddings=[embedding],
n_results=3
)
return results["documents"][0]
Почему quality gate обязателен
Самая опасная ошибка — прямой вывод ответа модели клиенту.
Даже хорошие LLM:
галлюцинируют;
выдают устаревшую информацию;
ошибаются в policy;
могут выйти за границы домена.
Поэтому production AI обязан иметь:
confidence scoring;
moderation;
fallback logic;
escalation;
validation.
Quality Gate
CONFIDENCE_THRESHOLD = 0.75
def process_ticket(ticket_text):
classification = classify_ticket(
ticket_text
)
result = generate_response(
ticket_text,
classification["category"]
)
if result["confidence"] < CONFIDENCE_THRESHOLD:
return {
"action": "escalate"
}
return {
"action": "auto_reply",
"response": result["response"]
}
Что начало ломаться в проде
Настоящие проблемы появились уже после запуска.
1. Latency
На длинных тикетах модель отвечала по 8–12 секунд.
Для пользователя это оказалось слишком долго.
Пришлось:
внедрять streaming;
добавлять async processing;
использовать response caching.
2. Mixed-language запросы
Пользователи отправляли:
русский + английский;
логи ошибок;
VPN stack traces;
куски кода.
Из-за этого retrieval начал работать хуже.
Помогло:
multilingual embeddings;
очистка логов;
chunking по типу данных.
3. Операторы не доверяли AI
Очень быстро выяснилось:
высокий confidence не всегда означает хороший ответ;
иногда low-confidence ответы были полезнее.
В итоге пришлось:
собирать human feedback;
обучать calibration layer;
считать human correction rate.
Мониторинг AI-систем
Без мониторинга такие системы быстро превращаются в black box.
Минимальный набор метрик:
latency p50/p95/p99;
escalation rate;
token cost;
human correction rate;
confidence distribution;
retrieval quality.
Промпт для изображения
Панель мониторинга AI-системы, графики latency, токены, confidence score, observability dashboard, DevOps интерфейс, тёмная тема, современный аналитический экран, AI production monitoring
Как снизить стоимость AI
Один из лучших подходов — routing между моделями.
Простые запросы идут в дешёвую модель.
Сложные — в более мощную.
Model Routing
def route_to_model(ticket, category):
simple_categories = [
"general_inquiry",
"feature_request"
]
if (
category in simple_categories
and len(ticket) < 200
):
return "claude-haiku-4-5"
return "claude-sonnet-4-5"
На практике:
60–70% тикетов уходили в дешёвую модель;
качество почти не менялось;
стоимость inference снижалась в несколько раз.
Результаты спустя 4 недели
| Метрика | До | После |
|---|---|---|
| Среднее время ответа | 4.2 ч | 3 мин / 1.8 ч |
| Автоматизация | 0% | 58% |
| CSAT | 3.8 | 4.1 |
| Стоимость тикета | $2.40 | $0.85 |
И здесь важно понимать:
58% автоматизации — это хороший production-результат.
Оставшиеся 42%:
сложные кейсы;
конфликты;
нестандартные запросы;
проблемы, где нужен человек.
И это нормально.
Итоги
AI в бизнесе перестаёт быть экспериментом и становится инженерной инфраструктурой.
Что действительно работает:
RAG;
quality gates;
model routing;
monitoring;
human-in-the-loop;
structured outputs.
Что обычно проваливается:
попытка автоматизировать всё;
отсутствие observability;
прямой вывод LLM клиенту;
вера в «магический AI».
ИИ не заменяет инженерную дисциплину.
Наоборот — делает её ещё важнее.

Комментарии
Отправить комментарий