
Интеграция CV и LLM: как GetChat и EdgeSoft делают поддержку по-настоящему умной
Опубликовано: 12/1/2025
В мире, где клиенты ожидают мгновенных и точных ответов, диалоговые AI-ассистенты уже стали стандартом для служб поддержки. Однако большинство решений до сих пор остаются в рамках текста. Между тем пользователи отправляют тысячи изображений и видео: фотографии товаров, сканы документов, селфи для подтверждения личности, видеоролики с демонстрацией ошибки. До недавнего времени эти данные были «слепой зоной» для chatbots — приходилось переключаться на оператора, что снижало скорость обработки и ухудшало клиентский опыт.
Сегодня мы рады объявить о начале стратегического технологического партнерства, которое должно стереть эту границу.
GetChat, ведущий поставщик AI-решений для бизнеса, и EdgeSoft, эксперт в области компьютерного зрения и ML, объединяют усилия для создания нового поколения мультимодальных ассистентов.
Цель проекта
Интегрировать в диалоговые системы поддержки полноценную работу с изображениями и видео — как с помощью крупных мультимодальных LLM, так и с использованием компактных кастомных моделей для узкоспециализированных задач.
Это означает, что теперь бот сможет не только «понимать картинки», но и выполнять сложные сценарии: от анализа документов до распознавания лиц в видеопотоке.
Проблема: Большинство чат ботов по-прежнему работают только с текстом и редко когда с изображениями или видео
Реальные сценарии, с которыми ежедневно сталкивается бизнес:
- Техподдержка: клиент присылает скриншот ошибки или видео, на котором показывает проблему.
- Ритейл: фото товара для поиска аналогов.
- Финтех и банки: загрузка паспорта, подтверждение транзакции или селфи для KYC/AML.
- Страхование: фото или видео ущерба автомобиля.
Без компьютерного зрения такие сценарии приводят к:
- повышенной нагрузке на операторов,
- замедлению обработки,
- обрывам диалогов,
- фрагментированному пользовательскому опыту.
Решение: симбиоз языковых и визуальных моделей — больших и компактных
Совместный проект GetChat и EdgeSoft создает единый мультимодальный слой, сочетающий:
Со стороны EdgeSoft
Интеграцию CV-моделей, которые включают как крупные универсальные мультимодальные LLM, так и компактные высокопроизводительные ML-модули:
- Классификация изображений и видеоОпределение типа данных: документ, селфи, товар, экран ошибки, видеообращение.
- Распознавание объектов и полей в документахВключая модели, натренированные под конкретные корпоративные документы (анкеты, заявления, паспорта, страховые формы, чеки).
- OCR и специализированные экстракторыПодходы, позволяющие не только «считать текст», но и структурировать его для последующей обработки.
- Распознавание лиц и видео-анализДля сценариев аутентификации, KYC, удаленной идентификации и антифрода.
Эти компактные модели особенно важны: они позволяют бизнесу использовать мультимодальность без необходимости развертывать огромные LLM, получая высокую скорость, локальное исполнение и контроль над данными.
Со стороны GetChat
Модернизация диалоговой платформы для:
- Объединения визуального и текстового контекстаБот анализирует текст запроса, изображение или видео и объединяет данные в единую смысловую модель.
- Генерации точных ответовLLM формирует реплики, опираясь одновременно на визуальные факты и текст.
- Запуска автоматических процессовНапример:– предзаполнение формы по скану паспорта,– верификация личности по видео,– автоматическое принятие решения по страховому случаю.
Как это работает?
Клиент пишет: «Не могу пройти верификацию» и отправляет селфи-видео.
CV-модуль EdgeSoft выполняет распознавание лица, проверку соответствия эталонному документу и анализ видеопотока.
Диалоговая платформа GetChat объединяет результат видео-аналитики с текстовым запросом.
Бот формирует персонализированный ответ и предлагает дальнейшие действия.
Или другой пример:
Пользователь прикладывает паспорт. Маленькая кастомная модель, заточенная именно под этот документ, быстро извлекает ключевые поля, не прибегая к громоздким LLM — быстрее, дешевле и локально.
Почему это важно для бизнеса?
До 80% задач с визуальным или видео-контентом закрываются без оператора
Боты больше не зависимы от текстового канала.
Реальное сокращение времени решения (FCR)
Объяснять проблему больше не нужно — бот видит и понимает.
Новые сценарии, ранее невозможные
- удаленная KYC-идентификация,
- проверка подлинности документов,
- анализ видеоинструкций,
- визуальная диагностика оборудования.
Снижение расходов
Операторы подключаются только к сложным кейсам.
Высокий уровень безопасности и соответствия требованиям
Локальные модели позволяют обрабатывать конфиденциальные изображения и видео без передачи в сторонние сервисы.
Взгляд в будущее
Партнёрство GetChat и EdgeSoft — это не просто интеграция CV-технологий.
Это шаг к созданию по-настоящему мультимодального поколения AI-ассистентов, способных работать с текстом, изображениями и видео так же естественно, как это делают люди.
И ключевое преимущество — возможность использовать не только большие мультимодальные LLM, но и кастомные, узкоспециализированные модели, ориентированные на точные корпоративные сценарии.
Мы уверены, что будущее клиентского сервиса за AI-системами, которые умеют видеть, понимать и действоватьв полном информационном пространстве.
Следите за нашими анонсами — скоро мы представим первые результаты и showcases.