Интеграция CV и LLM: как GetChat и EdgeSoft делают поддержку по-настоящему умной

В мире, где клиенты ожидают мгновенных и точных ответов, диалоговые AI-ассистенты уже стали стандартом для служб поддержки. Однако большинство решений до сих пор остаются в рамках текста. Между тем пользователи отправляют тысячи изображений и видео: фотографии товаров, сканы документов, селфи для подтверждения личности, видеоролики с демонстрацией ошибки. До недавнего времени эти данные были «слепой зоной» для chatbots — приходилось переключаться на оператора, что снижало скорость обработки и ухудшало клиентский опыт.

Сегодня мы рады объявить о начале стратегического технологического партнерства, которое должно стереть эту границу.

GetChat, ведущий поставщик AI-решений для бизнеса, и EdgeSoft, эксперт в области компьютерного зрения и ML, объединяют усилия для создания нового поколения мультимодальных ассистентов.

Цель проекта

Интегрировать в диалоговые системы поддержки полноценную работу с изображениями и видео — как с помощью крупных мультимодальных LLM, так и с использованием компактных кастомных моделей для узкоспециализированных задач.

Это означает, что теперь бот сможет не только «понимать картинки», но и выполнять сложные сценарии: от анализа документов до распознавания лиц в видеопотоке.

Проблема: Большинство чат ботов по-прежнему работают только с текстом и редко когда с изображениями или видео

Реальные сценарии, с которыми ежедневно сталкивается бизнес:

Техподдержка: клиент присылает скриншот ошибки или видео, на котором показывает проблему.
Ритейл: фото товара для поиска аналогов.
Финтех и банки: загрузка паспорта, подтверждение транзакции или селфи для KYC/AML.
Страхование: фото или видео ущерба автомобиля.

Без компьютерного зрения такие сценарии приводят к:

повышенной нагрузке на операторов,
замедлению обработки,
обрывам диалогов,
фрагментированному пользовательскому опыту.

Решение: симбиоз языковых и визуальных моделей — больших и компактных

Совместный проект GetChat и EdgeSoft создает единый мультимодальный слой, сочетающий:

Со стороны EdgeSoft

Интеграцию CV-моделей, которые включают как крупные универсальные мультимодальные LLM, так и компактные высокопроизводительные ML-модули:

Классификация изображений и видеоОпределение типа данных: документ, селфи, товар, экран ошибки, видеообращение.
Распознавание объектов и полей в документахВключая модели, натренированные под конкретные корпоративные документы (анкеты, заявления, паспорта, страховые формы, чеки).
OCR и специализированные экстракторыПодходы, позволяющие не только «считать текст», но и структурировать его для последующей обработки.
Распознавание лиц и видео-анализДля сценариев аутентификации, KYC, удаленной идентификации и антифрода.

Эти компактные модели особенно важны: они позволяют бизнесу использовать мультимодальность без необходимости развертывать огромные LLM, получая высокую скорость, локальное исполнение и контроль над данными.

Со стороны GetChat

Модернизация диалоговой платформы для:

Объединения визуального и текстового контекстаБот анализирует текст запроса, изображение или видео и объединяет данные в единую смысловую модель.
Генерации точных ответовLLM формирует реплики, опираясь одновременно на визуальные факты и текст.
Запуска автоматических процессовНапример:– предзаполнение формы по скану паспорта,– верификация личности по видео,– автоматическое принятие решения по страховому случаю.

Как это работает?

Клиент пишет: «Не могу пройти верификацию» и отправляет селфи-видео.

CV-модуль EdgeSoft выполняет распознавание лица, проверку соответствия эталонному документу и анализ видеопотока.

Диалоговая платформа GetChat объединяет результат видео-аналитики с текстовым запросом.

Бот формирует персонализированный ответ и предлагает дальнейшие действия.

Или другой пример:

Пользователь прикладывает паспорт. Маленькая кастомная модель, заточенная именно под этот документ, быстро извлекает ключевые поля, не прибегая к громоздким LLM — быстрее, дешевле и локально.

Почему это важно для бизнеса?

До 80% задач с визуальным или видео-контентом закрываются без оператора

Боты больше не зависимы от текстового канала.

Реальное сокращение времени решения (FCR)

Объяснять проблему больше не нужно — бот видит и понимает.

Новые сценарии, ранее невозможные

удаленная KYC-идентификация,
проверка подлинности документов,
анализ видеоинструкций,
визуальная диагностика оборудования.

Снижение расходов

Операторы подключаются только к сложным кейсам.

Высокий уровень безопасности и соответствия требованиям

Локальные модели позволяют обрабатывать конфиденциальные изображения и видео без передачи в сторонние сервисы.

Взгляд в будущее

Партнёрство GetChat и EdgeSoft — это не просто интеграция CV-технологий.

Это шаг к созданию по-настоящему мультимодального поколения AI-ассистентов, способных работать с текстом, изображениями и видео так же естественно, как это делают люди.

И ключевое преимущество — возможность использовать не только большие мультимодальные LLM, но и кастомные, узкоспециализированные модели, ориентированные на точные корпоративные сценарии.

Мы уверены, что будущее клиентского сервиса за AI-системами, которые умеют видеть, понимать и действоватьв полном информационном пространстве.

Следите за нашими анонсами — скоро мы представим первые результаты и showcases.