Детальный обзор технологий: LLM-модели, RAG-пайплайн, мультиагентная архитектура, аппаратные конфигурации
Апрель 2026
До 2026 года серьёзные AI-задачи требовали облачных API — GPT-4, Claude, GigaChat. Локальные модели на 7-13 млрд параметров значительно уступали по качеству. Ситуация изменилась: архитектуры MoE (Mixture of Experts) позволяют запускать модели с 26-400 млрд параметров на доступном оборудовании, активируя лишь малую часть параметров на каждый токен. Это даёт качество облачных моделей при работе полностью на собственных серверах.
Все модели — Apache 2.0: свободное использование, модификация, fine-tuning, коммерческое применение
Gemma 4 (апрель 2026, Google) — первая полностью мультимодальная open-source модель с нативным OCR. Она может читать рукописный текст, анализировать чертежи и диаграммы, парсить PDF с таблицами — задачи, которые раньше требовали специализированных инструментов вроде ABBYY. Модель 31B занимает 3-е место в мировом рейтинге LMArena (Elo 1452).
| Модель | Параметры | Активные | Контекст | VRAM (Q4) | Рекомендуемый GPU |
|---|---|---|---|---|---|
| Gemma 4 E2B | 2.3B | 2.3B (dense) | 128K | 2-3 ГБ | Raspberry Pi, IoT |
| Gemma 4 E4B | 4.5B | 4.5B (dense) | 128K | 4-6 ГБ | Любой GPU 8+ ГБ |
| Gemma 4 26B-A4B | 26B | 3.8B (MoE) | 256K | 10-14 ГБ | RTX 4060 / 5060 Ti 16ГБ |
| Gemma 4 31B | 31B | 31B (dense) | 256K | 20-24 ГБ | RTX 4090 / 5090 24ГБ |
Ключевая модель для AEC: 26B-A4B — анализ чертежей, фото площадок, спецификаций на GPU за $450. Vision-энкодер SigLIP поддерживает переменное разрешение и соотношение сторон изображений.
Qwen 3.5 (февраль 2026) — 9 моделей от 0.8B до 397B. Поддержка 201 языка (включая качественный русский) с расширенным словарём 250K токенов. Нативные агентные возможности: управление десктопом, мобильными приложениями и браузером как встроенная функция, а не адаптер. Режимы «думающий» и «не думающий» для контроля рассуждений.
| Модель | Тип | Активные | Контекст | VRAM (Q4) | Назначение |
|---|---|---|---|---|---|
| Qwen 3.5-9B | Dense | 9B | 256K | ~6 ГБ | Быстрый ассистент, RTX 3060 |
| Qwen 3.5-27B | Dense | 27B | 256K | ~15 ГБ | Профессиональный, RTX 4090 |
| Qwen 3.5-35B-A3B | MoE | 3B | 256K | ~19 ГБ | Эффективный средний класс |
| Qwen 3.5-122B-A10B | MoE | 10B | 256K | ~60 ГБ | Enterprise — координатор агентов |
| Qwen 3.5-397B-A17B | MoE | 17B | 256K | ~222 ГБ | Флагман — 8xH100 / Mac Ultra 256ГБ |
GDN-прорыв: на контексте 256K токенов Qwen 3.5 работает до 19x быстрее предыдущего поколения — критично для обработки больших томов проектной документации.
Qwen 3.6-Plus (апрель 2026) — модель, спроектированная для агентной работы. 1 миллион токенов контекста означает, что весь том проектной документации (~2,500 страниц) загружается в одно окно. Линейное внимание делает это возможным без квадратичного роста вычислений. Встроенный chain-of-thought и нативный tool use.
Специализированная MoE-модель для программирования: 80 млрд параметров, из которых активны только 3 млрд на каждый токен. Обучена не на предсказании следующего токена, а на реальном взаимодействии с терминалом и средами разработки (reinforcement learning). SWE-Bench Verified 70%+ — это уровень опытного разработчика на стандартных задачах.
RAG (Retrieval Augmented Generation) позволяет LLM работать с актуальной нормативной базой, не «зашитой» в модель. Документы разбиваются на фрагменты, преобразуются в векторные представления и сохраняются в специализированной базе данных. При запросе система находит релевантные фрагменты и передаёт их в LLM для формирования точного ответа с указанием источников.
Векторная БД — центральный компонент RAG-пайплайна. Она хранит векторные представления (эмбеддинги) всех документов и обеспечивает быстрый семантический поиск. Для строительной отрасли критичны: масштаб (тысячи томов документации), гибридный поиск (по смыслу + по точному совпадению) и возможность self-hosted развёртывания.
| Параметр | Qdrant | Milvus |
|---|---|---|
| Масштаб | Средний-большой, горизонтально | Миллиарды векторов, распределённый |
| Латентность | 10-30 мс | Низкая |
| Гибридный поиск | Dense + sparse + payload | Dense + sparse |
| Язык реализации | Rust | Go + C++ |
| Развёртывание | Docker, Kubernetes | Kubernetes (кластер) |
| Лицензия | Apache 2.0 | Apache 2.0 |
| Лучше для | Пилот, средний масштаб | Enterprise, 5000+ пользователей |
| RAM (1M записей) | ~4-6 ГБ | ~6-8 ГБ |
Рекомендация: Qdrant для фазы 1 (пилот), переход на Milvus при масштабировании на enterprise
Вместо одного AI-бота — экосистема специализированных агентов, каждый со своей моделью и задачей. Координатор (Qwen 3.5-122B) распределяет задачи: визуальный агент (Gemma 4) анализирует чертежи, кодинг-агент (Qwen3-Coder) автоматизирует BIM, а персональные ассистенты (Qwen 3.5-9B) работают с каждым сотрудником. Оркестрация через CrewAI + LiteLLM + Ollama — всё локально.
Протоколы: MCP (Anthropic, Linux Foundation) и A2A (Google) — открытые стандарты межагентного взаимодействия
XSkill (arXiv:2603.12056, 2026) — фреймворк, который позволяет AI-агентам накапливать и переиспользовать знания из опыта выполнения задач без дообучения модели (без параметрических обновлений). Агент проверки нормативов, который проверил 1000 проектов, будет работать точнее, чем агент, проверивший 10 — даже на той же модели.
LLM-фреймворки для проверки соответствия строительным нормам достигают точности 97% F1 при интерпретации правил и 98% F1 при исполнении проверок. Подход заменяет ручную оцифровку правил на прямую интерпретацию через LLM: модель читает норматив и проектную документацию, самостоятельно определяя соответствие.
При облачном подходе каждый запрос к AI отправляет проектные данные на серверы провайдера. При локальном — данные никогда не покидают периметр. Это критично для тендерной документации, сметных расчётов, проектных ноу-хау и конфиденциальных данных заказчиков.
MoE-архитектуры радикально снизили требования к оборудованию. Модель качества 30B-уровня теперь работает на GPU за $450. Ниже — три конфигурации от пилота до enterprise, с указанием какие модели и задачи поддерживает каждая.
Всё вышеописанное — не теория. CheckArch.info — комплексная платформа для работы с проектными данными, которая уже работает на собственных серверах. 130+ API, мультисерверная архитектура, интеграция с Revit через BIMat.AI, локальные LLM, интеллектуальный анализ PDF, OCR, генерация документации. 9,700+ строк бэкенда на Node.js.
Мы проектируем и разворачиваем AI-платформу на вашем оборудовании, адаптируем модели под ваши стандарты и передаём компетенции вашей команде. Результат — автономная система, которой вы владеете полностью.
Спасибо за внимание