checkarch.info · Технологический обзор

Локальная AI-платформа
для строительной отрасли

Детальный обзор технологий: LLM-модели, RAG-пайплайн, мультиагентная архитектура, аппаратные конфигурации

Апрель 2026

Контекст

Апрель 2026: новая эра локального AI

До 2026 года серьёзные AI-задачи требовали облачных API — GPT-4, Claude, GigaChat. Локальные модели на 7-13 млрд параметров значительно уступали по качеству. Ситуация изменилась: архитектуры MoE (Mixture of Experts) позволяют запускать модели с 26-400 млрд параметров на доступном оборудовании, активируя лишь малую часть параметров на каждый токен. Это даёт качество облачных моделей при работе полностью на собственных серверах.

MoE-архитектура
Модель с 26 млрд параметров активирует только 3.8 млрд на каждый токен. Результат: качество большой модели при потреблении ресурсов маленькой. GPU с 16 ГБ видеопамяти достаточно.
GDN-архитектура
Gated Delta Networks в Qwen 3.5 заменяют механизм внимания (attention) в 75% слоёв. Это даёт 8-19x ускорение при работе с длинными документами и снижает потребление памяти на ~95%.
Линейное внимание
Qwen 3.6 заменяет квадратичное внимание линейным, что делает контекст в 1 млн токенов (~2,500 страниц) практически реализуемым без экспоненциального роста вычислений.

Все модели — Apache 2.0: свободное использование, модификация, fine-tuning, коммерческое применение

LLM · Google

Gemma 4 — визуальный AI для строительства

Gemma 4 (апрель 2026, Google) — первая полностью мультимодальная open-source модель с нативным OCR. Она может читать рукописный текст, анализировать чертежи и диаграммы, парсить PDF с таблицами — задачи, которые раньше требовали специализированных инструментов вроде ABBYY. Модель 31B занимает 3-е место в мировом рейтинге LMArena (Elo 1452).

МодельПараметрыАктивныеКонтекстVRAM (Q4)Рекомендуемый GPU
Gemma 4 E2B2.3B2.3B (dense)128K2-3 ГБRaspberry Pi, IoT
Gemma 4 E4B4.5B4.5B (dense)128K4-6 ГБЛюбой GPU 8+ ГБ
Gemma 4 26B-A4B26B3.8B (MoE)256K10-14 ГБRTX 4060 / 5060 Ti 16ГБ
Gemma 4 31B31B31B (dense)256K20-24 ГБRTX 4090 / 5090 24ГБ

Ключевая модель для AEC: 26B-A4B — анализ чертежей, фото площадок, спецификаций на GPU за $450. Vision-энкодер SigLIP поддерживает переменное разрешение и соотношение сторон изображений.

LLM · Alibaba

Qwen 3.5 — агентная платформа

Qwen 3.5 (февраль 2026) — 9 моделей от 0.8B до 397B. Поддержка 201 языка (включая качественный русский) с расширенным словарём 250K токенов. Нативные агентные возможности: управление десктопом, мобильными приложениями и браузером как встроенная функция, а не адаптер. Режимы «думающий» и «не думающий» для контроля рассуждений.

МодельТипАктивныеКонтекстVRAM (Q4)Назначение
Qwen 3.5-9BDense9B256K~6 ГББыстрый ассистент, RTX 3060
Qwen 3.5-27BDense27B256K~15 ГБПрофессиональный, RTX 4090
Qwen 3.5-35B-A3BMoE3B256K~19 ГБЭффективный средний класс
Qwen 3.5-122B-A10BMoE10B256K~60 ГБEnterprise — координатор агентов
Qwen 3.5-397B-A17BMoE17B256K~222 ГБФлагман — 8xH100 / Mac Ultra 256ГБ

GDN-прорыв: на контексте 256K токенов Qwen 3.5 работает до 19x быстрее предыдущего поколения — критично для обработки больших томов проектной документации.

LLM · Alibaba

Qwen 3.6 — миллион токенов контекста

Qwen 3.6-Plus (апрель 2026) — модель, спроектированная для агентной работы. 1 миллион токенов контекста означает, что весь том проектной документации (~2,500 страниц) загружается в одно окно. Линейное внимание делает это возможным без квадратичного роста вычислений. Встроенный chain-of-thought и нативный tool use.

1M
Токенов контекста
~2,500 страниц
91.2
OmniDocBench v1.5
1-е место по документам
65K
Выходных токенов
за один запрос
Практический сценарий: агент на базе Qwen 3.6 читает полный комплект проектной документации, находит противоречия между архитектурными и конструктивными решениями, проверяет соответствие СНиП/ГОСТ — в одном запросе.
LLM · Кодинг-агент

Qwen3-Coder-Next — автоматизация

Специализированная MoE-модель для программирования: 80 млрд параметров, из которых активны только 3 млрд на каждый токен. Обучена не на предсказании следующего токена, а на реальном взаимодействии с терминалом и средами разработки (reinforcement learning). SWE-Bench Verified 70%+ — это уровень опытного разработчика на стандартных задачах.

Характеристики
80B общих / 3B активных (MoE)
256K контекст
Q4: ~46 ГБ · Q2: ~30 ГБ VRAM
SWE-Bench Verified: 70%+
Применение в строительстве
Автоматизация BIM-скриптов (Dynamo, Grasshopper)
Генерация отчётов и документации
Интеграция между системами (Revit ↔ AI)
Автоматические проверки и валидации
RAG-пайплайн

RAG для строительных нормативов

RAG (Retrieval Augmented Generation) позволяет LLM работать с актуальной нормативной базой, не «зашитой» в модель. Документы разбиваются на фрагменты, преобразуются в векторные представления и сохраняются в специализированной базе данных. При запросе система находит релевантные фрагменты и передаёт их в LLM для формирования точного ответа с указанием источников.

PDF, DWG, ГОСТ
документы
Chunking
512-1024 токена
Qwen3-Embedding-8B
1-е место MTEB Multi
Qdrant / Milvus
векторная БД
Qwen 3.5 / 3.6
генерация ответа
Гибридный поиск обязателен
В строительной документации важны как семантический смысл, так и точное совпадение: номера ГОСТ, СНиП, артикулы, номера чертежей. Dense + sparse поиск критичен.
Metadata + Re-ranking
Фильтрация по типу документа, проекту, разделу, дате. Cross-encoder re-ranking (BGE-reranker) повышает точность на 15-20%. 4000+ замечаний Главгосэкспертизы как база.
Хранение данных

Векторные базы данных

Векторная БД — центральный компонент RAG-пайплайна. Она хранит векторные представления (эмбеддинги) всех документов и обеспечивает быстрый семантический поиск. Для строительной отрасли критичны: масштаб (тысячи томов документации), гибридный поиск (по смыслу + по точному совпадению) и возможность self-hosted развёртывания.

ПараметрQdrantMilvus
МасштабСредний-большой, горизонтальноМиллиарды векторов, распределённый
Латентность10-30 мсНизкая
Гибридный поискDense + sparse + payloadDense + sparse
Язык реализацииRustGo + C++
РазвёртываниеDocker, KubernetesKubernetes (кластер)
ЛицензияApache 2.0Apache 2.0
Лучше дляПилот, средний масштабEnterprise, 5000+ пользователей
RAM (1M записей)~4-6 ГБ~6-8 ГБ

Рекомендация: Qdrant для фазы 1 (пилот), переход на Milvus при масштабировании на enterprise

Агентная архитектура

Мультиагентная система

Вместо одного AI-бота — экосистема специализированных агентов, каждый со своей моделью и задачей. Координатор (Qwen 3.5-122B) распределяет задачи: визуальный агент (Gemma 4) анализирует чертежи, кодинг-агент (Qwen3-Coder) автоматизирует BIM, а персональные ассистенты (Qwen 3.5-9B) работают с каждым сотрудником. Оркестрация через CrewAI + LiteLLM + Ollama — всё локально.

Координатор
Qwen 3.5-122B-A10B
2x RTX 5090 (32ГБ)

Планирование, декомпозиция задач, оркестрация агентов
Визуальный
Gemma 4 26B-A4B
RTX 5060 Ti (16ГБ)

Чертежи, фото площадок, OCR, спецификации
Кодинг
Qwen3-Coder-Next
RTX 4090 (24ГБ)

BIM-скрипты, интеграции, автоматизация отчётов
Ассистент ×N
Qwen 3.5-9B
RTX 3060 (12ГБ)

Персональный помощник каждого сотрудника

Протоколы: MCP (Anthropic, Linux Foundation) и A2A (Google) — открытые стандарты межагентного взаимодействия

Самообучение

XSkill — агенты, обучающиеся на опыте

XSkill (arXiv:2603.12056, 2026) — фреймворк, который позволяет AI-агентам накапливать и переиспользовать знания из опыта выполнения задач без дообучения модели (без параметрических обновлений). Агент проверки нормативов, который проверил 1000 проектов, будет работать точнее, чем агент, проверивший 10 — даже на той же модели.

Два типа знаний
Skills (навыки) — структурированные рабочие процессы и шаблоны на уровне задач. Как «инструкция» для типовой проверки.

Experiences (опыт) — контекстно-зависимые тактические инсайты на уровне действий. Как «заметки на полях» опытного инженера.
Результаты
+2.58-6.71 пунктов Average@4 vs базовый подход
+11.13 пунктов на сложных задачах

Тестирован на 5 бенчмарках с 4 базовыми моделями. Применим для: проверка нормативов, анализ документации, управление проектами.
Применение

Автоматическая проверка нормативов

LLM-фреймворки для проверки соответствия строительным нормам достигают точности 97% F1 при интерпретации правил и 98% F1 при исполнении проверок. Подход заменяет ручную оцифровку правил на прямую интерпретацию через LLM: модель читает норматив и проектную документацию, самостоятельно определяя соответствие.

97%
F1-score
интерпретация правил
98%
F1-score
исполнение проверок
4000+
Типовых замечаний
Главгосэкспертизы РФ
Ключевое преимущество локального подхода: fine-tuning модели на данных Главгосэкспертизы и внутренних стандартах компании. Это невозможно при использовании облачных GigaChat или YandexGPT — они не позволяют дообучать модель на ваших данных.
Безопасность

Безопасность локальной платформы

При облачном подходе каждый запрос к AI отправляет проектные данные на серверы провайдера. При локальном — данные никогда не покидают периметр. Это критично для тендерной документации, сметных расчётов, проектных ноу-хау и конфиденциальных данных заказчиков.

Изоляция данных
Все AI-запросы обрабатываются внутри контура. Нет внешних API-запросов. WireGuard VPN между серверами. Argon2id для паролей, JWT + сессии.
Независимость
Нет vendor lock-in — весь стек open-source (Apache 2.0). Нет санкционных рисков. Нет зависимости от ценовой политики провайдеров. Работа offline.
Кастомизация
Fine-tuning моделей на ваших стандартах и данных. LoRA-адаптеры для специализации. Полный контроль промптов, системных инструкций и поведения агентов.
Оборудование

Аппаратные конфигурации

MoE-архитектуры радикально снизили требования к оборудованию. Модель качества 30B-уровня теперь работает на GPU за $450. Ниже — три конфигурации от пилота до enterprise, с указанием какие модели и задачи поддерживает каждая.

Фаза 1 · Пилот
4-GPU сервер
2x RTX 5090 + 1x RTX 4090 + 1x RTX 5060 Ti
128 ГБ RAM, 4 ТБ NVMe

Qwen 3.5-27B + Gemma 4 26B + Qdrant
~1.5-2.5M руб.
Фаза 2 · Масштабирование
Кластер A100/H100
2x H100 80ГБ или 4x A100 80ГБ
512 ГБ RAM, 8 ТБ NVMe + 50 ТБ HDD

Qwen 3.5-122B + Milvus + мультиагенты
~5-10M руб.
Фаза 3 · Enterprise
Мультинодовый кластер
8x H100 или эквивалент
1+ ТБ RAM, 25 GbE сеть

Qwen 3.5-397B + полный стек
~15-25M руб.
Доказательство

CheckArch.info — работающая платформа

Всё вышеописанное — не теория. CheckArch.info — комплексная платформа для работы с проектными данными, которая уже работает на собственных серверах. 130+ API, мультисерверная архитектура, интеграция с Revit через BIMat.AI, локальные LLM, интеллектуальный анализ PDF, OCR, генерация документации. 9,700+ строк бэкенда на Node.js.

130+ API endpoints
Мультисерверная архитектура
Локальные LLM (LM Studio)
Интеллектуальный PDF-анализ
BIMat.AI — Revit-плагин
OCR (ABBYY + Vision)
Apple Glass UI
WireGuard VPN · Redis · JWT
Партнёрство

Предложение о сотрудничестве

Мы проектируем и разворачиваем AI-платформу на вашем оборудовании, адаптируем модели под ваши стандарты и передаём компетенции вашей команде. Результат — автономная система, которой вы владеете полностью.

01
Аудит инфраструктуры
Анализ серверов, сети, существующих систем
02
Архитектура
Техническое ТЗ под ваше оборудование
03
Развёртывание
Настройка LLM, RAG, агентов + обучение
04
Масштабирование
По результатам пилота на всю компанию
Контакты

checkarch.info

Спасибо за внимание