checkarch.info · Технологический обзор

Локальная AI-платформа
для строительной отрасли

Детальный обзор технологий: LLM-модели, RAG-пайплайн, мультиагентная архитектура, аппаратные конфигурации

Апрель 2026

Контекст

Апрель 2026: новая эра локального AI

До 2026 года серьёзные AI-задачи требовали облачных API — GPT-4, Claude, GigaChat. Локальные модели на 7-13 млрд параметров значительно уступали по качеству. Ситуация изменилась: архитектуры MoE (Mixture of Experts) позволяют запускать модели с 26-400 млрд параметров на доступном оборудовании, активируя лишь малую часть параметров на каждый токен. Это даёт качество облачных моделей при работе полностью на собственных серверах.

MoE-архитектура

Модель с 26 млрд параметров активирует только 3.8 млрд на каждый токен. Результат: качество большой модели при потреблении ресурсов маленькой. GPU с 16 ГБ видеопамяти достаточно.

GDN-архитектура

Gated Delta Networks в Qwen 3.5 заменяют механизм внимания (attention) в 75% слоёв. Это даёт 8-19x ускорение при работе с длинными документами и снижает потребление памяти на ~95%.

Линейное внимание

Qwen 3.6 заменяет квадратичное внимание линейным, что делает контекст в 1 млн токенов (~2,500 страниц) практически реализуемым без экспоненциального роста вычислений.

Все модели — Apache 2.0: свободное использование, модификация, fine-tuning, коммерческое применение

LLM · Google

Gemma 4 — визуальный AI для строительства

Gemma 4 (апрель 2026, Google) — первая полностью мультимодальная open-source модель с нативным OCR. Она может читать рукописный текст, анализировать чертежи и диаграммы, парсить PDF с таблицами — задачи, которые раньше требовали специализированных инструментов вроде ABBYY. Модель 31B занимает 3-е место в мировом рейтинге LMArena (Elo 1452).

Модель	Параметры	Активные	Контекст	VRAM (Q4)	Рекомендуемый GPU
Gemma 4 E2B	2.3B	2.3B (dense)	128K	2-3 ГБ	Raspberry Pi, IoT
Gemma 4 E4B	4.5B	4.5B (dense)	128K	4-6 ГБ	Любой GPU 8+ ГБ
Gemma 4 26B-A4B	26B	3.8B (MoE)	256K	10-14 ГБ	RTX 4060 / 5060 Ti 16ГБ
Gemma 4 31B	31B	31B (dense)	256K	20-24 ГБ	RTX 4090 / 5090 24ГБ

Ключевая модель для AEC: 26B-A4B — анализ чертежей, фото площадок, спецификаций на GPU за $450. Vision-энкодер SigLIP поддерживает переменное разрешение и соотношение сторон изображений.

LLM · Alibaba

Qwen 3.5 — агентная платформа

Qwen 3.5 (февраль 2026) — 9 моделей от 0.8B до 397B. Поддержка 201 языка (включая качественный русский) с расширенным словарём 250K токенов. Нативные агентные возможности: управление десктопом, мобильными приложениями и браузером как встроенная функция, а не адаптер. Режимы «думающий» и «не думающий» для контроля рассуждений.

Модель	Тип	Активные	Контекст	VRAM (Q4)	Назначение
Qwen 3.5-9B	Dense	9B	256K	~6 ГБ	Быстрый ассистент, RTX 3060
Qwen 3.5-27B	Dense	27B	256K	~15 ГБ	Профессиональный, RTX 4090
Qwen 3.5-35B-A3B	MoE	3B	256K	~19 ГБ	Эффективный средний класс
Qwen 3.5-122B-A10B	MoE	10B	256K	~60 ГБ	Enterprise — координатор агентов
Qwen 3.5-397B-A17B	MoE	17B	256K	~222 ГБ	Флагман — 8xH100 / Mac Ultra 256ГБ

GDN-прорыв: на контексте 256K токенов Qwen 3.5 работает до 19x быстрее предыдущего поколения — критично для обработки больших томов проектной документации.

LLM · Alibaba

Qwen 3.6 — миллион токенов контекста

Qwen 3.6-Plus (апрель 2026) — модель, спроектированная для агентной работы. 1 миллион токенов контекста означает, что весь том проектной документации (~2,500 страниц) загружается в одно окно. Линейное внимание делает это возможным без квадратичного роста вычислений. Встроенный chain-of-thought и нативный tool use.

Токенов контекста
~2,500 страниц

91.2

OmniDocBench v1.5
1-е место по документам

65K

Выходных токенов
за один запрос

Практический сценарий: агент на базе Qwen 3.6 читает полный комплект проектной документации, находит противоречия между архитектурными и конструктивными решениями, проверяет соответствие СНиП/ГОСТ — в одном запросе.

LLM · Кодинг-агент

Qwen3-Coder-Next — автоматизация

Специализированная MoE-модель для программирования: 80 млрд параметров, из которых активны только 3 млрд на каждый токен. Обучена не на предсказании следующего токена, а на реальном взаимодействии с терминалом и средами разработки (reinforcement learning). SWE-Bench Verified 70%+ — это уровень опытного разработчика на стандартных задачах.

Характеристики

80B общих / 3B активных (MoE)
256K контекст
Q4: ~46 ГБ · Q2: ~30 ГБ VRAM
SWE-Bench Verified: 70%+

Применение в строительстве

Автоматизация BIM-скриптов (Dynamo, Grasshopper)
Генерация отчётов и документации
Интеграция между системами (Revit ↔ AI)
Автоматические проверки и валидации

RAG-пайплайн

RAG для строительных нормативов

RAG (Retrieval Augmented Generation) позволяет LLM работать с актуальной нормативной базой, не «зашитой» в модель. Документы разбиваются на фрагменты, преобразуются в векторные представления и сохраняются в специализированной базе данных. При запросе система находит релевантные фрагменты и передаёт их в LLM для формирования точного ответа с указанием источников.

PDF, DWG, ГОСТ
документы

→

Chunking
512-1024 токена

→

Qwen3-Embedding-8B
1-е место MTEB Multi

→

Qdrant / Milvus
векторная БД

→

Qwen 3.5 / 3.6
генерация ответа

Гибридный поиск обязателен

В строительной документации важны как семантический смысл, так и точное совпадение: номера ГОСТ, СНиП, артикулы, номера чертежей. Dense + sparse поиск критичен.

Metadata + Re-ranking

Фильтрация по типу документа, проекту, разделу, дате. Cross-encoder re-ranking (BGE-reranker) повышает точность на 15-20%. 4000+ замечаний Главгосэкспертизы как база.

Хранение данных

Векторные базы данных

Векторная БД — центральный компонент RAG-пайплайна. Она хранит векторные представления (эмбеддинги) всех документов и обеспечивает быстрый семантический поиск. Для строительной отрасли критичны: масштаб (тысячи томов документации), гибридный поиск (по смыслу + по точному совпадению) и возможность self-hosted развёртывания.

Параметр	Qdrant	Milvus
Масштаб	Средний-большой, горизонтально	Миллиарды векторов, распределённый
Латентность	10-30 мс	Низкая
Гибридный поиск	Dense + sparse + payload	Dense + sparse
Язык реализации	Rust	Go + C++
Развёртывание	Docker, Kubernetes	Kubernetes (кластер)
Лицензия	Apache 2.0	Apache 2.0
Лучше для	Пилот, средний масштаб	Enterprise, 5000+ пользователей
RAM (1M записей)	~4-6 ГБ	~6-8 ГБ

Рекомендация: Qdrant для фазы 1 (пилот), переход на Milvus при масштабировании на enterprise

Агентная архитектура

Мультиагентная система

Вместо одного AI-бота — экосистема специализированных агентов, каждый со своей моделью и задачей. Координатор (Qwen 3.5-122B) распределяет задачи: визуальный агент (Gemma 4) анализирует чертежи, кодинг-агент (Qwen3-Coder) автоматизирует BIM, а персональные ассистенты (Qwen 3.5-9B) работают с каждым сотрудником. Оркестрация через CrewAI + LiteLLM + Ollama — всё локально.

Координатор

Qwen 3.5-122B-A10B
2x RTX 5090 (32ГБ)

Планирование, декомпозиция задач, оркестрация агентов

Визуальный

Gemma 4 26B-A4B
RTX 5060 Ti (16ГБ)

Чертежи, фото площадок, OCR, спецификации

Кодинг

Qwen3-Coder-Next
RTX 4090 (24ГБ)

BIM-скрипты, интеграции, автоматизация отчётов

Ассистент ×N

Qwen 3.5-9B
RTX 3060 (12ГБ)

Персональный помощник каждого сотрудника

Протоколы: MCP (Anthropic, Linux Foundation) и A2A (Google) — открытые стандарты межагентного взаимодействия

Самообучение

XSkill — агенты, обучающиеся на опыте

XSkill (arXiv:2603.12056, 2026) — фреймворк, который позволяет AI-агентам накапливать и переиспользовать знания из опыта выполнения задач без дообучения модели (без параметрических обновлений). Агент проверки нормативов, который проверил 1000 проектов, будет работать точнее, чем агент, проверивший 10 — даже на той же модели.

Два типа знаний

Skills (навыки) — структурированные рабочие процессы и шаблоны на уровне задач. Как «инструкция» для типовой проверки.

Experiences (опыт) — контекстно-зависимые тактические инсайты на уровне действий. Как «заметки на полях» опытного инженера.

Результаты

+2.58-6.71 пунктов Average@4 vs базовый подход
+11.13 пунктов на сложных задачах

Тестирован на 5 бенчмарках с 4 базовыми моделями. Применим для: проверка нормативов, анализ документации, управление проектами.

Применение

Автоматическая проверка нормативов

LLM-фреймворки для проверки соответствия строительным нормам достигают точности 97% F1 при интерпретации правил и 98% F1 при исполнении проверок. Подход заменяет ручную оцифровку правил на прямую интерпретацию через LLM: модель читает норматив и проектную документацию, самостоятельно определяя соответствие.

97%

F1-score
интерпретация правил

98%

F1-score
исполнение проверок

4000+

Типовых замечаний
Главгосэкспертизы РФ

Ключевое преимущество локального подхода: fine-tuning модели на данных Главгосэкспертизы и внутренних стандартах компании. Это невозможно при использовании облачных GigaChat или YandexGPT — они не позволяют дообучать модель на ваших данных.

Безопасность

Безопасность локальной платформы

При облачном подходе каждый запрос к AI отправляет проектные данные на серверы провайдера. При локальном — данные никогда не покидают периметр. Это критично для тендерной документации, сметных расчётов, проектных ноу-хау и конфиденциальных данных заказчиков.

Изоляция данных

Все AI-запросы обрабатываются внутри контура. Нет внешних API-запросов. WireGuard VPN между серверами. Argon2id для паролей, JWT + сессии.

Независимость

Нет vendor lock-in — весь стек open-source (Apache 2.0). Нет санкционных рисков. Нет зависимости от ценовой политики провайдеров. Работа offline.

Кастомизация

Fine-tuning моделей на ваших стандартах и данных. LoRA-адаптеры для специализации. Полный контроль промптов, системных инструкций и поведения агентов.

Оборудование

Аппаратные конфигурации

MoE-архитектуры радикально снизили требования к оборудованию. Модель качества 30B-уровня теперь работает на GPU за $450. Ниже — три конфигурации от пилота до enterprise, с указанием какие модели и задачи поддерживает каждая.

Фаза 1 · Пилот

4-GPU сервер
2x RTX 5090 + 1x RTX 4090 + 1x RTX 5060 Ti
128 ГБ RAM, 4 ТБ NVMe

Qwen 3.5-27B + Gemma 4 26B + Qdrant
~1.5-2.5M руб.

Фаза 2 · Масштабирование

Кластер A100/H100
2x H100 80ГБ или 4x A100 80ГБ
512 ГБ RAM, 8 ТБ NVMe + 50 ТБ HDD

Qwen 3.5-122B + Milvus + мультиагенты
~5-10M руб.

Фаза 3 · Enterprise

Мультинодовый кластер
8x H100 или эквивалент
1+ ТБ RAM, 25 GbE сеть

Qwen 3.5-397B + полный стек
~15-25M руб.

Доказательство

CheckArch.info — работающая платформа

Всё вышеописанное — не теория. CheckArch.info — комплексная платформа для работы с проектными данными, которая уже работает на собственных серверах. 130+ API, мультисерверная архитектура, интеграция с Revit через BIMat.AI, локальные LLM, интеллектуальный анализ PDF, OCR, генерация документации. 9,700+ строк бэкенда на Node.js.

130+ API endpoints

Мультисерверная архитектура

Локальные LLM (LM Studio)

Интеллектуальный PDF-анализ

BIMat.AI — Revit-плагин

OCR (ABBYY + Vision)

Apple Glass UI

WireGuard VPN · Redis · JWT

Партнёрство

Предложение о сотрудничестве

Мы проектируем и разворачиваем AI-платформу на вашем оборудовании, адаптируем модели под ваши стандарты и передаём компетенции вашей команде. Результат — автономная система, которой вы владеете полностью.

Аудит инфраструктуры

Анализ серверов, сети, существующих систем

Архитектура

Техническое ТЗ под ваше оборудование

Развёртывание

Настройка LLM, RAG, агентов + обучение

Масштабирование

По результатам пилота на всю компанию

Контакты

checkarch.info

Спасибо за внимание

Локальная AI-платформадля строительной отрасли