Llamafile от Mozilla: обновлённый движок и поддержка GPU для запуска LLM

Запуск крупной языковой модели на отдельном компьютере без доступа к облаку или среде контейнеризации остаётся приоритетом для специалистов, работающих в изолированных или ограниченных по ресурсам средах. Llamafile, проект Mozilla-AI для упаковки и запуска LLM в виде автономных исполняемых файлов, получил самое значительное архитектурное обновление на сегодняшний день в версии 0.10.0.

Полная переработка с нуля

Выпуск 0.10.0 стал результатом осознанного решения полностью переписать ядро Llamafile. Заявленной целью было создание универсальной сборки llama.cpp, сохраняющей два ключевых свойства проекта: кроссплатформенность для различных операционных систем и аппаратных архитектур, а также возможность напрямую включать веса модели в исполняемый файл Llamafile. Переработка также обновила зависимость проекта от llama.cpp, добавив поддержку новых моделей, которой не было в старых сборках.

Возвращение ускорения на GPU

Одним из наиболее важных изменений в версии 0.10.0 стало восстановление поддержки графических процессоров, которая отсутствовала в более ранних итерациях переписанной кодовой базы. Поддержка CUDA для Linux была возвращена в феврале 2026 года. Поддержка Metal для macOS ARM64 появилась в декабре 2025 года и была реализована путём компиляции небольшого модуля с использованием Xcode Command Line Tools. Metal работает как в терминальном интерфейсе, так и в серверном режиме.

Поддержка GPU для Windows в текущем релизе по-прежнему отсутствует.

Терминальный интерфейс и серверный режим

Версия 0.10.0 добавляет текстовый пользовательский интерфейс (TUI), позволяющий пользователям напрямую взаимодействовать с загруженной моделью из командной строки. Серверный режим доступен через флаг --server. В релизе также добавлена поддержка трёх различных режимов работы: чат, CLI и сервер.

Мультимодальные и речевые возможности

API mtmd теперь доступен через TUI, что позволяет получать доступ к мультимодальным моделям прямо из терминала. Протестированные с этой функцией модели включают llava 1.6, Qwen3-VL и Ministral 3. В CLI-режим добавлена поддержка ввода изображений через флаг --image.

Whisper, модель распознавания речи, была добавлена в последнем цикле обновлений (март 2026 года), расширив проект за пределы только текстового вывода.

Поддержка моделей и примеры llamafiles

Mozilla-AI распространяет набор предварительно собранных примеров llamafile, включённых в версию 0.10.0. Они варьируются от 1.6 ГБ квантованной модели Qwen3.5 0.8B Q8, которая, по данным проекта, генерирует примерно 8 токенов в секунду на Raspberry Pi 5 без GPU, до 19 ГБ квантованной модели Qwen3.5 27B Q5. Среди других включённых моделей — Ministral 3 3B Instruct, llava v1.6 mistral 7b, Apertus 8B Instruct, gpt-oss 20b и LFM2 24B A2B.

Зависимость llama.cpp обновлена до коммита 7f5ee54, который добавляет поддержку моделей Qwen3.5.

Пользователи Windows сталкиваются с практическим ограничением: операционная система накладывает максимальный размер исполняемого файла в 4 ГБ, что превышает размер большинства текущих примеров llamafile. В качестве обходного решения проект поддерживает использование внешних весов модели.

Система сборки и зависимости

Система сборки была упрощена в начале цикла разработки версии 0.10.0. От CMake отказались в пользу пользовательского файла BUILD.mk. Зависимости берутся из директории vendor проекта llama.cpp. Теперь проект ориентирован на cosmocc версии 4.0.2. Утилита zipalign была добавлена как подмодуль GitHub для отслеживания обновлений от её основного разработчика.

Что остаётся в работе

Проект перечисляет несколько функций, ещё не перенесённых в новый формат сборки. Код для Stable Diffusion присутствует в репозитории, но не был адаптирован для новой системы. Функции песочницы pledge() и SECCOMP отсутствуют. Llamafiler для эмбеддингов был откачен до встроенной конечной точки эмбеддингов в llama.cpp. Некоторые аргументы командной строки, работавшие в более ранних версиях, пока не функционируют.

Интеграционные тесты были добавлены в марте 2026 года вместе с «документами навыков», предназначенными для использования с ИИ-ассистентами.

Безопасность по замыслу: Встраивание защиты на этапе проектирования