Маленькие LLM как агенты - тест локальных моделей до 8B

Краткий Обзор

В этом видео специалисты из Seriflow протестировали, насколько маленькие локальные модели подходят для агентских задач, работая через Open AI с реальным репозиторием Tools. Использовались модели от 3 до 9 млрд параметров, запущенные локально через llama.cpp с контекстом 64.000 токенов. Оценивалось, как модели решают задачи, потребление памяти и время работы.

Проверка способности моделей работать с существующей кодовой базой.
Оценка агентского поведения в инструментальном режиме.
Сравнение стабильности и надежности моделей в реальных задачах.

Вступление [0:00]

В видео компания Seriflow проверяет, насколько маленькие локальные модели пригодны для агентских задач, используя Open AI с репозиторием Tools. Модели запускаются локально через llama.cpp с контекстом 64.000 токенов. Оценивается решение задач, потребление памяти и время работы моделей с параметрами от 3 до 9 млрд.

1 Задача. Объяснение [0:32]

Первый тест включает работу с готовым проектом Focusboard, приложением для продуктивности команд. В репозитории есть Agent MD, определяющий правила работы с проектом. Задача модели — добавить автозавершение Focus Session и живой count в интерфейс, находя нужные файлы, не затрагивая лишний код и не нарушая API.

1 Задача. Nanbeige4.1-3B [1:05]

Nanbeige4.1-3B излишне рассуждает, что является её особенностью, но как модель для работы с готовым проектом она слаба. Основная проблема — некорректный вызов тулов, и никакие изменения параметров не помогли. Модель не справилась с тестом.

1 Задача. Ministral-3-3B [1:29]

Ministral-3-3B усердно старалась помочь, но после первого сообщения о завершении в программе возникла ошибка. Модель не смогла исправить ошибку даже после нескольких попыток и провалила тест.

1 Задача. Qwen3.5-4B [1:48]

Qwen3.5-4B проявила себя очень умно для своего размера, проанализировав проект и приступив к задаче. Модель увидела, что в проекте есть тестирование, и попыталась добавить тесты для новой функции, хотя это не удалось. В итоге модель успешно справилась с основной задачей: таймер работал и завершался автоматически.

1 Задача. Nemotron-3-Nano-4B [2:18]

Nemotron-3-Nano-4B столкнулась с проблемами, аналогичными Nanbeige, с некорректным вызовом тулов. Изменения параметров не повлияли на результат, и модель не смогла нормально встроиться в рабочий процесс, провалив тест.

1 Задача. Gemma4-E4B [2:43]

Gemma4-E4B показала себя лучше, хотя и не закрыла задачу с первого раза. Пришлось несколько раз возвращать её в нужное русло, но модель держала контекст и постепенно двигалась к рабочему решению. С четвёртой попытки функционал был доделан, результат положительный, но не уверенный.

1 Задача. SERA-8B [3:06]

От SERA-8B ожидания были выше, но поведение оказалось нестабильным. Несколько первых запусков зацикливались. С четвёртого запуска модель справилась, но результат был ненадежным.

1 Задача. Ministral-3-8B [3:29]

Ministral-3-8B с первого раза поняла задачу, аккуратно прошлась по проекту, реализовала нужную логику, покрыла её тестами и проверила корректность работы. На фоне предыдущих участников Ministral-3-8B выглядела собранно и уверенно.

1 Задача. Qwen3.5-9B [4:01]

Qwen3.5-9B с первого раза сделала задачу и написала тесты, но при проверке оказалось, что таймер завершался моментально, то есть логика работала неправильно. После нескольких попыток доработки модель не смогла исправить поведение, и результат оказался отрицательным.

1 Задача. OmniCoder-9B [4:27]

OmniCoder-9B лучше всех разобралась в проекте, реализовала функционал с первого раза, покрыла всё тестами и не допустила заметных ошибок. Это был один из самых уверенных и аккуратных прогонов.

1 Задача. Итоги [4:50]

Представлена таблица с результатами моделей, включающая модель, тип квантизации, время выполнения и итоговый результат (решила или нет).

2 Задача. Объяснение [5:00]

Второй тест — web search задача, где модель работает как агент с инструментами поиска и файловой системы. Ей нужно найти свежие новости и посты о новых моделях генерации изображений за период с января по апрель 2026 года, отфильтровать релевантный материал и сохранить результат в JSON-файл.

2 Задача. Nanbeige4.1-3B [5:27]

Nanbeige4.1-3B смогла найти нужную информацию, но на этапе сохранения результатов в JSON начала эволюционировать и не смогла нормально записать файл. Часть задачи выполнена, но финальный результат не получен.

2 Задача. Ministral-3-3B [5:39]

Ministral-3-3B в целом справилась неплохо: нашла информацию, сформировала JSON и довела сценарий до конца. Однако есть вопросы к качеству источников и confidence расставлен странно.

2 Задача. Qwen3.5-4B [6:00]

Qwen3.5-4B отработала очень уверенно, нашла хорошие, релевантные материалы, без проблем собрала всё в JSON и сделала задачу очень чисто. Явных недостатков не замечено.

2 Задача. Nemotron-3-Nano-4B [6:12]

Nemotron-3-Nano-4B формально выполнила задачу, информацию нашла и результат выдала, но сам результат получился слабее остальных. Ссылок было мало, и часть найденного выглядела не совсем в тему.

2 Задача. Gemma4-E4B [6:28]

Gemma4-E4B нашла нужную информацию, но сначала не справилась с сохранением результатов в файл. Только с третьей попытки она поняла, что нужно сделать, создала файл и записала туда данные.

2 Задача. SERA-8B [6:44]

SERA-8B упёрлась не в поиск, а в поведение агента. Информацию она находила, но на этапе записи ушла в цикл и не довела задачу до конца, сожгла около 200 web search запросов.

2 Задача. Ministral-3-8B [7:00]

Ministral-3-8B справилась с задачей с первой попытки, корректно нашла информацию, сохранила её в JSON и адекватно расставила Confidence.

2 Задача. Qwen3.5-9B [7:15]

Qwen3.5-9B отработала с первой попытки и показала один из лучших результатов, нашла больше всего актуальной и релевантной информации и без проблем сохранила всё в JSON.

2 Задача. OmniCoder-9B [7:31]

OmniCoder-9B во втором тесте показал себя очень хорошо, с первой попытки нашёл много полезной информации, корректно записал всё в файл и прошёл сценарий без лишних проблем.

2 Задача. Итоги [7:45]

Во втором тесте разброс результатов большой. Часть моделей находила информацию, но ломалась на этапе записи в JSON. Самые сильные модели закрывали всё с первого раза, находили релевантные источники и без проблем сохраняли файл.

3 Тест. Benchmark tool calling. Объяснение [8:01]

Третий тест — бенчмарк на Tool calling для локальных моделей. Модель не пишет код и не делает web search, а должна правильно решать, когда вызвать инструмент, какой инструмент выбрать и когда не вызывать ничего. Внутри бенчмарка 12 фиксированных промтов, включая простые вызовы, неоднозначные запросы и restrain промпты. Оценка считается по доле корректных вызовов и отказов.

3 Тест. Итоги [8:57]

Результаты бенчмарка показывают, что более сильные модели поднимаются выше в рейтинге. GO 431B получил Agent Score 0,92. Среди компактных моделей лучший баланс показал Nemotron-3-Nano-4B с Agent Score 0,8 и средней задержкой около 3 секунд. Ministral-3-3B остаётся самой быстрой моделью, но по качеству решения она ниже.

Общие выводы. Заключение [10:08]

Маленькие модели уже могут быть агентными, но не все. Некоторые хорошо рассуждают, но ломаются на тулах, другие ищут информацию, но не могут завершить задачу. Лучшие результаты показали модели, стабильные в реальных задачах, а не только в бенчмарках.