Аспект	Apple Silicon (M4 / M4 Max / M3 Ultra)	Графический процессор NVIDIA (5090 и др.)
Потребление энергии	Очень эффективные - обычно потребление не превышает 100 Вт.	До 450 Вт только для графического процессора
Шумовое развитие	Практически бесшумный	Хорошо слышно под нагрузкой
Программный стек	MLX / Core ML / Metal	CUDA / cuDNN / PyTorch
Техническое обслуживание	Без водителя и стабильно	Частые обновления и проблемы совместимости
Соотношение цены и качества	Высокая эффективность по умеренной цене	Лучшая пиковая производительность, но дороже
Идеально подходит для	Локальный вывод и непрерывная работа	Обучение и большие модели

Оборудование	Модель / установка	Токены в секунду (приблизительно)	Ремарка
Apple M3 Ultra (Mac Studio)	z. например, Gemma-3-27B-Q4 на M3 Ultra	≈ 41 tok/s :contentReference[oaicite:2]{index=2}	Вывод LLM, контекст 4k лексем, квантифицированный
NVIDIA RTX 5090	8 B модель (количественная оценка) в соответствии с исследованием	≈ 213 tok/s :contentReference[oaicite:3]{index=3}	Модель 8 B, 4-битная, среда RLHF
NVIDIA RTX 4090	8 B Ссылка на модель	≈ 128 tok/s :contentReference[oaicite:4]{index=4}	24 ГБ VRAM Окружающая среда
NVIDIA RTX 3090	Бюджетный HighEnd в сравнении	≈ 112 tok/s :contentReference[oaicite:5]{index=5}	Рынок подержанных товаров, 24 ГБ VRAM

Категория	Типовой размер модели	Рекомендуемый бюджет оперативной памяти	Пример использования
Маленький	1-3 миллиарда параметров	16-32 ГБ	Простой помощник, распознавание текста
Средний	7-13 млрд. Параметры	32-64 ГБ	Чат, анализ, создание текстов
Большой	Параметры 30-70 млрд.	64 ГБ +	Специализированные тексты, юридические документы

Формат	Платформа	Назначение	Преимущества	Недостатки
GGUF	macOS, Windows, Linux	Заключение	Компактный, быстрый, универсальный	Обучение невозможно
MLX	macOS (Apple Silicon)	Вывод + обучение	Оптимизирован для M-чипов, высокая эффективность	Меньшее количество доступных моделей
Сейфетензоры	Кроссплатформенность (PyTorch / TensorFlow)	Обучение и исследования	Безопасно, стандартно, быстро	Непосредственная совместимость с Ollama / MLX

Локальные языковые модели на Mac - почему это имеет смысл сейчас

Apple Silicon по сравнению с NVIDIA для выводов