oMLX — LLM inference, optimized for your Mac

oMLX — LLM inference, optimized for your Mac ist so ein bisschen wie mein MLX Server, aber hat mehr Fokus auf effiziente Ausführung und als Gimmick einen persistierten KV Cache, so dass alte Prefixe wiederbelebt werde. Könnte ich mit meinem kommenden MacBook Pro mal testen, ob das interessant für mich ist, insbesondere das Beispiel mit dem Qwen 3.5 122B A10B sieht gut aus, das ist auch im Moment auf meine DGX mein favorisiertes Modell.