Inferencer | Run and Deeply Control Local AI Models

Inferencer | Run and Deeply Control Local AI Models ist ein interessantes Tool, mit dem man LLMs lokal betreiben kann. Das kann natürlich LM Studio oder Ollama oder vllm-mlx auch. Aber Inferencer hat ein Feature namens "Model streaming", das ziemlich cool ist: es kann Modelle betreiben, die eigentlich zu groß für den Speicher sind. Natürlich tauscht man da Zeit gegen Speicher, aber für ein lokales Modell zur Bildbetitelung oder ähnliche kleinere Sachen kann man das durchaus mal benutzen. Ich habe aber das Gefühl, dass das Modell dadurch irgendwie fragiler wird - z.B. nutzt es Tools plötzlich nicht mehr richtig (ich habs mit gemma3 12b probiert, das so gerade an der Speichergrenze meines Laptops kratzt).