llm

Introducing Mistral Small 4 | Mistral AI ist ein weiterer interessanter Kandidat für die ASUS Ascent GX10||ASUS Deutschland, vor allem brauche ich dort keine Side-car Modelle für Vision, weil das Modell selber auch schon gleich Vision mitbring. Und als MoE Modell dürfte es auch gut Speed hinlegen.

nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 · Hugging Face wird wahrscheinlich das erste große Modell auf der ASUS Ascent GX10||ASUS Deutschland werden, weil es optimiert auf NVFP4 trainiert wurde - und damit nicht eine "verdummung" erfährt, wegen der Quantisierung, sondern ganz normal wie erwartet funktioniert. Und es ist auf agentische Workflows optimiert, was OpenClaw begünstigen sollte, genauso wie der 1M Context, der in dem Modell vermutlich sogar genutzt werden kann (andere Architektur als klassische Transformer basierte Modelle).

ASUS Ascent GX10||ASUS Deutschland kommt in den nächsten Tagen. KI Bolide, der es mir erlauben wird, auch größere Modelle lokal zu betreiben und z.B. einen OpenClaw Agent autonom zu Hause zu betreiben, ohne dafür dann auch noch Subscriptions zu brauchen. Bin schon echt gespannt, was damit geht. Kommt mit angepasstem Ubuntu, auch ein nettes Detail.

topoteretes/cognee: Knowledge Engine for AI Agent Memory in 6 lines of code ist auch etwas, das ich mir für später merke. Im Prinzip ein Wissens-Graph der über eine LLM gesteuert aufgebaut wird, um Memory für eine andere LLM verfügbar zu machen. Sicherlich spannend damit zu spielen, wenn ich mal eine gute lokale Hardware habe, auf der ich größere Modelle betreiben kann. Aber für jetzt nur ein Merker.

Docker Model Runner Adds vLLM Support on macOS | Docker - erstmal nur gemerkt, das könnte später interessant werden, weil ich darüber Modelle über Docker mit vllm betreiben kann, bei gleichzeitiger Nutzung von Apple Silicon. Interessant daran ist hier, dass es als Docker Image fertig konfiguriert kommt und ich mich nicht mit Setup rumschlagen muss. Im Moment arbeite ich ja eher mit meinem eigenen rfc1437/MLXServer: a simple MLX based server for small models to run locally, einfach weil ich es eh nur für den Offline-Betrieb brauche, aber für später könnte vllm-metal sehr spannend sein.

rfc1437/MLXServer: a simple MLX based server for small models to run locally ist ein Tool, das ich mir (KI-gestützt) gebaut habe, um kleine Modelle direkt lokal auszuführen, ohne großen Ballast. Das frisst nicht viel Speicher, hat gleich einen lokalen Chat eingebaut für eigene Experimente und fühlt sich für mich deutlich praktischer an als die großen Alternativen - weniger Knöpfe zum Einstellen, aber dadurch auch weniger Verwirrung. Ich will ja einfach nur ein kleines Modell lokal betreiben für mein Blog on-the-road.

mlx-community/Qwen3.5-9B-MLX-4bit · Hugging Face ist noch ein weiteres nettes kleines Modell - größer als die anderen, dadurch aber auch etwas konsistenter in der Ausführung, aber immer noch echt fix. Und ist so die Obergrenze, was man auf einem MacBook Air M4 mit 16G Ram betreiben kann, ohne den Rechner zu crashen.

google/gemma-3-4b-it · Hugging Face ist ein ziemlich nettes Modell, dass für viele europäische Sprachen trainiert ist und daher gut für Übersetzungen lokal benutzt werden kann - es lädt unter 4G in den Speicher und belegt im Betrieb in der Interferenz ca. 6.5G. Und es hat Vision Capability, kann also auch benutzt werden um Bildbeschreibungen zu bekommen. Ideal, um z.B. mit bDS als lokales Modell benutzt zu werden wenn man offline unterwegs sein will. Und deutlich kleiner als mlx-community/gemma-3-12b-it-4bit · Hugging Face - das war bei meinem Macbook Air grenzwertig.

Inferencer | Run and Deeply Control Local AI Models ist ein interessantes Tool, mit dem man LLMs lokal betreiben kann. Das kann natürlich LM Studio oder Ollama oder vllm-mlx auch. Aber Inferencer hat ein Feature namens "Model streaming", das ziemlich cool ist: es kann Modelle betreiben, die eigentlich zu groß für den Speicher sind. Natürlich tauscht man da Zeit gegen Speicher, aber für ein lokales Modell zur Bildbetitelung oder ähnliche kleinere Sachen kann man das durchaus mal benutzen. Ich habe aber das Gefühl, dass das Modell dadurch irgendwie fragiler wird - z.B. nutzt es Tools plötzlich nicht mehr richtig (ich habs mit gemma3 12b probiert, das so gerade an der Speichergrenze meines Laptops kratzt).

OpenClaw Memory Masterclass: The complete guide to agent memory that survives • VelvetShark - interessante Zusammenstellung des Memory-Systems und der Fallstricke mit Compaction bei Openclaw. Der Agent ist ja dazu da, über lange Zeit zu laufen, dadurch ist aber auch immer die Gefahr, dass Compaction gerade in komplexeren Situationen mitten drin zuschlägt. Und openclaw läuft autonom, also will man sicher sein, dass es auch kontinuierlich weitergeht.

unum-cloud/USearch - drin was drauf steht. Also eine Library, die einen Index für Vektoren bietet, die z.B. aus Embedding stammen können und so semantisch ähnliche Texte finden können. Nicht Text-ähnlich, sondern semantisch, also Inhalt. Spannendes Thema, die dafür nötigen Modelle sind mit den LLMs verwandt, aber eben nicht large, sondern small - sie brauchen nicht voll zu verstehen und zu generieren, weil sie nur Vektoren erstellen, die dann gegeneinander verglichen werden können und je höher die Ähnlichkeit, desto höher die Ähnlichkeit der Texte im Thema. Cooles kleines Feature für bDS.

waybarrios/vllm-mlx: OpenAI and Anthropic compatible server for Apple Silicon. Den benutze ich, um mlx-community/gemma-3-12b-it-4bit auf meinem MacBook Air zu betreiben. Klappt sehr gut, kleines Shell-Script zum Starten des Servers und dann bin ich autonom. Nicht so komfortabel wie Ollama, aber dafür unterstützt es perfekt Apple's MLX und nutzt damit Silicon gut aus.

mlx-community/gemma-3-12b-it-4bit · Hugging Face ist das bisher beste Modell für lokalen Betrieb, mit dem ich die Bildbetitelung und sogar lokalen Chat realisieren kann. Nicht das schnellste, da es schon recht groß ist, aber für Offline-Betrieb absolut geeignet, wenn ich mir da ein paar Mechanismen für Batchverarbeitung von Bildern etc. einfallen lasse. Das könnte gerade für Urlaubszeiten super spannend sein. Eine Bildbeschreibung liegt dann zwar bei einer Minute, aber hey, dafür keine Abhängigkeiten.

Models.dev — An open-source database of AI models ist eine sehr praktische Seite, die für alle möglichen Anbieter und alle möglichen LLMs Rahmenparameter liefert, inklusive sogar API Preise. Und technische Parameter wie Input/Output Tokens.

Ollama - eine Runtime-Umgebung für LLMs, die es erlaubt Modelle lokal zu betreiben. Mein Lieblingsmodell zur Zeit: qwen2.5vl:7b-q4_K_M. Mit nur 6.6 GB Größe läuft das problemlos auf einem MacBook Air M4 und hat noch genug Speicher und Kapazität frei um Programme nebenbei laufen zu lassen. Das Modell ist im Chat erstaunlich brauchbar und vor allem hat es klasse Vision-Fähigkeiten. Ideal um für Bilder Titel, Alt-Texte oder Zusammenfassungen zu liefern, ohne dafür Geld an große Provider abzudrücken. Und ein wichtiger Baustein, um bDS wieder zurück zu full-offline zu bringen.

mistralai/mistral-vibe: Minimal CLI coding agent by Mistral - begleitend zum AI Studio - Mistral AI gibt es die Vibe-Coding Oberfläche zu Devstral auch als Open Source. Sehr nett, weil es ein gutes Paar macht. Wird definitiv bei mir etwas ausprobiert, auch wenn ich sicherlich für große Projekte dann eher zu den Boliden (Opus 4.6) greifen würde.

AI Studio - Mistral AI - da in den USA ja doch wieder die Lage etwas angespannter wird, und einfach weil man immer mal gucken sollte, was außerhalb der USA passiert, hier ein Link auf eine europäische Alternative zu den großen US Betreibern. Mistral bietet mit Devstral 2 ein Coding-Modell an, das nicht nur open weights ist (also frei zu bekommen und zu betreiben, wenn man die nötige Hardware hat), sondern auch im Betrieb bei Nutzung von Mistral selber recht günstig ist. Und die Leistung liegt etwas oberhalb Claude Haiku 4.5, und zwar unterhalb Sonnet 4.5, aber nicht super weit. Also durchaus brauchbar und meine ersten Experimente waren nicht schlecht. Leider keine Vision-Fähigkeit, also für Experimente mit Bildern nicht so geeignet (und daher für mein bDS nicht ideal), aber trotzdem spannend genug um es im Auge zu behalten.

wer so wie ich gerne einen Überblick über UI-integration von LLMs haben möchte und sich fragt, wie A2UI und MCP Apps im Vergleich arbeiten und was sie bieten: Agent UI Standards Multiply: MCP Apps and Google’s A2UI - Richard MacManus hilft. Ich habe in bDS ja A2UI implementiert, damit im internen Chat das LLM auch visuelle Aspekte nutzen kann, und das gefällt mir schon sehr gut. Aber die Idee, Teile meines UI auch in externe Agents einzubringen ist auch faszinierend. Auch wenn ich finde, dass "lokales HTML/JS in einem IFrame" irgendwie erstmal nach Hack klingt, aber vieles im LLM Umfeld gibt mir das Gefühl im Moment, einfach weil ja alles über einen normalen Text-Stream geschoben wird und man hofft, dass die LLMs sich an die Formate halten (selbst A2UI arbeitet so).