KI-Modelle & Tools Guide

Welches KI-Modell passt zu deinem Smart Home? Von lokalen LLMs bis Cloud-APIs, von Spracherkennung bis Bilderkennung — ein praktischer Überblick.

🧠 Large Language Models

LLMs verstehen natürliche Sprache und können Automationen generieren, Sensordaten analysieren oder als Chatbot fungieren.

Llama 3 (8B / 70B)
Lokal Nutze ich
Metas Open-Source LLM. Das 8B-Modell läuft auf Consumer-Hardware, 70B braucht starke GPU oder viel RAM. Exzellent für Smart Home Aufgaben.
8B: 8GB RAM 70B: 48GB+ RAM Ollama
Einsatz:
Intent-Erkennung, Anomalie-Analyse, Automation-Generierung, Chatbot
Mistral 7B / Mixtral
Lokal
Französisches Open-Source Modell. Sehr effizient, gute Performance pro Parameter. Mixtral (MoE) aktiviert nur Teile des Modells pro Anfrage.
7B: 8GB RAM Mixtral: 32GB RAM Ollama
Einsatz:
Code-Generierung (YAML/Jinja2), Klassifikation, Zusammenfassungen
Phi-3 / Phi-4 Mini
Tiny
Microsofts kleines Modell. Läuft sogar auf Raspberry Pi 5. Überraschend leistungsfähig für seine Größe.
3.8B: 4GB RAM CPU ok Ollama
Einsatz:
Edge-Klassifikation, einfache Intent-Erkennung, Sensor-Label-Generierung
Claude (Anthropic)
Cloud Nutze ich
Aktuell stärkstes Modell für Code und komplexe Reasoning-Aufgaben. Claude Code kann ganze Smart Home Setups planen und implementieren.
API: $3-15/M tokens 200K context
Einsatz:
Komplexe Automationen, Code-Generierung, Architektur-Planung, Debug-Hilfe
GPT-4o (OpenAI)
Cloud
Multimodales Modell: versteht Text, Bilder und Audio. Gut für Bildanalyse an Kameras (Paket-Erkennung, Personen-Klassifikation).
API: $2.50-10/M tokens Vision + Audio
Einsatz:
Kamerabild-Analyse, Paket-Erkennung, multimodale Automationen
Gemma 4 E4B (Google)
Lokal Tiny
Googles neuestes Edge-Modell. 4B Parameter, multimodal (Text + Bild + Audio), natives Function Calling. Ideal für Geräte mit 8GB+ RAM.
4B: ~2.5GB Q4 256K context Apache 2.0 Ollama
Einsatz:
Edge-Klassifikation, Function Calling auf kleinen Geräten, Bilderkennung lokal
Gemma 4 27B MoE (Google)
Lokal MoE
Der Star der Gemma 4 Familie. 27B Parameter total, nur 3.8B aktiv pro Anfrage (MoE). Multimodal, natives Function Calling, 256K Kontext. Beste Effizienz aller lokalen Modelle.
27B/3.8B active: ~15GB Q4 MMLU Pro: 85.2% Apache 2.0 Ollama
Einsatz:
Smart Home Automatisierung, Function Calling, Bilderkennung, komplexe Aufgaben — alles lokal
Gemma 4 E2B (Google)
Tiny
Winziges 2B-Modell für Phones und IoT. Multimodal mit Function Calling. Läuft auf minimalster Hardware.
2B: ~1.5GB Q4 Multimodal Apache 2.0
Einsatz:
IoT-Geräte, einfache Klassifikation, On-Device Inference
Gemma 4 31B Dense (Google)
Lokal
Das größte Dense-Modell der Gemma 4 Familie. 31B Parameter, maximale Qualität, optimal für Fine-Tuning. Braucht 24GB+ RAM.
31B: ~18GB Q4 256K context Apache 2.0 Ollama
Einsatz:
Fine-Tuning, maximale Qualität, komplexe Reasoning-Aufgaben

👁️ Bilderkennung & Vision

KI-Modelle die Kamerabilder analysieren: Objekte erkennen, Personen identifizieren, Pakete detektieren.

Frigate NVR
Open Source Nutze ich
NVR mit Echtzeit-Objekterkennung. Nutzt Google Coral TPU für blitzschnelle Inference (10ms/Frame). Erkennt Personen, Autos, Tiere.
Coral TPU: ~30€4GB RAM
LLaVA (Ollama)
Lokal Nutze ich
Multimodales lokales Modell. Versteht Bilder und kann sie beschreiben. Ideal für Paket-Erkennung an der Haustür.
7B: 8GB RAMOllama
CompreFace + Double Take
Open Source
Gesichtserkennung für Home Assistant. CompreFace erkennt Gesichter, Double Take integriert es mit Frigate und HA.
2GB RAMDocker

🎙️ Spracherkennung & TTS

Sprache zu Text und Text zu Sprache — die Bausteine für einen lokalen Sprachassistenten.

Whisper / faster-whisper
Lokal Nutze ich
OpenAIs Spracherkennung. faster-whisper ist die optimierte Variante (4x schneller). Erkennt 99 Sprachen inkl. Deutsch.
tiny: 1GB RAMmedium: 4GBlarge-v3: 8GB
Piper TTS
Open Source Nutze ich
Schnelle, natürlich klingende Text-zu-Sprache für Home Assistant. Läuft komplett lokal, viele Stimmen und Sprachen verfügbar.
<1GB RAMCPU onlyHA Add-on
microWakeWord
On-Device Nutze ich
Wake-Word-Erkennung direkt auf dem ESP32. Kein Server nötig — das Keyword wird auf dem Mikrocontroller erkannt.
ESP32-S3ESPHome~20 Keywords

🛠️ Tools & Plattformen

Die Software die alles zusammenhält: von Workflow-Engines bis PII-Scrubbing.

Ollama
Open Source Nutze ich
Docker für LLMs. Ein Befehl zum Installieren, ein Befehl zum Starten. Lokale API kompatibel mit OpenAI-Format.
n8n
Open Source Nutze ich
Visuelle Workflow-Automatisierung mit nativen KI-Nodes (LangChain, Ollama, OpenAI). Ersetzt komplexe Scripts durch Drag-and-Drop.
Presidio (Microsoft)
Open Source Nutze ich
PII-Erkennung und -Anonymisierung. Filtert Namen, Adressen, Telefonnummern bevor Daten an externe APIs gehen.
Claude Code
CLI Nutze ich
KI-gestützter Coding-Assistent im Terminal. Plant, implementiert und testet Smart Home Automationen. Mein primäres Entwicklungstool.

📊 Vergleichstabelle

Alle Modelle auf einen Blick.

Model Typ RAM Lokal Kosten Bester Einsatz
Llama 3 8BLLM8GBKostenlosAllrounder
Phi-3 MiniLLM4GBKostenlosEdge / Pi 5
Mistral 7BLLM8GBKostenlosCode / YAML
ClaudeLLM$3-15/MKomplexe Aufgaben
GPT-4oLLM+Vision$2.50-10/MBilder + Text
Gemma 4 E4BLLM+Vision~2.5GBKostenlosEdge / Function Calling
Gemma 4 27B MoELLM+Vision~15GBKostenlosBeste Effizienz (MoE)
Gemma 4 31B DenseLLM~18GBKostenlosFine-Tuning / Max Qualität
LLaVAVision8GBKostenlosLokale Bilderkennung
Whisper large-v3STT8GBKostenlosSpracherkennung
PiperTTS<1GBKostenlosSprachausgabe
Frigate + CoralObject Det.4GB~30€ TPUKamera-Überwachung

Nichts mehr verpassen

Neue Artikel, Projekte und Podcast-Episoden direkt per Email. Kein Spam, jederzeit abbestellbar.

Oder folge mir auf:

Spotify YouTube