KI-Modelle & Tools Guide

Welches KI-Modell passt zu deinem Smart Home? Von lokalen LLMs bis Cloud-APIs, von Spracherkennung bis Bilderkennung — ein praktischer Überblick.

🧠 Large Language Models

LLMs verstehen natürliche Sprache und können Automationen generieren, Sensordaten analysieren oder als Chatbot fungieren.

Llama 3 (8B / 70B)
Lokal Nutze ich
Metas Open-Source LLM. Das 8B-Modell läuft auf Consumer-Hardware, 70B braucht starke GPU oder viel RAM. Exzellent für Smart Home Aufgaben.
8B: 8GB RAM 70B: 48GB+ RAM Ollama
Einsatz:
Intent-Erkennung, Anomalie-Analyse, Automation-Generierung, Chatbot
Mistral 7B / Mixtral
Lokal
Französisches Open-Source Modell. Sehr effizient, gute Performance pro Parameter. Mixtral (MoE) aktiviert nur Teile des Modells pro Anfrage.
7B: 8GB RAM Mixtral: 32GB RAM Ollama
Einsatz:
Code-Generierung (YAML/Jinja2), Klassifikation, Zusammenfassungen
Phi-3 / Phi-4 Mini
Tiny
Microsofts kleines Modell. Läuft sogar auf Raspberry Pi 5. Überraschend leistungsfähig für seine Größe.
3.8B: 4GB RAM CPU ok Ollama
Einsatz:
Edge-Klassifikation, einfache Intent-Erkennung, Sensor-Label-Generierung
Claude (Anthropic)
Cloud Nutze ich
Aktuell stärkstes Modell für Code und komplexe Reasoning-Aufgaben. Claude Code kann ganze Smart Home Setups planen und implementieren.
API: $3-15/M tokens 200K context
Einsatz:
Komplexe Automationen, Code-Generierung, Architektur-Planung, Debug-Hilfe
GPT-4o (OpenAI)
Cloud
Multimodales Modell: versteht Text, Bilder und Audio. Gut für Bildanalyse an Kameras (Paket-Erkennung, Personen-Klassifikation).
API: $2.50-10/M tokens Vision + Audio
Einsatz:
Kamerabild-Analyse, Paket-Erkennung, multimodale Automationen
Gemma 2 (Google)
Lokal
Googles offenes Modell. Besonders gut für Textzusammenfassungen und Klassifikation. Läuft effizient auf wenig RAM.
2B: 4GB RAM 9B: 12GB RAM Ollama
Einsatz:
Email-Klassifikation, Zusammenfassungen, einfache Konversation

👁️ Bilderkennung & Vision

KI-Modelle die Kamerabilder analysieren: Objekte erkennen, Personen identifizieren, Pakete detektieren.

Frigate NVR
Open Source Nutze ich
NVR mit Echtzeit-Objekterkennung. Nutzt Google Coral TPU für blitzschnelle Inference (10ms/Frame). Erkennt Personen, Autos, Tiere.
Coral TPU: ~30€4GB RAM
LLaVA (Ollama)
Lokal Nutze ich
Multimodales lokales Modell. Versteht Bilder und kann sie beschreiben. Ideal für Paket-Erkennung an der Haustür.
7B: 8GB RAMOllama
CompreFace + Double Take
Open Source
Gesichtserkennung für Home Assistant. CompreFace erkennt Gesichter, Double Take integriert es mit Frigate und HA.
2GB RAMDocker

🎙️ Spracherkennung & TTS

Sprache zu Text und Text zu Sprache — die Bausteine für einen lokalen Sprachassistenten.

Whisper / faster-whisper
Lokal Nutze ich
OpenAIs Spracherkennung. faster-whisper ist die optimierte Variante (4x schneller). Erkennt 99 Sprachen inkl. Deutsch.
tiny: 1GB RAMmedium: 4GBlarge-v3: 8GB
Piper TTS
Open Source Nutze ich
Schnelle, natürlich klingende Text-zu-Sprache für Home Assistant. Läuft komplett lokal, viele Stimmen und Sprachen verfügbar.
<1GB RAMCPU onlyHA Add-on
microWakeWord
On-Device Nutze ich
Wake-Word-Erkennung direkt auf dem ESP32. Kein Server nötig — das Keyword wird auf dem Mikrocontroller erkannt.
ESP32-S3ESPHome~20 Keywords

🛠️ Tools & Plattformen

Die Software die alles zusammenhält: von Workflow-Engines bis PII-Scrubbing.

Ollama
Open Source Nutze ich
Docker für LLMs. Ein Befehl zum Installieren, ein Befehl zum Starten. Lokale API kompatibel mit OpenAI-Format.
n8n
Open Source Nutze ich
Visuelle Workflow-Automatisierung mit nativen KI-Nodes (LangChain, Ollama, OpenAI). Ersetzt komplexe Scripts durch Drag-and-Drop.
Presidio (Microsoft)
Open Source Nutze ich
PII-Erkennung und -Anonymisierung. Filtert Namen, Adressen, Telefonnummern bevor Daten an externe APIs gehen.
Claude Code
CLI Nutze ich
KI-gestützter Coding-Assistent im Terminal. Plant, implementiert und testet Smart Home Automationen. Mein primäres Entwicklungstool.

📊 Vergleichstabelle

Alle Modelle auf einen Blick.

Model Typ RAM Lokal Kosten Bester Einsatz
Llama 3 8BLLM8GBKostenlosAllrounder
Phi-3 MiniLLM4GBKostenlosEdge / Pi 5
Mistral 7BLLM8GBKostenlosCode / YAML
ClaudeLLM$3-15/MKomplexe Aufgaben
GPT-4oLLM+Vision$2.50-10/MBilder + Text
LLaVAVision8GBKostenlosLokale Bilderkennung
Whisper large-v3STT8GBKostenlosSpracherkennung
PiperTTS<1GBKostenlosSprachausgabe
Frigate + CoralObject Det.4GB~30€ TPUKamera-Überwachung

Nichts mehr verpassen

Neue Artikel, Projekte und Podcast-Episoden direkt per Email. Kein Spam, jederzeit abbestellbar.

Oder folge mir auf:

Spotify YouTube