KI-Modelle & Tools Guide

Welches KI-Modell passt zu deinem Smart Home? Von lokalen LLMs bis Cloud-APIs, von Spracherkennung bis Bilderkennung — ein praktischer Überblick.

🧠 Large Language Models

LLMs verstehen natürliche Sprache und können Automationen generieren, Sensordaten analysieren oder als Chatbot fungieren.

Llama 3 (8B / 70B)

Lokal Nutze ich

Metas Open-Source LLM. Das 8B-Modell läuft auf Consumer-Hardware, 70B braucht starke GPU oder viel RAM. Exzellent für Smart Home Aufgaben.

8B: 8GB RAM 70B: 48GB+ RAM Ollama

Einsatz:

Intent-Erkennung, Anomalie-Analyse, Automation-Generierung, Chatbot

Mistral 7B / Mixtral

Lokal

Französisches Open-Source Modell. Sehr effizient, gute Performance pro Parameter. Mixtral (MoE) aktiviert nur Teile des Modells pro Anfrage.

7B: 8GB RAM Mixtral: 32GB RAM Ollama

Einsatz:

Code-Generierung (YAML/Jinja2), Klassifikation, Zusammenfassungen

Phi-3 / Phi-4 Mini

Tiny

Microsofts kleines Modell. Läuft sogar auf Raspberry Pi 5. Überraschend leistungsfähig für seine Größe.

3.8B: 4GB RAM CPU ok Ollama

Einsatz:

Edge-Klassifikation, einfache Intent-Erkennung, Sensor-Label-Generierung

Claude (Anthropic)

Cloud Nutze ich

Aktuell stärkstes Modell für Code und komplexe Reasoning-Aufgaben. Claude Code kann ganze Smart Home Setups planen und implementieren.

API: $3-15/M tokens 200K context

Einsatz:

Komplexe Automationen, Code-Generierung, Architektur-Planung, Debug-Hilfe

GPT-4o (OpenAI)

Cloud

Multimodales Modell: versteht Text, Bilder und Audio. Gut für Bildanalyse an Kameras (Paket-Erkennung, Personen-Klassifikation).

API: $2.50-10/M tokens Vision + Audio

Einsatz:

Kamerabild-Analyse, Paket-Erkennung, multimodale Automationen

Gemma 4 E4B (Google)

Lokal Tiny

Googles neuestes Edge-Modell. 4B Parameter, multimodal (Text + Bild + Audio), natives Function Calling. Ideal für Geräte mit 8GB+ RAM.

4B: ~2.5GB Q4 256K context Apache 2.0 Ollama

Einsatz:

Edge-Klassifikation, Function Calling auf kleinen Geräten, Bilderkennung lokal

Gemma 4 27B MoE (Google)

Lokal MoE

Der Star der Gemma 4 Familie. 27B Parameter total, nur 3.8B aktiv pro Anfrage (MoE). Multimodal, natives Function Calling, 256K Kontext. Beste Effizienz aller lokalen Modelle.

27B/3.8B active: ~15GB Q4 MMLU Pro: 85.2% Apache 2.0 Ollama

Einsatz:

Smart Home Automatisierung, Function Calling, Bilderkennung, komplexe Aufgaben — alles lokal

Gemma 4 E2B (Google)

Tiny

Winziges 2B-Modell für Phones und IoT. Multimodal mit Function Calling. Läuft auf minimalster Hardware.

2B: ~1.5GB Q4 Multimodal Apache 2.0

Einsatz:

IoT-Geräte, einfache Klassifikation, On-Device Inference

Gemma 4 31B Dense (Google)

Lokal

Das größte Dense-Modell der Gemma 4 Familie. 31B Parameter, maximale Qualität, optimal für Fine-Tuning. Braucht 24GB+ RAM.

31B: ~18GB Q4 256K context Apache 2.0 Ollama

Einsatz:

Fine-Tuning, maximale Qualität, komplexe Reasoning-Aufgaben

👁️ Bilderkennung & Vision

KI-Modelle die Kamerabilder analysieren: Objekte erkennen, Personen identifizieren, Pakete detektieren.

Frigate NVR

Open Source Nutze ich

NVR mit Echtzeit-Objekterkennung. Nutzt Google Coral TPU für blitzschnelle Inference (10ms/Frame). Erkennt Personen, Autos, Tiere.

Coral TPU: ~30€4GB RAM

LLaVA (Ollama)

Lokal Nutze ich

Multimodales lokales Modell. Versteht Bilder und kann sie beschreiben. Ideal für Paket-Erkennung an der Haustür.

7B: 8GB RAMOllama

CompreFace + Double Take

Open Source

Gesichtserkennung für Home Assistant. CompreFace erkennt Gesichter, Double Take integriert es mit Frigate und HA.

2GB RAMDocker

🎙️ Spracherkennung & TTS

Sprache zu Text und Text zu Sprache — die Bausteine für einen lokalen Sprachassistenten.

Whisper / faster-whisper

Lokal Nutze ich

OpenAIs Spracherkennung. faster-whisper ist die optimierte Variante (4x schneller). Erkennt 99 Sprachen inkl. Deutsch.

tiny: 1GB RAMmedium: 4GBlarge-v3: 8GB

Piper TTS

Open Source Nutze ich

Schnelle, natürlich klingende Text-zu-Sprache für Home Assistant. Läuft komplett lokal, viele Stimmen und Sprachen verfügbar.

<1GB RAMCPU onlyHA Add-on

microWakeWord

On-Device Nutze ich

Wake-Word-Erkennung direkt auf dem ESP32. Kein Server nötig — das Keyword wird auf dem Mikrocontroller erkannt.

ESP32-S3ESPHome~20 Keywords

🛠️ Tools & Plattformen

Die Software die alles zusammenhält: von Workflow-Engines bis PII-Scrubbing.

Ollama

Open Source Nutze ich

Docker für LLMs. Ein Befehl zum Installieren, ein Befehl zum Starten. Lokale API kompatibel mit OpenAI-Format.

n8n

Open Source Nutze ich

Visuelle Workflow-Automatisierung mit nativen KI-Nodes (LangChain, Ollama, OpenAI). Ersetzt komplexe Scripts durch Drag-and-Drop.

Presidio (Microsoft)

Open Source Nutze ich

PII-Erkennung und -Anonymisierung. Filtert Namen, Adressen, Telefonnummern bevor Daten an externe APIs gehen.

Claude Code

CLI Nutze ich

KI-gestützter Coding-Assistent im Terminal. Plant, implementiert und testet Smart Home Automationen. Mein primäres Entwicklungstool.

📊 Vergleichstabelle

Alle Modelle auf einen Blick.

Model	Typ	RAM	Lokal	Kosten	Bester Einsatz
Llama 3 8B	LLM	8GB	✓	Kostenlos	Allrounder
Phi-3 Mini	LLM	4GB	✓	Kostenlos	Edge / Pi 5
Mistral 7B	LLM	8GB	✓	Kostenlos	Code / YAML
Claude	LLM	—	✗	$3-15/M	Komplexe Aufgaben
GPT-4o	LLM+Vision	—	✗	$2.50-10/M	Bilder + Text
Gemma 4 E4B	LLM+Vision	~2.5GB	✓	Kostenlos	Edge / Function Calling
Gemma 4 27B MoE	LLM+Vision	~15GB	✓	Kostenlos	Beste Effizienz (MoE)
Gemma 4 31B Dense	LLM	~18GB	✓	Kostenlos	Fine-Tuning / Max Qualität
LLaVA	Vision	8GB	✓	Kostenlos	Lokale Bilderkennung
Whisper large-v3	STT	8GB	✓	Kostenlos	Spracherkennung
Piper	TTS	<1GB	✓	Kostenlos	Sprachausgabe
Frigate + Coral	Object Det.	4GB	✓	~30€ TPU	Kamera-Überwachung

KI-Modelle & Tools Guide

🧠 Large Language Models

👁️ Bilderkennung & Vision

🎙️ Spracherkennung & TTS

🛠️ Tools & Plattformen

📊 Vergleichstabelle

Nichts mehr verpassen