KI Modelle Guide • Der Smart Home Maker

🧠 Large Language Models

LLMs verstehen natürliche Sprache und können Automationen generieren, Sensordaten analysieren oder als Chatbot fungieren.

Llama 3 (8B / 70B)

Lokal Nutze ich

Metas Open-Source LLM. Das 8B-Modell läuft auf Consumer-Hardware, 70B braucht starke GPU oder viel RAM. Exzellent für Smart Home Aufgaben.

8B: 8GB RAM 70B: 48GB+ RAM Ollama

Einsatz:

Intent-Erkennung, Anomalie-Analyse, Automation-Generierung, Chatbot

Mistral 7B / Mixtral

Lokal

Französisches Open-Source Modell. Sehr effizient, gute Performance pro Parameter. Mixtral (MoE) aktiviert nur Teile des Modells pro Anfrage.

7B: 8GB RAM Mixtral: 32GB RAM Ollama

Einsatz:

Code-Generierung (YAML/Jinja2), Klassifikation, Zusammenfassungen

Phi-3 / Phi-4 Mini

Tiny

Microsofts kleines Modell. Läuft sogar auf Raspberry Pi 5. Überraschend leistungsfähig für seine Größe.

3.8B: 4GB RAM CPU ok Ollama

Einsatz:

Edge-Klassifikation, einfache Intent-Erkennung, Sensor-Label-Generierung

Claude (Anthropic)

Cloud Nutze ich

Aktuell stärkstes Modell für Code und komplexe Reasoning-Aufgaben. Claude Code kann ganze Smart Home Setups planen und implementieren.

API: $3-15/M tokens 200K context

Einsatz:

Komplexe Automationen, Code-Generierung, Architektur-Planung, Debug-Hilfe

GPT-4o (OpenAI)

Cloud

Multimodales Modell: versteht Text, Bilder und Audio. Gut für Bildanalyse an Kameras (Paket-Erkennung, Personen-Klassifikation).

API: $2.50-10/M tokens Vision + Audio

Einsatz:

Kamerabild-Analyse, Paket-Erkennung, multimodale Automationen

Gemma 2 (Google)

Lokal

Googles offenes Modell. Besonders gut für Textzusammenfassungen und Klassifikation. Läuft effizient auf wenig RAM.

2B: 4GB RAM 9B: 12GB RAM Ollama

Einsatz:

Email-Klassifikation, Zusammenfassungen, einfache Konversation

👁️ Bilderkennung & Vision

KI-Modelle die Kamerabilder analysieren: Objekte erkennen, Personen identifizieren, Pakete detektieren.

Frigate NVR

Open Source Nutze ich

NVR mit Echtzeit-Objekterkennung. Nutzt Google Coral TPU für blitzschnelle Inference (10ms/Frame). Erkennt Personen, Autos, Tiere.

Coral TPU: ~30€4GB RAM

LLaVA (Ollama)

Lokal Nutze ich

Multimodales lokales Modell. Versteht Bilder und kann sie beschreiben. Ideal für Paket-Erkennung an der Haustür.

7B: 8GB RAMOllama

CompreFace + Double Take

Open Source

Gesichtserkennung für Home Assistant. CompreFace erkennt Gesichter, Double Take integriert es mit Frigate und HA.

2GB RAMDocker

🎙️ Spracherkennung & TTS

Sprache zu Text und Text zu Sprache — die Bausteine für einen lokalen Sprachassistenten.

Whisper / faster-whisper

Lokal Nutze ich

OpenAIs Spracherkennung. faster-whisper ist die optimierte Variante (4x schneller). Erkennt 99 Sprachen inkl. Deutsch.

tiny: 1GB RAMmedium: 4GBlarge-v3: 8GB

Piper TTS

Open Source Nutze ich

Schnelle, natürlich klingende Text-zu-Sprache für Home Assistant. Läuft komplett lokal, viele Stimmen und Sprachen verfügbar.

<1GB RAMCPU onlyHA Add-on

microWakeWord

On-Device Nutze ich

Wake-Word-Erkennung direkt auf dem ESP32. Kein Server nötig — das Keyword wird auf dem Mikrocontroller erkannt.

ESP32-S3ESPHome~20 Keywords

🛠️ Tools & Plattformen

Die Software die alles zusammenhält: von Workflow-Engines bis PII-Scrubbing.

Ollama

Open Source Nutze ich

Docker für LLMs. Ein Befehl zum Installieren, ein Befehl zum Starten. Lokale API kompatibel mit OpenAI-Format.

n8n

Open Source Nutze ich

Visuelle Workflow-Automatisierung mit nativen KI-Nodes (LangChain, Ollama, OpenAI). Ersetzt komplexe Scripts durch Drag-and-Drop.

Presidio (Microsoft)

Open Source Nutze ich

PII-Erkennung und -Anonymisierung. Filtert Namen, Adressen, Telefonnummern bevor Daten an externe APIs gehen.

Claude Code

CLI Nutze ich

KI-gestützter Coding-Assistent im Terminal. Plant, implementiert und testet Smart Home Automationen. Mein primäres Entwicklungstool.

📊 Vergleichstabelle

Alle Modelle auf einen Blick.

Model	Typ	RAM	Lokal	Kosten	Bester Einsatz
Llama 3 8B	LLM	8GB	✓	Kostenlos	Allrounder
Phi-3 Mini	LLM	4GB	✓	Kostenlos	Edge / Pi 5
Mistral 7B	LLM	8GB	✓	Kostenlos	Code / YAML
Claude	LLM	—	✗	$3-15/M	Komplexe Aufgaben
GPT-4o	LLM+Vision	—	✗	$2.50-10/M	Bilder + Text
LLaVA	Vision	8GB	✓	Kostenlos	Lokale Bilderkennung
Whisper large-v3	STT	8GB	✓	Kostenlos	Spracherkennung
Piper	TTS	<1GB	✓	Kostenlos	Sprachausgabe
Frigate + Coral	Object Det.	4GB	✓	~30€ TPU	Kamera-Überwachung

KI-Modelle & Tools Guide

🧠 Large Language Models

👁️ Bilderkennung & Vision

🎙️ Spracherkennung & TTS

🛠️ Tools & Plattformen

📊 Vergleichstabelle

Nichts mehr verpassen