Ich setze KI als Ingenieur ein — Integration, Evaluierung, Kosten-/Latenz-Abwägungen und der Aufbau von Systemen, auf die Organisationen wirklich angewiesen sind. Keine Demos.
Das Schwierigste an produktiver KI ist nicht die Modellauswahl — es ist zu erkennen, wann die Antwort falsch ist. Mein Ansatz beginnt mit der Evaluierung vor der Architektur: erst die Fehlermodi definieren, dann das System so gestalten, dass es sie erkennt.
Ich besitze IBMs Zertifizierungen für RAG & Agentic AI sowie Generative AI und habe diese Methoden auf echten industriellen Daten bei der WEISS GmbH angewendet — nicht auf Benchmark-Datensätzen.
Für die meisten Retrieval-Aufgaben übertrifft RAG über einen gut strukturierten Index das Fine-tuning und ist erheblich günstiger zu aktualisieren, wenn sich Daten ändern. Fine-tuning nur, wenn Latenz oder Domänenvokabular es erfordern.
Fehlermodi, Ground-Truth-Beispiele und Abnahmekriterien definieren, bevor der Pipeline-Code entsteht. Nachträgliche Evaluierungen bedeuten dreifachen Aufwand.
Ein System mit €4.000/Monat Inferenzkosten oder 8 Sekunden pro Anfrage ist nicht produktionsreif. Ich modelliere die Gesamtbetriebskosten von Beginn an.
Jede LLM-Integration, die ich ausliefere, verfügt über Output-Validierung, Fallback-Pfade und Logging. Halluzinationen in industriellen Kontexten sind kein akzeptabler UX-Fehler.
Eine deterministische Regel oder eine SQL-Abfrage ist für strukturierte Lookups besser als ein LLM-Aufruf. Ich empfehle KI, wo sie die einfachere Option klar übertrifft — nicht als Standard.
Embedding, Retrieval, Prompt, Inferenz, Output-Parsing, API-Bereitstellung — ich entwickle und verantworte die vollständige Pipeline, nicht nur den „KI-Teil".
Jedes Projekt folgt der Struktur: Problem → Rolle → Ansatz → Stack → Ergebnis.