#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

Update: 2025-04-03

Description

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert.

Zusammenfassung

AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen

Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen

Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene

Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following

Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge

Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden

Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen

Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion

Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP

Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden

Links

Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/

Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/

Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d

heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html

Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de

Comments

In Channel

#84: Body Leasing: Zwischen Beratung, Teamkultur und Erwartungsmanagement

2025-11-1330:42

#83: Wie gut ist gut genug? Modellgütemaße richtig verstehen

2025-10-2333:45

#82: Monitoring in MLOps: Tools, Tipps und Best Practices aus der Praxis

2025-10-0944:02

#81: [PAIQ2] Predictive AI Quarterly

2025-09-2526:26

#80: Willkommen an Bord: Wie wir neue Kolleg*innen begleiten

2025-09-0436:18

#79: Data Science on the Edge: Modelle in verteilten Umgebungen

2025-08-2156:04

#78: Der Use-Case-Guide: Navigationshilfe für echten Mehrwert

2025-08-0746:09

#77: Uplift Modeling: Der kausale Effekt von Rabatten, Retargeting & Co.

2025-07-2433:51

#76: Digitale Souveränität: Risiken verstehen, souverän handeln

2025-07-1038:06

#75: Refactoring done right: Strategien, Risiken und Best Practice

2025-06-2650:35

#74: [PAIQ1] Predictive AI Quarterly

2025-06-1228:06

#73: Korrelation vs. Kausalität: Was braucht es für fundierte Entscheidungen?

2025-05-2944:49

#72: TabPFN: Die KI-Revolution für tabulare Daten mit Noah Hollmann

2025-05-1550:40

#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek

2025-05-0126:20

#70: Der Aufstieg zur Datenreife – Stufe für Stufe zur Data Maturity

2025-04-1746:07

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

2025-04-0347:22

#68: CI/CD für Daten: Datenversionierung für stabile & nachvollziehbare Systeme

2025-03-2041:29

#67: "It works on my machine" war gestern – Docker Best Practices für Data Science

2025-03-0634:53

#66: Developer vs. Data Scientist mit Andy Grunwald und Wolfgang Gassler

2025-02-2001:03:42

#65: Sicher ist nur die Unsicherheit: Unsicherheitsintervalle erklärt

2025-02-0628:50

00:00

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

#box-pro-ellipsis-176427969732569{-webkit-line-clamp:2;}#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

INWT Statistics GmbH

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch