DiscoverPrompt und Antwort
Prompt und Antwort
Claim Ownership

Prompt und Antwort

Author: KI-Gilde

Subscribed: 3Played: 58
Share

Description

Ein KI-generierter Podcasts rund um die Entwicklung von und mit KI. News, Updates und interessante Hintergrundinformationen für den professionellen Einsatz von KI hinaus. Ohne Hype und Buzzwords.

Die KI-Gilde ist ein Angebot der YnotBetter UG.
88 Episodes
Reverse
Der Chaos Computer Club (CCC) analysiert Künstliche Intelligenz (KI) kritisch. Wir dekonstruieren den KI-Hype als angewandte Statistik und entlarven technische Schwachstellen von biometrischen Systemen bis hin zu Large Language Models (LLMs) wie Jailbreaking oder Prompt Injection. Dabei warnen wir vor gesellschaftlichen Gefahren durch KI-gestützte Manipulation, Voreingenommenheit und Überwachung. Unser Ziel ist eine menschenzentrierte "Augmented Intelligence" und eine konsequente Regulierung, die Bürgerrechte schützt.
"Was passiert, wenn KI-Forschung auf unternehmerische Realität trifft? Nichts." Dieses provokante Statement [Nutzerquery, 26] beleuchtet eine zentrale Diskrepanz. In dieser Podcast-Folge tauchen wir tief in den "großen Gap zwischen Forschung und Anwendung" ein. Während die KI-Forschung von AGI, Superintelligenz und autonomen Agenten träumt, kämpft die Unternehmenspraxis mit fundamentalen Problemen wie mangelndem Know-how, schlechter Datenqualität, Systemintegration und veralteter IT. Erfahren Sie anhand anschaulicher Beispiele – vom Chatbot, der einfache Fragen missversteht, bis zur Herausforderung, zwei Datenbanken zu integrieren – warum viele KI-Projekte scheitern. Wir beleuchten den oft oberflächlichen Management-Hype und die Erkenntnis, dass die Anwendung nicht an der Intelligenz, sondern an der komplexen "Schnittstelle" zwischen Mensch, Prozess, Daten und Technologie scheitert. Entdecken Sie, warum mehr "echte Verbindung zwischen Theorie und Realität" und Investitionen in Grundlagen wie Daten und Kompetenzen entscheidend sind, um das enorme Potenzial der KI wirklich zu heben.
In der heutigen Folge beantworten wir die große Frage: Was brauche ich konkret, um langlaufende, autonome KI-Agenten selbst zu bauen?.Wir verlassen die abstrakte Theorie und tauchen tief in die Architektur eines drei Monate lang aktiven Konkurrenzbeobachter-Agenten ein. Der Fokus liegt auf der Lösung des Problems der Langzeitkoherenz, da große Sprachmodelle schnell den Faden verlieren.Dazu beleuchten wir die vier Säulen langlebiger Agenten:1. Planung und Ausführung: Wir trennen die Planung strickt von der Ausführung (Plan and Execute Paradigma). Komplexe Aufgaben werden mithilfe von Multi-Agenten-Systemen (wie bei Crew AI) in spezialisierte Rollen zerlegt.2. Das Hybride Gedächtnis: Wir bekämpfen Kontexterstickung durch intelligente Verdichtung des Kurzzeitgedächtnisses und implementieren ein persistentes Langzeitgedächtnis nach dem TSR-Modell (Temporal, Semantisch, Relational), um Kausalzusammenhänge zu speichern (z.B. nutzbar durch PostgreSQL mit PG Vector).3. Dauerhafte Infrastruktur: Wir nutzen das Konzept des Checkpointing in Architekturen, um fehlertolerante und Durable Agents zu schaffen. Dies garantiert, dass der Agent einen Absturz überlebt und genau da weitermacht, wo er aufgehört hat.Wir fassen einen klaren, schrittweisen Fahrplan zusammen, von der Architekturentscheidung bis hin zur Implementierung der vollen Beobachtbarkeit (Tracing und Logging).
086 - MemoriesDBs

086 - MemoriesDBs

2025-11-1906:47

In dieser Folge klären wir, was Memories DB ist. Das System soll das Problem der KI-Amnesie im Großformat oder Kontextdekoherenz bei langlaufenden KI-Agenten lösen, die den ursprünglichen Zusammenhang komplexer Aufgaben verlieren.Memories DB fungiert als Kohärenzmotor. Sein Fundament ist die Kerntrialität, welche die tiefe Integration von drei Aspekten in jeder Erinnerung garantiert:1. Ein zeitliches Ereignis (mit absolut exaktem Zeitstempel).2. Ein semantischer Vektor, der die Bedeutung mathematisch abbildet.3. Ein relationaler Knoten in einem Wissensgraphen.Dies ermöglicht der KI, nicht nur Fakten abzurufen, sondern die gesamte Geschichte und den kausalen Zusammenhang dieses Fakts. Memories DB wird als ein neues kognitives Datenmodell beschrieben, das die Prinzipien von Zeitreihen-, Vektor- und Grafdatenbanken verschmilzt, um ein nachvollziehbares und strukturiertes Langzeitgedächtnis für KI zu schaffen.Erfahre, wie dieses Architekturmodell auf bewährter Technologie (PostgreSQL mit PG Vektor-Erweiterung) eine völlig neue Form der KI-Zusammenarbeit ermöglichen könnte.
In dieser Folge des KI Gilde Podcasts klären wir die Kernfrage: Wie baut man einen Marathonläufer – einen autonomen KI-Agenten, der ein Projekt über Stunden oder Tage durchziehen kann, ohne den Überblick zu verlieren?Das Hauptproblem ist das begrenzte Arbeitsgedächtnis, das zu einem Kontextkollaps führen kann. Entweder erstickt der Agent an irrelevanten Informationen (Kontexter Erstickung) oder er wird durch alte, widersprüchliche Daten verwirrt (Kontextfäulnis), was seine Leistung verschlechtert. Es handelt sich im Kern um ein Aufmerksamkeitsproblem.Wir stellen die drei Lösungsebenen für langlebige Agenten vor:1. Strategische Verdichtung: Das Kurzzeitgedächtnis wird effizienter verwaltet, indem der Agent seine eigene Historie nach jedem Schritt zusammenfasst und redundante Details verwirft.2. Strukturiertes Langzeitgedächtnis: Externes Wissen wird in Datenbanken ausgelagert, idealerweise in einem Netzwerk (z.B. Memories DB), in dem Erinnerungen zeitlich, semantisch und relational verbunden sind, was komplexe Abfragen ermöglicht.3. Robuste Teamarbeit: Durch Frameworks (wie Crew AI) wird eine große Aufgabe in kleine Teilaufgaben zerlegt und an spezialisierte Workeragenten delegiert (Manager/Worker-Muster).Als Sicherheitsnetz dient das Zustandscheckpointing (z.B. bei Langraph), das den kompletten Zustand nach jedem Arbeitsschritt speichert und so Wiederanläufe nach Abstürzen oder Pausen ermöglicht. Langlebige Agenten sind eine durchdachte Kombination aus diesen intelligenten Architekturen.
Multimodale Modelle sind keine Alleskönner, sondern clevere Teams aus spezialisierten Systemen. Wir klären auf, wie Large Language Models (LLMs), die von Natur aus für Text gemacht sind, Bilder und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch einen eingefrorenen Vision Encoder in visuelle Tokens (Vektoren) umgewandelt. Die eigentliche Magie liegt in der trainierbaren Brücke, die diese Tokens für den Sprachexperten (das LLM) übersetzt. Wir stellen die beiden Hauptansätze zur Verbindung vor: den nicht-invasiven Ansatz (wie bei LLaVA) und den invasiven Ansatz (wie beim Flamingomodell), der dem LLM ermöglicht, permanent auf die Bildinformationen zurückzugreifen. Zudem grenzen wir die Perzeption (Encoding) klar von der Bildererzeugung (Decoding/Diffusionsmodelle) ab.
083 - Petri

083 - Petri

2025-11-1207:37

Wir stellen Petri vor, ein von Anthropic AI entwickeltes automatisiertes Prüfstand-Framework, das KI-Agenten nutzt, um Large Language Models (LLMs) systematisch auf problematische Verhaltensweisen, Sicherheit und Zuverlässigkeit zu überprüfen. Erfahre, wie Petri realitätsnahe Szenarien simuliert und durch Funktionen wie das „Zurückspulen“ im Dialog kritische Schwachstellen wie autonome Täuschung oder übertriebenes Whistleblowing aufdeckt. Dieses Framework ist nicht nur für Entwickler wichtig, sondern hilft auch Anwendern, die Zielstrebigkeit und Verlässlichkeit ihrer spezifischen KI-Anwendungen, etwa bei Kundenservice-Chatbots, sicherzustellen.
Der KI Gilde Podcast beleuchtet, wie Sprachmodelle (LLMs) logisches Denken oder Reasoning entwickeln, das über die reine Vorhersage des nächsten Tokens hinausgeht. Diese Fähigkeit ist eine tief verankerte Eigenschaft im Modell, gelernt durch riesige Datenmengen sowie spezielle Trainingsmethoden wie Supervised Fine Tuning (SFT) zur Nachahmung von Lösungswegen und insbesondere Reinforcement Learning (RL) zur selbständigen Strategieentwicklung und Optimierung. Diese Fähigkeit wird zur Laufzeit durch Funktionalität aktiviert und gesteuert, beispielsweise durch einfaches Chain of Thought (CoT) Prompting oder komplexe externe Algorithmen wie Tree of Thoughts (ToT). Das Abschalten von Reasoning bei manchen Modellen ist oft nur ein Softwareschalter, der einen Aktivierungstrigger im Prompt weglässt, wobei die trainierte Fähigkeit selbst voll erhalten bleibt.
Der KI Gilde Podcast widmet sich den Grundlagen der Sprach-KI: Bigrammodelle. Diese simplen Modelle gelten als die Urväter heutiger Systeme und raten das nächste Wort rein statistisch. Du erfährst, wie sie nur auf das direkt davorstehende Wort schauen (das „1-Wort-Gedächtnis“ oder die Markovannahme erster Ordnung). Wir erklären das Training durch Zählen von Wortpaaren (Bigrammzählung) und den notwendigen Trick der Glättung (Smoothing), um das Problem der Datenlücken und die Wahrscheinlichkeit Null für seltene Kombinationen zu umgehen. Dieses Fundament hilft, die Komplexität moderner KI besser einzuordnen.
080 - Judge LLMs

080 - Judge LLMs

2025-11-0509:17

KI bewertet KI: Wir tauchen ein in das Konzept "LLM as a Judge", bei dem ein leistungsfähiges Sprachmodell die Ausgaben eines anderen KI-Modells automatisch beurteilt, um die Qualität und Faktentreue zu sichern. Erfahren Sie, warum dieser Ansatz menschliche Prüfungen und herkömmliche Metriken ersetzt, um schnell und skalierbar KI-Halluzinationen zu bekämpfen. Wir beleuchten die zwei Hauptmethoden – den Paarweisen Vergleich und die Einzelbewertung – und diskutieren Herausforderungen wie systematische Verzerrungen (Biases). Abschließend zeigen wir, wie Judge LLMs die KI-Entwicklung durch neue Trainingsmethoden wie RLAF (Reinforcement Learning from AI Feedback) beschleunigen können.
079 - Halluzinationen

079 - Halluzinationen

2025-11-0307:54

Warum KI lügt: Die Systemische Wahrheit hinter HalluzinationenDu kennst das: Die KI liefert eine überzeugende, flüssige Antwort, die aber Unsinn erzählt oder Fakten erfindet – das Phänomen der Halluzination. Diese Fehlerquoten können bei spezifischen Fragen enorm hoch sein (bis zu 88%).Wir beleuchten die Kernursachen: Erstens stammen Halluzinationen von unvollkommenen, fehlerhaften Trainingsdaten, die Widersprüche enthalten. Zweitens liegt es an der Architektur der Sprachmodelle selbst: Sie sind primär darauf getrimmt, das statistisch wahrscheinlichste und sprachlich plausibelste Wort vorherzusagen, nicht die faktische Wahrheit. Die KI wird quasi dafür belohnt, sprachlich zu „bluffen“.Erfahre, warum Halluzinationen fast als systemische Eigenschaft dieser Modelle gelten – wie eine unvermeidbare "Reibung in der Physik". Trotz Optimierungstechniken wie RAG bleibt die kritische Prüfung durch uns Menschen absolut unerlässlich. Denn: Blind vertrauen sollten wir den Antworten der KI niemals.
Heute wird es gruselig: Wir sprechen über den KI-Geist Microsoft Copilot in Excel, das „Excel aus der Hölle“. Die neue Funktion erlaubt Spracheingaben statt komplexer Formeln. Doch Vorsicht: Die KI neigt dazu, Zahlen zu interpretieren, Fakten zu erfinden und ist nicht deterministisch. Microsoft warnt anscheinend selbst davor, die Funktion für Aufgaben zu nutzen, die Genauigkeit erfordern.Wir beleuchten das größte Schreckgespenst: Copilot greift auf alle Nutzerdaten zu und kann sensible Informationen (wie z.B. Gehaltsdaten) aus anderen Bereichen in harmlosen Zusammenfassungen preisgeben. Die Ergebnisse haben zudem keine Sicherheitsklassifizierung. Ist dieses Experiment ein Feature oder lediglich Marketing, das dem Kernversprechen der Excel-Verlässlichkeit komplett widerspricht? Happy Halloween!
Heute beleuchten wir Notebook LM von Google, das nun Videozusammenfassungen erstellen kann. Die KI generiert Erklärvideos oder Briefvideos aus deinen eigenen Quellen (Texten, PDFs, Notizen). Erfahre, wie Notebook LM mithilfe von Gemini und Nano Banana Videos in über 80 Sprachen und in verschiedenen Stilen wie Whiteboard, Aquarell oder Anime erstellt. Wir klären, wer dieses Werkzeug nutzt (Studierende, Forscher, Content Creator) und wo die Grenzen liegen, insbesondere bei logiklastigen oder komplexen Fächern wie Chemie und Mathe. Notebook LM ist ein fähiger Assistent zur Wissensaufbereitung, aber kein Ersatz für eigenes tiefes Verständnis.
076 - Deepseek OCR

076 - Deepseek OCR

2025-10-2708:07

Im KI Gilde Podcast testen wir Deepseek OCR, das momentan "ziemlich viel Furore macht".Deepseek OCR ist mehr als nur eine Texterkennung: Es erfasst Dokumente visuell (fast wie ein Mensch), nutzt "Kontexts optical Compression" und erreicht eine Kompression um das 7- bis 20-fache.Erfahre, warum das Modell ideal für die Verarbeitung komplexer Dokumente ist: Es erkennt Layouts und Tabellenstrukturen erstaunlich gut (über 92 % Genauigkeit bei Tabellen) und liefert strukturierte Daten, z.B. als sauberes Markdown.Wir klären, wie Deepseek OCR als maßgeschneiderte Basis für RAG-Pipelines dient und wo es Tesseract überlegen ist. Achtung: Das Modell ist zwar Open Source, benötigt aber zwingend eine dedizierte Nvidia Grafikkarte (GPU) und ist keine reine CPU-Lösung.
Analyse: OpenAI Atlas – Strategie, Technik und die Gefahr des Startup Killer EffektsHerzlich willkommen zur Analyse von OpenAIs neuem KI-Browser Atlas, vorgestellt am 21. Oktober 2025. Das Projekt wird als potenzielles Betriebssystem fürs Web betrachtet und basiert auf tiefer KI-Integration, gestützt auf drei Säulen: dem integrierten Chat, den kontextbezogenen Browser Memories und dem mächtigen Agent Mode.Wir beleuchten die multimodale Technik, die es der KI ermöglicht, Webseiten nicht nur zu lesen, sondern auch zu sehen. Außerdem bewerten wir die Strategie: Trotz hoher Rechenintensität und Risiken wie Prompt Injection nutzt OpenAI seine Marktmacht, um die primäre Schnittstelle für das agentenbasierte Web zu werden. Erfahren Sie, warum Atlas als „Startup Killer“ wirken und etablierte Konzepte massiv herausfordern könnte.
Dieser Podcast der KI Gilde beleuchtet Anthropic's neue Entwicklungen: das KI-Modell Haiku 4.5 und die Skills.Haiku 4.5 ist das kleinste Modell von Anthropic, das hohe Leistung (beim Programmieren so gut wie das frühere Topmodell Sonnet 4) mit niedrigen Kosten und hoher Geschwindigkeit kombiniert. Es bietet ein 200.000 Token Kontextfenster und kann Bilder verstehen (Vision Fähigkeiten).Die Skills stellen einen Paradigmenwechsel dar. Dabei handelt es sich um dauerhafte, wiederverwendbare KI-Bausteine, die zur Automatisierung dienen. Sie können Anleitungen und optional ausführbare Skripte (z.B. Python oder JavaScript) in einer abgeschirmten Umgebung (Sandbox) enthalten. Dieser Ansatz führt weg vom ständigen Prompts hin zu einem Ökosystem spezialisierter, kombinierbarer KI-Werkzeuge.
073 - DGX Spark

073 - DGX Spark

2025-10-2009:52

Die NVIDIA DGX Spark verspricht, Petaflop-KI-Leistung auf den Schreibtisch zu bringen. Wir analysieren, was der winzige Kasten (Preis ca. 4.000 $) technisch leistet.Im Fokus steht der GB10 Grace Blackwell Superchip und der 128 GB kohärente, vereinheitlichte Speicher (Unified Memory). Diese Kapazität ermöglicht es Entwicklern, Modelle mit bis zu 70 Milliarden Parametern lokal zu verfeinern oder mit sensiblen Daten zu arbeiten.Der zentrale Kompromiss: Die Speicherbandbreite ist mit 273 GB/s im Verhältnis gering. Dies macht die Spark super für Prototyping und Entwicklung, aber langsamer bei der sequenziellen Inferenz (Decode-Phase) im Vergleich zu High-End-GPUs.Die Spark demokratisiert die Arbeit an großen LLMs und ist als hochspezialisiertes Tool für KI/ML-Entwickler und Forscher konzipiert. Sie ist die optimierte Entwicklungsplattform, nicht der Produktionsserver.
In dieser Folge des KI Gilde Podcasts geht es um Tiny Recursion Models (TRMs), winzige KI-Modelle mit teilweise nur 7 Millionen Parametern.TRMs sind keine Allzweck-Textgeneratoren wie Chat GPT, sondern hocheffiziente Spezialwerkzeuge für knifflige Logikrätsel. Sie arbeiten mit einem rekursiven Ansatz: In einer Schleife verfeinern sie intern ihren Denkansatz (Reasoning Merkmal) Schritt für Schritt, unterstützt durch Deep Supervision.Sie liefern beeindruckende Ergebnisse auf spezifischen Logik-Benchmarks (z.B. Sudoku oder ARKAGI), der Vergleich mit Generalisten wie Gemini ist jedoch irreführend, da TRMs extrem spezifisch trainiert werden.Ihre wahre Bedeutung liegt in ihrer Effizienz: Sie ermöglichen durch geringere Kosten und niedrige Latenz die On-Device AI (KI direkt auf Geräten wie Smartphones). TRMs sind spezialisierte Problemlöser und ein wichtiger Baustein für ein vielfältiges, nachhaltigeres KI-Ökosystem.
071 - LLMs vergiften

071 - LLMs vergiften

2025-10-1506:17

Heute packen wir ein heiß diskutiertes Thema an: Poisoning Attacks (Datenvergiftung) auf große Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten entscheidend ist, sondern die absolute Zahl.Schon etwa 250 manipulierte Dokumente könnten ausreichen, um ein Modell zu kompromittieren, unabhängig von seiner Größe oder der Menge der sauberen Trainingsdaten.Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer könnten über Webarchive schädliche Befehle (wie den Linux-Befehl „RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch wird es, wenn diese manipulierten LLMs später Zugriff auf echte Systeme erhalten.
070 - Nano Banana

070 - Nano Banana

2025-10-1309:01

Nano Banana gegen die Realität: Wir nehmen Googles gehyptes neues Bild-Tool Gemini 2.5 Flash Image (Nano Banana) unter die Lupe. Wie nützlich ist das Werkzeug wirklich?Wir analysieren die starken Kernfunktionen, darunter die Subjekt- oder Charakterkonsistenz über mehrere Bilder hinweg und die konversationelle Bearbeitung (ein kreativer Copilot). Dabei beleuchten wir auch die klaren Schwachstellen: die Unzuverlässigkeit ("Nano Banana Effekt") und die niedrige Auflösung (oft nur ca. 720p).Erfahre, warum Nano Banana für Profis noch kein Profikiller ist, aber durch seine Einfachheit die Bildbearbeitung massiv zugänglicher macht und etablierte Tools herausfordert.
loading
Comments 
loading