על RLHF ומודלי שפה גדולים

Update: 2025-04-19

Description

בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.

בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.

Comments

In Channel

תגליות מדעיות אוטומטיות עם פרופ' טדי לזבניק

2025-09-2946:13

מערכות המלצה עם נועם קניגשטיין

2025-09-2256:12

איך מלמדים היום הנדסת תוכנה - עם אסף שפנייר מהמכללה להנדסה עזריאלי בירושלים

2025-08-3134:15

AI Coding - עם גילי נחום - AWS

2025-08-2037:48

על למידה בהמשכים - Continual Learning - עם עידן משיח

2025-08-0641:39

איך עושים מחקר ופיתוח בעולם ה-GenAI עם עוז ליבנה

2025-07-2858:15

על חוקי הסקייל של מודלי שפה עם ד״ר ג׳וני רוזנפלד מMIT

2025-07-2001:08:31

איך מאמנים מודלים לשכוח - עם פרופ עודד שמואלי

2025-07-1236:35

על דיפ לרנינג, דאטא טאבולרי וTabStar עם אלן ארזי

2025-06-2733:31

על הקשר בין דחיסה ללמידה עם פרופ. רביד זיו

2025-06-1556:00

על אומנות ובינה מלאכותית גנרטיבית - עם מתי מריאנסקי

2025-06-0751:28

איך מודלי שפה עובדים טוב גם לא באנגלית - עם גיא רוטמן, גונג

2025-05-2749:27

איך הגעתי למליוני חשיפות בלינקדין עם AI - עם מיכאל קיסילנקו

2025-05-1941:23

מענה על שאלות חזותיות VQA - עם פרופ עידן שוורץ

2025-05-1201:02:10

חיפוש והמלצה 2025 - חוזרים אחורה - סיכום כנס הייסטאק

2025-05-0434:48

מתקפות סייבר על מודלי שפה - עם נתן כץ

2025-04-2930:46

על RLHF ומודלי שפה גדולים

2025-04-1955:10

קבלת החלטות ארוכות טווח עם פרופ. גיא שני

2025-04-1032:59

NVIDIA GTC 2025 - סיכום הכנס

2025-03-3028:26

בעקבות המאמר של מטא עם לירון יצחקי אלרהנד

2025-03-1944:16

00:00

#box-pro-ellipsis-175934539468334{-webkit-line-clamp:2;}על RLHF ומודלי שפה גדולים

על RLHF ומודלי שפה גדולים

Tamir Nave & Uri Goren

על RLHF ומודלי שפה גדולים