כשהמחקר של המתחרה חושף את נקודת העיוורון שלך: מה מחקר GDPval אומר לעורכי דין

5 באוק׳ 2025
זמן קריאה 3 דקות

נדרשת כנות אמיצה כדי לפרסם מחקר שמראה שהמתחרה שלך מנצח. בדיוק זה עשתה OpenAI - וזו הסיבה שמדד GDPval ראוי להרבה יותר תשומת לב ממה שקיבל.

בניגוד לרוב מבחני הביצועים של בינה מלאכותית, GDPval לא מדד ביצועים על משימות תיאורטיות. המחקר בחן עבודה מקצועית אמיתית ב-44 מקצועות, ועימת מודלים של בינה מלאכותית מול מומחים אנושיים. עבור עורכי דין - התוצאות מעלות שאלות שלא ניתן לדחות.

הממצא שOpenAI פרסמה על עצמה

קלוד Opus 4.1 השיג שיעור ניצחון או תיקו של 47.6% מול מומחים אנושיים. GPT-5 הגיע ל-38.8%. המחקר של OpenAI עצמה אישר זאת. זה לא פער קטן - וחשוב להבין איזה מודל מתאים לאיזו משימה.

ההבחנה עומדת בביקורת: קלוד מוביל בעיצוב מסמכים, מבנה, ואיכות הצגה. GPT-5 מבצע טוב יותר במשימות שדורשות דיוק, מעקב אחר הוראות, וחישובים. המסקנה המעשית אינה ״השתמשו במודל אחד לכל דבר״ - אלא ״דעו מה אתם מבקשים ובחרו בהתאם.״

המלכודת: ״כתוב לי כתב טענות״ - זה לא פרומפט

אחד הממצאים החדים ביותר במחקר: כאשר החוקרים קיצצו את אורך הפרומפט ל-42% מהמקורית, הביצועים צנחו בחדות. המודלים לא הסתגלו ולא הסיקו מה חסר. הם הניבו תוצאות נחותות פשוט משום שהיה להם פחות עם מה לעבוד.

עורך דין מנוסה קורא בין השורות של הוראות מעורפלות מלקוח. מודל בינה מלאכותית לא יכול לעשות זאת. הוא דורש הקשר מפורש: הפורמט המדויק שאתם מצפים לו, המשימה מפורקת לשלבים ברורים, ונקודות בקרה פנימיות שמשובצות בתהליך העבודה. ״כתוב כתב תביעה״ הוא בקשה, לא פרומפט. ההבדל בין השניים קובע אם תקבלו מסמך שמיש או מחזור תיקונים מייגע.

בעיית 3% שהפרקטיקה המשפטית אינה יכולה לבלוע

3% מתפוקות הבינה המלאכותית במחקר לא היו רק שגויות - הן היו שגויות באופן קטסטרופלי. ברוב התעשיות, שיעור כשל קטסטרופלי של 3% עשוי להיות עלות קבילה של אימוץ טכנולוגיה. בפרקטיקה המשפטית, ציטוט מפוברק או פסיקה שלא קיימת הם עניין משמעתי.

מדוע הזיות קורות? מנגנון התמרוץ המובנה במודלים אלה מתגמל תשובה בטוחה על פני הודאה כנה ב״איני יודע.״ חשבו על זה כמו מבחן רב-ברירה ללא קנס על טעות: המהלך הרציונלי תמיד לנחש. המודל עושה בדיוק את זה.

הבעיה מחריפה בישראל, שם מסד נתוני הפסיקה אינו פתוח לאימון מודלים. תקדימים ישראלים מיוצגים בחסר בנתוני האימון, מה שאומר שהמודל נוטה יותר למלא פערים בפבריקציות שנשמעות סבירות. תמיד אמתו כל ציטוט. תמיד בקשו קישור למקור. תמיד הורו למודל להסתמך רק על מקורות שאישרתם מראש כאמינים.

המיומנות שמפרידה בין תפוקת בינה מלאכותית טובה למצוינת

הממצא הכי ישים מהמחקר: משתמשים שכתבו הוראות מדויקות ובנו סביבן תהליך עבודה מובנה - פירוק המשימה לשלבים ברורים ושיבוץ בקרות איכות פנימיות - ראו קפיצה משמעותית בביצועים. התפוקה היתה מקצועית יותר, נקייה יותר, וקרובה יותר למצב שמוכן ללקוח.

זה לא עניין של ללמוד לתכנת או להפוך למהנדס פרומפטים. מדובר בהבנה שמודל בינה מלאכותית מעבד רק את מה שאתם נותנים לו. הקשר שעמית בכיר היה מסיק מניסיון משותף - צריך להיכתב במפורש. עורך הדין שמפנים את העיקרון הזה לפנים מקבל יתרון פרודוקטיביות משמעותי. מי שלא - ימשיך להתאכזב מהטיוטות.

שינוי החשיבה שאנשי המשפט צריכים לאמץ

השאלה כבר אינה האם בינה מלאכותית יכולה לבצע עבודה משפטית. נתוני GDPval מאשרים שהיא יכולה - בחלקה, בצורה לא מושלמת, אבל ברמה שכבר מתחרה במומחים אנושיים במספר ממדים.

השאלה הרלוונטית היא מי שולט בתהליך. עורך הדין שמבין כיצד לנסח הוראה מדויקת, מזהה מתי מודל מנחש במקום לדעת, ובונה תהליך עבודה מובנה סביב הכלים האלה - ישתמש בבינה מלאכותית כיתרון תחרותי. מי שלא - ישתמש בה כנטל.

ההבחנה הזאת - בין אימוץ מושכל לחשיפה פסיבית - היא המקום שבו יישמר או יאבד המינוף המקצועי בשנים הקרובות.

כשהמחקר של המתחרה חושף את נקודת העיוורון שלך: מה מחקר GDPval אומר לעורכי דין

פוסטים אחרונים

תגובות