הדרך הפשוטה להבין טוקנים: דמיין מונה של מונית
הדרך הכי קלה להבין טוקנים היא לחשוב על מונה של מונית.
ברגע שאתה מתחיל שיחה עם AI, המונה מתחיל לרוץ. הוא סופר את מה שאתה כותב, את מה שהמודל מחזיר, את ההיסטוריה של השיחה, ולעיתים גם קבצים, תמונות והוראות מערכת שאינך רואה.
גם אם אתה משתמש בצ’אט רגיל ולא ב־API, המונה הזה עדיין קיים. לפעמים הוא מתורגם לכסף. לפעמים למגבלת שימוש. לפעמים לזמן תגובה איטי יותר. אבל בכל מקרה, הוא תמיד שם.
מה זה טוקן ב־AI?
טוקן הוא חתיכת טקסט שהמודל יודע לעבד.
הוא לא תמיד מילה שלמה, ולא תמיד אות אחת. ברוב המקרים הוא משהו באמצע: חלק ממילה, מילה קצרה, סימן פיסוק, רווח, מספר או קטע טקסט קטן.
לדוגמה, באנגלית מילה קצרה ונפוצה כמו the יכולה להיות טוקן אחד. מילה ארוכה יותר, כמו unforgettable, יכולה להתפצל לכמה טוקנים: un, forget, table.
כלומר, המודל לא באמת “קורא מילים” כמו בני אדם. הוא מפרק את הטקסט לחלקים קטנים, ממיר אותם למספרים, עובד עם המספרים האלה, ואז מחזיר אותם בחזרה לטקסט שאנחנו רואים על המסך.
התהליך הזה נקרא טוקניזציה.
כמה מילים זה טוקן?
באנגלית יש כלל אצבע נפוץ: בערך 75 מילים הן כ־100 טוקנים.
אבל זה רק כלל אצבע. הוא לא מדויק לכל שפה, לא לכל מודל ולא לכל סוג טקסט. טקסט טכני, קוד, מספרים, סימני פיסוק ושפות שאינן אנגלית יכולים לשנות את היחס לגמרי.
וזה חשוב במיוחד בעברית.
למה עברית צורכת יותר טוקנים מאנגלית?
בעברית, אותו רעיון יכול לעלות יותר טוקנים מאשר באנגלית.
הסיבה היא שמנגנוני הטוקניזציה של מודלים רבים יעילים יותר באנגלית. הם “מכירים” יותר מילים, צירופים ותבניות באנגלית, ולכן יכולים לייצג אותן בפחות טוקנים. בעברית, לעומת זאת, מילים רבות מתפצלות לחלקים קטנים יותר.
לפעמים ההבדל קטן. לפעמים הוא משמעותי. בטקסטים מסוימים בעברית אפשר לראות צריכת טוקנים גבוהה פי שניים ואף יותר לעומת ניסוח דומה באנגלית.
המשמעות המעשית פשוטה:
כשאתה עובד בעברית, המונה רץ מהר יותר.
זו אחת הסיבות לכך שמשתמשים בעברית מרגישים לפעמים שהם מגיעים מהר יותר למגבלות שימוש, במיוחד בשיחות ארוכות או בעבודה עם קבצים.
איך AI קורא את מה שכתבת?
מודל AI לא רואה את המשפט שלך כפי שאתה רואה אותו.
לפני שהמודל עונה, קורים כמה שלבים:
- הטקסט שלך נחתך לטוקנים.
- כל טוקן מומר למספר.
- המודל מעבד את המספרים.
- המודל מייצר רצף חדש של מספרים.
- המספרים מתורגמים בחזרה למילים.
לכן, כשאנחנו אומרים “המודל הבין את הטקסט”, זו דרך נוחה לדבר. בפועל, הוא עבד עם ייצוג מספרי של הטקסט.
חשוב לדעת: לכל מודל יכול להיות מנגנון טוקניזציה שונה. אותו משפט יכול לעלות מספר טוקנים שונה ב־ChatGPT, Claude, Gemini או Grok.
איך בודקים כמה טוקנים יש בטקסט?
יש כלים חינמיים שמאפשרים לראות איך טקסט מתפצל לטוקנים:
- GPT for Work Tokenizer – כלי נוח שמאפשר להדביק טקסט ולראות איך הוא מתפצל לטוקנים במודלים שונים, כולל GPT, Claude, Gemini ו־Grok.
מומלץ לעשות ניסוי פשוט: הדבק פסקה בעברית, ואז הדבק תרגום שלה לאנגלית. ברוב המקרים תראה שהעברית צורכת יותר טוקנים.
- OpenAI Tokenizer – הכלי הרשמי של OpenAI. הוא מתאים במיוחד להבנה בסיסית של טוקנים: מקלידים משפט, מוחקים מילה, מוסיפים מילה, ורואים איך הספירה משתנה.
הכלים האלה לא נועדו להפוך אותך לרואה חשבון של טוקנים. הם נועדו לתת תחושה טובה יותר של “המחיר” של טקסט.
על מה אתה באמת משלם בטוקנים?
לא כל הטוקנים עושים את אותה עבודה.
בדרך כלל מחלקים אותם לכמה סוגים:
טוקני קלט
אלה הטוקנים שאתה שולח למודל.
הם כוללים את השאלה שלך, הוראות שנתת, קבצים שהעלית, היסטוריית השיחה ולעיתים גם מידע נוסף שהמערכת מוסיפה מאחורי הקלעים.
טוקני פלט
אלה הטוקנים שהמודל מייצר בתשובה.
תשובה ארוכה צורכת יותר טוקני פלט. לכן, גם אם שאלת שאלה קצרה, תשובה ארוכה מאוד יכולה “לעלות” הרבה.
טוקנים במטמון
במערכות API מסוימות, כאשר חוזרים שוב ושוב על אותו חלק קבוע בפרומפט, אפשר להשתמש ב־prompt caching. כלומר, המערכת מזהה חלק שחוזר על עצמו ומשתמשת בו בצורה יעילה יותר.
זה שימושי במיוחד למפתחים, סוכני AI, מערכות תמיכה, כלי קוד ותהליכים שחוזרים על אותו הקשר שוב ושוב.
למשתמש רגיל בצ’אט, זה פחות משהו שצריך לנהל ידנית.
טוקני חשיבה
במודלים מסוימים יש גם טוקנים שהמודל משתמש בהם לצורך חשיבה פנימית לפני שהוא מחזיר תשובה. לא תמיד רואים אותם, אבל הם יכולים להיספר כחלק מהשימוש. OpenAI מתייחסת לכך בתיעוד של reasoning models, כולל ניהול reasoning tokens.
קבצים, תמונות וצילומי מסך
קובץ שאתה מעלה לצ’אט אינו “חינם” מבחינת הקשר. גם הוא צריך להיקרא, להתפרק ולהיכנס לחלון ההקשר.
מסמך ארוך יכול לצרוך הרבה טוקנים. צילום מסך או תמונה יכולים להיות כבדים אפילו יותר, תלוי במודל ובאופן העיבוד.
לכן, כששיחה פתאום נעשית איטית או מגיעה למגבלה, לפעמים הסיבה היא לא מה שכתבת עכשיו, אלא קובץ שהעלית לפני עשר הודעות.
מהו חלון הקשר?
חלון הקשר הוא כמות המידע שהמודל יכול לקחת בחשבון בזמן שהוא עונה.
אפשר לחשוב עליו כמו שולחן עבודה. כל עוד יש מקום על השולחן, אפשר לפרוס עליו מסמכים, שאלות, תשובות וקבצים. כשהשולחן מתמלא, צריך להתחיל לדחוף דברים הצידה, לסכם, לדלג או לאבד פרטים.
בצ’אט ארוך, חלון ההקשר מתמלא בהדרגה. ככל שהשיחה ארוכה יותר, כך יש יותר היסטוריה שהמודל צריך להתחשב בה.
זו אחת הסיבות לכך ששיחה חדשה מרגישה לפעמים חדה יותר. היא פשוט מתחילה עם שולחן נקי.
למה ChatGPT נהיה פחות טוב ככל שמדברים?
בדרך כלל זה קורה בגלל הצטברות הקשר.
ברוב אפליקציות הצ’אט, כל הודעה חדשה לא עומדת לבד. כדי לענות בצורה קוהרנטית, המודל צריך להתחשב במה שכבר נאמר קודם. כלומר, שיחה ארוכה יוצרת עומס הולך וגדל.
כשהעומס גדל, יכולים לקרות כמה דברים:
- התשובות נעשות כלליות יותר.
- המודל מפספס פרטים שנאמרו מוקדם בשיחה.
- זמן התגובה מתארך.
- קשה יותר לשמור על מיקוד.
- שיחה חדשה מרגישה פתאום טובה יותר.
זה לא אומר שהמודל “התעייף” כמו בן אדם. זה אומר שההקשר נעשה עמוס.
למה צ’אט חדש עובד טוב יותר?
צ’אט חדש מתחיל בלי היסטוריה מיותרת.
אין בו דיונים קודמים, קבצים ישנים, ניסיונות שלא הצליחו, שאלות צדדיות או הוראות שכבר לא רלוונטיות. לכן המודל מקבל הקשר נקי יותר, קצר יותר וממוקד יותר.
במילים פשוטות:
אם החלפת נושא, פתח שיחה חדשה.
זו אחת הפעולות הכי פשוטות והכי יעילות לשיפור איכות התשובות.
האם צריך לספור טוקנים בכל שיחה?
לא.
אם אתה משתמש רגיל ב־ChatGPT, Claude או Gemini, אין צורך לספור טוקנים כל הזמן. זה רק יפריע לעבודה.
מה שכן כדאי לעשות הוא לאמץ כמה הרגלים פשוטים:
- לפתוח צ’אט חדש כשעוברים נושא.
- לבקש תשובה קצרה כשלא צריך פירוט.
- לא להעלות קבצים מיותרים.
- לסכם שיחה ארוכה לפני שממשיכים.
- למחוק הקשר לא רלוונטי כשעובדים עם API או סוכן קוד.
אלה פעולות קטנות, אבל הן משפיעות מאוד.
איך לחסוך טוקנים כמשתמש רגיל?
אם אתה פשוט עובד בצ’אט, אלה שני ההרגלים החשובים ביותר:
1. פתח שיחה חדשה כשהנושא משתנה
אל תמשיך שיחה על מתכון ואז תעבור באותה שיחה לניתוח קוד, כתיבת מאמר או בדיקת חוזה.
כל נושא חדש סוחב איתו את כל ההיסטוריה הישנה. זה מיותר, מכביד ולעיתים פוגע באיכות התשובה.
2. בקש תשובה באורך שמתאים למשימה
אם אתה צריך תשובה קצרה, כתוב את זה.
לדוגמה:
“ענה בקצרה.”
“תן לי רק את השורה התחתונה.”
“כתוב עד 5 נקודות.”
“אל תסביר, רק תן פתרון.”
טוקני הפלט הם חלק משמעותי מהשימוש. לכן שליטה באורך התשובה היא אחת הדרכים הפשוטות לחסוך.
איך לחסוך טוקנים בעבודה עם API או סוכני קוד?
אם אתה מפתח, עובד עם API או משתמש בסוכני קוד, יש מקום לאופטימיזציה עמוקה יותר.
1. השתמש ב־prompt caching
אם יש לך חלק קבוע בפרומפט, כמו הוראות מערכת, תיעוד, סכמות או הקשר שחוזר על עצמו, כדאי לבדוק איך לנצל caching.
ב־OpenAI, prompt caching מיועד להפחתת עלות וזמן כאשר יש תחיליות חוזרות בפרומפטים. Anthropic מציגה שימוש דומה עבור פרומפטים עם רכיבים עקביים או חוזרים.
2. שים את החלקים הקבועים בהתחלה
במערכות רבות, caching עובד טוב יותר כאשר החלק הקבוע נמצא בתחילת הפרומפט, והחלק המשתנה נמצא בסוף.
לדוגמה:
- קודם הוראות מערכת.
- אחר כך תיעוד קבוע.
- אחר כך סכמות.
- בסוף השאלה המשתנה של המשתמש.
3. בקש פלט מובנה
פלט מובנה כמו JSON, טבלה או רשימה קצרה יכול להיות יעיל יותר מפרוזה ארוכה.
הוא גם קל יותר לעיבוד בהמשך, במיוחד אם מערכת אחרת צריכה לקרוא את התוצאה.
4. קצץ פלטים רועשים של כלים
סוכני קוד וכלי אוטומציה נוטים להחזיר הרבה רעש: לוגים ארוכים, שורות לא רלוונטיות, הודעות מערכת ותוצאות כפולות.
כדאי לסנן את הפלט לפני שהוא נשלח למודל. לפעמים קיצוץ נכון של לוג או תוצאת פקודה חוסך יותר מכל “טריק” אחר.
5. סכם שיחות ארוכות
במקום להמשיך סשן אינסופי, אפשר לבקש מהמודל ליצור סיכום עבודה:
“סכם את כל מה שחשוב להמשך: מטרות, החלטות, קבצים, בעיות פתוחות והצעדים הבאים.”
אחר כך פותחים שיחה חדשה ומדביקים רק את הסיכום. כך שומרים על המשכיות בלי לסחוב את כל ההיסטוריה.
טעויות נפוצות שגורמות לבזבוז טוקנים
להשאיר הכל באותה שיחה
זו הטעות הנפוצה ביותר. שיחה אחת הופכת למחסן של נושאים לא קשורים. המודל צריך לסחוב הכל, גם כשזה כבר לא רלוונטי.
לבקש “תסביר בפירוט” בלי צורך אמיתי
לפעמים צריך הסבר עמוק. אבל אם אתה צריך תשובה תפעולית, בקש תשובה תפעולית.
להעלות קובץ שלם כשצריך רק קטע קטן
אם יש לך מסמך ארוך ואתה צריך תשובה על סעיף אחד, עדיף להדביק את הסעיף הרלוונטי או להפנות למקטע מדויק.
להמשיך שיחה שהמודל כבר התבלבל בה
אם המודל התחיל לענות לא לעניין, לפעמים עדיף לפתוח שיחה חדשה עם סיכום קצר מאשר לנסות “לתקן” אותו שוב ושוב.
דוגמה פשוטה לעבודה נכונה
במקום לכתוב:
“קרא את כל השיחה עד עכשיו ותכתוב לי מאמר חדש על הנושא, כולל כל מה שדיברנו עליו.”
עדיף לכתוב:
“הנה הסיכום הרלוונטי להמשך:
[סיכום קצר]
כתוב מאמר בעברית פשוטה לקורא ממוצע. שמור על מבנה ברור, כותרות משנה ושאלות נפוצות. אורך: עד 1,200 מילים.”
ההבדל קטן בניסוח, אבל גדול מאוד בכמות ההקשר שהמודל צריך לעבד.
שורה תחתונה
טוקן הוא יחידת העבודה הבסיסית של מודלי AI.
כל מה שאתה שולח וכל מה שאתה מקבל מתורגם לטוקנים. ככל שיש יותר טוקנים, השיחה כבדה יותר. בעברית זה חשוב במיוחד, כי טקסט עברי נוטה לצרוך יותר טוקנים מטקסט דומה באנגלית.
אתה לא חייב לספור טוקנים. אבל כדאי לזכור שני כללים פשוטים:
- כשמחליפים נושא, פותחים צ’אט חדש.
- כשלא צריך תשובה ארוכה, מבקשים תשובה קצרה.
שני ההרגלים האלה מספיקים לרוב המשתמשים כדי לקבל תשובות חדות יותר, מהירות יותר וחסכוניות יותר.
שאלות נפוצות
מה זה טוקן ב-AI?
טוקן הוא יחידת טקסט קטנה שמודל AI משתמש בה כדי לעבד שפה. טוקן יכול להיות מילה קצרה, חלק ממילה, מספר, סימן פיסוק או קטע טקסט קטן. המודל מפרק את הטקסט לטוקנים, ממיר אותם למספרים, עובד עם המספרים, ואז מחזיר תשובה בטקסט רגיל.
האם טוקן הוא מילה?
לא בדיוק. לפעמים טוקן הוא מילה שלמה, ולפעמים הוא רק חלק ממילה. באנגלית מילים קצרות רבות הן טוקן אחד, אבל מילים ארוכות מתפצלות לכמה טוקנים. בעברית הפיצול יכול להיות משמעותי יותר.
למה עברית צורכת יותר טוקנים?
עברית בדרך כלל פחות יעילה בטוקניזציה לעומת אנגלית. מודלים רבים מזהים טוב יותר תבניות באנגלית, ולכן מייצגים טקסט אנגלי בפחות טוקנים. בעברית, מילים רבות מתפצלות ליותר חלקים, ולכן אותו רעיון יכול לצרוך יותר טוקנים.
למה ChatGPT נהיה פחות טוב בשיחה ארוכה?
כי השיחה צוברת הקשר. ככל שיש יותר הודעות, קבצים והוראות קודמות, כך קשה יותר למודל לשמור על מיקוד. חלון ההקשר מתמלא, והתשובות עלולות להפוך לכלליות יותר או פחות מדויקות.
האם פתיחת צ’אט חדש באמת עוזרת?
כן, במקרים רבים. צ’אט חדש מתחיל עם הקשר נקי. אם הנושא השתנה, שיחה חדשה מונעת מהמודל לסחוב מידע ישן ולא רלוונטי.
איך אפשר לחסוך טוקנים בלי ידע טכני?
הדרך הפשוטה היא לפתוח שיחה חדשה כשעוברים נושא, לבקש תשובות קצרות כשאין צורך בפירוט, ולהימנע מהעלאת קבצים מיותרים. רוב המשתמשים לא צריכים לספור טוקנים ידנית.
האם קבצים ותמונות נחשבים לטוקנים?
כן. קבצים, מסמכים, תמונות וצילומי מסך מוסיפים עומס להקשר. הם יכולים לצרוך כמות גדולה של טוקנים, במיוחד אם הם ארוכים, מורכבים או מכילים הרבה מידע חזותי.
מהו prompt caching?
Prompt caching הוא מנגנון שמאפשר למערכות AI להשתמש בצורה יעילה יותר בחלקים חוזרים של הפרומפט. הוא שימושי בעיקר ב־API, כאשר אותו הקשר חוזר שוב ושוב. למשתמש רגיל בצ’אט אין בדרך כלל צורך לנהל את זה ידנית.
האם צריך להשתמש בכלי ספירת טוקנים?
לא חובה. כלי ספירת טוקנים טובים להבנה ולבדיקה נקודתית, במיוחד אם עובדים עם API או עם פרומפטים ארוכים. למשתמש רגיל מספיק להבין שהמונה קיים, ולנהל את השיחה בצורה ממוקדת יותר.