יום חמישי, 1 בספטמבר 2011

בייסיאניזם: סבירות ממשית

[רשומה זו היא חלק מסדרה על תורת הידיעה הבייסיאנית; ראה אינדקס כאן.]


ברשומה קודמת קבענו שהבייסיאנים מתעניינים בערך האמת של טענות (A,B,C...)*. אולי ההנחה הבייסיאנית היסודית היא שניתן לייצג את דרגת האמונה שלנו באמת של טענה על ידי מספר.


הנחה 1: סבירות ממשית: הסבירות של טענה A תחת מידע X ניתנת לייצוג על ידי מספר (A|X) כך שסבירות גדולה יותר מתאימה למספר גדול יותר.


מדוע שנקבל את ההנחה הזו? בגלל מה שאנחנו רוצים לעשות כשאנחנו חושבים על סבירות של טענות.


אנו רוצים לשקול את ערך האמת של טענות. זה אומר שאנחנו חייבים לאפשר חוסר- וודאות לגבי הערך שלו, אך גם וודאות. ה"סבירות" שבהנחה 1 היא מידה לכמה בטוחים אנחנו שהטענה נכונה. אנו רוצים שביטחון מוחלט יהיה הערך הגבוה ביותר, אבל גם לאפשר ערכים נמוכים יותר של וודאות**.


אנחנו גם רוצים להשוות את הסבירויות של טענות שונות. אנו רוצים להיות מסוגלים לומר דברים כמן "טענה A מאוד סבירה, וטענה B גם אפשרית, אבל טענה C אינה רצינית". הדרישה ליכולת השוואה עקבית של כל הסבירויות זו עם זו היא הדרישה לקיום סדר חזק (או "מוחלט") - כלומר שנוכל לסדר כל שתי טענות ואת כל הטענות על פי סדר, מסבירות פחות לסבירות יותר.


השימוש במספר ממשי לייצוג הסבירות מאפשר סדר חזק. בעקרון, ניתן לקיים דרישה זו גם תחת הנחות חלשות יותר. השימוש בשברים יספיק, למשל. אבל לא ברור מדוע שנרצה באופן כללי לשקול רק דרגות סבירות של שברים רציונליים (או לאפשר רק רמות מסוימות של סבירות וכן הלאה). נראה שתאוריה כללית של סבירות צריכה לאפשר את כל רמות הסבירות שבאמצע גם כן. לכן, השימוש במספר ממשי הוא טבעי יותר.


עוד ביקורת על השימוש במספרים ממשיים היא שזה "מדויק" מדי. אין מה לחשוב על דרגות אמונה בצורה כה מדויקת - אלו מושגים עמומים וגסים. אני מוצא את ההתנגדות הזו לא משכנעת. זה נכון שהחשיבה האנושית בדרך כלל עמומה יותר. אנחנו יכולים, למשל, לומר ש A יותר סביר מ-B, אבל שהוא בערך באותה סבירות כמו C. אני לא בטוח אם זו תוצאה של חשיבה בדרכים עמומות או חוסר מודעות לערכים המדויקים של הסבירות שמוח שלנו מחשב, אבל בכל אופן אני לא רואה שום סיבה לכלול עמימות שכזו במודל של רציונליות טהורה. הדיוק הוא תכונה טובה, לא פגם!


נזהרתי להגדיר את הסבירות כדרגת הוודאות בכך שהטענה נכונה. אבל מה לגבי הביטחון שלנו לגבי האפשרות שהטענה שגויה? הבייסיאנים טוענים שאין צורך במידה נוספת לשם כך - היא כבר מוכלת במידת ה"סבירות". סבירות מקסימלית משמעה ביטחון מלא שהטענה נכונה, ולפיכך מינימום ביטחון, בכל מובן ממשי, שהטענה שגויה: אנחנו לא נהיה מוכנים להמר על כך שהיא שגויה, או לפעול באופן כלשהו בהסתמך על האפשרות הקלושה ביותר שהיא שגויה. סבירות מקסימלית שטענה A נכונה לפיכך מקבילה לסבירות מינימלית שטענה A שגויה. ומכאן שכם הפוך הוא נכון - סבירות מינימלית של A חייבת להתאים לסבירות מקסימלית (ביטחון מלא) ש"לא A" נכון,כלומר שטענה A שגויה.


מי שלא מקבל את קו המחשבה הזה ירצה אולי לעקוב אחרי הביטחון שלנו באמת של טענה "לא A" בנפרד ובנוסף לביטחון שלנו ב"A", וכך להחזיק במידת "סבירות" מסובכת לכל טענה, שאינה יכולה להתמצות במספר אחד. סבירות רב-ערכית שכזו לא מאפשרת סדר חזק. אדם שכזה יוכל גם לטעון אולי שסבירות מינימלית היא מצב של בורות, לא של ידע, ושאין לבלבל בין הידע שאנו מחזיקים אודות האמת של טענה ובין הערכתו לשם ביצוע פעולה מסוימת (כגון הימור על נכונותה).


גישה שכזו נוקטת תאוריית דמפסטר-שייפר, שהיא אולי המתחרה העיקרית של הבייסיאניזם. בעוד הבייסיאניזם מבוסס על שקילת מידת הביטחון שיש לנו באמת של טענה, תאוריית דמפסטר-שייפר מבוססת על שקילת מידת התמיכה שיש לנו באמת הטענה. יש לנו ככלל כמות מסוימת של תמיכה (טיעונים לוגיים, ראיות אמפיריות, עדויות ראייה, וכן האלה) לכך ש-A נכונה, וכמות אחרת של תמיכה בטענה ש-A שגויה. התמיכה ב A אינה פשוט תמונת ראי של התמיכה ב"לא A"; יכול להיות שאין לנו תמיכה באף אחת מהאפשרויות, או יכול להיות שיש תמיכה קטנה בכך ש-A נכונה ותמיכה מעט יותר גדולה בכך שהיא לא נכונה, וכן הלאה. גישה זו מאפשרת לנו להבדיל במפורש בין הידע והבורות שלנו, ולייצר סבירויות בהתאם לצורך בלי לבלבל אותן עם מצב הידע היותר מורכב שלנו לגבי ערכי האמת של הטענות.


מי צודק, בייס או דמפסטר? אני לא בטוח (הא!), אבל אני נוטה לתמוך בבייסיאנים בכך שבמידה שבה אנחנו נאלצים לבחור בין אפשרויות סותרות נראה לי שהגישה שלהם נכונה. צריך מידה אחת לדרגת האמון שיש לנו בטענה, בלי קשר למידע שמוביל אותנו לקבוע אותה. בכל אופן, הבייסיאניזם מניח שרק מספר אחד (רמת הביטחון שלנו באמת של הטענה) מספיק כדי לאפיין את הסבירות שלה, ואנו נמשיך תחת הנחה זו.


עוד דבר שאנחנו רוצים לעשות עם סבירויות הוא לשנות את האמונות שלנו בהינתן מידע חדש. זה למה ש"תחת מידע X" מופיע בהנחה 0. אנחנו עוד לא הגדרנו למה כוונתנו ב"אינפורמציה", ולא נעשה זאת כעת. בינתיים אסתפק בהגדרה של מה זה "מידע נוסף". אני אסמן את הסבירות של A בהינתן מידע X ומידע נוסף B כ-(A|B,X). ואנו נדרוש שרמת הסבירות תחת מידע שטענה A היא אמת (לא "אולי" או "כנראה" אמת, אלא פשוט "אמת") תשנה את האמונה הרציונלית בה בהתאם.


הגדרה 1: מידע נוסף: הסבירות (A|A,X) של טענה A תחת מידע X ומידע נוסף שA נכונה, היא זו של אמת (A|A,X)=(T|A,X). הסבירות (A|A,X) של טענה A תחת מידע X ומידע נוסף שA אינה נכונה, היא זו של שקר (A|A,X)=(F|A,X).


אני משתמש כאן בקו תחתון לציין את שלילתה של טענה, וב"T" ו-"F" כדי לציין את ערכי האמת "אמת" ו-"שקר". אני גם מניח במובלע שטענה A יכולה אכן להיות או שקר או אמת - שום מידע נוסף שבעולם לא יכול להפוך טאוטולוגיה לשקר, או סתירה לאמת.


רשמתי את הגדרת המידע הנוסף כ"הגדרה" ולא כ"הנחה" בגלל שהיא רק מבהירה חלקית למה כוונתנו ב"אינפורמציה". הקורא יכול, אם הוא רוצה, לראות בה עוד הנחה. אני לא רואה איך אפשר ממש לכפור בהנחה זו - היא בבירור נכונה, במובן שאנחנו בבירור רוצים לדרוש התנהגות שכזו מסבירות רציונלית.




* לאחר התלבטות, החלטתי לכתוב את הנוסחאות באנגלית, כך שיש לקוראן מימין לשמאל. (A|X) משמעו "טענה A בהינתן מידע X". זה יעשה קצת צרות בהמשך בשיבוץ הנוסחאות בטקסט בעברית, אבל אין מה לעשות - ככה כותבים מתמטיקה

.

** הבחירה במספר גדול יותר עבור סבירות גדולה יורת הוא רק מוסכמה. אפשר היה לבחור הפוך - מספר גדול יותר לסבירות קטנה יותר. מה שחשוב הוא להישאר תמיד באותו כיוון", כך שנוכל לקיים את דרישת הסדר החזק.

אין תגובות:

הוסף רשומת תגובה