לא מדויק

מספרי ברנולי

2024-12-18T00:00:00+00:00

בואו נסכום סכומים

אחד מהדברים הבאמת נחמדים שלמדתי במתמטיקה בתיכון היה הנוסחה לסכום של סדרה חשבונית, שבמקרה הפשוט ביותר שלה הוא הסכום הבא:

\( 1+2+3+\ldots+n=\frac{n\left(n+1\right)}{2} \)

סביב הסכום הזה יש את הצ’יזבט האהוב על המתמטיקאי קרל פרידריך גאוס, שלכאורה גילה אותו בתור ילד קטן שהמורה בבית הספר נתן לו וליתר התלמידים לסכום את המספרים מ-1 עד 100 כדי להעסיק אותם בזמן שהוא נח. גאוס הילד היה נאמן לסלוגן על כך שמתמטיקאים הם עצלנים: במקום לחבר את הכל במפורש, הוא שם לב לכך ש-1 ועוד 100 שווה 101, וגם 2 ועוד 99 שווה 101 וכן הלאה, כך שיש לו 50 זוגות מספרים שהסכום של כולם הוא 101 ורק צריך לחשב את הכפל הקל 50 כפול 101 ואת זה אפילו אני יודע לעשות בראש ולקבל 5050. הנוסחה שכתבתי למעלה היא אותו דבר: יש לנו \( \frac{n}{2} \) זוגות שהסכום של כולם הוא \( n+1 \), אז אנחנו פשוט כופלים (אם \( n \) אי זוגי יש איבר בודד באמצע שאי אפשר למצוא לו בן זוג, אבל הנוסחה עדיין עובדת כי היא סופרת אותו בתור “חצי זוג” - נסו בעצמכם לבדוק על מספרים קטנים!)

מה שלא שמעתי עליו בבית הספר, וקצת חבל, הוא שיש לנו נוסחה דומה גם עבור הסכום של הריבועים של הטבעיים:

\( 1^{2}+2^{2}+3^{2}+4^{2}+\ldots+n^{2}=\frac{n\left(n+1\right)\left(2n+1\right)}{6} \)

הנוסחה הזו פחות פשוטה מהקודמת, אבל היא עדיין די פשוטה ומערבת רק מכפלה של שלושה מספרים. זה מעלה את השאלה אם גם כשאני מחבר חזקות גבוהות יותר של הטבעיים, אני עדיין אקבל נוסחה פשוטה יחסית. מה למשל קורה עם \( 1^{3}+2^{3}+3^{3}+\ldots \)? התשובה היא שאכן, יש נוסחה פשוטה יחסית למקרה הזה ובעצם לכל מקרה של \( 1^{m}+2^{m}+3^{m}+\ldots+n^{m} \), אם כי “פשוטה” זה כמובן עניין יחסי כי ככל ש-\( m \) גדול יותר הנוסחה תהיה מסובכת יותר. אבל מה שאפשר לומר שהופך את העניין לפשוט הוא שני דברים:

הנוסחה היא תמיד פולינום ממעלה \( m+1 \).
אפשר לכתוב את הנוסחה באופן כללי, לכל \( m \) שהוא, בעזרת משהו שנקרא מספרי ברנולי.

קודם כל - מה זה “פולינום”? יהיה קל להסביר את זה אם ניקח את הנוסחה \( \frac{n\left(n+1\right)}{2} \) ונפתח את הסוגריים. נקבל, על פי כללי החשבון הרגילים, \( \frac{1}{2}n^{2}+\frac{1}{2}n \). באופן דומה אם נפתח את \( \frac{n\left(n+1\right)\left(2n+1\right)}{6} \) נקבל \( \frac{1}{3}n^{3}+\frac{1}{2}n^{2}+\frac{1}{6}n \). ביטוי כזה נקרא פולינום: זה ביטוי שכולל משתנה, במקרה שלנו \( n \), שהרעיון בו הוא שהוא לא מייצג מספר קונקרטי (אבל אפשר להציב בו מספרים קונקרטיים ולראות מה קורה) ואנחנו מסתכלים גם על חזקות שלו, כמו למשל \( n^{2} \) או \( n^{3} \), ועל מכפלות של כל אלו במספרים, ועל סכומים של כל זה. בביטוי כמו \( \frac{1}{3}n^{3}+\frac{1}{2}n^{2}+\frac{1}{6}n \) אני אומר שה-\( \frac{1}{3} \) שבו מוכפל \( n^{3} \) הוא המקדם של \( n^{3} \) (ולכן \( \frac{1}{6} \) הוא המקדם של \( n \) וכדומה). באופן כללי יכול להופיע בפולינום גם מספר שלא מוכפל ב-\( n \) ואז הוא נקרא המקדם החופשי אבל אפשר לחשוב עליו כאילו הוא מוכפל ב-\( n^{0} \) (הנה פוסט על למה דברים בחזקת 0 נחשבים 1) אם כי בהקשר שלנו מקדם חופשי כזה פשוט לא הולך להופיע. בנוסף, המעלה של פולינום היא החזקה הגבוהה ביותר שמופיעה בו, כלומר לדוגמא, המעלה של \( \frac{1}{3}n^{3}+\frac{1}{2}n^{2}+\frac{1}{6}n \) היא 3.

פולינומים הם באמת ובתמים פונקציות פשוטות מאוד. אם מציבים ערך בפולינום, החישוב רק דורש לחשב חזקות של הערך, לכפול אותן במקדמים, ולחבר. אם אני מצליח לתרגם את החיבור של המספרים \( 1^{10}+2^{10}+3^{10}+\ldots+1000^{10} \) לחישוב של הצבה של 1000 בפולינום ממעלה 11, המרתי את הבעיה של חישוב 1000 חזקות עשיריות של מספרים וחיבור של כולן, לבעיה של חישוב 11 חזקות שונות של אותו מספר (וכשהמספר הזה הוא 1,000 זה לא בדיוק החלק הקשה פה) ואז כפל של 11 החזקות הללו במקדמים וחיבור שלהן - משמעותית פחות עבודה. זה הוביל את יעקב ברנולי, שגילה את הנוסחה הכללית (ולא אכנס כאן לדיון ההיסטורי של מי בדיוק גילה מה ובאיזה נוסח למרות שיש דיון כזה) לכתוב בהתלהבות ביומן שלו שבעזרת הנוסחה לקחה לו פחות מרבע שעה כדי לחשב את סכום החזקות העשיריות של המספרים עד 1000 ולקבל שיצא \( 91,409,924,241,424,243,424,241,924,242,500 \). גם ברנולי היה נאמן לסלוגן “מתמטיקאים הם עצלנים”, בדרך המאוד מוזרה שבה העצלנות הזו מתבטאת בפועל.

בהמשך אני אראה איך מגיעים לנוסחה ומוכיחים אותה, אבל מכיוון שזה ידרוש מתמטיקה טיפה לא טריוויאלית בואו נתחיל קודם מתיאור של הנוסחה עצמה. בשביל לתאר אותה צריך להגדיר את מספרי ברנולי, ובשבילם צריך קצת קונבנציות מתמטיות.

ראשית, יש את הסימון המוסכם לסכימה. למשל, במקום לכתוב \( 1^{m}+2^{m}+3^{m}+\ldots+n^{m} \) אני כותב \( \sum_{k=1}^{n}k^{m} \). כאן הסימן \( \Sigma \) אומר שיש לי תיאור של סכום, ה-\( k^{m} \) שליד ה-\( \Sigma \) הוא “האיבר הכללי” של הסכום - כלומר, הצורה שיש לכל איבר בסכום. ה-\( k=1 \) למטה גם אומר שמשתנה הסכימה הוא \( k \), מה שאומר שבביטוי \( k^{m} \) אני מציב ערכים ב-\( k \) אבל משאיר את \( m \) כמות שהוא, וגם שהערך של \( k \) הזה מתחיל מ-1. ה-\( n \) למעלה אומר שהערך הגדול ביותר ש-\( k \) מגיע אליו הוא \( n \), והקונבנציה הלא כתובה היא שמגדילים בכל פעם את הערך של \( k \) ב-1. לכן \( \sum_{k=1}^{n}k^{m}=1^{m}+2^{m}+3^{m}+\ldots+n^{m} \). למרות שסימון הסכימה הזה נראה קצת מרתיע בהתחלה הוא הרבה יותר קומפקטי וברור אחרי שמתרגלים אליו.

שנית, אנחנו הולכים לראות מספרים מהצורה \( {a \choose b} \). הסימון הזה, שנקרא מקדם הבינום (אסביר בהמשך למה) מוגדר באופן הבא. ראשית, מגדירים עצרת של מספר טבעי, שמסומנת בתור המספר עם סימן קריאה אחריו: \( a!=1\cdot2\cdot3\cdots a \), כלומר מכפלת כל המספרים הטבעיים מ-1 עד \( a \) (למשל \( 4!=1\cdot2\cdot3\cdot4=24 \)) ובנוסף ההגדרה המפורשת \( 0!=1 \). שנית, \( {a \choose b}=\frac{a!}{b!\left(a-b!\right)} \) והביטוי הזה מוגדר כאשר \( 0\le b\le a \). יש הגיון מאחורי הביטוי הזה, לא סתם החלטנו להמציא אותו: \( {a \choose b} \) סופר את מספר הדרכים שבהן אפשר לבחור \( b \) איברים מתוך \( a \) איברים, במקרה שבו אין חשיבות לסדר שבו הבחירה הזו מתבצעת. (אני מתאר את זה כאן).

לבסוף, בנוסחה שאני הולך להציג יופיעו מספרי ברנולי שמסומנים ב-\( B_{0},B_{1},B_{2},\ldots \) והם יהיו המושג המרכזי בפוסט.

אני אגלה כבר עכשיו שמספרי ברנולי הראשונים הם \( B_{0}=1,B_{1}=-\frac{1}{2},B_{2}=\frac{1}{6},B_{3}=0 \) ואת ההגדרה הכללית שלהם אביא עוד מעט, אבל קודם אני רוצה להראות איך הם נותנים לנו את הנוסחה לסכום החזקות. אלא שכאן יש סיבוך קטן. אמרתי ש-\( B_{1}=-\frac{1}{2} \), אבל יש גם כאלו שמעדיפים להגדיר \( B_{1}=\frac{1}{2} \). שתי הקונבנציות סבירות, אבל אני בפוסט הזה הולך להשתמש בקונבנציה ש-\( B_{1}=-\frac{1}{2} \) וזה טיפה משפיע על הנוסחה: במקום להסתכל על \( \sum_{k=1}^{n}k^{m} \) אני מסתכל על \( \sum_{k=1}^{n-1}k^{m} \), כלומר על הסכום \( 1^{m}+2^{m}+\ldots+\left(n-1\right)^{m} \). את הסכום הזה אני אסמן ב-\( S_{m}\left(n\right) \). כמובן שזה לא שינוי גדול במיוחד; אם ניקח את הנוסחה \( \frac{n\left(n+1\right)}{2} \) שראינו קודם ונחליף את \( n \) ב-\( n-1 \) נקבל \( S_{1}\left(n\right)=\frac{n\left(n-1\right)}{2}=\frac{1}{2}n^{2}-\frac{1}{2}n \). באופן דומה אם ניקח את \( \frac{n\left(n+1\right)\left(2n+1\right)}{6} \) ונחליף את \( n \) ב-\( n-1 \) נקבל \( S_{2}\left(n\right)=\frac{n\left(n-1\right)\left(2n-1\right)}{6}=\frac{1}{3}n^{3}-\frac{1}{2}n^{2}+\frac{1}{6}n \).

עכשיו אפשר להציג את הנוסחה הכללית

\( S_{m}\left(n\right)=\frac{1}{m+1}\sum_{k=0}^{m}{m+1 \choose k}B_{k}n^{m+1-k} \)

בואו נראה איך היא נותנת את הסכומים שכבר ראינו. ראשית, עבור \( 1+2+3+\ldots+n-1 \), זה הסכום \( \sum_{k=1}^{n-1}k^{1} \), כלומר \( m=1 \). לכן כשמשתמשים בנוסחה הכללית שראינו, מקבלים

\( S_{1}\left(n\right)=\frac{1}{2}\left[{2 \choose 0}B_{0}n^{2}+{2 \choose 1}B_{1}n^{1}\right]=\frac{1}{2}\left[n^{2}+2\cdot\left(-\frac{1}{2}\right)n\right]=\frac{1}{2}n^{2}-\frac{1}{2}n \)

ובאופן דומה:

\( S_{2}\left(n\right)=\frac{1}{3}\left[{3 \choose 0}B_{0}n^{3}+{3 \choose 1}B_{1}n^{2}+{3 \choose 2}B_{2}n\right]=\frac{1}{3}\left[n^{3}-\frac{3}{2}n^{2}+\frac{3}{6}n\right]=\frac{1}{3}n^{3}-\frac{1}{2}n^{2}+\frac{1}{6}n \)

לי הנוסחה הכללית נראית טיפה מפחידה, אבל כשאני מקליד את המקרים המפורשים החוקיות “מרגישה” לי הרבה יותר פשוטה - בעצם אין בנוסחאות הללו כמעט שום דבר מסובך, חוץ ממספרי ברנולי עצמם - הם ה”לב” של הסיבוך כאן. אז איך מגדירים אותם? ולמה זה עובד? אני פשוט אציג את ההגדרה כאן, ובהמשך נגיע אל ההוכחה שגם תסביר לנו מאיפה ההגדרה בעצם צצה.

ההגדרה היא רקורסיבית: אני מניח שכבר הגדרתי את כל המספרים \( B_{0},B_{1},B_{2},\ldots,B_{k-1} \) ומגדיר באמצעותם את \( B_{k} \), בצורה הבאה:

\( B_{k}=-\frac{1}{k+1}\sum_{i=0}^{k-1}{k+1 \choose i}B_{i} \)

עם מקרה הבסיס \( B_{0}=1 \). גם פה, הרבה יותר קל “להרגיש” את ההגדרה כשכותבים כמה מקרים ידנית:

\( B_{1}=-\frac{1}{2}{2 \choose 0}B_{0}=-\frac{1}{2} \)

\( B_{2}=-\frac{1}{3}\left[{3 \choose 0}B_{0}+{3 \choose 1}B_{1}\right]=-\frac{1}{3}\left[1-\frac{3}{2}\right]=-\frac{1}{3}\left(-\frac{1}{2}\right)=\frac{1}{6} \)

ואם ממשיכים בחישובים, מקבלים את הסדרה הבאה:

\( 1,-\frac{1}{2},\frac{1}{6},0,-\frac{1}{30},0,\frac{1}{42},0,-\frac{1}{30},0,\frac{5}{66},0,-\frac{691}{2730},\ldots \)

בדרך כלל ה-\( -\frac{691}{2730} \) הוא זה שבו מרימים ידיים בייאוש ושואלים “אתם צוחקים עלינו?!”. עד לשם, אפשר לראות ניצוצות של חוקיות סבירה - כל המספרים במקומות האי זוגיים למעט \( B_{1} \) הם 0; המספרים האחרים מחליפים סימן בין מינוס לפלוס; במכנה מופיעים מספרים סבירים יחסית כולל 42 יקיר המין האנושי; אבל אז מגיע \( -\frac{691}{2730} \) שכולל מונה ומכנה שאין לאף אחד שמץ של מושג מה הם רוצים מחיינו, והורס כל תקווה לאיזו נוסחה פשוטה יחסית, יותר מנוסחת הנסיגה שיש לנו (יש גם נוסחאות סגורות שכוללות סכימה ואני לא חושב שאפשר לומר שהן פשוטות יותר).

אוקיי, אז זה מה שעושים עם זה, בואו נוכיח שזה עובד.

בואו נביים בינומים

לפני שאני מגיע להוכחה האמיתית, שמשתמשת בכלי אלגנטי ויפה אבל לא טריוויאלי להבנה, הנה גישה קצת יותר בסיסית לנושא שכל אחד יכול להבין. בינתיים אני לא אנסה להוכיח את הנוסחה שראינו למעלה אלא משהו צנוע יותר - להוכיח ש-\( S_{m}\left(n\right) \) הוא פולינום ממעלה \( m+1 \) ולהראות איך למצוא אותו. בשביל זה אני קודם כל הולך להשתמש במשהו שנקרא הבינום של ניוטון (יש לי עליו פוסט) שאומר באופן כללי:

\( \left(a+b\right)^{n}=\sum_{i=0}^{n}{n \choose i}a^{i}b^{n-i} \)

אם במקום \( b \) יש לי 1 זה נהיה משמעותית פשוט יותר:

\( \left(a+1\right)^{n}=\sum_{i=0}^{n}{n \choose i}a^{i}=1+{n \choose 1}a+{n \choose 2}a^{2}+\ldots+{n \choose n-1}a^{n-1}+a^{n} \)

עכשיו נשתמש בזה עבור \( a=k \) ו-\( n=m+1 \) ונקבל את הדבר הבא:

\( \left(k+1\right)^{m+1}-k^{m+1}=1+{m+1 \choose 1}k+{m+1 \choose 2}k^{2}+\ldots+{m+1 \choose m}k^{m} \)

מה שנחמד בביטוי \( \left(k+1\right)^{m+1}-k^{m+1} \) הוא שהוא יוצר לנו טור טלסקופי, כלומר טור שבו כל האיברים מבטלים זה את זה חוץ מהראשון והאחרון. כדי לראות את זה, בואו נחבר את כל הביטויים הללו עבור \( k=0,1,2,\ldots,n-1 \):

\( \left[n^{m+1}-\left(n-1\right)^{m+1}\right]+\left[\left(n-1\right)^{m+1}-\left(n-2\right)^{m+1}\right]+\ldots+\left[2^{m+1}-1^{m+1}\right]+\left[1^{m+1}-0^{m+1}\right]=n^{m+1} \)

אז אם אנחנו מחברים את אגף שמאל של הביטוי

\( \left(k+1\right)^{m+1}-k^{m+1}=1+{m+1 \choose 1}k+{m+1 \choose 2}k^{2}+\ldots+{m+1 \choose m}k^{m} \)

לכל \( k=0,1,2,\ldots,n-1 \) אנחנו מקבלים \( n^{m+1} \). מה קורה כשאנחנו מחברים את אגף ימין? אפשר להסתכל על כל מחובר לבד. המחובר \( 1 \) יחובר לעצמו \( n \) פעמים ויהפוך ל-\( n \); המחובר \( {m+1 \choose 1}k \) הופך לטור \( {m+1 \choose 1}\left(1+2+\ldots+n-1\right)={m+1 \choose 1}S_{1}\left(n\right) \). המחובר \( {m+1 \choose 2}k^{2} \) הופך לטור \( {m+1 \choose 2}S_{2}\left(n\right) \) וכן הלאה. אז אנחנו מקבלים:

\( n^{m+1}=n+{m+1 \choose 1}S_{1}\left(n\right)+{m+1 \choose 2}S_{2}\left(n\right)+\ldots+{m+1 \choose m}S_{m}\left(n\right) \)

וזו נוסחה די מרהיבה כי היא מקשרת את כל הנוסחאות לסכומים עד לחזקה ה-\( m \)-ית. אפשר לבודד את \( S_{m}\left(n\right) \) ולקבל

\( S_{m}\left(n\right)=\frac{1}{m+1}\left[n^{m+1}-{m+1 \choose m-1}S_{m-1}\left(n\right)-\ldots-{m+1 \choose 1}S_{1}\left(n\right)-n\right] \)

אם אנחנו כבר יודעים, אינדוקטיבית, שכל \( S_{k}\left(n\right) \) כזה הוא ממעלה לכל היותר \( k+1 \) המסקנה היא שהביטוי באגף ימין הוא פולינום ממעלה \( m+1 \) (בגלל ה-\( n^{m+1} \) שמופיע שם והעובדה שכל ה-\( S_{k}\left(n\right) \)-ים הם ממעלה קטנה יותר). הנוסחה הזו גם פותחת פתח לבניה רקורסיבית של ה-\( B_{m} \)-ים ויש ספרים שנוקטים בגישה הזו (למשל Concrete Mathematics של קנות’ ושות’) אבל זה טכני לא כיף. אני רוצה טכני כיף.

בואו טכני כיף

הכלי הטכני שאני משתמש בו נקרא פונקציות יוצרות. הרעיון בפונקציות יוצרות הוא זה: אם יש לנו סדרה, אפשר “לשתול” את האיברים שלה בתור מקדמים של טור חזקות, ואז לבצע מניפולציות על הפונקציה שטור החזקות הזה מתאר והמניפולציות הללו יתורגמו למניפולציות בסדרות ש”שתלנו”.

זה לא נושא קל לעיכול (יש לי פוסט עליו) אבל חלק מהקושי בו, לטעמי, הוא שקשה להבין אותו בלי לראות דוגמאות קונקרטיות לשימושים שלו - וכאלו שבאמת מפשטים דברים. עכשיו יש לנו הזדמנות לראות דבר כזה.

הנה מבוא קצרצר לפונקציות יוצרות: בהינתן סדרת מספרים \( a_{0},a_{1},a_{2},\ldots \) הפונקציה היוצרת שלה היא הטור \( \sum_{n=0}^{\infty}a_{n}x^{n} \). צריך להבהיר כבר עכשיו נקודה קריטית - הטור הזה הוא אובייקט פורמלי, כמו פולינום. הוא לא פונקציה. לא מציבים ב-\( x \) ערכים (אפשר להציב ב-\( x \) ערכים כחלק מניתוח מתקדם יותר של מה שהפונקציה היוצרת מייצגת, אבל לא חייבים לעשות את זה). המשמעות של זה היא שאפשר לכתוב משהו כמו \( 1+x+x^{2}+\ldots=\frac{1}{1-x} \) וזה יהיה שוויון תקין, שלא תלוי בסייגים כמו לומר ש-\( \left|x\right|<1 \) או משהו.

איך זה עובד? האובייקט הבסיסי הוא כאמור הטור עצמו. על האובייקט הזה מגדירים פעולות חיבור וכפל שהופכות אותו לחוג:

\( \sum_{n=0}^{\infty}a_{n}x^{n}+\sum_{n=0}^{\infty}b_{n}x^{n}=\sum_{n=0}^{\infty}c_{n}x^{n} \) עם \( c_{n}=a_{n}+b_{n} \)
\( \left(\sum_{n=0}^{\infty}a_{n}x^{n}\right)\left(\sum_{n=0}^{\infty}b_{n}x^{n}\right)=\sum_{n=0}^{\infty}c_{n}x^{n} \) עם \( c_{n}=\sum_{k=0}^{n}a_{n-k}b_{k} \)

הדוגמא הקלאסית לכפל היא \( \left(1+x+x^{2}+\ldots\right)\left(1-x\right)=1 \) (נסו לבצע את החישוב בעצמכם!) שהיא זו שמצדיקה את הכתיב \( 1+x+x^{2}+\ldots=\left(1-x\right)^{-1} \) או, בכתיב הנפוץ יותר, \( 1+x+x^{2}+\ldots=\frac{1}{1-x} \). אני בכוונה לא נכנס יותר מדי לפרטים כי כאמור, יש לי פוסט על זה.

דבר אחד שאין בפוסט וכן נשתמש בו כאן הוא פונקציות יוצרות אקספוננציאליות. הפונקציה היוצרת האקספוננציאלית של \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא \( \sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!} \). זה עדיין ביטוי פורמלי וההגדרות למעלה עדיין תקפות לגביו, אבל בואו נראה מה קורה לפעולות החיבור והכפל. עבור חיבור עדיין נקבל \( \sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!}+\sum_{n=0}^{\infty}b_{n}\frac{x^{n}}{n!}=\sum_{n=0}^{\infty}c_{n}\frac{x^{n}}{n!} \) עם \( c_{n}=a_{n}+b_{n} \), כלומר פעולת החיבור של פונקציות יוצרות של שתי סדרות מניבה את הפונקציה היוצרת של סדרת הסכומים. כפל, לעומת זאת, הוא קצת יותר טריקי.

מה שאנחנו רוצים לעשות הוא, בהינתן הסדרות \( a_{n},b_{n} \), להבין מה הסדרה \( c_{n} \) שעבורה תתקיים המשוואה

\( \left(\sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!}\right)\left(\sum_{n=0}^{\infty}b_{n}\frac{x^{n}}{n!}\right)=\sum_{n=0}^{\infty}c_{n}\frac{x^{n}}{n!} \)

כדי להבין למה זה טריקי, בואו נראה מה קורה עבור \( x^{2} \): אנחנו רוצים שהמכפלה תיתן את המקדם \( \frac{c_{2}}{2!} \). עכשיו, אם מסתכלים על \( \left(a_{0}+a_{1}x+\frac{a_{2}}{2!}x^{2}\right)\left(b_{0}+b_{1}x+\frac{b_{2}}{2!}x^{2}\right) \) ופותחים סוגריים ומקבצים לפי החזקה של \( x \), מקבלים

\( \left(\frac{a_{2}}{2}b_{0}+a_{1}b_{1}+a_{0}\frac{b_{2}}{2}\right)x^{2} \)

אנחנו רוצים להוציא החוצה את ה-\( \frac{1}{2!} \) ולכן נקבל

\( \left(a_{2}b_{0}+2a_{1}b_{1}+a_{0}b_{2}\right)\frac{x^{2}}{2!} \)

מה קורה באופן כללי? המקדם של \( x^{n} \) יהיה \( \sum_{k=0}^{n}\frac{a_{k}}{k!}\frac{b_{n-k}}{\left(n-k\right)!} \). עכשיו, זכרו את הבינום של ניוטון: \( {n \choose k}=\frac{n!}{k!\left(n-k\right)!} \). לכן, אם נכפול ונחלק את הסכום ב-\( n! \), נקבל

\( \sum_{k=0}^{n}\frac{a_{k}}{k!}\frac{b_{n-k}}{\left(n-k\right)!}=\frac{1}{n!}\sum_{k=0}^{n}{n \choose k}a_{k}b_{n-k} \)

כלומר, את נוסחת הכפל צריך לתקן באופן הבא:

\( \left(\sum_{n=0}^{\infty}a_{n}\frac{x^{n}}{n!}\right)\left(\sum_{n=0}^{\infty}b_{n}\frac{x^{n}}{n!}\right)=\sum_{n=0}^{\infty}c_{n}\frac{x^{n}}{n!} \) עם \( c_{n}=\sum_{k=0}^{n}{n \choose k}a_{n-k}b_{k} \)

עכשיו אפשר לדבר על הפונקציה היוצרת האקספוננציאלית הבסיסית שלנו: זו שמתאימה לסדרה \( a_{n}=1 \), כלומר לטור \( \sum_{n=0}^{\infty}\frac{x^{n}}{n!} \). את הפונקציה הזו אני אסמן בסימון המקוצר המסתורי \( e^{x} \). כמובן, ייתכן שחלקכם מכירים את הסימון הזה והוא לא נראה להם מסתורי, אבל זה מסוכן מאוד לחשוב ככה כי למשל אם אני אכתוב עכשיו \( e^{2x} \) אתם תגידו “כמובן, זה הטור \( \sum_{n=0}^{\infty}2^{n}\frac{x^{n}}{n!} \)” וזה יהיה נכון בכל מה שנוגע לפונקציה שנקראת “אקספוננט” שאנחנו פוגשים בחדו”א, אבל כאן אנחנו בעולם קצת שונה, של טורי חזקות פורמליים, והביטוי \( e^{2x} \) הוא פשוט לא מוגדר. מה שמתבקש הוא להגדיר אותו בתור \( e^{x}\cdot e^{x} \), כי כפל כן הגדרנו, אבל צריך לוודא שזה עובד.

מכיוון ש-\( e^{x} \) התאים לסדרה \( a_{n}=1 \), אז \( e^{x}\cdot e^{x} \) מתאים לסדרה \( c_{n}=\sum_{k=0}^{n}{n \choose k} \). למרבה השמחה, אנחנו יודעים ש-\( \sum_{k=0}^{n}{n \choose k}=2^{n} \) (הוכחה קומבינטורית: \( {n \choose k} \) הוא מספר הדרכים לבחור \( k \) איברים מתוך \( n \), ואילו \( 2^{n} \) הוא מספר הדרכים לבחור תת-קבוצה כלשהי מתוך \( n \)) ולכן באמת מקבלים ש-\( e^{x}\cdot e^{x} \) מיוצג על ידי הטור \( \sum_{n=0}^{\infty}2^{n}\frac{x^{n}}{n!} \) מה ש”מצדיק” את הסימון \( e^{2x}=e^{x}\cdot e^{x} \). בגישה קצת פחות פורמלית הייתי אומר “מכיוון ש-\( e^{x} \) שלי הוגדרה עם אותו טור כמו אקספוננט אז כל תוצאה שיש לנו על אקספוננט עובדת כאן עם הבונוס שלא צריך להתחשב בשיקולי התכנסות” אבל אני לא אעשה את זה.

עכשיו, אם יש לנו את \( e^{2x} \), מה עם \( e^{kx} \) עבור \( k \) טבעי כללי? ההגדרה המתבקשת היא \( e^{kx}=\sum_{n=0}^{\infty}k^{n}\frac{x^{n}}{n!} \). הייתי רוצה להראות שזו באמת החזקה ה-\( k \)-ית של \( e^{x} \), ואת זה אני יכול להוכיח באינדוקציה. נניח שבאמת מתקיים \( e^{kx}=\sum_{n=0}^{\infty}k^{n}\frac{x^{n}}{n!} \) ונוכיח ש-\( e^{x}\cdot e^{kx}=\sum_{n=0}^{\infty}\left(k+1\right)^{n}\frac{x^{n}}{n!} \).

לצורך ההוכחה שוב נתבסס על הגדרת הכפל עבור האיבר הכללי - הפעם הוא יוצא \( c_{n}=\sum_{i=0}^{n}{n \choose i}k^{i} \). על \( {n \choose i}k^{i} \) אפשר לחשוב קומבינטורית בתור בחירה של \( i \) מתוך \( n \) איברים, ואז צביעה של כל איבר בצבע מתוך קבוצה בת \( k \) צבעים, כך שאפשר לבחור את אותו צבע יותר מפעם אחת. עכשיו, אם אני סופר את מספר הדרכים לבחור תת-קבוצה של \( n \) האיברים ולצבוע את אבריה ב-\( k \) צבעים, אפשר להתחכם טיפה - ל-\( k \) הצבעים נוסיף “צבע שקוף”, ואז פשוט נצבע את כל \( n \) האיברים ב-\( k+1 \) הצבעים, ומי שצבוע בצבע שקוף ייחשב כאילו לא לקחנו אותו לתת הקבוצה. כך קיבלנו שמספר הדרכים הכולל הוא \( \left(k+1\right)^{n} \), כלומר \( c_{n}=\left(k+1\right)^{n} \), כמו שרצינו להראות.

למה אני בכלל טורח כל כך להתעסק בחזקות של \( e^{x} \)? מן הסתם אני חותר למשהו. בואו נחזור אל המטרה שלנו - אנחנו רוצים למצוא נוסחה עבור \( S_{m}\left(n\right) \), לכל \( m \). קודם ראינו שאולי קשה להבין את \( S_{m}\left(n\right) \) עבור \( m \) בודד אבל אם מסתכלים על ה-\( S_{m} \)-ים הללו כמכלול, כולם ביחד, יש ביניהם קשרים. פונקציות יוצרות הן בדיוק דרך לנצל את הקשרים הללו, אז די מתבקש לקחת את \( S_{m} \) ולשתול אותם בתוך פונקציה יוצרת. עכשיו, בפונקציה יוצרת מה ששותלים הוא סדרות מספרים, אבל \( S_{m} \) היא לא סדרה של מספרים, היא סדרה של פונקציות - אז נבחר \( n \) קונקרטי, נקבל עבורו סדרה קונקרטית של מספרים, \( \left\{ S_{m}\left(n\right)\right\} _{m=0}^{\infty} \). נשתול אותה בתוך פונקציה יוצרת אקספוננציאלית ונראה מה נקבל:

\( \sum_{m=0}^{\infty}S_{m}\left(n\right)\frac{x^{m}}{m!}=\sum_{m=0}^{\infty}\left(\sum_{k=0}^{n-1}k^{m}\right)\frac{x^{m}}{m!} \)

עכשיו שימו לב מה קורה כאן: יש לנו פונקציה יוצרת אקספוננציאלית שהאיבר הכללי שלה הוא סכום סופי של איברים. זה מתאים לסיטואציה \( c_{n}=a_{n}+b_{n} \) שראינו קודם, רק לא עם שני איברים אלא עם \( n \) איברים, אבל באינדוקציה אפשר להראות שכל איבר כללי שהוא סכום של מספר סופי כלשהו של איברים מתפרק לסכום של פונקציות יוצרות, ולכן נקבל

\( \sum_{m=0}^{\infty}S_{m}\left(n\right)\frac{x^{m}}{m!}=\sum_{m=0}^{\infty}\left(\sum_{k=0}^{n-1}k^{m}\right)\frac{x^{m}}{m!}=\sum_{k=0}^{n-1}\left[\sum_{m=0}^{\infty}k^{m}\frac{x^{m}}{m!}\right] \)

הפלא ופלא, כל הפונקציות היוצרות שבסכום מתאימות בדיוק לחזקות של \( e \) שראינו קודם, אז קיבלנו את התוצאה

\( \sum_{m=0}^{\infty}S_{m}\left(n\right)\frac{x^{m}}{m!}=e^{0x}+e^{x}+e^{2x}+e^{3x}+\ldots+e^{\left(n-1\right)x} \)

עכשיו אפשר סוף סוף לראות את הכוח של פונקציות יוצרות: את הביטוי \( e^{0x}+e^{x}+e^{2x}+e^{3x}+\ldots+e^{\left(n-1\right)x} \) אפשר לראות בתור טור הנדסי. כזכור, אם יש לנו טור הנדסי \( 1+q+q^{2}+q^{3}+\ldots+q^{n-1} \) אנחנו יודעים לחשב את הסכום שלו על ידי הטריק הבא: נכפול ונחלק ב-\( \left(q-1\right) \) ואז נקבל במונה טור טלסקופי שכל מה שיישאר ממנו הוא \( q^{n}-1 \), בזמן שבמכנה יהיה לנו \( q-1 \), כלומר קיבלנו \( 1+q+q^{2}+q^{3}+\ldots+q^{n-1}=\frac{q^{n}-1}{q-1} \). אם נציב \( q=e^{x} \), זה נותן לנו את הביטוי \( \frac{e^{nx}-1}{e^{x}-1} \) (חדי העין ישימו לב שטיפה רימיתי פה - אני אחזור לזה בהמשך).

עכשיו, בואו נכפול ונחלק את הביטוי הזה ב-\( x \) ונקבל \( \frac{e^{nx}-1}{e^{x}-1}=\frac{e^{nx}-1}{x}\frac{x}{e^{x}-1} \). אני עוד מעט אקדיש חלק שלם כדי להסביר למה \( \frac{x}{e^{x}-1}=\sum_{k=0}^{\infty}B_{k}\frac{x^{k}}{k!} \), כלומר \( \frac{x}{e^{x}-1} \) הוא הפונקציה היוצרת האקספוננציאלית של מספרי ברנולי. לגבי \( \frac{e^{nx}-1}{x} \), קל יותר לטפל בו: \( e^{nx}=1+nx+\frac{n^{2}x^{2}}{2}+\ldots \) ולכן \( \frac{e^{nx}-1}{x}=n+\frac{n^{2}x}{2}+\ldots=\sum_{k=0}^{\infty}\frac{n^{k+1}}{k+1}\cdot\frac{x^{k}}{k!} \)

נסכם לרגע בזהירות את מה שראינו:

\( \sum_{m=0}^{\infty}S_{m}\left(n\right)\frac{x^{m}}{m!}=\left(\sum_{k=0}^{\infty}\frac{n^{k+1}}{k+1}\frac{x^{k}}{k!}\right)\left(\sum_{k=0}^{\infty}B_{k}\frac{x^{k}}{k!}\right) \)

כלומר, כשעוברים מרמת הפונקציות היוצרות האקספוננציאליות לרמת האיבר הבודד, וזוכרים איך כפל של פונקציות יוצרות אקספוננציאליות עובד כשעוברים לרמת האיבר הבודד, מקבלים:

\( S_{m}\left(n\right)=\sum_{k=0}^{m}{m \choose k}B_{k}\frac{n^{\left(m-k\right)+1}}{\left(m-k\right)+1} \)

את הגורם שבפנים אפשר לפשט עם עוד תעלול אלגברי/קומבינטורי קטן:

\( {m \choose k}\frac{1}{m-k+1}=\frac{m!}{k!\left(m-k\right)!}\cdot\frac{1}{m-k+1}=\frac{m!}{k!\left(m-k+1\right)!}=\frac{1}{m+1}\frac{\left(m+1\right)!}{k!\left(m-k+1\right)!}=\frac{1}{m+1}{m+1 \choose k} \)

וקיבלנו את הנוסחה שמציגים בכל מקום:

\( S_{m}\left(n\right)=\frac{1}{m+1}\sum_{k=0}^{m}{m+1 \choose k}n^{m+1-k}B_{k} \)

וזה היה… ממש טכני? ובכן, כן ולא. אני יודע שזה די מרתיע אבל בסופו של דבר כשמבינים את הרעיון של פונקציות יוצרות כל מה שעשינו פה הוא מאוד סטנדרטי. זה לא אומר שהיה כיף גדול לעשות את זה, אבל בהתחשב בתוצאה הדי כללית שמקבלים פה זה ממש נחמד - בפרט שזו תוצאה שמטפלת בכל אינסוף ה-\( S_{m}\left(n\right) \)-ים בו זמנית.

אבל עדיין לא סיימתי כי נשאר לי להסביר מאיפה מספרי ברנולי הגיעו.

בואו למסע אל מקורות הברנולי

אני טענתי, ללא הוכחה, ש-\( \frac{x}{e^{x}-1}=\sum_{k=0}^{\infty}B_{k}\frac{x^{k}}{k!} \). כלומר אני מגדיר את מספרי ברנולי בתור הסדרה ש-\( \frac{x}{e^{x}-1} \) היא הפונקציה היוצרת האקספוננציאלית שלה. יש כאן שתי שאלות

למה אני יודע בכלל ש-\( \frac{x}{e^{x}-1} \) ניתן לתיאור על ידי טור חזקות כזה?
איך אני יודע שאלו מספרי ברנולי? כלומר, איך אני מראה שמתקיימת הנוסחה הרקורסיבית \( B_{n}=-\frac{1}{n+1}\sum_{k=0}^{n-1}{n+1 \choose k}B_{k} \) שהצגתי קודם?

נתחיל מהשאלה הראשונה, למה \( \frac{x}{e^{x}-1} \) ניתן לתיאור על ידי טור חזקות פורמלי. אם לא היינו עובדים במסגרת פורמלית אלא בחדו”א, הסיפור היה הולך ככה: היינו שמים לב שכשמציבים \( x=0 \) אז \( e^{x}=1 \) ולכן \( e^{x}-1=0 \) ולכן המכנה של \( \frac{x}{e^{x}-1} \) יכול להתאפס ומדובר בקטסטרופה. אבל מצד שני, גם המונה מתאפס כש-\( x=0 \) ולכן אפשר להשתמש בלהטוט החדו”אי שנקרא כלל לופיטל ולקבל \( \lim_{x\to0}\frac{x}{e^{x}-1}=\lim_{x\to0}\frac{1}{e^{x}}=1 \). כלומר, אפשר “לתקן” את הפונקציה \( \frac{x}{e^{x}-1} \) כך שב-\( x=0 \) היא תוגדר להיות 1 ולקבל פונקציה נחמדה שאפשר לפתח לטור והכל טוב ויפה.

אני לא הולך לעשות את זה כאן. כאמור, אני דוגל בגישה הפורמלית. בגישה הזו כל מה שיש בעולם הוא טורי חזקות פורמליים ולכן הביטוי \( \frac{x}{e^{x}-1} \) הוא בסך הכל סימון מקוצר לטור חזקות פורמלי כלשהו. איזה? על פניו, הטור \( x\left(e^{x}-1\right)^{-1} \) כאשר \( \left(e^{x}-1\right)^{-1} \) הוא טור החזקות ההופכי של \( e^{x}-1 \), דהיינו הטור שכשכופלים אותו ב-\( e^{x}-1 \) מקבלים \( 1 \). אבל, לצערנו, אין טור חזקות כזה. בשביל שטור חזקות יהיה “הפיך” במובן שציינתי, המקדם החופשי שלו צריך להיות הפיך - ובמקרה שלנו, המקדם החופשי של \( e^{x}-1 \) הוא 0 שאינו הפיך.

אבל לא הכל אבוד, אני לא באמת צריך הופכיים פה. מה שאני רוצה להגיד בביטוי \( \frac{x}{e^{x}-1}=f\left(x\right) \) הוא שמתקיים השוויון \( x=f\left(x\right)\left(e^{x}-1\right) \). אז אני אבדוק אם אני מסוגל להגדיר את \( f\left(x\right) \) כדי שהשוויון הזה יתקיים; אם אני מסוגל, אז אפשר יהיה להשתמש בסימון המקוצר \( \frac{x}{e^{x}-1} \) כמו קודם.

בואו נתחיל מלכתוב את \( f\left(x\right) \) בתור טור חזקות אקספוננציאלי כללי: \( f\left(x\right)=\sum_{k=0}^{\infty}b_{k}\frac{x^{k}}{k!} \). כרגע אני לא יודע שה-\( b_{k} \)-ים הללו הם מספרי ברנולי, או אפילו שאני יכול לבחור להם ערכים בצורה כזו שתצדיק את השוויון \( \frac{x}{e^{x}-1}=f\left(x\right) \), אבל אני כן יכול לקחת טור חזקות אקספוננציאלי כללי כלשהו, לתת למקדמים שלו את הסימון \( b_{k} \), לכפול אותו ב-\( e^{x}-1 \) ולראות מה קורה. נוסחת הכפל הרגילה של טורי חזקות אקספוננציאליים תקפה גם כאן:

\( c_{n}=\sum_{k=0}^{n}{n \choose k}a_{n-k}b_{k} \)

אצלנו \( a_{0}=0 \) ואילו \( a_{k}=1 \) לכל \( k>0 \) (כי החסרת 1 מ-\( e^{x} \) הורידה 1 מהאיבר במקום 0; אם למשל היינו רוצים להוריד 3 מהאיבר במקום 2 היינו צריכים לחסר \( 3x^{2} \)). בנוסחה \( c_{n}=\sum_{k=0}^{n}{n \choose k}a_{n-k}b_{k} \) אני מקבל את \( a_{0} \) כאשר \( k=n \) ולכן המקרה הזה אף פעם לא יופיע, ואני מקבל:

\( c_{n}=\sum_{k=0}^{n-1}{n \choose k}b_{k} \)

כלומר, עבור \( c_{0} \) אני מקבל סכום “ריק” ולכן \( c_{0}=0 \) תמיד, אין לי שליטה על זה (זו בדיוק הסיבה שבגללה \( e^{x}-1 \) לא הפיך). זו לא באמת בעיה, כי אנחנו רוצים לקבל את התוצאה \( x \), כלומר התוצאה שמתאימה למקרה שבו \( c_{1}=1 \) ואילו \( c_{n}=0 \) לכל \( n\ne1 \). אז מה באמת קורה עבור \( c_{1} \)?

\( c_{1}={1 \choose 0}b_{0}=b_{0} \)

זה מאלץ אותנו להגדיר \( b_{0}=1 \), אבל יופי - אם אנחנו מגדירים את \( b_{0}=1 \) אנחנו באמת מקבלים את הערך המבוקש של \( c_{1} \). מה עם היתר?

עבור \( c_{2} \) צריך להתקיים \( c_{2}=0 \), ואנחנו יודעים ש-

\( c_{2}={2 \choose 0}b_{0}+{2 \choose 1}b_{1} \)

כלומר:

\( 0=b_{0}+2b_{1} \)

כלומר:

\( b_{1}=-\frac{1}{2}b_{0}=-\frac{1}{2} \)

בינתיים זה מתקדם כמו שרצינו! באמת הגדרנו ש-\( b_{1}=-\frac{1}{2} \) בהגדרה שלנו למספרי ברנולי! אז יופי, בואו נעבור למקרה הכללי. נניח שכבר הגדרנו את \( b_{0},b_{1},\ldots,b_{n-1} \) בצורה כזו שבה כל המקדמים עד \( c_{n} \) קיבלו את הערך הנכון, ונטפל ב-\( c_{n+1}=0 \). על פי נוסחת המכפלה, אנחנו יודעים ש-

\( c_{n+1}=\sum_{k=0}^{n}{n+1 \choose k}b_{k} \)

נציב \( c_{n+1}=0 \) וכמו כן נפריד את \( b_{n} \) מכל היתר:

\( 0={n+1 \choose n}b_{n}+\sum_{k=0}^{n-1}{n+1 \choose k}b_{k} \)

עכשיו, \( {n+1 \choose n}=n+1 \) ולכן אחרי העברת אגפים וחלוקה:

\( b_{n}=-\frac{1}{n+1}\sum_{k=0}^{n-1}{n+1 \choose k}b_{k} \)

וזו בדיוק, אבל בדיוק, הנוסחה עבור מספרי ברנולי:

\( B_{n}=-\frac{1}{n+1}\sum_{k=0}^{n-1}{n+1 \choose k}B_{k} \)

מה שמשיג את שתי המטרות שלנו: הראנו שבאמת קיימת פונקציה \( f\left(x\right) \) כך ש-\( f\left(x\right)\left(e^{x}-1\right)=x \) למרות ש-\( e^{x}-1 \) לא הפיכה, והראינו שהמקדמים של הפונקציה היוצרת האקספוננציאלית שלה הם מספרי ברנולי \( B_{k} \), ולכן אפשר לכתוב

\( \frac{x}{e^{x}-1}=\sum_{k=0}^{\infty}B_{k}\frac{x^{k}}{k!} \)

כפי שרצינו.

האם סיימנו? כמעט. אני עדיין רוצה להסביר את הפורמליות שמאחורי יתר נפנופי הידיים שביצעתי. בואו ניזכר מה בדיוק קרה שם:

הגעתי איכשהו אל הפונקציה היוצרת \( e^{0x}+\ldots+e^{\left(n-1\right)x} \)
טענתי ש-\( e^{0x}+\ldots+e^{\left(n-1\right)x}=\frac{e^{nx}-1}{e^{x}-1} \)
טענתי ש-\( \frac{e^{nx}-1}{e^{x}-1}=\frac{e^{nx}-1}{x}\frac{x}{e^{x}-1} \)

אלו טענות “מפוקפקות” כי הן מחלקות בדברים שאין להם הופכי (גם \( e^{x}-1 \) וגם \( x \)). אז בואו ננסח אותן מחדש בצורה פורמלית יותר אם כי אינטואיטיבית פחות.

כבר ראיתי שיש פונקציה \( f\left(x\right)=\frac{x}{e^{x}-1} \), כלומר פורמלית זה טור חזקות שמקיים \( \left(e^{x}-1\right)f\left(x\right)=x \).

בנוסף, ראיתי שיש \( g\left(x\right)=\frac{e^{nx}-1}{x} \), כלומר פורמלית זה טור חזקות שמקיים \( xg\left(x\right)=e^{nx}-1 \).

בנוסף, במקום להשתמש בנוסחת הטור ההנדסי אפשר לתאר את הסיטואציה בעזרת כפל בלבד, כלומר להישאר ברמת הטור הטלסקופי: \( \left(e^{x}-1\right)\left(e^{0x}+\ldots+e^{\left(n-1\right)x}\right)=e^{nx}-1 \).

עכשיו אני יכול לעשות שרשרת של הצבות:

\( \left(e^{x}-1\right)\left(e^{0x}+\ldots+e^{\left(n-1\right)x}\right)=e^{nx}-1=xg\left(x\right)=\left(e^{x}-1\right)f\left(x\right)g\left(x\right) \)

וכאן מגיע להטוט אחד אחרון: באופן כללי, בכל חוג שהוא תחום שלמות (כלומר, אין בו מחלקי אפס - איברים שונים מאפס שכשכופלים אותם מקבלים אפס) אפשר תמיד לצמצם: אם יש לי \( ab=ac \) עבור \( a\ne0 \) אז נובע מכך \( b=c \) אפילו אם \( a \) לא הפיך, פשוט כי אני מסתכל על \( a\left(b-c\right)=0 \) ובגלל שאני בתחום שלמות ו-\( a\ne0 \) אז \( b-c=0 \) כלומר \( b=c \). זה בדיוק מה שאני אשתמש בו למעלה כדי להיפטר מה-\( e^{x}-1 \) המשותף, ולקבל את השוויון הפורמלי לחלוטין:

\( e^{0x}+\ldots+e^{\left(n-1\right)x}=f\left(x\right)g\left(x\right) \)

מה שמסיים את ההוכחה.

הסיפור של מספרי ברנולי לא נגמר כאן - יש עוד כל מני דברים מעניינים להראות עליהם, אבל עם סיום התוצאה הבסיסית הזו הגענו אל נקודה טובה לעצור בה לבינתיים.

איך מחשבים דטרמיננטה עם אלגוריתם בריס?

2024-12-14T00:00:00+00:00

חלק ראשון, שבו אנחנו לומדים שמינוס 32 הוא כמעט 256

בפוסט הקודם שלי על דטרמיננטות הסברתי איך מחשבים אותן. הצגתי שתי דרכים: אחת שהולכת דרך ההגדרה הרקורסיבית והיא מאוד לא יעילה לחישוב, ואחת שמבצעת פישוט למטריצה שרוצים לחשב את הדטרמיננטה שלה והיא משמעותית יותר יעילה. יש שיטות שהן אפילו יעילות יותר, אבל בפוסט הזה אני רוצה לקחת צעד אחד אחורה דווקא ולהציג שיטה יעילה פחות, אבל עם יתרון נחמד אחד: אם האיברים של המטריצה הם כולם מספרים שלמים, אנחנו לא נזדקק לשברים במהלך כל החישוב. למה זה טוב? תכף אתן דוגמא פשוטה.

ראשית, בואו נבין מה באלגוריתם ה”יעיל” מכריח את השברים להיכנס למשחק. בואו נסתכל במטריצה הבאה:

\( \left[\begin{array}{ccc} 2 & 1 & 3\\ 3 & 1 & 6\\ 4 & 1 & 8 \end{array}\right] \)

האלגוריתם מבוסס על כך שאנחנו עוברים עמודה-עמודה, ובכל פעם אנחנו משתמשים באיבר כלשהו מהעמודה כדי לאפס את כל האיברים שאחריו בעמודה - זה הופך את חישוב הדטרמיננטה לפשוט כי כאשר מפתחים את הדטרמיננטה לפי עמודות, יוצא שבכל פעם יש רק איבר אחד בכל עמודה שצריך לפתח לפיו, ולכן מה שהוא בדרך כלל חישוב רקורסיבי מסובך שמתפצל להרבה מקרים לא מתפצל בכלל. כדי לאפס איברים בעמודה משתמשים בתוצאה המרהיבה לפיה אם לוקחים שורה במטריצה, ומחברים אותה עם שורה אחרת כשהיא מוכפלת בסקלר כלשהו, התוצאה היא בעלת אותה דטרמיננטה כמו המטריצה המקורית. למשל, אם במטריצה לעיל אני אקח את השורה הראשונה, אכפול אותה ב-\( -2 \) ואחבר לשורה האחרונה, אני אקבל את המטריצה

\( \left[\begin{array}{ccc} 2 & 1 & 3\\ 3 & 1 & 6\\ 0 & -1 & 2 \end{array}\right] \)

והמטריצה הזו היא בעלת אותה דטרמיננטה בדיוק כמו המטריצה שהתחלתי ממנה, והנה - קיבלתי אפס בעמודה הראשונה. הבעיה היא שכדי להיפטר מה-3 שבשורה האמצעית אני צריך לכפול את השורה הראשונה במשהו שאינו מספר שלם - ב-\( -\frac{3}{2} \), מה שמוביל אותי למטריצה הבאה:

\( \left[\begin{array}{ccc} 2 & 1 & 3\\ 0 & -\frac{1}{2} & \frac{3}{2}\\ 0 & -1 & 2 \end{array}\right] \)

וזהו, עכשיו יש לי שברים בתוך המטריצה, למרות שהתחלתי עם מטריצה שכולה מספרים שלמים ולמרות שגם התוצאה תהיה מספר שלם. כדי לראות שהתוצאה תהיה מספר שלם מספיק להיזכר באופן שבו דטרמיננטה מוגדרת רקורסיבית: אנחנו מקבלים סכום של איברים שכל אחד מהם שייך למטריצה (כלומר הוא מספר שלם) שמוכפל ב-\( \pm1 \) (מספר שלם) וזה מוכפל בדטרמיננטה של תת-מטריצות שמתקבלות מהמטריצה המקורית על ידי מחיקת שורות ועמודות (ולכן גם בהן יש מספרים שלמים). לי הסיטואציה הזו טיפה מזכירה את המקרה של ה-Casus irreducibilis בפתרון משוואות ממעלה שלישית (יש לי פוסט על זה): שם העניין הוא שיש לנו משוואה פולינומית עם מקדמים שהם מספרים ממשיים, והפתרונות שלה כולם מספרים ממשיים, אבל בלי לעבור “דרך” המספרים המרוכבים (כלומר, להוציא שורש ריבועי למספר שלילי) לא נוכל לכתוב את הפתרונות הללו באמצעות נוסחה. אלא שיש הבדל מהותי - במקרה ההוא חייבים לעבור דרך המרוכבים (יש לזה הוכחה די מרהיבה באמצעות תורת גלואה שאני מראה בפוסט ההוא) אבל במקרה שלנו זה לא הכרחי. יש דרכים אחרות לחשב את הדטרמיננטה גם בלי להכניס שברים למשחק. כבר ראינו אחת: לחשב את הדטרמיננטה באמצעות האלגוריתם הרקורסיבי, אלא שזה כאמור פשוט לא יעיל ולכן בפוסט הזה אני אציג את מה שנקרא “האלגוריתם של ברייס” (Bareiss) ששומר על הכל שלם והנזק שהוא גורם לזמן הריצה הוא לא כזה משמעותי (אבל יש נזק; זה בהחלט אלגוריתם שבעייתי בשלל סיטואציות ולכן טוב שמכירים אותו וגם שיטות אחרות).

בואו נדבר שניה על המוטיבציה האישית שלי לכתוב את הפוסט כדי להבין למה לא כדאי לסמוך בעיניים עצומות על השיטות הקיימות ולמה לפעמים חשוב לדבוק במספרים שלמים במקום בשברים. נסיבות אלו ואחרות הובילו אותי לחשב דטרמיננטה של מטריצה \( 5\times5 \), שנותנת לנו את הנפח של טטרהדרון (פירמידה עם בסיס משולש) שאורכי הצלעות שלו נתונים על ידי \( d_{ij} \) עבור \( 1\le i,j\le4 \). הנפח \( V \) נתון באמצעות

\( 288V^{2}=\left|\begin{array}{ccccc} 0 & 1 & 1 & 1 & 1\\ 1 & 0 & d_{12}^{2} & d_{13}^{2} & d_{14}^{2}\\ 1 & d_{21}^{2} & 0 & d_{23}^{2} & d_{24}^{2}\\ 1 & d_{31}^{2} & d_{32}^{2} & 0 & d_{34}^{2}\\ 1 & d_{41}^{2} & d_{42}^{2} & d_{43}^{2} & 0 \end{array}\right| \)

הדטרמיננטה הזו נקראת דטרמיננטת קיילי-מנגר והיא ראויה לפוסט בפני עצמה (היא עושה יותר מאשר לחשב נפח של טטרהדרון) והאמת העצובה היא שהדרך הכי פשוטה לחשב אותה היא פשוט להשתמש בנוסחה הרקורסיבית - זו בסך הכל מטריצת \( 5\times5 \), הרקורסיה תסתיים כמעט מייד, ואין צורך באלגוריתם שאני הולך להציג - אבל את זה נזכרתי לנסות רק אחרי שכבר מימשתי את האלגוריתם (כי על מי אני עובד, כל כך התלהבתי מהאלגוריתם שהייתי חייב לממש אותו בכל מקרה). אבל למה היא גרמה לי להגיע אל אלגוריתם בריס מלכתחילה? ובכן, כי עשיתי את הטעות של לחשב אותה באמצעות numpy. מבלי להיכנס לפרטים, המטרה שלי הייתה למצוא אורכי צלעות שעבורם הדטרמיננטה תהיה שווה בדיוק ל-256. עכשיו, בואו נניח שיש לנו מספר שלם \( n \) כלשהו ואנחנו מסתכלים על הדטרמיננטה

\( \left|\begin{array}{ccccc} 0 & 1 & 1 & 1 & 1\\ 1 & 0 & 1 & n^{2} & n^{2}\\ 1 & 1 & 0 & \left(n-1\right)^{2} & \left(n-1\right)^{2}\\ 1 & n^{2} & \left(n-1\right)^{2} & 0 & 4\\ 1 & n^{2} & \left(n-1\right)^{2} & 4 & 0 \end{array}\right| \)

שהיא מקרה פרטי של הדטרמיננטה לעיל עבור סדרת האורכים \( 1,n,n,n-1,n-1,2 \). אם מחשבים את הדטרמיננטה בצורה סימבולית (כלומר, פשוט פותחים את הביטוי, מקבלים פולינום ב-\( n \) ומפשטים אותו) מקבלים \( -32 \), כלומר הערך של הדטרמיננטה הזו לא תלוי ב-\( n \). למי שתוהים איך עושים את זה במחשב בלי לעבור את התהליך המהנה של לחשב ידנית דטרמיננטה \( 5\times5 \), אפשר לעשות את זה עם ספריית הפייתון sympy:

import sympy as sp

n = sp.symbols('n')
matrix = sp.Matrix([
    [0, 1, 1, 1, 1],
    [1, 0, 1, n**2, n**2],
    [1, 1, 0, (n-1)**2, (n-1)**2],
    [1, n**2, (n-1)**2, 0, 4],
    [1, n**2, (n-1)**2, 4, 0]
])
determinant = matrix.det()
print(sp.simplify(determinant))

טוב ויפה, אלא שאני לא השתמשתי ב-sympy כי בדקתי שלל דטרמיננטות משלל סוגים ולא רק מהמבנה הספציפי הזה שאותו מצאתי אחר כך. ספציפית, אני בדקתי את הדטרמיננטה שמתקבלת עבור הערך \( n=524,283 \) וחישבתי אותו בעזרת הספריה הסטנדרטית לחישובים נומריים בפייתון - numpy. ומה ש-numpy נתנה הוא את התוצאה \( 255.99999991524982 \).

במבט ראשון, התוצאה הזו היא “זה 256, פשוט numpy משתמשת בייצוג שברים עם נקודה צפה ולכן יש אי דיוקים קטנים”. אבל לא! זו דרך טובה לעבוד על עצמנו! כי אם אני מכניס \( n=524,283 \) ואז עוד מעלה דברים בריבוע, אני עובד עם מספרי ענק ולכן יש לי שגיאות דיוק גדולות, וחישובים שקשורים במטריצות יכולים להיות מאוד רגישים לשגיאות דיוק, וזה מתנפח ומתנפח. התוצאה, כאמור, הייתה אמורה להיות \( -32 \); זה שהגענו אל כמעט 256 זה סתם מקרה (על ידי ערכים שונים של \( n \) אפשר להגיע קרוב לשלל מספרים שלמים לא קשורים, פשוט 256 היה מה שחיפשנו). הנה קוד פייתון שמשתמש ב-numpy ומאפשר לראות מה הולך פה. עבור \( n=1 \) החישוב מדויק כמעט לחלוטין, וכך גם עבור \( n=10,000 \); אבל כשהוא נשבר, הוא נשבר חזק.

import numpy as np
for n in [1, 10000, 524283]:
    A = np.array([[0, 1,    1,        1,        1],
                  [1, 0,    1,        n**2,     n**2],
                  [1, 1,    0,        (n-1)**2, (n-1)**2],
                  [1, n**2, (n-1)**2, 0,         4],
                  [1, n**2, (n-1)**2, 4,         0]]
                  )
    print(np.linalg.det(A))

הבעיה פה היא כאמור ש-numpy מייצג שברים בשיטת הנקודה הצפה, ולכן יש לו רמת דיוק מוגבלת, בעוד שבפייתון יש רמת דיוק בלתי מוגבלת לעבודה עם מספרים שלמים. אז מכיוון שחשדתי ש-numpy מרמה אותי החלטתי שאני לא צריך להתעצל ולהסתמך עליו או אפילו לחפש ספריה אחרת שמבצעת את החישוב (כי אולי גם היא תרמה אותי?) אלא פשוט לממש את זה בעצמי. עכשיו, הייתי יכול להשתמש באלגוריתם הרקורסיבי הנאיבי; וגם הייתי יכול להשתמש בשיטה מבוססת השברים שראינו, ופשוט להשתמש בספריה frac בפייתון שמאפשרת ייצוג של שברים עם דיוק לא מוגבל. אבל באותו הרגע הדבר הראשון שעלה לי לראש היה לחפש “אלגוריתם לחישוב דטרמיננטה שלא משתמש בשברים” ואני שמח שזה קרה כי אלגוריתם בריס הוא די מגניב גם אם הייתי יכול להסתדר בלעדיו.

אז בואו נדבר עליו סוף סוף.

חלק שני שבו אנו רואים את מה שלשמו התכנסנו פה

קודם כל, מה אלגוריתם בריס לא עושה: הוא לא מעביר את המטריצה \( A \) שלנו למטריצה אחרת \( B \) כך ש-\( \left|A\right|=\left|B\right| \), כמו האלגוריתם היעיל שהצגתי. זה לא הולך לקרות. אני כן הולך להפוך את \( A \) למטריצה אחרת \( B \), אבל יהיו להן דטרמיננטות שונות לגמרי והרעיון הוא שבסיום האלגוריתם, \( \left[B\right]_{nn} \) (הכניסה הימנית-תחתונה של \( B \)) תהיה שווה ל-\( \left|A\right| \). יותר מכך - אין בעצם סיבה להציג את האלגוריתם בתור אוסף של שינויים של המטריצה \( A \) (ובמאמר שלו עליו אני מתבסס כאן, Sylvester’s Identity and Multistep Integer Preserving Gaussian Elimination, בריס באמת לא מציג אותו ככה). אפשר לחשוב על האלגוריתם גם ככה: אם בהתחלה האיבר הכללי של \( A \) הוא \( a_{ij} \) (עבור \( 1\le i,j\le n \)) אז האלגוריתם מייצר סדרה של איברים \( a_{ij}^{\left(0\right)},a_{ij}^{\left(1\right)},\ldots a_{ij}^{\left(n-1\right)} \) כך שבסופו של דבר יוצא ש-\( a_{nn}^{\left(n-1\right)}=\left|A\right| \). ה”חזקה” של האיברים היא לא חזקה אלא אינדקס של השלב באלגוריתם שבו אנחנו נמצאים כרגע, והאתחול הוא \( a_{ij}^{\left(0\right)}=a_{ij} \). בפועל, כשמממשים את האלגוריתם, הכי נוח באמת לבצע שינויים מקומיים ב-\( A \) כדי לשמור את המספרים של השלב הבא - זה חוסך זיכרון.

אז איך עובד האלגוריתם? אין שום טעם להציג אותו כרגע כי לא נבין כלום ממה שהולך שם. זה לא הולך למנוע ממני להציג אותו בכל מקרה כי זה לפחות יוצר עניין - אני קודם כל מימשתי את האלגוריתם ורק אז תהיתי למה בעצם זה עובד. הרעיון, כאמור, הוא לעבוד בשלבים, כשבשלב מספר \( k \) אנחנו מעדכנים את המספרים \( a_{ij}^{\left(k\right)} \) שעדיין רלוונטיים לנו (כמו בחישוב דטרמיננטה רגיל, ככל שמתקדמים בשלבים כך פחות ופחות איברים הופכים לרלוונטיים לנו.

הנה האלגוריתם:

אתחל את המשתנים \( a_{ij}^{\left(0\right)}=a_{ij} \) לכל \( 1\le i,j\le n \) ואת המשתנה המיוחד \( a_{00}^{\left(-1\right)}=1 \).
לכל \( k=1,2,\ldots,n-1 \):

לכל \( k+1\le i,j\le n \), קבעו \( a_{ij}^{\left(k\right)}\leftarrow\frac{a_{ij}^{\left(k-1\right)}a_{kk}^{\left(k-1\right)}-a_{ik}^{\left(k-1\right)}a_{kj}^{\left(k-1\right)}}{a_{k-1,k-1}^{\left(k-2\right)}} \)

החזירו את \( a_{nn}^{\left(n-1\right)} \)

בקיצור, האלגוריתם די דומה למה שקורה באלגוריתם הרגיל - גם פה פשוט מעדכנים באופן סדרתי כניסות עם כל מני מכפלות וחיסורים ו… רגע… האם זה רק אני או שיש סימן חילוק ענקי באמצע האלגוריתם? איך בדיוק פתרנו את הבעיה? ובכן, הרעיון הוא שבסימן החילוק שמופיע שם, המכנה מחלק את המונה בלי שארית. במילים אחרות - אנחנו צריכים לבצע פעולת חילוק, אבל פעולת חילוק שלמים שיכולה להיות מדויקת, ובשום שלב אנחנו לא צריכים לעבוד עם מספר שהוא שבר (אם תקראו את הפוסט עד כה תראו שנמנעתי בזהירות מלטעון דברים מופרכים כמו “האלגוריתם לא מבצע חילוק”).

אוקיי, אבל למה זה עובד? במאמר שלו שעליו אני מתבסס כאן, בריס מביא טיעון לא טריוויאלי, שאולי היה אפשר להחליף בטיעונים אלמנטריים יותר (יש לבריס מאמר מוקדם יותר שבו יש טיעונים כאלו) אבל אני דווקא מאוד אוהב את הטכניקה שלו, אז בואו נראה אותה במלואה.

חלק שלישי שבו קורים קסמים עם מטריצות בלוקים

באלגוריתם שהצגתי, \( a_{ij}^{\left(k\right)} \) חושב באמצעות תרגיל מפוקפק כלשהו (שבמסגרתו הבטחתי שתתבצע חלוקה ללא שארית). זה לא ממש עוזר לנו להבין מה הולך פה, אז מה שנרצה לעשות הוא למצוא דרך טובה יותר להגדיר את הערכים של אותם \( a_{ij}^{\left(k\right)} \) מלכתחילה. ההגדרה תיראה די משונה אם פשוט אציג אותה, אז בואו נוכיח תוצאה כללית כלשהי קודם.

משהו שלא דיברתי עליו בכלל עד כה בפוסטים הללו הוא שדרך נוחה להתמודד עם מטריצות היא לפעמים לחלק אותן לבלוקים. כל מטריצה ריבועית \( A \) מסדר \( n\times n \) אפשר להציג בתור \( A=\left(\begin{array}{cc} A_{11} & A_{12}\\ A_{21} & A_{22} \end{array}\right) \) כך ש-\( A_{11} \) היא מטריצה מסדר \( k\times k \) שכוללת את מה שמקבלים אם מעתיקים מ-\( A \) את כל הכניסות מהצורה \( a_{ij} \) עבור \( 1\le i,j\le k \). גם שאר המטריצות נקבעות בצורה דומה: \( A_{12} \) תהיה מסדר \( k\times\left(n-k\right) \), \( A_{21} \) תהיה מסדר \( \left(n-k\right)\times k \) ו-\( A_{22} \) תהיה מסדר \( \left(n-k\right)\times\left(n-k\right) \), אבל בואו נתמקד לרגע ב-\( A_{11} \). זו המטריצה

\( A_{11}=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1k}\\ a_{21} & a_{22} & & a_{2k}\\ \vdots & & \ddots & \vdots\\ a_{k1} & a_{k2} & \cdots & a_{kk} \end{array}\right) \)

מטריצה כזו, שמתקבלת מ-\( A \) על ידי לקיחת \( k \) השורות והעמודות הראשונות ומחיקת כל היתר, נקראת לפעמים המינור העיקרי (principle) מסדר \( k \) של המטריצה. אני הולך להניח שהוא הפיך, כלומר \( \left|A_{11}\right|\ne0 \); בהמשך נראה מה קורה כשזה לא המצב (רמז: האלגוריתם שהצגתי קודם עדיין לא שלם). אם הוא לא הפיך, זה נותן לנו פירוק פשוט יחסית של \( A \) למכפלה של שתי מטריצות בלוקים אלכסוניות:

\( A=\left(\begin{array}{cc} A_{11} & A_{12}\\ A_{21} & A_{22} \end{array}\right)=\left(\begin{array}{cc} A_{11} & 0\\ A_{21} & I \end{array}\right)\left(\begin{array}{cc} I & A_{11}^{-1}A_{12}\\ 0 & A_{22}-A_{21}A_{11}^{-1}A_{12} \end{array}\right) \)

מה הולך כאן? במבט ראשון זה נראה מבעית, אבל בעצם יש כאן שתי שאלות פשוטות יחסית:

כשכופלים מטריצות בלוקים, האם חוקי כפל המטריצות הרגילים עדיין תקפים כמו קודם?
אם מניחים שכן, האם החישוב של המכפלה למעלה באמת מחזיר את \( A \)?

בואו נענה קודם לשאלה השניה - כמובן. כדי לוודא שאין בעיה עם זה, אני אחשב את כל ארבע הכניסות

הכניסה של \( A_{11} \): מתקבלת מכפל השורה הראשונה בעמודה הראשונה, כלומר \( A_{11}\cdot I+0\cdot0=A_{11} \).
הכניסה של \( A_{12} \): מתקבלת מכפל השורה הראשונה בעמודה השניה, כלומר \( A_{11}\cdot\left(A_{11}^{-1}A_{12}\right)+0\cdot\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right)=A_{12} \)
הכניסה של \( A_{21} \): מתקבלת מכפל השורה השניה בעמודה הראשונה, כלומר \( A_{21}\cdot I+I\cdot0=A_{21} \).
הכניסה של \( A_{22} \): מתקבלת מכפלה השורה השניה בעמודה השניה, כלומר \( A_{21}\cdot A_{11}^{-1}A_{12}+I\cdot A_{22}-A_{21}A_{11}^{-1}A_{12}=A_{22} \)

כל זה אולי נראה קצת מהונדס מדי כדי שהכל יעבוד, אבל זה כמובן עובד. השאלה היותר מהותית היא למה בכלל מותר לכפול מטריצות בלוקים - וכמו הרבה דברים באלגברה לינארית בסיסית זו תוצאה שאני גם מניח שכולנו מכירים והיא גם די טכנית להוכחה, אז אני לא אוכיח אותה כאן אבל אין כאן חוכמה מיוחדת - אם אתם סקפטיים, נסו להוכיח אותה על שתי מטריצות קטנות קונקרטיות ותראו מה קורה.

עכשיו, מה שנחמד בפירוק המוזר הזה של \( A \) למכפלה של שתי מטריצות בלוקים הוא שזה ממשיך לעבוד כשלוקחים דטרמיננטה. כזכור, דטרמיננטה של מכפלה היא מכפלת הדטרמיננטות; וכשיש לנו מטריצת בלוקים \( \left(\begin{array}{cc} A & 0\\ C & D \end{array}\right) \) הדטרמיננטה שלה היא \( \left|A\right|\left|D\right| \) (ובאופן דומה כשה-0 הוא במקום \( C \)), כך שנקבל:

\( \left|A\right|=\left|\left(\begin{array}{cc} A_{11} & 0\\ A_{21} & I \end{array}\right)\right|\left|\left(\begin{array}{cc} I & A_{11}^{-1}A_{12}\\ 0 & A_{22}-A_{21}A_{11}^{-1}A_{12} \end{array}\right)\right|= \)

\( \left|A_{11}\right|\left|A_{22}-A_{21}A_{11}^{-1}A_{12}\right| \)

עכשיו משתמשים בטריק: כופלים את שני האגפים בסקלר \( \left|A_{11}\right|^{n-k-1} \) ומקבלים

\( \left|A_{11}\right|^{n-k-1}\left|A\right|=\left|\left|A_{11}\right|\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right)\right| \)

זה יכול להיות די מבלבל, הנה מה שקרה פה: באופן כללי, אם יש לי מטריצה \( B \) ואני כופל שורה כלשהי שלה בסקלר, זה מכפיל את כל הדטרמיננטה באותו סקלר. כדי להוכיח את זה אפשר להשתמש באותה טכניקה שראינו בפוסט הקודם: כפל שורה בסקלר זה כמו כפל במטריצת יחידה \( I \) שאחד מה-1-ים על האלכסון שלה הוחלף בסקלר הבודד \( \lambda \), והדטרמיננטה של מטריצה כזו היא \( \lambda \) כי היא הרי מכפלת הערכים על האלכסון.

עכשיו, מה קורה אם כופלים את כל השורות של \( B \) באותו סקלר, כלומר אם פשוט כפלנו את כל המטריצה \( B \) בסקלר הזה? אם \( B \) היא מטריצה מסדר \( n\times n \) זה אומר שכפלנו את הדטרמיננטה \( n \) פעמים בסקלר \( \lambda \), אז יש לנו את המשוואה \( \left|\lambda B\right|=\lambda^{n}\left|B\right| \).

אם נחזור עכשיו למה שעשינו למעלה - יש לנו את המטריצה \( B=A_{22}-A_{21}A_{11}^{-1}A_{12} \). הסדר של המטריצה הזו הוא \( \left(n-k\right)\times\left(n-k\right) \) ולכן \( \lambda^{n-k}\left|B\right|=\left|\lambda B\right| \). אצלנו \( \lambda=\left|A_{11}\right| \), ואנחנו מקבלים אותו בחזקת \( n-k \) כי בהתחלה הוא הופיע פעם אחת באגף ימין ואז כפלנו ב-\( \lambda^{n-k-1} \). זה מסביר את המעבר הזה.

חלק רביעי, שבו אנו חוזים בשובם של המספרים מהאלגוריתם

עכשיו הגענו לקאץ’: אני אראה שהאיברים של המטריצה \( \left|A_{11}\right|\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right) \) שאליה הגענו הם בעצם ה-\( a_{ij}^{\left(k\right)} \) שמופיעים בשלבי הביניים של האלגוריתם. ראשית, בואו נגדיר את ה-\( a_{ij}^{\left(k\right)} \) הללו במפורש, מה שעד כה נמנעתי מלעשות:

\( a_{ij}^{\left(k\right)}=\left|\begin{array}{ccccc} a_{11} & a_{12} & \cdots & a_{1k} & a_{1j}\\ a_{21} & a_{22} & \cdots & a_{2k} & a_{2j}\\ \cdots & \cdots & \cdots & \cdots & \cdots\\ a_{k1} & a_{k2} & \cdots & a_{kk} & a_{kj}\\ a_{i1} & a_{i1} & \cdots & a_{ik} & a_{ij} \end{array}\right| \) עבור \( k<i,j\le n \)

מה קורה פה? ראשית לוקחים את המטריצה \( A_{11} \) שמתקבלת מ-\( A \) המקורית על ידי לקיחת \( k \) השורות והעמודות הראשונות. עכשיו, מוסיפים שורה חדשה - את שורה מס’ \( i \), כאשר \( k<i \) כלומר זו אחת מהשורות שלא הופיעו במטריצה קודם. אנחנו לא מוסיפים את כל השורה אלא רק את \( k \) העמודות הראשונות שלה. אחר כך אנחנו מוסיפים עמודה \( j \) כך ש-\( k<j \) וגם כאן - לא את כל העמודה, רק את \( k \) השורות הראשונות שלה. לסיום, אחרי שהוספנו את השורה והעמודה עוד נותר מקום ריק אחד בקצה הימני-תחתון של המטריצה, ושם אנחנו שמים את \( ij \).

למה שנגדיר ככה? במאמר המקורי שלו בריס מגיע אל המטריצה הזו בדרך שונה וטכנית יותר - אני דווקא מעדיף את הדרך שבה נוקטים כאן, למרות שהיא נראית כמו קסם (במתמטיקה אין קסמים; כל הגדרה קסומה מגיעה אחרי שמישהו שבר את הראש על הבעיה הרבה זמן וניסה הרבה דברים).

עכשיו, הדטרמיננטה הזו נראית קצת מפחידה אבל כבר ראינו דרך להתמודד איתה - אם שמים לב שיש לנו כאן דטרמיננטה של מטריצת בלוקים. הבלוקים הם בדיוק ארבעת הדברים שתיארתי: המטריצה \( A_{11} \) שממנה מתחילים, השורה שהוספתי למטה, העמודה שהוספתי משמאל, וה-\( a_{ij} \) שהוספתי למטה. כלומר יש לנו כאן את מטריצת הבלוקים

\( B=\left(\begin{array}{cc} B_{11} & B_{12}\\ B_{21} & B_{22} \end{array}\right) \)

כך ש-\( B_{11}=A_{11} \), \( B_{12}=\left(a_{1j},\ldots,a_{kj}\right)^{t},B_{21}=\left(a_{i1},\ldots,a_{ik}\right) \) ו-\( B_{22}=\left(a_{ij}\right) \).

ראינו את הנוסחה

\( \left|B\right|=\left|B_{11}\right|\left|B_{22}-B_{21}B_{11}^{-1}B_{12}\right| \)

כאן \( \left|B\right|=a_{ij}^{\left(k\right)} \) כי \( a_{ij}^{\left(k\right)} \) הוגדר בתור הדטרמיננטה של המטריצה הזו. קצת יותר מעניין מה זה \( B_{21}B_{11}^{-1}B_{12} \) - זה כפל של מטריצה (\( A_{11}^{-1} \)) במטריצת עמודה מימין ומטריצת שורה משמאל - התוצאה היא סקלר, וחישוב ישיר על פי ההגדרה של כפל מטריצות נותן ש-

\( B_{21}B_{11}^{-1}B_{12}=\sum_{r=1}^{k}\sum_{s=1}^{k}a_{ir}\left[A_{11}^{-1}\right]_{rs}a_{sj} \)

ולכן משילוב כל הדברים הללו אנחנו מקבלים

\( a_{ij}^{\left(k\right)}=\left|A_{11}\right|\left(a_{ij}-\sum_{r=1}^{k}\sum_{s=1}^{k}a_{ir}\left[A_{11}^{-1}\right]_{rs}a_{sj}\right) \)

מה שיש לנו באגף שמאל הוא בדיוק את האיבר ה-\( ij \) של המטריצה \( \left|A_{11}\right|\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right) \), אם כי צריך קצת להיזהר עם האינדקסים כדי לראות את זה כי המטריצה הזו מתחילה לא מהאינדקס \( 1,1 \) אלא מהאינדקס \( k+1,k+1 \).

איך זה עוזר לנו? ובכן, קודם כל שימו לב שכמו שאמרתי קודם - המינורים העיקריים של \( A \) מתקבלים ככה. ממש על פי ההגדרה, מתקיים \( \left|A_{11}\right|=a_{kk}^{\left(k-1\right)} \), כי \( A_{11} \) מתקבלת מלקיחת \( k \) השורות והעמודות הראשונות ואילו המטריצה שבה משתמשים לחישוב \( a_{kk}^{\left(k-1\right)} \) מתקבלת מלקיחת \( k-1 \) השורות והעמודות הראשונות ואז הוספה אליהן של השורה והעמודה הבאות בתור.

לכן אני יכול ללכת אל הנוסחה שהוכחתי קודם:

\( \left|A_{11}\right|^{n-k-1}\left|A\right|=\left|\left|A_{11}\right|\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right)\right| \)

ולהציב בתוכה את \( \left|A_{11}\right|=a_{kk}^{\left(k-1\right)} \) מצד אחד, ואילו בצד השני יש לנו כאמור את המטריצה \( \left|A_{11}\right|\left(A_{22}-A_{21}A_{11}^{-1}A_{12}\right) \) שהאיברים שלה הם בדיוק ה-\( a_{ij}^{\left(k\right)} \) עבור \( k<i,j\le n \), ולכן קיבלנו את הנוסחה

\( \left|A\right|\left[a_{kk}^{\left(k-1\right)}\right]^{n-k-1}=\left|\begin{array}{ccc} a_{k+1,k+1}^{\left(k\right)} & \cdots & a_{k+1,n}^{\left(k\right)}\\ \cdots & \cdots & \cdots\\ a_{n,k+1}^{\left(k\right)} & \cdots & a_{n,n}^{\left(k\right)} \end{array}\right| \)

את הנוסחה הזו הוכחנו לכל מטריצה \( A \) (עם ההנחה שהמינור העיקרי שלה, מה שסימנתי ב-\( A_{11} \), הוא מדטרמיננטה שונה מאפס), אז אפשר להשתמש בה גם עבור המטריצה שאיתה הגדרנו את \( a_{ij}^{\left(k\right)} \), כלומר המטריצה שמורכבת מהמינור העיקרי \( A_{11} \) ואז עוד שורה ועמודה. צריך קצת להיזהר עם האינדקסים: עד עכשיו השתמשתי ב-\( k \) כדי לציין אינדקס כלשהו, \( 1\le k\le n \) שמתאים למינור העיקרי שבו מטפלים באותו הרגע, אבל עכשיו כשאני רוצה להשתמש בנוסחה הזו כדי לטפל ב-\( a_{ij}^{\left(k\right)} \) ולכן יש לי חופש בחירה של המינור העיקרי שלו שאנחנו בוחרים, צריך להשתמש באינדקס אחר - במאמר שלו ברייס משתמש ב-\( l \), ואז מקבלים

\( a_{ij}^{\left(k\right)}\left[a_{ll}^{\left(l-1\right)}\right]^{\left(k+1\right)-l-1}=\left|\begin{array}{cccc} a_{l+1,l+1}^{\left(l\right)} & \cdots & a_{l+1,k}^{\left(l\right)} & a_{l+1,j}^{\left(l\right)}\\ \cdots & \cdots & \cdots & \cdots\\ a_{k,l+1}^{\left(l\right)} & \cdots & a_{k,k}^{\left(l\right)} & a_{k,j}^{\left(l\right)}\\ a_{i,l+1}^{\left(l\right)} & \cdots & a_{i,k}^{\left(l\right)} & a_{i,j}^{\left(l\right)} \end{array}\right| \)

הסיבה לכך שיש \( k+1 \) בחזקה באגף שמאל הוא שזה הסדר של המטריצה שמגדירה את \( a_{ij}^{\left(k\right)} \) (כי לקחנו מטריצה \( k\times k \) והוספנו לה שורה ועמודה). השינוי באיך שאני מציג את האיברים בתוך הדטרמיננטה באגף ימין (עוד שורה ועמודה) הוא רק כדי שיהיה יותר קל להבין מה קורה, בגלל שהמבנה של השורה והעמודה האחרונות במטריצה הוא שונה מאשר עבור יתר הכניסות.

עכשיו, תחת ההנחה שלנו על כך שהדטרמיננטה של המינורים העיקריים היא לא אפס אנחנו מקבלים ש-\( a_{ll}^{\left(l-1\right)} \) הוא לא אפס (כי הוא שווה למינור עיקרי שכזה) ולכן אפשר לחלק בו ולקבל

\( a_{ij}^{\left(k\right)}=\frac{1}{\left[a_{ll}^{\left(l-1\right)}\right]^{k-l}}\left|\begin{array}{cccc} a_{l+1,l+1}^{\left(l\right)} & \cdots & a_{l+1,k}^{\left(l\right)} & a_{l+1,j}^{\left(l\right)}\\ \cdots & \cdots & \cdots & \cdots\\ a_{k,l+1}^{\left(l\right)} & \cdots & a_{k,k}^{\left(l\right)} & a_{k,j}^{\left(l\right)}\\ a_{i,l+1}^{\left(l\right)} & \cdots & a_{i,k}^{\left(l\right)} & a_{i,j}^{\left(l\right)} \end{array}\right| \)

וזה נותן לנו דרך לחשב רקורסיבית את ה-\( a_{ij}^{\left(k\right)} \)-ים! נזכיר את תנאי ההתחלה שלנו:

\( a_{00}^{\left(-1\right)}=1,a_{ij}^{\left(0\right)}=a_{ij} \)

ובנוסחה למעלה, כדי לצמצם כמה שרק ניתן את הגודל של הדטרמיננטה אפשר לבחור \( l=k-1 \) ולקבל

\( a_{ij}^{\left(k\right)}=\frac{1}{a_{k-1,k-1}^{\left(k-2\right)}}\left|\begin{array}{cc} a_{kk}^{\left(k-1\right)} & a_{kj}^{\left(k-1\right)}\\ a_{ik}^{\left(k-1\right)} & a_{ij}^{\left(k-1\right)} \end{array}\right|=\frac{a_{ij}^{\left(k-1\right)}a_{kk}^{\left(k-1\right)}-a_{ik}^{\left(k-1\right)}a_{kj}^{\left(k-1\right)}}{a_{k-1,k-1}^{\left(k-2\right)}} \)

כשהשוויון האחרון נובע פשוט מחישוב ישיר של הדטרמיננטה. זה משלים את ההוכחה, כי קיבלנו בדיוק את הנוסחה שהופיעה באלגוריתם, ועכשיו אנחנו גם מבינים למה החלוקה ב-\( a_{k-1,k-1}^{\left(k-2\right)} \) “מצליחה” ואנחנו מקבלים מספר שלם - כי \( a_{ij}^{\left(k\right)} \) מלכתחילה הוגדר בתור דטרמיננטה של מטריצה שמכילה רק מספרים שלמים (זאת בהנחה שהמטריצה המקורית הכילה רק שלמים) ולכן אם יש שבר ששווה לו, המכנה חייב לחלק את המונה.

חלק חמישי ואחרון, שבו אנו מגיעים לגרסה המלאה של האלגוריתם

יפה, אז ראינו את ההוכחה לכך שהאלגוריתם הבא עובד:

אתחל את המשתנים \( a_{ij}^{\left(0\right)}=a_{ij} \) לכל \( 1\le i,j\le n \) ואת המשתנה המיוחד \( a_{00}^{\left(-1\right)}=1 \).
לכל \( k=1,2,\ldots,n-1 \):

לכל \( k+1\le i,j\le n \), קבעו \( a_{ij}^{\left(k\right)}\leftarrow\frac{a_{ij}^{\left(k-1\right)}a_{kk}^{\left(k-1\right)}-a_{ik}^{\left(k-1\right)}a_{kj}^{\left(k-1\right)}}{a_{k-1,k-1}^{\left(k-2\right)}} \)

החזירו את \( a_{nn}^{\left(n-1\right)} \)

עכשיו, מהנוסחה הזו ברור שאם אנחנו בשלב \( k \), אז כל הערכים במטריצה שהשורה או העמודה שלהם היא לכל היותר \( k \) כבר לא מעניינים אותנו, למעט האיבר במקום \( k-1,k-1 \) - אבל גם עבורו, אנחנו נצטרך רק לקרוא את הערך שלו ולא נשנה אותו יותר. זה אומר שאם אנחנו מקבלים את המטריצה כקלט, אז בשביל לחסוך מקום אפשר לשמור את ערכי הביניים בתוכה (אם לא מפריע לנו שהיא תשתנה; אם לא נרצה שהפונקציה תשפיע על המטריצה המקורית יהיה צורך ליצור עותק שלה, אבל גם אז עדיף עותק אחד על סביבות \( n \) עותקים כאלו).

אם נוקטים בגישה הזו, זה מה שהאלגוריתם הופך להיות:

אתחלו את המשתנה \( A_{00}=1 \)
לכל \( k=1,2,\ldots,n-1 \):

לכל \( k+1\le i,j\le n \), קבעו \( A_{ij}\leftarrow\frac{A_{ij}A_{kk}-A_{ik}A_{kj}}{A_{k-1,k-1}} \)

החזירו את \( A_{n-1,n-1} \)

בפועל כשכותבים קוד לא כזה כיף להוסיף משתנה \( A_{00} \) כי צריך קוד מיוחד לטפל בו ולא במטריצה \( A \), ולכן הרבה יותר פשוט לבדוק אם \( k=1 \) ואם כן - פשוט לוותר על פעולת החילוק באיטרציה הזו של האלגוריתם. בקוד שאצרף עוד רגע אפשר יהיה לראות את זה.

יש רק דבר אחד שטרם התייחסתי אליו - מה קורה אם אחד מהמינורים העיקריים הוא עם דטרמיננטה 0? במקרה הזה, החישוב יניב בשלב כלשהו \( A_{kk}=0 \) ואי אפשר יהיה לחלק בו. בסיטואציה הזו עושים דבר דומה למה שהיה באלגוריתם ה”רגיל” לדטרמיננטה - מחפשים בעמודה ה-\( k \)-ית החל מהשורה ה-\( k+1 \) כניסה ששונה מאפס, ואם נמצאה כזו - מחליפים את השורות ומכפילים את הסימן של הדטרמיננטה ב-\( -1 \). זה האלגוריתם המלא (שימו לב שבפייתון // מייצג חילוק בשלמים - כלומר, חילוק שמתעלם מהשארית, אם יש כזו, ומחזיר רק את המנה השלמה):

def bareiss_det(A):
    sign = 1
    n = len(A)
    for k in range(n-1):
        if A[k][k] == 0:
            for i in range(k+1,n):
                if A[i][k] != 0:
                    A[k], A[i] = A[i], A[k]
                    sign *= -1
                    break
            if A[k][k] == 0:
                return 0
        for i in range(k+1, n):
            for j in range(k+1, n):
                A[i][j] = (A[i][j] * A[k][k] - A[i][k] * A[k][j])
                if k != 0:
                     A[i][j] = A[i][j] // A[k-1][k-1]
            A[i][k]=0
    return sign * A[-1][-1]

האם רוב המספרים הראשוניים הם קטנים?

2024-12-10T00:00:00+00:00

חלק ראשון, ובו כמעט הכל ממש ממש ממש גדול

כשאני רואה דיונים נרגשים על מתמטיקה ברשתות חברתיות, זה לרוב בגלל שמישהו זרק פצצת סירחון וברח והשאיר אנשים לריב אחד עם השני על טיב הריח. הפצצה האהובה ביותר היא הביטוי \( 6\div2\left(1+2\right) \) הידוע לשמצה (יש לי על זה פוסט) אבל נתקלתי עכשיו בפצצה מסוג קצת שונה שכבר הכתה גלים - השאלה האם המשפט “רוב המספרים הראשוניים הם קטנים” הוא אמת או שקר.

לפני שמתחילים בכלל לדבר על זה צריך להתחיל מלציין את המובן מאליו: השאלה הזו היא הטרלה במובן הקלאסי ביותר של המילה - סוג של התחכמות או פרובוקציה שהמטרה שלה לגרום לאנשים להתרגז, לריב אחד עם השני או להגיד שטויות בזמן שהמטריל יכול להיתמם שהוא סך הכל ניסה לעורר דיון פורה. חברים, זו לא הדרך לעורר דיון פורה. זו הדרך לגרום לאנשים לשלוף תשובות סותרות ולריב אחד עם השני עליהן למרות שהשורה התחתונה היא שכולם צודקים כי אין פה תשובה חד משמעית. המשפט “רוב המספרים הראשוניים הם קטנים” הוא לא אמת ולא שקר, אין לו ערך אמת מוגדר כי באופן ממש לא מפתיע, ערך האמת של פסוקים תלוי בשאלה מה המשמעות שאנחנו נותנים למושגים שמופיעים בהם, והמושג קטן כאן הוא לחלוטין לא מוגדר היטב.

אבל פצצות כאלו הן גם הזדמנות - לא לריב עם אף אחד, אלא לכתוב פוסט שמציג כמה מהדרכים השונות לפרש את השאלה הזו ולראות איזו פיסת מתמטיקה מעניינת נחשפת אלינו בזכותן. זה מה שאני אנסה לעשות פה - אבל בשום פנים ואופן לא בצורה שתתיימר להיות מקיפה. אני בסך הכל נותן כמה מהאסוציאציות שלי שהשאלה הזו מעוררת.

בואו נתחיל מההתחלה. מספר ראשוני הוא מספר טבעי גדול מ-1 שמתחלק רק ב-1 ובעצמו, למשל 2 או 31. יש לי פוסט שמסביר למה ראשוניים הם מעניינים ולמה 1 לא נחשב ראשוני אז לא אחזור על זה כאן, אבל בגדול - אם רוצים לדבר על קבוצה כלשהי של מספרים טבעיים שהיא לא ממש בנאלית (למשל, “המספרים הזוגיים”) אז הראשוניים זו הדוגמא הכי מתבקשת ואני מניח שלכן השתמשו בה בשאלה הזו.

עכשיו, תכונה בסיסית של ראשוניים היא שיש אינסוף מהם. הדרך הפשוטה לראות את זה מלווה אותנו עוד מימי אוקלידס, שהציג את ההוכחה הזו לראשונה: בואו ניקח קבוצה סופית כלשהי של ראשוניים, \( \left\{ p_{1},p_{2},\ldots,p_{k}\right\} \). מכיוון שיש לנו מספר סופי של ראשוניים, אפשר לכפול את כולם ולהוסיף 1 ולקבל מספר \( n=p_{1}p_{2}\ldots p_{k}+1 \). המספר הזה לא מתחלק באף אחד מהראשוניים בקבוצה (לחלק בכל אחד מהם מחזיר שארית 1 בגלל ה-1 שהוספתי) ולכן אם אני אפרק את \( n \) לגורמים אני אמצא ראשוניים חדשים שלא היו שייכים לקבוצה. למשל, אם הקבוצה שלי היא \( \left\{ 2,3,5\right\} \) אז אני אקבל \( n=2\cdot3\cdot5+1=31 \) וכבר \( n \) עצמו הוא ראשוני “חדש”; אם לעומת זאת הקבוצה היא \( \left\{ 2,3,5,7,11,13\right\} \) אז אחרי כפל והוספת 1 אני אקבל את \( n=30,031 \) שהוא לא ראשוני כי הוא שווה \( 59\cdot509 \), אבל שני הגורמים הללו הם כן ראשוניים אז מצאתי את הראשוניים החדשים 59 ו-509. המסקנה: אין מספר סופי של ראשוניים, כי לכל קבוצה סופית של ראשוניים תמיד אפשר למצוא ראשוני שלא שייך אליה.

מכיוון שיש אינסוף ראשוניים, התחושה המיידית היא שנכון לומר שרוב הראשוניים הם גדולים כי “רוב המספרים הם גדולים”. יש אפילו “משפט” שאומר את זה, שמכונה “המשפט המגוחך של האריתמטיקה” שמופיע בספר Field Guide to Simple Graphs של Steinbach - הטענה ש”כמעט כל המספרים הטבעיים הם מאוד מאוד מאוד גדולים”. הרעיון פה הוא ש”כמעט כל” הוא מונח טכני מדויק: הוא אומר “כל הטבעיים פרט למספר סופי”, תוך שימוש בכך שיש אינסוף טבעיים אז אם מורידים מתוכם כמות סופית, עדיין נשארים עם אינסוף. אפשר לצקת תוכן למשפט בשתי דרכים שונות: ראשית, אפשר להניח שהמספרים הטבעיים מתחלקים איכשהו ל”קטנים” ו”גדולים” ויש מספר שרירותי, נאמר \( N \), שהחל ממנו ה”גדולים” מתחילים (או אפילו ה”מאוד מאוד מאוד גדולים” אם רוצים לשמור על נאמנות לניסוח של המשפט). אז אם נסתכל על קבוצת כל הטבעיים שגדולים מ-\( N \), כל האיברים בקבוצה הזו הם מאוד מאוד מאוד גדולים, ואילו איברים שלא גדולים מ-\( N \) יש רק במספר סופי, ולכן באמת כמעט כל הטבעיים הם מאוד מאוד מאוד גדולים.

את אותו רעיון בדיוק אפשר להחיל גם על הראשוניים. להגיד “אין לי מושג מה זה מספר קטן או גדול אבל יש איזה שהוא \( N \) שהחל ממנו כל המספרים הם גדולים, ובגלל שיש אינסוף ראשוניים אז יש אינסוף ראשוניים שגדולים מ-\( N \) ולכן רוב הראשוניים הם גדולים”. זו טענה סבירה בהחלט, והתלונה המרכזית שלי אליה היא שזו לא טענה כל כך מעניינת; התוכן המתמטי שבא בה לידי ביטוי הוא רק האבחנה שיש אינסוף ראשוניים - וזו אבחנה די מעניינת בפני עצמה, אבל אנחנו רק מגרדים איתה את השטח של מה שאפשר לומר על ראשוניים, זה הבסיס של הבסיס. אז לעצור כאן? ממש חבל.

בואו נחזור אל הטענה המקורית: “רוב המספרים הראשוניים הם קטנים”. יש כאן בעצם שלושה מושגים מתמטיים בפעולה. על אחד מהם, “מספרים ראשוניים”, אין ויכוח - כולנו יודעים מה הם מספרים ראשוניים ואיך הם מוגדרים. שני המושגים האחרים - “רוב” ו”קטנים” הם חסרי משמעות מתמטית קונקרטית. “קטנים” הוא מושג נטול הגדרה מתמטית קונקרטית כלשהי; ו”רוב” אמנם נשמע לנו כמו משהו טריוויאלי מבחינה מתמטית אבל הוא הרבה יותר ערמומי ממה שנראה במבט ראשון. למשל, האם “רוב” המספרים הטבעיים הם ריבועים של מספר טבעי (למשל \( 1,4,9,16,\dots \)) או לא? לכאורה רוב המספרים הטבעיים הם לא כאלו (למשל בין 9 ו-16 יש לנו את המספרים 10,11,12,13,14,15 - לא פחות משישה מספרים שאינם כאלו) אבל מצד שני כבר גלילאו שם לב לכך שיש התאמה חד-חד-ערכית ועל בין ריבועים של מספרים טבעיים ובין הטבעיים, כך שבמובן מסויים יש את אותה כמות של שניהם (במתמטית אנחנו אומרים שיש כאן שוויון עוצמות של שתי קבוצות אינסופיות). בקיצור, אני מבקש שננסה לשכוח את האינטואיציות היומיומיות שלנו לגבי “קטן” ו”רוב” וננסה לבנות אותן מחדש בזהירות, כמו שעושים הרבה פעמים במתמטיקה.

בואו נחזור למשפט המגוחך של האריתמטיקה, “כמעט כל המספרים הטבעיים הם מאוד מאוד מאוד גדולים”. אמרתי שאפשר לצקת אל המשפט הזה תוכן בשתי דרכים שונות. דרך אחת התבססה על זה שהמספרים הטבעיים הם אינסופיים, אבל הדרך השניה יכולה לומר - עזבו אותנו מאינסוף טבעיים. זה לא משהו אמיתי. זה לא משהו שאנחנו יודעים לתפוס בידיים. יש גבול לכמות המספרים שנוכל לייצג ביקום - אפילו אם נגייס את כל האטומים למשימת ייצוג מספר, בסוף יהיה מספר שהוא גדול מכדי שנוכל לייצג אותו. כל אינסוף המספרים שמעבר אליו? לא רלוונטיים לנו. במילים אחרות, בואו נניח שיש גבול עליון למספרים הטבעיים ונקרא לו \( N \) ומעכשיו “שדה המשחק” שלנו הוא רק אוסף המספרים הטבעיים מ-\( 1 \) עד \( N \); הקבוצה \( \left\{ 1,\ldots,N\right\} \). זו גישה שנשמעת תבוסתנית ומתעלמת מהמציאות במבט ראשון, אבל כפי שנראה עוד מעט היא דווקא פרודקטיבית ומועילה.

בואו נשכח לרגע מראשוניים ונדבר על מספרים באופן כללי. נניח ש-\( N=1,000,000,000,000 \) - “טריליון”. זה מספר גדול כל כך שאנחנו לא ממש נתקלים בו בחיי היום יום בהקשרים כמו מרחקים, מהירויות, גודל אוכלוסיה, כסף וכו’ (אנחנו כן נתקלים בו כל הזמן למשל בהקשר של זיכרון במחשב אבל אז קוראים לו “טרהבייט”). עכשיו, בואו נניח שההגדרה שלנו למספר גדול היא די קיצונית - אפילו מיליארד עדיין לא נתפס בעינינו כמספר גדול. אפילו לא עשרה מיליארד! או 37 מיליארד! לא, המספר הראשון שאנחנו מואילים בטובנו לומר שהוא גדול הוא לא פחות מאשר \( 100,000,000,000 \) - מאה מיליארד. ממש קרוב לטריליון. רק אפס אחד נוסף.

תחת ההגדרה הזו, רוב עצום של המספרים ב”עולם” שלנו הם מספרים ממש, ממש גדולים. למה? כי עד מאה מיליארד יש, ובכן, מאה מיליארד מספרים; וממאה מיליארד עד טריליון יש עוד תשע-מאות מיליארד מספרים - פי 9! אפילו אם נהיה שמרנים ונאמר שרק המספרים החל מ-500 מיליארד הם ממש, ממש ממש גדולים אז עדיין כמות המספרים הממש ממש ממש גדולים בעולם שלנו היא 500 מיליארד… ועוד 1 (טריליון עצמו; זה כמו שבין 5 ל-10 כולל 10 עצמו יש 6 מספרים) כלומר רוב המספרים הם ממש ממש ממש גדולים. זה המובן שבו המשפט “המגוחך” של האריתמטיקה הוא דווקא מעניין למדי; הוא מצביע יפה על כך שהמספרים שאנחנו רגילים אליהם מהיומיום הם כנראה רק טיפה בים לעומת כמות המספרים שעדיין אפשר לדחוס אל מה שנחשב בעינינו “הגבול של המספרים” שאחריו אנחנו כבר לא עוקבים בכלל.

טוב ויפה, אבל איך המספרים הראשוניים נכנסים לפה? אם למשל אני באמת בוחר את \( N \) להיות טריליון ומחלק את העולם שלי לכל המספרים שקטנים מ-500 מיליארד וכל המספרים מ-500 מיליארד עד טריליון, האם בחצי השני תהיה אותה כמות ראשוניים כמו בחצי הראשון? ובכן, לא. בחצי הראשון יהיו יותר ראשוניים. אז אם אני אמתח את הגבול ב-\( N/2 \), כלומר כל מה שעד \( N/2 \) הוא “קטן” וכל מה שאחריו הוא “גדול” אז רוב הראשוניים יהיו דווקא קטנים. אבל אם אני אמתח את הגבול טיפה אחרת, למשל ב-\( N/3 \) במקום ב-\( N/2 \) זה כבר לא יעבוד ויהיו יותר ראשוניים “גדולים”. אז יש לנו כאן סיטואציה מעניינת - סיטואציה שבה התשובה לשאלה תלויה מאוד בסדר הגודל המדויק, ביחס ל”גבול” העולם, שעבורו אנחנו מגדירים “גדול”.

איך בעצם אני יודע את מה שטענתי כרגע על הראשוניים? או, אני שמח ששאלתם כי זה מאפשר לנו לדבר על תוכן מתמטי אמיתי - משפט המספרים הראשוניים, שהוא אחד מפסגות המתמטיקה של המאה ה-19.

חלק שני, שבו בקירוב אנחנו מגיעים למסקנה שחצי הוא מיוחד

בואו נסמן לרגע ב-\( \pi\left(n\right) \) את מספר הראשוניים שקטנים או שווים ל-\( n \). זו פונקציה שמאוד מעניינת מתמטיקאים גם כי היא נותנת בדיוק את סוג המידע שמעניין אותנו כאן - כמה ראשוניים יש בתחום מסוים - וגם כי זו פונקציה שמתקדמת ב”קפיצות” (היא גדלה ב-1 בכל פעם שבה \( n \) הוא ראשוני) ולכן אם היינו יודעים לחשב אותה טוב, היינו יכולים למצוא ראשוניים על ידי זיהוי של נקודות הקפיצה. ספוילר: אנחנו לא יודעים לחשב אותה טוב, ולכן מה שהמתמטיקאים עשו הוא לנסות ולהבין איך הפונקציה מתנהגת בערך. מה התכונות האסימפטוטיות שלה. ומשפט המספרים הראשוניים (שההוכחה שלו מורכבת למדי ובוודאי שלא אכנס אליה כאן) אומר ש-\( \pi\left(n\right)\approx\frac{n}{\ln n} \).

אני לא אכנס כאן למשמעות המדויקת של \( \approx \) כי מספיק לנו לחשוב על זה בתור “בערך” שהולך ומשתפר ככל ש-\( n \) גדול יותר. ה-\( \ln n \) שמופיע במכנה הוא פונקציית הלוגריתם הטבעי, כלומר לוגריתם שהבסיס שלו הוא לא 10 אלא המספר הקבוע המיוחד \( e=2.78\ldots \) וגם את זה לא באמת חייבים להבין עד הסוף. במקום זה, בואו נראה כמה דוגמאות.

ראשית, לא כזה קשה לחשב את \( \pi\left(n\right) \) לערכים קטנים יחסית. אני למשל מצליח במחשב שלי, עם שפת תכנות לא יעילה במיוחד כמו פייתון, לחשב את \( \pi\left(10,000,000\right)=664,579 \) די בקלות באמצעות הכברה של ארטוסתנס (אין לי פוסט על זה עדיין, כל כך מביך). אז הנה כמה זוגות של \( \pi\left(n\right) \) לעומת \( \frac{n}{\ln n} \), כדי שנבין איך הקירוב הזה עובד:

\( n=100,\pi\left(n\right)=25,\frac{n}{\ln n}=21.71\ldots \)

\( n=1,000,\pi\left(n\right)=168,\frac{n}{\ln n}=144.76\ldots \)

\( n=10,000,\pi\left(n\right)=1229,\frac{n}{\ln n}=1085.73\ldots \)

\( n=100,000,\pi\left(n\right)=9592,\frac{n}{\ln n}=8685.88\ldots \)

\( n=1,000,000,\pi\left(n\right)=78498,\frac{n}{\ln n}=72382.41\ldots \)

\( n=10,000,000,\pi\left(n\right)=664579,\frac{n}{\ln n}=620420.68\ldots \)

משהו שאפשר מייד לראות הוא שהקירוב הזה עובד לא רע, אבל בוודאי גם לא טוב כפי שאפשר היה לקוות. גודל הטעות - ההפרש בין המספר האמיתי והקירוב - רק גדל. עבור 100 הטעות היא בערך 3, עבור 100,000 היא בערך 906 ועבור 10,000,000 היא בערך 44158, כלומר היא הולכת וגדלה בערך האבסולוטי שלה. אבל הערך היחסי שלה - כלומר, הגודל שלה כשהוא מחולק ב-\( n \) - דווקא הולך וקטן, מ-0.03 עבור \( n=100 \) אל \( 0.004 \) עבור \( n=10,000,000 \).

איך כל זה עוזר לנו? אם אנחנו קובעים רף מסוים שמעליו כל המספרים הם “גדולים” ומתחתיו הם “קטנים”, זה מאפשר לנו להעריך כמה ראשוניים קטנים יהיו אל מול כמה ראשוניים גדולים. נניח למשל שהרף היא \( \frac{N}{2} \), אז כמות הראשוניים הכוללת עד \( N \) היא בערך \( \frac{N}{\ln N} \) וכמות הראשוניים ה”קטנים” עד \( N \) היא בערך \( \frac{N/2}{\ln\left(N/2\right)} \) וכדי לדעת איך היא ביחס לכמות הראשוניים הכוללת אני אחלק את \( \frac{N/2}{\ln\left(N/2\right)} \) ב-\( \frac{N}{\ln N} \). כדי לפשט את הביטוי אני הולך להשתמש בתכונה סטנדרטית של לוגריתמים: \( \ln\left(\frac{a}{b}\right)=\ln a-\ln b \), ולכן \( \ln\left(N/2\right)=\ln N-\ln2 \). הערך המספרי המדויק של \( \ln2 \) לא כל כך חשוב, אבל הוא בערך \( 0.693\ldots \) (כלומר - מספר חיובי, אבל ממש קטן). אם כן:

\( \frac{N/2}{\ln\left(N/2\right)}/\frac{N}{\ln\left(N\right)}=\frac{1}{2}\frac{\ln N}{\left(\ln N-\ln2\right)}=\frac{1}{2}\frac{1}{1-\frac{\ln2}{\ln N}} \)

מה קיבלנו פה? לוגריתם הוא פונקציה עולה שהיא אי-שלילית החל מ-1, כך ש-\( 0<\ln2<\ln N \), כלומר \( 0<\frac{\ln2}{\ln N}<1 \), כלומר \( 0<1-\frac{\ln2}{\ln N}<1 \) ולכן \( \frac{1}{2}\frac{1}{1-\frac{\ln2}{\ln N}}>\frac{1}{2} \). מכאן אנחנו לומדים שני דברים:

תמיד יש יותר ראשוניים "קטנים" מאשר "גדולים" אם "קטן" מוגדר בתור "קטן מ-\( \frac{N}{2} \)".
כאשר \( N \) שואף לאינסוף, היחס בין ה"קטנים" וה"גדולים" שואף ל-\( 1 \), כלומר יש פחות ופחות ראשוניים "קטנים" ביחס ל"גדולים". למרות שהם תמיד רוב.

כל זה קורה אם אני בוחר באופן שרירותי ש”קטן” יהיה קטן מ-\( \frac{N}{2} \). מה קורה במקרים אחרים? למשל אם “קטן” זה קטן מ-\( \frac{N}{10} \)? בואו נסתכל באופן כללי על \( \frac{N}{k} \), אז החישוב שעשיתי למעלה לא משתנה בצורה מהותית - אני מקבל בסוף \( \frac{1}{k}\cdot\frac{1}{1-\frac{\ln k}{\ln N}} \). זה אומר שאם אני רוצה להגיע למצב שבו רוב הראשוניים (יותר מחצי) הם “קטנים” אני חייב להגדיר “קטן” בתור “קטן מ-\( \frac{N}{2} \)” (או קטן אפילו ממספר עוד יותר גדול). עכשיו, האינטואיציה שלי היא שחצי זה לא מספיק - צריך להיות קטנים יותר בסדר גודל או משהו, כמו קודם שהיה לנו 100 מיליארד ביחס לטריליון. אז גם מהניתוח הזה מקבלים את אותה התוצאה ה”ברורה” - יש יותר ראשוניים גדולים מאשר קטנים. אפילו אם לא מסתכלים על כל אינסוף הראשוניים אלא מצמצמים את עצמנו לאיזור מסוים, ואפילו אם משתמשים בכלים מתמטיים כבדים ומרשימים. ההבדל? עכשיו יש לטענות שלנו יותר תוכן מתמטי, וראינו תוצאות מתמטיות יפות על הדרך.

אבל רגע, זה עדיין רחוק מאוד מלהיות סוף הסיפור!

חלק שלישי, ובו השאלה הפילוסופית איך בעצם משווים?

עד עכשיו הגישה שאימצנו כדי לדבר על “קטן” הייתה פשוטה: קבענו מספר טבעי כלשהו, כל מה שמתחתיו היה “קטן” וכל מה שמעליו היה “גדול”. זו גישה סבירה מאוד כי הרי צריך לשים גבול איפה שהוא, אבל מצד שני היא לוקה בכשל הסטנדרטי של “פרדוקס הערימה”. אם \( n \) הוא מספר גדול, הרי שגם \( n-1 \) הוא מספר גדול, לא? הוא בוודאי לא קטן; ההפרש שלו מהמספר הגדול \( n \) הוא בסך הכל 1. אם 1 הוא מה שמפריד מספר קטן מגדול, למה \( n-1 \) עצמו אינו גדול? הרי \( n-2 \) הוא קטן, ו-\( n-1 \) הוא \( \left(n-2\right)+1 \), אז הוספת ה-1 הזו הייתה אמורה להיות אותו לגדול, לא? התשובה לפרדוקס הזה היא שאין תשובה. “גדול” הוא מושג עמום ובגלל שאין לנו הגדרה טובה אליו אנחנו קובעים משהו שרירותית, וזהו. תסתדרו. עכשיו, שיהיה ברור, מותר לנו לבצע קביעות כאלו; אבל מה שלא כדאי לנו לעשות הוא להתנהג כאילו קביעה כזו היא האמת האחת והיחידה, וגישות אחרות לשאלה מה זה קטן/גדול הן לא לגיטימיות.

אז אני הולך להראות כמה גישות כאלו, ואנסה שיהיו שונות ממש באופי שלהן כדי שנבין עד כמה אפשר להשתגע פה אם רוצים.

ראשית, הנה הגדרה שונה לגמרי ל”קטן”: מספר \( n \) הוא קטן אם קיים מספר \( N \) שגדול ממנו פי גוגול, כלומר פי \( 10^{100} \). מה מצדיק את ההגדרה הזו? יחסיות - בוודאי ש-\( n \) כזה הוא ממש ממש ממש ממש ממש ממש ממש קטן ביחס ל-\( N \) שגדול ממנו פי \( 10^{100} \). אלא מה, עבור כל מספר טבעי \( n \) קיים מספר \( N=n\cdot10^{100} \) שכזה, אז ההגדרה שנתתי בעצם אומרת שכל המספרים הטבעיים הם קטנים. אפשר לומר שזה מוכיח שההגדרה גרועה, אבל אפשר גם לומר שזה מראה שהציפייה שלנו למושג אבסולוטי של “קטן” היא מופרכת כי כל מספר, גדול ככל שיהיה, הוא קטן בהקשר מסוים.

ערעור אפשרי אחד על ההגדרה הזו אפשר לתת בכך שאותו \( n \) “קטן” שלי עשוי להיות בעצמו גדול פי \( 10^{100} \) מאיזה מספר טבעי אחר - מה שהופך אותו בו זמנית ל”גדול” ול”קטן” והיינו רוצים הגדרה שלא תאפשר משהו כזה בכלל. אז הנה הגדרה טיפה שונה שלא חשופה לסימטריה כזו: מספר \( n \) הוא קטן אם קיימים אינסוף מספרים טבעיים שגדולים ממנו. אין כאן סימטריה כי לכל מספר טבעי יש רק מספר סופי של מספרים טבעיים שקטנים ממנו, ואני חושב שיש פה אינטואיציה טובה - לא משנה כמה \( n \) נראה לנו גדול, הוא בסך הכל צעד ראשוני זעיר בדרך אל הנצח העצום שהוא כלל המספרים הטבעיים. אלא מה, גם ההגדרה הזו בעצם אומרת שכל המספרים הטבעיים הם קטנים. בצורה הזו אנחנו מקבלים את הטענה “כל המספרים הראשוניים הם קטנים” שזה נחמד, אבל האמת היא שהיה מעניין אם היינו רואים כאן תכונה שייחודית לראשוניים עצמם, לא לכל המספרים הטבעיים.

אז הנה גישה שונה לחלוטין לחשוב על כל העניין - יחסי סדר. יש לי פוסט על יחסי סדר, אבל בואו נראה את זה גם כאן. כשאני אומר \( a\le b \), אל מה אני מתכוון בזה? אם \( a,b \) שניהם מספרים טבעיים, הסימון הזה בדרך כלל אומר “קיים \( d \) טבעי כך ש-\( a+d=b \)”. זו ההגדרה הפורמלית. למשל \( 3\le5 \) כי \( 3+2=5 \), או \( 7\le7 \) כי \( 7+0=7 \). זו הגדרה קונקרטית של יחס סדר מסוים אבל מתמטיקאים אוהבים לבצע הפשטה של אובייקטים קונקרטיים - לזהות את התכונות המעניינות של האובייקט ולהישאר רק איתן ולראות איך עדיין אפשר “לשחזר” חלקים גדולים מהמידע הרלוונטי על האובייקט רק מהתכונות המעניינות הללו - רק שעכשיו גם אובייקטים אחרים שחולקים את אותן תכונות ייהנו מהדברים שהסקנו. עבור יחסי סדר, התכונות המעניינות שאנחנו שמים לב אליהן הן:

לכל \( a \) מתקיים \( a\le a \) (זה נקרא רפלקסיביות)
לכל \( a,b,c \) אם \( a\le b \) וגם \( b\le c \) אז \( a\le c \) (זה נקרא טרנזיטיביות)
לכל \( a,b \) אם \( a\le b \) וגם \( b\le a \) אז \( a=b \) (זה נקרא אנטי-סימטריה).

בואו נראה דוגמא ליחס אחר על הטבעיים שמקיים את אותן תכונות בדיוק - יחס החלוקה. אני מסמן \( a|b \) כדי לומר “\( a \) מחלק את \( b \)” ופורמלית זה מוגדר באופן די דומה ליחס הסדר הרגיל: זה אומר שקיים \( d \) טבעי כך ש-\( a\cdot d=b \). כלומר, במקום לחבר את \( d \) אנחנו כופלים ב-\( d \).

קל להראות ששלוש התכונות למעלה מתקיימות: לכל \( a \), \( a\cdot1=a \) ולכן \( a|a \). לכל \( a,b,c \) אם \( a|b \) אז קיים \( d_{1} \) כך ש-\( ad_{1}=b \) ואם גם \( b|c \) אז קיים \( d_{2} \) כך ש-\( bd_{2}=c \), ומשני אלו נקבל \( a\left(d_{1}d_{2}\right)=\left(ad_{1}\right)d_{2}=bd_{2}=c \) כלומר \( a|c \); ולבסוף, אם \( a|b \) וגם \( b|a \) אז זה אומר שקיימים \( d_{1},d_{2} \) כך ש-\( ad_{1}=b \) ו-\( bd_{2}=a \) ולכן \( a\left(d_{1}d_{2}\right)=\left(ad_{1}\right)d_{2}=bd_{2}=a \), ואם נצמצם את \( a \) משני האגפים נקבל \( d_{1}d_{2}=1 \) ומכיוון ש-\( d_{1},d_{2} \) שניהם מספרים טבעיים זה יכול לקרות רק אם \( d_{1}=d_{2}=1 \), כלומר \( a=b \). זה מסיים את ההוכחה שחלוקה היא יחס סדר.

עכשיו מגיע החלק המוזר - אם אנחנו משווים גודל של איברים על בסיס יחס הסדר הזה, יוצא שכל הראשוניים הם קטנים. הרי \( p \) הוא ראשוני אם שני המספרים היחידים שמחלקים אותו הם 1 ו-\( p \) עצמו. כלומר אנחנו מקבלים ש-\( 1 \) הוא המספר ה”מינימלי” על פי יחס הסדר (לכל \( a \) קיים, \( 1|a \)) אבל הראשוניים נמצאים דרגה אחת מעליו.

אני אפילו לא אטרח לנסות להגדיר את “קטן” בצורה יותר מפורשת; אם אנחנו הולכים על פי יחס הסדר שהצגתי, די ברור לי שכל מספר ראשוני הולך להיות “קטן” כי הוא כמעט לגמרי בתחתית הדיאגרמה. כמובן, כשמבינים ש-0 נמצא בראש הדיאגרמה ולכן הוא הכי גדול שיש האינטואיציה שלנו עלולה להתפוצץ, אבל זה טוב; כל הרעיון הוא לראות דברים ששונים מהאינטואיציה היומיומית.

חלק רביעי, ובו דרך אחרת לחשוב על ראשוניים קטנים וגדולים

בדוגמת יחס הסדר שנתתי, כל הראשוניים היו קטנים. אפשר אולי היה לחשוב על הגדרה ל”גדול” שבה חלק מהמספרים הטבעיים יהיו גדולים (מספרים שיש להם המון מחלקים? מחלקים שהם חזקות גדולות?) אבל לא משנה מה היא הייתה, אף ראשוני לא היה מתאים אליה. אבל אפשר להציג עוד תוצאה, מרהיבה לחלוטין לטעמי, שנותנת לנו זווית התבוננות נוספת על מושגי ה”קטן”/”גדול” הללו. הדרך הזו תשתמש במתמטיקה טיפה יותר מתוחכמת אבל גם אם אתם לא מכירים אותה, אל תתייאשו! לא באמת צריך להבין אותה לעומק.

בואו נתחיל עם סיפור יפה: אכילס רוצה לרוץ לאורכו של אצטדיון בן קילומטר אחד. לפני שהוא יגיע לקצה השני שלו הוא חייב לעבור דרך נקודת האמצע, כלומר הוא קודם כל צריך לעבור \( \frac{1}{2} \) קילומטר. אחר כך נותר לו עוד חצי קילומטר, אבל לפני שיעבור את כל המרחק הזה הוא צריך לעבור חצי ממנו, כלומר לעבור עוד \( \frac{1}{4} \) קילומטר. ואחרי שעבר אותו, הוא צריך לעבור עוד \( \frac{1}{8} \) קילומטר כדי להגיע לחצי מהמרחק שנותר, וכן הלאה וכן הלאה. עכשיו, אני חושב שכולנו נסכים שאכילס יגיע לקצה השני של האצטדיון ואכן יעבור 1 קילומטר (“אני לא מסכים!” צועק מישהו בשם זנון מהיציע, אבל אנחנו במרחק 2,000 שנים ממנו אז נתעלם) ולכן, אינטואיטיבית, אנחנו יכולים לזרום עם הטענה שלי ש-\( \frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots=1 \). כלומר, שאפשר לחבר אינסוף מספרים ולקבל משהו סופי. דגש על אפשר, אני בהחלט לא אומר שזה תמיד יעבוד.

הסיבה שזה עובד במקרה למעלה היא שהאיברים שמשתתפים בסכום הופכים מהר מאוד לקטנים מאוד. אפשר לנסח את זה בצורה פורמלית לגמרי, אבל כרגע לא אכנס לזה. הנקודה החשובה היא שלא מספיק שהאיברים הופכים לקטנים עוד ועוד - זה צריך לקרות מהר. כמה מהר? ובכן, אם נסתכל על הסכום הבא:

\( 1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\ldots \)

הסכום הזה לא מסתכם לשום דבר סופי - הוא יוצא “אינסוף”. לעומת זאת, הסכום הבא:

\( 1+\frac{1}{4}+\frac{1}{9}+\frac{1}{16}+\ldots \)

שאפשר לכתוב גם בתור

\( \frac{1}{1^{2}}+\frac{1}{2^{2}}+\frac{1}{3^{2}}+\frac{1}{4^{2}}+\ldots \)

יוצא מספר סופי, ועוד אחד שמעורר תהיות “מאיפה זה בכלל הגיע?!” - המספר \( \frac{\pi^{2}}{6} \) (מאיפה זה באמת הגיע? יש שלל הסברים, אבל זה לפוסט אחר).

את מה שראינו אפשר לסכם בצורה הבאה: אם אנחנו מחברים את כל האיברים מהצורה \( \frac{1}{n} \) כאשר \( n \) הוא מספר טבעי זה יוצא אינסוף, אבל אם אנחנו לא סוכמים את כל האיברים הללו אלא רק חלק מהם, אנחנו עשויים לקבל מספר סופי. אם מחברים רק את האיברים שעבורם \( n \) הוא חזקה של 2, מקבלים משהו סופי; אם מחברים רק את האיברים שעבורם \( n \) הוא ריבוע של מספר טבעי, מקבלים משהו סופי.

מה קורה אם מחברים את כל האיברים שעבורם \( n \) ראשוני? זו התוצאה שאני רוצה לדבר עליה כאן. התשובה היא שמקבלים אינסוף, והעובדה הזו בפני עצמה היא עוד הוכחה לכך שיש אינסוף ראשוניים כי אם היה רק מספר סופי שלהם, בוודאי שגם סכום שלהם היה סופי. אבל איך מוכיחים את הטענה הזו? יש שלל הוכחות, אבל זו שמעניינת אותי כאן היא הוכחה של פאול ארדש, שכמעט ולא דורשת היכרות עם מתמטיקה מתקדמת ואני אחליק בקלילות גם את מה שכן צריך. נתמקד בחלק שאותו אפשר להבין בלי ידע מתמטי מתקדם כלשהו, אם כי זה לא אומר שהוא יהיה קל להבנה. אבל אם נבין אותו, נבין גם דרך אחרת לגמרי להתבונן על ענייני ה”קטן”/”גדול”, מה שנותן תוכן מתמטי מאוד מעניין לשאלה המקורית.

ראשית, האינטואיציה הכללית: ככל ש-\( n \) יותר גדול כך \( \frac{1}{n} \) יותר קטן ולכן תורם פחות לסכום. לכן אפשר לתת את האינטואיציה לפיה אם הסכום מתכנס (כלומר, מסתכם למספר סופי) אז רוב ה-\( n \)-ים המעורבים בו הם גדולים (כי אז מה שהם תורמים לסכום הוא קטן יחסית) ואילו אם הסכום מתבדר (כלומר, יוצא אינסוף) אז רוב ה-\( n \)-ים המעורבים בו הם קטנים (ולכן מה שהם תורמים לסכום הוא גדול יחסית). זו אינטואיציה די מסוכנת, כי כשמסתכלים על סכומים אינסופיים השאלה אם הם מתכנסים או מתבדרים לא תלויה בראש של הסכום, כלומר באיברים הראשונים שבו, אלא רק ב”זנב” שלו - באינסוף האיברים האחרונים. אם אני אקח את הסכום\( 1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\ldots \) ובמקום להתחיל אותו מ-1 אני אתחיל אותו מ-\( \frac{1}{1,000,000,000} \), שום דבר לא ישתנה - הסכום עדיין יצא אינסוף. אם אני אתחיל את הסכום \( 1+\frac{1}{4}+\frac{1}{9}+\frac{1}{16}+\ldots \) רק מ-\( \frac{1}{121} \) אז הסכום עדיין יתכנס, אם כי הוא יתכנס למספר אחר (הסכום המקורי פחות סכום כל האיברים ב”ראש” שקיצצנו). אז אפילו אם סכום הוא מתבדר ולכן אני מסיק ש”רוב” האיברים בו קטנים, אני לא באמת יכול להגיד איפה מתחיל ונגמר הרוב הזה, כי אני יכול להתחיל את הזנב מאיפה שאני רוצה; כלומר, אני שוב רואה את “קטן” כמושג יחסי ולא אבסולוטי, אבל עכשיו אפילו קשה לומר ביחס אל מה. אין לי אנלוגיה טובה במיוחד מהמקרה הנוכחי למקרים הקודמים, וזו בדיוק הסיבה שבגללה אני מביא את המקרה הנוכחי - אמרתי שזו תהיה דרך שונה לגמרי לחשוב על זה.

בואו נראה את ההוכחה של ארדש לכך שהסכום מתבדר. מה שארדש עושה הוא הוכחה בשלילה - הוא מניח שהסכום כן מתכנס למספר כלשהו ומגיע מכך לסתירה, מה שגורם לו להסיק שההנחה שהסכום מתכנס הייתה שגויה. ארדש מתחיל מלהגיד שאם הסכום מתכנס, ולא משנה לאיזה מספר הוא מתכנס, אז יש לו זנב שמתכנס לערך קטן. מה זאת אומרת? נניח שאני מסמן את כל הראשוניים באופן הבא: \( p_{1},p_{2},p_{3},\ldots \), אז קיים \( k \) טבעי כלשהו כך ש-\( \frac{1}{p_{k+1}}+\frac{1}{p_{k+2}}+\frac{1}{p_{k+3}}+\ldots<\frac{1}{2} \) - ה”זנב” שהוא סכום כל ההופכיים של ראשוניים שגדולים מ-\( p_{k} \) יוצא פחות מחצי.

למה הטענה הזו נכונה? זו הטענה היחידה שדורשת מתמטיקה קצת יותר מתקדמת כדי להוכיח אותה - ספציפית, תוצאות בסיסיות יחסית בתורה של טורים אינסופיים. הרעיון הוא כזה: נניח שכל הטור של הופכיי הראשוניים מתכנס לאיזה מספר \( A \), כלומר \( \frac{1}{p_{1}}+\frac{1}{p_{2}}+\ldots=A \). אז אני מתחיל לסכום את כל האיברים בטור ובודק לאן הגעתי. אני חייב מתישהו לעבור את \( A-\frac{1}{2} \) כי אם אני אף פעם לא עובר אותו אני לא אגיע אל \( A \) (היי, אכילס!). מרגע שעברתי את \( A-\frac{1}{2} \) כל האיברים שנשארו בטור חייבים להסתכם אל משהו שלא גדול מ-\( \frac{1}{2} \) אחרת נעבור את \( A \) (כאן אני משתמש בכך שכל האיברים בטור הם מספרים חיוביים, כלומר אי אפשר לחבר איברים לטור ובכך להקטין את הסכום הכולל). זה הרעיון, ועל הפורמליזם אני אוותר כאן.

על הראשוניים עד וכולל \( p_{k} \) אפשר לחשוב, כאמור, בתור “הראשוניים הקטנים”, אלו שתורמים הכי הרבה לסכום (כי כשמחלקים 1 בהם מקבלים משהו גדול יחסית) ועל כל יתר הראשוניים אפשר לחשוב בתור “הראשוניים הגדולים”. עכשיו ארדש מראה שקורים שני דברים שונים: ראשית: שמהראשוניים הקטנים אי אפשר להרכיב יותר מדי מספרים; שנית, שמאותם ראשוניים בדיוק אפשר להרכיב המון מספרים. שני אלו מן הסתם מובילים לסתירה אם בוחרים את הפרמטרים שלנו בצורה זהירה.

מה שארדש עושה דומה למה שראינו קודם בפוסט - הוא לוקח \( N \) טבעי כלשהו ומצמצם את ה”עולם” שלנו רק למספרים עד וכולל \( N \) ושואל את עצמו - מבין כל המספרים בתחום \( 1,\ldots,N \), כמה מהמספרים הללו בנויים אך ורק מראשוניים קטנים? כלומר, שבפירוק לגורמים שלהם יש רק ראשוניים עד וכולל \( p_{k} \). בואו נראה דוגמא קונקרטית לזה עם שלושת הראשוניים הראשונים, \( 2,3,5 \). איזה מספרים אפשר להרכיב מהם? ובכן, את 2,3,5 כמובן, אבל גם את \( 6,10,15 \) שמתקבלים ממכפלה של זוגות של איברים מתוכם, וגם את \( 30 \) שמתקבל מהמכפלה של שלושתם. ואם רוצים אפשר להכניס גם את \( 1 \) לתמונה בתור “המכפלה הריקה” שלהם. במילים אחרות, מה שתיארתי עד כה הוא את כל המספרים מהצורה

\( 2^{a}3^{b}5^{c} \)

כאשר \( a,b,c \) הם או 0 או 1. מכיוון שלכל אחד מהמשתנים הללו יש 2 אפשרויות, אז מספר הקומבינציות האפשריות של ערכים לכל המשתנים הם 2 (עבור \( a \)) כפול 2 (עבור \( b \)) כפול 2 (עבור \( c \)) - בסך הכל 8, מה שמתאים למספרים שמצאנו: \( 1,2,3,5,6,10,15,30 \).

אותו טיעון עובד גם באופן כללי כשיש לנו \( k \) ראשוניים: מסתכלים על כל המכפלות \( p_{1}^{a_{1}}\ldots p_{k}^{a_{k}} \) כך שכל \( a_{i} \) הוא או 0 או 1 ומקבלים מספר שמתחלק רק בראשוניים קטנים - בסך הכל \( 2^{k} \) מספרים. ייתכן שחלק מהמספרים הללו יוצאים גדולים מ-\( N \) (הרי לא התחייבתי בשום צורה לגבי הערך של \( N \)) ולכן לא אמורים להיות בספירה, אבל זה בסדר כי מספיק לי להראות חסם מלמעלה על כמות המספרים שאפשר להרכיב עם ראשוניים קטנים - כל עוד החסם הזה יהיה די קטן, אני אוכל להסיק את המסקנה שלי, שאי אפשר להרכיב “יותר מדי” מספרים.

העניין הוא שכרגע אני מפספס די הרבה מספרים, ורואים את זה בדוגמא שלנו. מה עם \( 4 \)? הוא מתחלק רק ב-2. ו-9 מתחלק רק ב-3. ומה עם \( 60 \)? גם הוא מתחלק רק ב-\( 2,3,5 \). העניין הוא שעד כה הסתכלתי רק על מספרים שכל ראשוני משתתף במכפלה שנותנת אותם לכל היותר פעם אחת. אבל ראשוני יכול להופיע הרבה פעמים במכפלה. הטיעון של ארדש מטפל בזה בצורה חכמה - הוא סופר גם את המקרים הללו, אבל מתייחס לכך שאם יש ראשוניים שמופיעים יותר מפעם אחת זה מגדיל עוד יותר את המספר שאנחנו בונים ולכן פחות ופחות מספרים יצליחו להיות מתחת לחסם של \( N \).

הנה הטיעון המסודר. נסתכל על כל המכפלות \( p_{1}^{n_{1}}\ldots p_{k}^{n_{k}} \) כך שאין לי הגבלה על ה-\( n \)-ים מלבד זו ש-\( n \) הוא מספר טבעי. עכשיו, כל מספר טבעי אפשר לכתוב בתור \( n=2m+a \) כך ש-\( m \) הוא מספר טבעי אחר ו-\( a \) הוא או 0 או 1 (אם \( n \) זוגי אז \( a \) יהיה 0 ואחרת הוא יהיה 1). בואו ניזכר לרגע בחוקי החזקות הבסיסים:

\( x^{a+b}=x^{a}\cdot x^{b} \)

\( x^{ab}=\left(x^{a}\right)^{b} \)

\( \left(xy\right)^{a}=x^{a}y^{a} \)

עם החוקים הללו אנחנו רואים ש-\( p^{n}=p^{2m+a}=p^{a}\cdot\left(p^{m}\right)^{2} \), ולכן

\( p_{1}^{n_{1}}\ldots p_{k}^{n_{k}}=p_{1}^{a_{1}}\ldots p_{k}^{a_{k}}\cdot\left(p_{1}^{m_{1}}\ldots p_{k}^{m_{k}}\right)^{2} \)

במילים אחרות, אני יכול לכתוב כל מספר בתור מכפלה מהצורה \( s^{2}r \), כאשר \( r \) הוא בעל התכונה שהוא “חופשי מריבועים” - הוא לא מתחלק על ידי אף ריבוע, כי כל מספר ראשוני במכפלה שנותנת אותו מופיע לכל היותר פעם אחת. פירוק כזה של מספר טבעי למכפלה של ריבוע ומספר חופשי מריבועים הוא טריק סטנדרטי בתורת המספרים האלמנטרית ותמיד נחמד להראות אותו.

איך זה עוזר לארדש? ובכן, ארדש כבר הוכיח לנו שאין יותר מדי מספרים חופשיים מריבועים שמורכבים רק מ-\( k \) הראשוניים הראשונים: יש בדיוק \( 2^{k} \) ערכים אפשריים של \( r \). אילו ערכים אפשריים יש ל-\( s \)? אנחנו צריכים שיתקיים \( s^{2}r\le N \) ולכן בפרט שיתקיים \( s^{2}\le N \) כלומר \( s\le\sqrt{N} \). אז יש לנו \( 2^{k} \) דרכים אפשריות לבחור את \( r \) ולכל היותר \( \sqrt{N} \) דרכים אפשריות לבחור את \( s \), ולכן חסם מלמעלה על כמות המספרים בתחום \( 1,\ldots,N \) שמורכבים רק מהראשוניים \( p_{1},\ldots,p_{k} \) היא \( 2^{k}\sqrt{N} \). אוטוטו נראה שזה מספר קטן מדי.

עכשיו, בואו נסתכל על המספרים בתחום \( 1,\ldots,N \) שמתחלקים על ידי ראשוני גדול אחד לפחות, למשל על ידי הראשוני \( p_{t} \) כך ש-\( t>k \). הרעיון הוא שלא יכולים להיות יותר מדי מספרים כאלו כי \( p_{t} \) הוא גדול. פורמלית, אם מספר כלשהו מתחלק על ידי \( p_{t} \) אז הוא מהצורה \( p_{t}\cdot s \) כאשר \( s \) הוא מספר טבעי כלשהו (שיכול אפילו להתחלק שוב על ידי \( p_{t} \), זה לא מפריע לי). מכיוון ש-\( p_{t}s\le N \) אז \( s\le\frac{N}{p_{t}} \), כלומר יש לנו לכל היותר \( \frac{N}{p_{t}} \) מספרים שמתחלקים על ידי \( p_{t} \) בתחום \( 1,\ldots,N \). אז כמה מספרים יש לי בסך הכל? אני אספור את כל מי שמתחלקים על ידי \( p_{k+1} \), כלומר לכל היותר \( \frac{N}{p_{k+1}} \), ועוד מי שמתחלקים על ידי \( p_{k+2} \) כלומר לכל היותר \( \frac{N}{p_{k+2}} \)וכן הלאה. בצורה הזו ייתכן מאוד שאני אספור את אותו מספר כמה פעמים (כי הוא מתחלק גם על ידי \( p_{k+1} \) וגם על ידי \( p_{k+2} \), למשל) אבל זה לא מפריע לי - אני רק רוצה לחסום מלמעלה את כמות המספרים שמתחלקים על ידי ראשוני גדול. אני אקבל:

\( \frac{N}{p_{k+1}}+\frac{N}{p_{k+2}}+\frac{N}{p_{k+3}}+\ldots=N\cdot\left(\frac{1}{p_{k+1}}+\frac{1}{p_{k+2}}+\frac{1}{p_{k+3}}+\ldots\right)<\frac{N}{2} \)

כשהמעבר האחרון נובע ממה שהתחלנו איתו - בחרנו את \( k \) בכוונה כדי שה”זנב” יתכנס למספר קטן מחצי. עכשיו, את מה שעשיתי בשורה הקודמת צריך להצדיק בצורה פורמלית, כי כל עבודה עם טורים אינסופיים דורשת הצדקות זהירות - אבל זה עובד, לא לדאוג.

מה קיבלנו? שלכל היותר חצי מהמספרים בתחום \( 1,\ldots,N \) יכולים להתחלק על ידי ראשוניים “גדולים”. לכן לפחות חצי מהם מתחלקים רק על ידי ראשוניים קטנים. זה אומר שצריך להתקיים \( \frac{N}{2}<2^{k}\sqrt{N} \), או במילים אחרות - \( \sqrt{N}<2^{k+1} \) (חילקתי את שני האגפים ב-\( \sqrt{N} \) וכפלתי אותם ב-2) או במילים אחרות, \( N<2^{2\left(k+1\right)} \) (העליתי בריבוע את שני האגפים).

אלא מה, לא הנחתי שום דבר כזה על \( N \). כל מה שארדש עשה תקף עבור \( N \) כללי, כלשהו. לכן זה אמור לעבוד גם אם \( N\ge2^{2\left(k+1\right)} \), אבל אז מקבלים סתירה והמתמטיקה מתרסקת, מה שמוביל את ארדש לכך שההנחה המקורית שלו, שהטור של הופכיי הראשוניים מתכנס, לא הייתה נכונה.

בואו נחדד שוב מה ארדש אומר בעצם: הוא אומר שאם נחלק את הראשוניים ל-\( k \) ראשוניים “קטנים” וכל יתר אינסוף הראשוניים הם “גדולים”, אז אם נסתכל על חתיכה גדולה מספיק מהמספרים הטבעיים, הראשוניים ה”קטנים” יהיו חייבים להרכיב לבדם לפחות חצי מהחתיכה הזו כי הראשוניים ה”גדולים” הם גדולים מדי מכדי להרכיב את רוב המספרים שם, אבל מצד שני פשוט אין מספיק ראשוניים קטנים כדי להרכיב כזו כמות של מספרים. המסקנה, אם תרצו, היא שראשוניים “קטנים” יש המון, אם כי כאמור קשה לי לתאר את המובן המדויק הזה של “המון”.

חלק חמישי וקצר במיוחד שבו אני שואל ולא באמת מבין מה למדנו מכל זה

לסיכום, מה בעצם למדנו? האם למדנו שרוב הראשוניים הם קטנים? לא. האם למדנו שרוב הראשוניים הם גדולים? לא. אני עדיין לא בטוח מה המשמעות שאנחנו רוצים לתת למילים הללו. אבל כן למדנו כל מני דברים נחמדים בפני עצמם - מה זה ראשוניים, שיש אינסוף מהם, מה זה “כמעט כל” המספרים, מה משפט המספרים הראשוניים מספר לנו על הכמות של הראשוניים עד גודל כלשהו, על האופן שבו אפשר להגדיר יחסי סדר שונים על הטבעיים ובפרט יחס של חילוק במקום “קטן מ-“ הרגיל, ואיך אפשר להשתמש בטורים אינסופיים כדי להעריך עד כמה מהר סדרת מספרים כלשהי נהיית גדולה. כל אלו הם דברים מעניינים במתמטיקה, ושאלה היא מוצדקת אם היא נותנת לנו תירוץ לדבר על דברים מעניינים, אז אני בסך הכל סבבה עם השאלה “האם רוב הראשוניים הם קטנים?” כל עוד אנחנו זוכרים שהמטרה פה היא לא לענות עליה ובטח שלא לחשוב שיש לה תשובה חד משמעית, אלא להשתמש בה בתור תירוץ לראות דברים מעניינים באמת.

איך מחשבים דטרמיננטה?

2024-12-03T00:00:00+00:00

כאשר לומדים אלגברה לינארית, מושג הדטרמיננטה צץ בשלב זה או אחר. לפעמים מלמדים אותו מהר יחסית ולפעמים מחכים איתו עד שממש חייבים, כדי לא להפחיד אנשים תמימים, אבל הוא תמיד שם - וזה כי דטרמיננטות זה יופי של דבר כשמפסיקים לפחד מהן. יש לי כבר פוסט שמסביר מהי דטרמיננטה, אבל דבר אחד אין שם: איך מחשבים אותה. בפוסט הזה אני רוצה להשלים את החור הזה ולתאר את הדרך הסטנדרטית, שהיא בסך הכל די פשוטה; המוטיבציה שלי מגיעה מכך שלא מזמן נזקקתי לדרך אחרת, שבמובנים מסוימים היא טובה יותר ובמובנים אחרים היא טובה פחות, אבל איתה אחכה לפוסט הבא.

ראשית, בואו ניזכר מה זו דטרמיננטה בעצם. ההיכרות הראשונה שלי עם הנושא הייתה בשיעור מחשבים אי שם בכיתה י’ או משהו, שבו מסיבה לא ברורה המורה החליט בתור שאלת שיעורי בית לתת לנו לכתוב קוד שמחשב דטרמיננטות, ולכן בילה כמעט חמש דקות בלהכתיב את השאלה שרובה כללה הסבר של איך בכלל מוגדרת דטרמיננטה. לא רק שלא הבנתי כלום, גם נכנסתי להלם גדול וחרדה מפני הנושא הזה. למה שהמורה יתעלל בנו בצורה כזו? ובכן, כי הוא רצה להציג את המושג של רקורסיה, פונקציה שמחשבת משהו על קלט מסוים ידי קריאה לעצמה על קלטים קטנים יותר, וזו בהחלט אחת הדרכים שבהן ניתן לחשב דטרמיננטה. האם זו הדרך הנכונה להציג את הנושא? ובכן, לא וכן; לא, כי זה לא נותן לנו מבט בתמונה הגדולה - אבל בשביל זה יש את הפוסט שקישרתי אליו קודם - וכן, כי זה מכניס אותנו ישר למים של ההיבט החישובי.

דטרמיננטה מוגדרת על מטריצה ריבועית, כלומר על אוסף של מספרים שמסודר בטבלה עם אותו מספר שורות ועמודות. אם המספר הוא \( n \), אומרים שזו מטריצה מסדר \( n\times n \). בדרך כלל מסמנים את זה ב-

\( A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & & a_{2n}\\ \vdots & & \ddots & \vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{array}\right] \)

הדטרמיננטה של \( A \) מסומנת \( \left|A\right| \) (אבל זה לא ערך מוחלט; זה סימן שנבחר בגלל דמיון שטחי כלשהו בין התכונות של הדטרמיננטה והתכונות של הערך המוחלט) או \( \text{det}A \). הנה דרך אחת לחשב את \( \left|A\right| \): אנחנו עוברים על כל האיברים בשורה העליונה של \( A \). ראשית אנחנו לוקחים את \( a_{11} \) ואז אנחנו שומרים את \( A \) בצד, לוקחים עותק שלה, מוחקים מהעותק את השורה והעמודה הראשונה, מחשבים את הדטרמיננטה של המטריצה הקטנה יותר הזו, כופלים את זה ב-\( a_{11} \) ואת התוצאה שומרים בצד.

עכשיו עושים משהו דומה עם \( a_{12} \): מוחקים את השורה הראשונה והעמודה השניה, מקבלים מטריצה קטנה יותר, מחשבים את הדטרמיננטה שלה, כופלים ב-\( a_{12} \) ואז מחסרים את התוצאה ממה שקיבלנו קודם. ואז לוקחים את \( a_{13} \) ועושים את אותו הטריק איתו אבל מחברים - בקיצור, אנחנו רואים שזו מהומה, ושצריך להכניס קצת סימנים כדי לתאר את זה בצורה פשוטה.

הסימן הראשון שאנחנו רוצים הוא “המטריצה שמקבלים מ-\( A \) כשמוחקים שורה ועמודה ספציפיות”. למטריצה כזו קוראים מטריצת המינור של השורה והעמודה, ואם השורה היא \( i \) והעמודה היא \( j \) אני אסמן אותה ב-\( A^{ij} \). אצלנו תמיד מחקתי את השורה הראשונה, אבל זה היה רק לצורך הדוגמא - אפשר להראות שלא משנה איזו שורה אני בוחר, אני אקבל את אותו דבר. אז אני מקבל את הנוסחה הבאה:

\( \left|A\right|=\sum_{j=1}^{n}\left(-1\right)^{i+j}a_{ij}\left|A^{ij}\right| \)

כאן \( \left|A^{ij}\right| \) הוא הדטרמיננטה של מטריצת המינור, \( a_{ij} \) האיבר שאת השורה והעמודה שלו מוחקים, ו-\( \left(-1\right)^{i+j} \) זו הדרך להשיג את אפקט ה”לחבר ולחסר לסירוגין”. הנוסחה הזו שלעיל מתאימה למה שנקרא “פיתוח הדטרמיננטה לפי השורה ה-\( i \)”. אפשר לעשות את זה גם לפי עמודות - לבחור עמודה \( j \) ספציפית ולעבור על האיברים שלה אחד-אחד. זה מוביל לנוסחה

\( \left|A\right|=\sum_{i=1}^{n}\left(-1\right)^{i+j}a_{ij}\left|A^{ij}\right| \)

זו נוסחה רקורסיבית, אז היא צריכה תנאי התחלה - מקרה בסיסי כל כך שבו לא צריך לחשב דטרמיננטה של משהו קטן יותר. די מתבקש להסתכל על המקרה של מטריצה בת איבר בודד ואז הדטרמיננטה שלה היא האיבר הבודד הזה. ומה קורה עם מטריצה מסדר \( 2\times2 \)?

\( A=\left[\begin{array}{cc} a_{11} & a_{12}\\ a_{21} & a_{22} \end{array}\right] \)

נפתח את הדטרמיננטה על פי השורה הראשונה: ראשית ניקח את \( a_{11} \), נמחק את השורה והעמודה הראשונות ונקבל את המטריצה \( \left[a_{22}\right] \) שהדטרמיננטה שלה היא \( a_{22} \), אז האיבר הראשון בסכום הוא \( a_{11}a_{22} \). עכשיו נעבור אל \( a_{12} \), נמחק שורה ראשונה ועמודה שניה, נקבל דטרמיננטה \( a_{21} \), נכפיל ונשים סימן חיסור על הכל, ונקבל בסך הכל ש-\( \left|A\right|=a_{11}a_{22}-a_{12}a_{21} \). עכשיו תנסו לעשות את אותו הדבר עם פיתוח של שורה אחרת או עמודה אחרת (למשל, עמודה 2) ותראו איך יוצא אותו דבר (אם סימני הפלוס/מינוס לא מסתדרים תזכרו את הגורם \( \left(-1\right)^{i+j} \); לא תמיד כשמפתחים לפי שורה או עמודה כלשהי, האיבר הראשון שבו מטפלים יהיה עם סימן חיובי).

def det(A):
    n = len(A)
    if n == 1:
        return A[0][0]
    result = 0
    for k in range(n):
        minor_matrix = [[A[i][j] for j in range(n) if j != k] for i in range(1, n)]
        result += (-1)**k * A[0][k] * det(minor_matrix)
    return result

האם זה עובד טוב? לא, זה עובד איום ונורא. זה ירוץ ויחזיר את התוצאה הנכונה, אבל באיזה מחיר? המחיר יהיה זמן ריצה גדול (וגם צריכת זכרון מיותרת, אבל בהיקף פחות משמעותי כאן). חשבו על זה כך: אם אני מפעיל את האלגוריתם על מטריצה מסדר \( n\times n \), אני צריך לחשב את הדטרמיננטה של \( n \) מטריצות מסדר \( \left(n-1\right)\times\left(n-1\right) \), וכל חישוב כזה דורש חישוב של \( n-1 \) דטרמיננטות של מטריצות מסדר \( \left(n-2\right)\times\left(n-2\right) \) וכן הלאה - יוצא שאני מחשב \( n\left(n-1\right)\left(n-2\right)\cdots1=n! \) דטרמיננטות. קצב הגידול של \( n! \) הוא אקספוננציאלי - תמיד חדשות רעות שמדובר על זמן חישוב. על מטריצת \( 4\times4 \) האלגוריתם הזה יעבוד מעולה ויסתיים חיש קל. על מטריצה מסדר \( 1000\times1000 \)? אני לא מעז להפעיל אותו.

האם ניתן לייעל את זה? למרבה השמחה כן, אפשר לייעל את החישוב בצורה קיצונית ממש, וכל זה בזכות תכונה קסומה אחת של הדטרמיננטה: היא כפלית. אם \( A,B \) הן מטריצות ריבועיות, אז \( \left|AB\right|=\left|A\right|\cdot\left|B\right| \). ההוכחה היא אפילו לא כל כך מסובכת ואני מציג אותה בפוסט שלי, אבל היא דורשת את נקודת המבט התיאורטית יותר על דטרמיננטה שאני לא נכנס אליה כאן. גם לשאלה מה זה בדיוק כפל המטריצות \( AB \) אני לא נכנס; זה לא כפל “איבר-איבר” אלא משהו מתוחכם יותר, אבל יש לי פוסט גם על זה ומי שלא מכירים את המושג פשוט יוכלו לסמוך עלי בכמה טענות פשוטות שאני עוד מעט אטען.

לפני שנגיע לשימוש בכפליות של הדטרמיננטה, בואו נחשוב מתי ההגדרה הרקורסיבית כן שמישה בצורה נוחה. המקרה הקלאסי הוא זה: אם יש לי מטריצה שיש בה שורה שכל האיברים בה הם אפס חוץ אולי מאיבר אחד, מאוד כדאי לי לפתח את הדטרמיננטה על פי השורה הזו, כי בנוסחה \( \left|A\right|=\sum_{j=1}^{n}\left(-1\right)^{i+j}a_{ij}\left|A^{ij}\right| \) כל האיברים \( a_{ij} \) הולכים לצאת אפס חוץ אולי מאיבר אחד ספציפי, נניח \( a_{ik} \), ואז נקבל \( \left|A\right|=\left(-1\right)^{i+k}a_{ik}\left|A^{ik}\right| \). אני עדיין צריך לחשב רקורסיבית את הדטרמיננטה של \( A^{ik} \), אבל זו רק מטריצה אחת, בניגוד ל-\( n \) מטריצות שהייתי צריך לחשב להן את הדטרמיננטה במקרה הכללי. יותר מזה - אנחנו רואים פה שאם יש במטריצה שורת אפסים, אז הדטרמיננטה שלה יוצאת אפס ואפשר לסיים את החישוב (ואותו דבר עבור טור של אפסים).

זה מאפשר לי לחשב ביעילות את הדטרמיננטה של מטריצות נחמדות, שבהן בכל שורה יש רק איבר אחד שונה מאפס. הדוגמא הקלאסית למטריצה כזו היא מטריצה אלכסונית, מטריצה שבה רק האיברים מהצורה \( a_{ii} \) (שנקראים “אברי האלכסון הראשי”) יכולים להיות שונים מאפס וכל היתר הם אפס. למשל

\( A=\left[\begin{array}{ccc} 13 & 0 & 0\\ 0 & -2 & 0\\ 0 & 0 & 8 \end{array}\right] \)

אם נתחיל לפתח את הדטרמיננטה של \( A \) על פי השורה הראשונה, נקבל

\( \left|A\right|=13\cdot\left|\begin{array}{cc} -2 & 0\\ 0 & 8 \end{array}\right| \)

עכשיו את הדטרמיננטה של המטריצה החדשה אני יכול לחשב באותו אופן - פיתוח על פי השורה הראשונה, שהוא פשוט כפל במספר שכתוב בשורה הראשונה כפול הדטרמיננטה של מה שנשאר מהמטריצה כש”מגלחים” ממנה את השורה והעמודה הראשונה, וכן הלאה. אני אקבל \( \left|A\right|=13\cdot\left(-2\right)\cdot8 \): הדטרמיננטה של מטריצה אלכסונית היא מכפלת האיברים על האלכסון.

אם זה ברור, בואו נשים לב שבעצם ראיתי כאן יותר מזה. כשאני מפתח את הדטרמיננטה על פי השורה הראשונה, האיבר היחיד שרלוונטי הוא ה-13 שבמקום הראשון. עבורו, אני “מגלח” גם את העמודה הראשונה מהמטריצה. זו הסיבה שאברי העמודה הזו לא משתתפים בהמשך החישוב - שהסירו אותם בצורה הזו. לא שהם אפסים. החישוב היה ממשיך באותו אופן בדיוק גם אם הם לא היו אפסים. כלומר, אם המטריצה הייתה

\( A=\left[\begin{array}{ccc} 13 & 0 & 0\\ 42 & -2 & 0\\ 555 & 0 & 8 \end{array}\right] \)

הדטרמיננטה שלה בכלל לא הייתה משתנה - הפיתוח לפי השורה הראשונה היה מניב \( \left|A\right|=13\cdot\left|\begin{array}{cc} -2 & 0\\ 0 & 8 \end{array}\right| \) באותה צורה כמו קודם. זה נכון שהפיתוח לפי העמודה הראשונה היה עכשיו מתנהל שונה לגמרי, אבל הוא היה מגיע לאותה תוצאה סופית (נסו!)

באופן דומה גם בעמודה השניה יכולים להופיע איברים שונים מאפס - אבל רק מתחת ל-\( -2 \) שבאמצע, כי איברים מעליו ישפיעו על שורות שמופיעות בחישוב של הדטרמיננטה לפני שהעמודה של \( -2 \) נמחקת. כלומר, גם הדטרמיננטה של המטריצה הזו היא מכפלת אברי האלכסון:

\( A=\left[\begin{array}{ccc} 13 & 0 & 0\\ 42 & -2 & 0\\ 555 & 9999 & 8 \end{array}\right] \)

התוצאה הזו מראה שמטריצות שבהן “החצי העליון” של המטריצה, מעל האלכסון הראשי, הוא אפסים הן מטריצות מעניינות. למטריצות כאלו קוראים “מטריצה משולשית תחתונה” (תחתונה, כי האיזור שבו כן יכולים להיות דברים שונים מאפס הוא זה שמתחת לאלכסון הראשי). פורמלית, זו מטריצה שבה אם \( j>i \) אז \( a_{ij}=0 \) (אם מספר העמודה גדול ממספר השורה, הכניסה היא אפס). מה שראינו עכשיו הוא שבמטריצות כאלו, הדטרמיננטה היא מכפלת אברי האלכסון הראשי. באופן דומה מגדירים גם “מטריצה משולשית עליונה” שבה אם \( i>j \) אז \( a_{ij}=0 \) ופיתוח הדטרמיננטה לפי עמודות ולא לפי שורות מראה שגם במקרה הזה הדטרמיננטה של מטריצה כזו היא מכפלת אברי האלכסון הראשי.

זה יפה מאוד, אבל איך זה עוזר לנו לחשב דטרמיננטה במקרה הכללי? כאן מגיע הפאנץ’ הנחמד: יש כמה פעולות פשוטות שאפשר לבצע על מטריצה שהופכות אותה למטריצה משולשית, והשינויים שהפעולות הללו עושים לדטרמיננטה הם זניחים עד לא קיימים. זה מתקשר לנושא של דירוג מטריצות אבל אני לא אצטרך לדבר על הנושא הזה בצורה הכללית שלו, אז נתמקד במה שעוזר לנו כאן.

בשביל חישוב דטרמיננטה, מספיקים לנו שתי פעולות שאפשר לבצע על מטריצה:

להחליף שתי שורות במטריצה
לקחת שורה אחת, לכפול אותה במספר כלשהו, ולחבר לשורה אחרת

בואו נדגים את זה. הנה מטריצה:

\( A=\left[\begin{array}{ccc} 2 & 8 & 3\\ 4 & 9 & 1\\ 3 & 3 & 3 \end{array}\right] \)

אם אני אחליף את השורה השניה והשלישית, אני אקבל

\( A=\left[\begin{array}{ccc} 2 & 8 & 3\\ 3 & 3 & 3\\ 4 & 9 & 1 \end{array}\right] \)

האם הפעולה הזו תשנה את הדטרמיננטה של המטריצה? כן! אבל בצורה פשוטה: הדטרמיננטה תוכפל ב-\( -1 \), וזה יקרה תמיד, לא משנה אילו שתי שורות נחליף. אולי יהיה יותר קל לראות את זה קורה אם נתחיל עם מטריצה אלכסונית פשוטה:

\( B=\left[\begin{array}{ccc} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1 \end{array}\right] \)

בבירור \( \left|B\right|=1 \) כי זו מכפלת אברי האלכסון. עכשיו, בואו נחליף את השורה השניה בשלישית ונקבל

\( B=\left[\begin{array}{ccc} 1 & 0 & 0\\ 0 & 0 & 1\\ 0 & 1 & 0 \end{array}\right] \)

עכשיו זו כבר לא מטריצה משולשית אז מכפלת אברי האלכסון לא תיתן לנו את הדטרמיננטה, אבל עדיין אפשר לפתח אותה על פי הכללים הרגילים, שורה-שורה, ונקבל

\( \left|B\right|=1\cdot\left|\begin{array}{cc} 0 & 1\\ 1 & 0 \end{array}\right|=1\cdot\left(-1\right)=-1 \)

זה גם מה שיקרה במקרה הכללי אם ניקח מטריצה שכולה 1-ים על האלכסון הראשי ונחליף שתי שורות: אם נפתח את הדטרמיננטה וראשית כל נפתח אותה לפי השורות שלא השתנו, נקבל מכל שורה כזו 1, וכולם יוכפלו בסוף ב-\( \left|\begin{array}{cc} 0 & 1\\ 1 & 0 \end{array}\right| \), שזו הדטרמיננטה של מה שיישאר משתי השורות שכן הוחלפו, אחרי שכל יתר העמודות נקצצו מהמטריצה. כלומר (בנפנוף ידיים) לכל החלפת שורות, נקבל שהדטרמיננטה של המטריצה היא \( -1 \).

עכשיו מגיע הקסם, ואיך שאני אוהב את הקסם הזה! אם ניקח את \( B \) שלאחר ההחלפה ונכפול אותה ב-\( A \) המקורית, נקבל:

\( \left[\begin{array}{ccc} 1 & 0 & 0\\ 0 & 0 & 1\\ 0 & 1 & 0 \end{array}\right]\left[\begin{array}{ccc} 2 & 8 & 3\\ 4 & 9 & 1\\ 3 & 3 & 3 \end{array}\right]=\left[\begin{array}{ccc} 2 & 8 & 3\\ 3 & 3 & 3\\ 4 & 9 & 1 \end{array}\right] \)

מה קרה פה? הכפל במטריצה \( B \) אחרי החלפת השורה היה בעל אפקט של ביצוע החלפת שורה על \( A \)! כלומר, הצלחנו לתאר את הפעולה “החלפת שורה” בתור “כפל במטריצה כלשהי”. עכשיו, בגלל שאני יודע ש-\( \left|BA\right|=\left|B\right|\left|A\right| \) ובגלל ש-\( \left|B\right|=-1 \) כפי שזה עתה ראינו, אני מקבל שהדטרמיננטה של \( A \) אחרי החלפת שורות - וזה יעבוד לכל פעולה בודדת של החלפת שורות - הוא כפל ב-\( -1 \), כמו שהבטחתי.

האם אפשר לעשות את אותו תעלול גם עבור הפעולה המסובכת יותר, “לקחת שורה אחת, לכפול אותה במספר כלשהו, ולחבר לשורה אחרת”? ובכן, בואו ננסה דוגמא. נלך אל \( B \) המקורית, נכפול את השורה הראשונה ב-\( -2 \) ונחבר אותה אל השורה השניה. שימו לב שאני לא משנה את השורה הראשונה; ההכפלה שלה במשהו היא רק לצורך חיבור עם השורה האחרת (יש גם פעולה של הכפלה של שורה, אבל אני לא צריך אותה פה; אותו הטריק עם \( B \) יעבוד גם עבור הפעולה הזו ויראה שכפל שורה ב-\( \lambda \) מכפיל את הדטרמיננטה ב-\( \lambda \)). נקבל:

\( B=\left[\begin{array}{ccc} 1 & 0 & 0\\ -2 & 1 & 0\\ 0 & 0 & 1 \end{array}\right] \)

מה הדטרמיננטה של \( B \) החדשה? ובכן… אה… זה קצת מוזר. השינוי השפיע רק מתחת לאלכסון, לא מעליו, אז עדיין יש לי מטריצה משולשית, ולכן הדטרמיננטה היא עדיין רק מכפלת אברי האלכסון ולכן היא 1, כלומר היא… לא השתנתה בכלל? משהו פה לא מסתדר לי. אולי אם ניקח את השורה השניה ונוסיף אותה לשלישית? לא, גם אז זה יוצא מטריצה משולשית… ואם נוסיף את השלישית לשניה? אז מתקבלת מטריצה משולשית עליונה ולא תחתונה, אבל הדטרמיננטה היא עדיין 1… ובכן… ממש מוזר אבל נראה שלא משנה איך נבצע אותה, הפעולה “לקחת שורה אחת, לכפול אותה במספר כלשהו, ולחבר לשורה אחרת” פשוט לא משנה את הדטרמיננטה של \( B \).

בואו ניקח את \( B \) שחישבתי קודם, זו שבה חיסרתי את פעמיים השורה הראשונה מהשניה, ונכפול אותה ב-\( A \) המקורית. נקבל:

\( \left[\begin{array}{ccc} 1 & 0 & 0\\ -2 & 1 & 0\\ 0 & 0 & 1 \end{array}\right]\left[\begin{array}{ccc} 2 & 8 & 3\\ 4 & 9 & 1\\ 3 & 3 & 3 \end{array}\right]=\left[\begin{array}{ccc} 2 & 8 & 3\\ 0 & -7 & -5\\ 3 & 3 & 3 \end{array}\right] \)

כלומר הטריק עבד שוב: ההכפלה ב-\( B \) הייתה בדיוק בעלת האפקט של “קח את השורה הראשונה של \( A \), כפול במינוס 2, חבר לשורה השניה” ולכן הטריק של הדטרמיננטה של המכפלה מספר לנו שבמקרה הזה, גם הדטרמיננטה של \( A \) לא תשתנה. זה נכון באופן כללי: הפעולה “קח שורה כלשהי, והוסף אותה כשהיא מוכפלת בסקלר לאחת השורות האחרות” לא משנה את הדטרמיננטה. אף פעם.

אבל עכשיו בואו ותראו מה קרה. מהמטריצה \( A \) המסובכת קיבלתי גרסה חדשה של \( A \), עם אותה דטרמיננטה, אבל שנראית יותר פשוטה: יש בה 0 באחד המקומות. זה לא קרה בטעות: אני הסתכלתי על \( A \), ראיתי שבעמודה הראשונה, יש בשורה הראשונה 2 ובשורה השניה 4 ושאלתי את עצמי “במה אני צריך לכפול את 2 כדי שאחרי שאחבר אותו אל 4 אקבל 0?” וזה היה בדיוק \( -2 \) אז זה מה שעשיתי. עכשיו נעשה את זה במקרה המלוכלך יותר, של השורה השלישית: בשורה השניה יש 2, בשלישית יש \( 3 \), אז אני צריך לכפול ב-\( -\frac{3}{2} \). זה אולי יגרום לכל המספרים שמופיעים בשורה השלישית במטריצה להיות שברים מעיקים, אבל לא אכפת לי! אני אעשה את זה! הנה!

\( \left[\begin{array}{ccc} 2 & 8 & 3\\ 0 & -7 & -5\\ 0 & -9 & -\frac{3}{2} \end{array}\right] \)

עכשיו אנחנו מאוד קרובים למטריצה משולשית - רק ה-\( -9 \) בשורה השלישית מפריע לנו. אני יכול להעלים אותו על ידי כפל השורה השניה ב-\( -\frac{9}{7} \) וחיבור שלה לשלישית, ואני אקבל

\( \left[\begin{array}{ccc} 2 & 8 & 3\\ 0 & -7 & -5\\ 0 & 0 & \frac{69}{14} \end{array}\right] \)

קיבלתי על האלכסון את המספר \( \frac{69}{14} \). זה לא נראה טוב. זה נראה כמו שבר משובר. זה בעצם העונש שלי על שתי פעולות של איפוס איברים שעשיתי “בכוח”, על ידי זה שהיה לי \( a \) בכניסה אחת ו-\( b \) בכניסה אחרת וכפלתי ב-\( -\frac{b}{a} \) וחיברתי, בלי שיהיה איזה צמצום נחמד שמערב את \( a,b \). זו גם בדיוק הנקודה שלי: לא צריך שדברים יסתדרו “יפה”. אפשר פשוט לעשות את זה בכוח - או טוב יותר, לתת למחשב לעשות את זה. למחשב לא אכפת אם החישובים הם מכוערים, הוא פשוט יעשה את זה.

וכעת, כדי לקבל את הדטרמיננטה של המטריצה המקורית, כל מה שנשאר לעשות הוא לכפול את האיברים שעל האלכסון ולקבל ש…\( 2\cdot\left(-7\right)\cdot\frac{69}{14}=-69 \). הא. קיבלנו בסופו של דבר דטרמיננטה שהיא לא שבר אלא מספר שלם נחמד. זה לא באמת מפתיע, אם חושבים על זה - בהגדרה שנתתי לדטרמיננטה (וגם בהגדרות התיאורטיות יותר) לא מעורב חילוק - יש לנו סכומים של מכפלות של האיברים שבתוך המטריצה, כך שאם כולם היו מספרים שלמים, גם הדטרמיננטה תצא מספר שלם.

מכאן מגיעה בעצם המוטביציה העכשווית שלי לפוסט הזה ופוסט ההמשך; מבלי להיכנס לפרטים (שיגיעו בפוסט הבא), הגעתי לסיטואציה שבה אני באמת נזקק לחישוב דטרמיננטה של מטריצה; מטריצה \( 6\times6 \) עם ערכים שהם מספרים שלמים, אבל גדולים למדי (נאמר, בני 15 ספרות). הדבר הראשון שעשיתי היה להשתמש בספריה של פייתון לחישובים מתמטיים שנקראת numpy והיא כשלה באופן מחפיר כי רמת הדיוק שלה הייתה מוגבלת והמספרים היו גדולים מדי עבורה; התוצאה שקיבלתי לא הייתה קירוב טוב של הדטרמיננטה שציפיתי לקבל אלא מספר לא קשור בעליל. מה שמייד אמרתי לעצמי הוא “אה-הא! הבעיה היא שהכנסתי שברים לתמונה! אני אחפש אלגוריתם שבמקרה של מטריצה עם איברים שלמים לא מתדרדר לסיטואציה שבה כתובים בה שברים” וחיפשתי ואפילו מצאתי אלגוריתם כזה שהוא די מרהיב לטעמי, ומימשתי אותו והכל עבד מצוין. רק מה? גם האלגוריתם הנאיבי שתיארתי בהתחלה עובד מצוין על אותה מטריצת \( 6\times6 \) כי עבור מטריצות \( 6\times6 \) זמן הריצה שלו הוא עדיין די סבבה. הלקח הוא תמיד לנסות קודם את הפתרון הנאיבי אלא אם רוצים להיתקל בנושאים מגניבים לפוסט (כמו כן גם גישת ה”לחלק” הייתה עובדת טוב אם הייתי משתמש בספריית פייתון שיודעת לייצר שברים ברמת דיוק אינסופית - ויש כזו ואני באמת משתמש בה מדי פעם).

בואו נחזור עכשיו לחישוב דטרמיננטה בשיטה שהצגתי. כל מה שראינו עד עכשיו היה דוגמא; בואו נבין מה עושים באופן כללי. אז נניח שיש לנו מטריצה כללית, היא נראית ככה:

\( A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{array}\right] \)

אותי מה שמעניין כאן הוא העמודה הראשונה. היעד שלי הוא ליצור מטריצה משולשית עליונה, אז בשביל זה אני רוצה לאפס את כל הכניסות בעמודה הראשונה. את זה אני אעשה בכוח, כפי שתיארתי כבר. כדי לאפס את \( a_{21} \) אני מחבר לשורה השניה את הראשונה כשהיא מוכפלת ב-\( -\frac{a_{21}}{a_{11}} \), בשביל השלישית אני מכפיל ב-\( -\frac{a_{31}}{a_{11}} \) וכן הלאה. אני אקבל:

\( A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n}\\ 0 & \frac{a_{22}a_{11}-a_{21}a_{12}}{a_{11}} & \cdots & \frac{a_{2n}a_{11}-a_{21}a_{1n}}{a_{11}}\\ \vdots & \vdots & \ddots & \vdots\\ 0 & \frac{a_{n2}a_{11}-a_{n1}a_{12}}{a_{11}} & \cdots & \frac{a_{nn}a_{11}-a_{n1}a_{1n}}{a_{11}} \end{array}\right] \)

החל מהנקודה הזו, העמודה והשורה הראשונות לא מעניינות אותי יותר. הרי אם אני אתחיל לפתח את הדטרמיננטה על פי העמודה הראשונה, אני אקבל שהיא שווה ל-\( a_{11} \) כפול הדטרמיננטה של מה שמתקבל ממחיקת השורה והעמודה הראשונה. אז נמחק אותן ונטפל ביתר המטריצה על פי אותו עיקרון, עד שנסיים לטפל בכל העמודות. אם כן, האם סיימנו? לא, בגלל שהתעלמתי מבעיה אחת שיכולה לצוץ: מה אם \( a_{11}=0 \)?

במקרה הזה, יש שתי אפשרויות: או שכל האיברים בעמודה הראשונה הם אפס, ובמקרה הזה הדטרמיננטה של המטריצה היא אפס; או שיש איבר כלשהו ששונה מאפס. במקרה השני, נחליף את השורה של האיבר הזה עם השורה הראשונה הנוכחית, ונזכור שזה “עלה לנו” בהכפלת הדטרמיננטה הכוללת ב-\( -1 \) (ואם נחליף עוד שורות בהמשך זה עשוי לבטל את זה).

האם האלגוריתם הזה יעיל? בהחלט. כדי לחשב דטרמיננטה של מטריצה מסדר \( n\times n \) אנחנו צריכים לבצע בערך \( n^{2} \) פעולות חשבוניות, ואחריהן לחשב דטרמיננטה של מטריצה אחת מסדר \( \left(n-1\right)\times\left(n-1\right) \), כלומר אם אנחנו מחפשים הערכה גסה לזמן הריצה היא תהיה \( n^{2}+\left(n-1\right)^{2}+\ldots+1^{2} \) וזה בערך מסדר גודל של \( n^{3} \) - משמעותית יותר טוב מזמן ריצה אקספוננציאלי (אבל זה עדיין זמן ריצה בעייתי עבור מטריצות ענק, ולכן יש כאן פתח לעולם שלם של אופטימיזציות שאני לא אדבר עליו).

כשאני בא לממש את הדבר הזה בפועל, אני לא אטרח לממש רקורסיה כי זה סתם בזבזני (קריאה לפונקציה תמיד דורשת אקסטרה זמן ומשאבים), את כל השינויים אפשר לבצע כבר ברמת המטריצה המקורית. הנה קוד שעושה את העבודה:

def det(A):
    result = 1
    n = len(A)
    # go over all columns k=0,1,...,n-1
    for k in range(n):
        if A[k][k] == 0:
            for i in range(k+1, n):
                if A[i][k] != 0:
                    A[k], A[i] = A[i], A[k]
                    result *= -1
                    break
            if A[k][k] == 0:
                return 0
        # go over all rows i=k+1,k+2,...,n-1
        result *= A[k][k]
        for i in range(k+1, n):
            factor = A[i][k] / A[k][k]
            # go over all the nonzero elements in row i
            for j in range(k, n):
                A[i][j] -= factor * A[k][j]
    return result

אז זו הדרך הרגילה לחישוב דטרמיננטות; בפוסט הבא נראה משהו קצת שונה.

אז מה זה בעצם המספרים הממשיים? (חלק ה’: בונים את המספרים הממשיים עם חתכי דדקינד)

2024-11-24T00:00:00+00:00

מבוא

בפוסט הקודם שלי הצגתי את הבניה של קנטור למספרים הממשיים והוכחתי שהיא מקיימת את האקסיומות של שדה סדור שלם. זה היה בסך הכל בסדר, עם כמה קשיים טכניים לא נוראיים. הפעם אני אעשה את זה עם הבניה של דדקינד, וגם זה יהיה בסך הכל בסדר, עם כמה קשיים טכניים לא נוראיים אבל במקומות שונים לגמרי. למשל, בשיטה של קנטור הסתבכתי עם הוכחת אקסיומת השלמות ולעומת זאת כאן זה יהיה כמעט טריוויאלי, ואילו בחתכי דדקינד הגדרת החיבור תהיה פשוטה אבל הגדרת הכפל תהיה גיהנום, להבדיל ממה שקרה אצל קנטור שבו שתי ההגדרות היו די דומות באופי שלהן. זה לא שיש דרך שהיא “טובה יותר”, זו של דדקינד או של קנטור - שתיהן אחלה ושווה להכיר את שתיהן.

אני אחזור על מה שהצגתי בפוסט הקודם בתורה המטרה שלנו, ממש ברמת ההעתק-הדבק:

האובייקט הבסיסי שלנו מסומן ב-\( \mathbb{F} \) והוא פשוט קבוצה. אנחנו אומרים שהוא שדה אם בנוסף ל-\( \mathbb{F} \) מוגדרות לנו שתי פונקציות בינאריות על \( \mathbb{F} \) (פונקציות בינאריות: מקבלות שני קלטים ומחזירות פלט אחד) שמסומנות ב-“\( + \)” וב-“\( \cdot \)” כך שמתקיימות התכונות הבאות:

\( \left(A+B\right)+C=A+\left(B+C\right) \)
\( \left(A\cdot B\right)\cdot C=A\cdot\left(B\cdot C\right) \)
\( A+B=B+A \)
\( A\cdot B=B\cdot A \)
\( A\cdot\left(B+C\right)=A\cdot B+A\cdot C \)
קיים איבר שמסומן ב-0 כך ש-\( A+0=A \) לכל \( A \)
לכל \( A \) קיים איבר שמסומן ב-\( -A \) ונקרא הנגדי של \( A \) כך ש-\( A+\left(-A\right)=0 \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( A\cdot1=A \) לכל \( A \)
לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

עבור שדה סדור דרשנו בנוסף את הקיום של קבוצה \( P\subseteq\mathbb{F} \) שאינטואיטיבית אנחנו חושבים על אבריה בתור “המספרים החיוביים” שמקיימת:

לכל \( A\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( A\in P \), או ש-\( -A\in P \), או ש-\( A=0 \).
אם \( A,B\in P \) אז \( A+B\in P \)
אם \( A,B\in P \) אז \( A\cdot B\in P \)

לבסוף, אקסיומת השלמות הייתה האקסיומה הבאה:

אם \( S\subseteq\mathbb{F} \) היא קבוצה לא ריקה וחסומה מלעיל, אז \( \sup S \) קיים.

אני לא מסביר לעומק מה כל האקסיומות אומרות כי כבר דיברנו על זה בפירוט בפוסטים הקודמים ועוד נעשה את זה בפירוט בהמשך, כחלק מההוכחות עצמן. בואו נעבור לבניה של דדקינד.

הבניה של דדקינד

בואו נעשה עוד העתק-הדבק מהפוסט הקודם ואז נחתוך לכיוון דדקינד במקום לכיוון קנטור:

קנטור ודדקינד לוקחים שניהם בתור נקודת מוצא את הרציונליים, \( \mathbb{Q} \), ויש לכך סיבות טובות. ראשית, זה שדה סדור, כלומר אנחנו “כמעט שם” ורק נותרה לנו עוד אקסיומה אחת; אפשר להראות ש-\( \mathbb{Q} \) יהיה מוכל בכל שדה סדור כך שהוא בסיס טוב לצאת ממנו; ועם הבניה של \( \mathbb{Q} \) אין לנו שום בעיות והיא די פשוטה.

מה שדדקינד וקנטור עושים, וזה רעיון מקסים שחוזר על עצמו שוב ושוב במתמטיקה, הוא לבנות את האובייקט החדש בתור האובייקטים הקיים שכרגע חסר בו משהו. דדקינד אומר - יש לנו קבוצות של רציונליים שנראה שאמור להיות להן חסם עליון אבל אין? יופי, הקבוצות הללו יהיו המספר הממשי שהוא החסם העליון הזה. קנטור אומר - יש לנו סדרות קושי שנראה שאמורות להתכנס לאנשהו אבל אין להן גבול? יופי, הסדרות הללו יהיו המספר הממשי שהוא הגבול הזה. זה נראה כמו רמאות גמורה, אבל כשפורטים את זה לפרטים ברור שאין כאן שום רמאות והכל תקין מבחינה פורמלית. גם מבחינה רעיונית אפשר להבין את זה: האובייקט שממנו מתחילים, זה שמצביע על החסר, בעצם כולל את האינפורמציה שנראית לנו רלוונטית עבור המספר החדש; לכן הוא האובייקט הכי מתאים כדי להגדיר את המספר החדש הזה.

אצל דדקינד אין סדרה אלא קבוצה, הקבוצה \( A=\left\{ q\in\mathbb{Q}\ |\ q<\sqrt{2}\right\} \), אבל התיאור של הקבוצה הזו נראה קצת כמו רמאות כי הוא מניח שאנחנו יודעים מה זה \( \sqrt{2} \). דרך אחת לעקוף את הרמאות הזו היא להסתכל על הקבוצה \( \left\{ q\in\mathbb{Q}\ |\ q^{2}<2\right\} \) אבל גם זו דרך בעייתית כי מה עם מספר כמו \( \pi \) שאי אפשר לתאר בצורה פשוטה דומה את כל המספרים שקטנים ממנו? אבל יש גם דרך אחרת. בהינתן מספר רציונלי \( x\in\mathbb{Q} \) כלשהו אני יכול לכתוב קבוצה \( A_{x}=\left\{ q\in\mathbb{Q}\ |\ q<x\right\} \) של כל המספרים שקטנים ממנו (ולא שווים אליו). עכשיו את \( A \) המקורית שלי אפשר לתאר בעזרת סדרת המספרים שראינו קודם: \( A=A_{1}\cup A_{1.4}\cup A_{1.41}\cup\ldots \).

זה מוביל אותנו לרעיון הכללי מאחורי חתכי דדקינד: קבוצות שנראות באופן כללי כמו משהו מהצורה \( A_{x}=\left\{ q\in\mathbb{Q}\ |\ q<x\right\} \), אפילו אם \( x \) הוא לא רציונלי. כדי לעשות כזה דבר, מגדירים פורמלית חתך דדקינד בתור קבוצה \( A\subseteq\mathbb{Q} \) שמקיימת:

\( A\ne\emptyset \) ו-\( A\ne\mathbb{Q} \)
אם \( b<a \) וגם \( a\in A \) אז \( b\in A \)
אם \( a\in A \) אז קיים \( b\in A \) כך ש-\( a<b \)

תכונה 2 אומרת שהחתך “סגור כלפי מטה”: אם מספר כלשהו שייך אליו, אז כל המספרים הרציונליים הקטנים ממנו גם כן שייכים אליו. תכונה 3 אומרת שאין בחתך איבר מקסימלי - מה שמתבטא בסימן אי השוויון בתיאור הלא פורמלי \( A_{x}=\left\{ q\in\mathbb{Q}\ |\ q<x\right\} \) שנתתי קודם.

למה בעצם קוראים לדבר כזה “חתך”? כי אפשר לחשוב עליו כאילו לקחנו את כל ציר המספרים הרציונליים \( \mathbb{Q} \) ו”חתכנו” אותו עם סכין בנקודה מסוימת, מה שפירק את \( \mathbb{Q} \) לשתי קבוצות לא ריקות, \( A,Z \) (זו תכונה 1; \( B \) לא ריקה כי \( A\ne\mathbb{Q} \)) כך ש-\( A \) הוא כל מה שמשמאל לנקודת החיתוך (זו תכונה 2) ו-\( Z \) הוא כל מה שמימין (זה נובע מכך ש-\( Z \) היא המשלים של \( A \)), והרעיון הוא שאם החיתוך היה בדיוק בנקודה רציונלית כלשהי, היא נכנסת אל \( Z \) ולא אל \( A \) (זו תכונה 3). בפועל אין לנו צורך לדבר על \( Z \) במפורש ולכן אני לא אעשה את זה בכלל.

אם כן, דדקינד מגדיר קבוצה \( \mathbb{F} \) שכוללת את כל חתכי הדדקינד. עדיין אי אפשר לראות שהיא מקיימת אקסיומות כלשהן כי לא הגדרנו עליה פעולות חיבור וכפל או קבוצת חיוביים \( P \), אבל כן אפשר לשים לב לכך ש-\( \mathbb{Q}\subseteq\mathbb{F} \) במובן האיזומורפיזמי של המילה, כלומר לכל מספר רציונלי \( x\in\mathbb{Q} \) אפשר להתאים את הקבוצה \( A_{x}=\left\{ q\in\mathbb{Q}\ |\ q<x\right\} \) שהראיתי קודם, והקבוצה הזו היא חתך: 1 מתקיים כי \( x-1\in A_{x} \) ואילו 2 מתקיים כי \( x\notin A_{x} \). עבור 3 אנחנו משתמשים בטרנזיטיביות יחס הסדר על הרציונליים: אם \( b<a \) וגם \( a\in A_{x} \) אז על פי הגדרה \( a<x \) ואז מטרנזיטיביות יחס הסדר נקבל \( b<x \), כלומר \( b\in A_{x} \). עבור \( 4 \), בהינתן \( a\in A_{x} \), כלומר \( a<x \), אז נסמן \( \varepsilon=x-a \) ונגדיר \( b=a+\frac{\varepsilon}{2} \) אז \( a<b<x \) ולכן מצאנו \( b\in A_{x} \) שמקיים את מה שרצינו.

בואו נתחיל להוכיח שהבניה של דדקינד מקיימת את תכונות השדה הסדור השלם. בניגוד לפוסט הקודם, כאן אני לא אלך על פי הסדר, כי אני זקוק לתכונות מאוחרות יותר ברשימה כדי להוכיח תכונות מוקדמות יותר.

חיבור של חתכי דדקינד

עבור השיטה של קנטור עם סדרות קושי, הגדרתי חיבור וכפל ביחד וכמעט באותה צורה. זה לא עובד ככה עבור חתכי דדקינד - כפל הוא פעולה הרבה יותר מורכבת מחיבור, ולכן אני מתחיל מלדבר על חיבור לבד וכפל יצטרף בהמשך. באופן די משמח ההגדרה ה”טבעית” של חיבור עובדת:

\( A+B\triangleq\left\{ a+b\ |\ a\in A,b\in B\right\} \)

כלומר, כדי לבנות את החתך שהוא הסכום של \( A \) ו-\( B \) אנחנו בונים קבוצה חדשה שהאיברים שלה הם הסכומים של איבר מ-\( A \) ואיבר מ-\( B \); זו הגדרה די נפוצה (למשל, כך גם מגדירים סכומים של מרחבים וקטוריים) אבל עדיין צריך להראות שהיא עובדת - כלומר, ש-\( A+B \) הוא באמת חתך בעצמו, ושפעולת החיבור היא אסוציאצטיבית וקומוטטיבית.

עיקר העבודה הוא להראות ש-\( A+B \) הוא חתך. ראשית, בגלל ש-\( A,B \) הם חתכים אז הם לא ריקים, כלומר קיימים \( a\in A \) ו-\( b\in B \) ולכן \( a+b\in A+B \) כך ש-\( A+B\ne\emptyset \). כדי להוכיח ש-\( A+B\ne\mathbb{Q} \) צריך להבין שהתכונה הזו אומרת יותר מ”יש איזה איבר בודד שחסר” אלא שחתכים הם חסומים. כלומר, לכל חתך \( A \), קיים מספר רציונלי \( q \) כך שאם \( a\in A \) אז \( a<q \) (ולכן גם כל מי שגדול מ-\( q \) לא ב-\( A \)). זה לא נובע מ-\( A\ne\mathbb{Q} \) לבד, אלא מהשילוב של זה עם תכונה 2: כי אם \( A \) לא חסום, אז בואו ניקח \( q\in\mathbb{Q} \) כלשהו. מכיוון ש-\( A \) לא חסום, גם \( q \) הוא לא חסם שלו, ולכן יש \( a\in A \) כך ש-\( q<a \) ותכונה 2 אומרת ש-\( q\in A \). זה מוכיח ש-\( A=\mathbb{Q} \).

עכשיו, עבור חתכים \( A,B \) כלשהם ראינו שיש \( q_{A},q_{B} \) שהם חסמים מלעיל שלהם - אז הקבוצה \( A+B \) חסומה על ידי \( q_{A}+q_{B} \) ובפרט \( q_{A}+q_{B} \) לא שייך אל \( A+B \) כך ש-\( A+B\ne\mathbb{Q} \). זה מסיים עם תכונה 1.

נעבור לתכונה 2. ניקח איבר \( a+b \) כלשהו של \( A+B \), ורציונלי \( c \) כלשהו כך ש-\( c<a+b \). אנחנו רוצים להראות שגם \( c\in A+B \). אם נחסר את \( b \) משני האגפים, נקבל \( c-b<a \), ומתכונה 2 נובע ש-\( c-b\in A \) כלומר קיים \( a^{\prime} \) כך ש-\( c-b=a^{\prime} \) ולכן \( c=a^{\prime}+b\in A+B \). זה מסיים עם תכונה 2.

תכונה 3 היא די ישירה. אם \( c=a+b \), אז מתכונה 3 עבור \( A,B \) אני יודע שיש \( a<a^{\prime}\in A \) ו-\( b<b^{\prime}\in B \) ולכן \( c=a+b<a^{\prime}+b^{\prime}\in A+B \) (והאמת הייתי מסתדר גם בלי \( b^{\prime} \) אבל אני אוהב סימטריה).

נעבור עכשיו לקומוטטיביות ואסוציאטיביות:

\( A+B=B+A \)
\( \left(A+B\right)+C=A+\left(B+C\right) \)

בשני המקרים זה נובע מייד מהתכונות התואמות של מספרים רציונליים. עבור קומוטטיביות זה מובן מאליו:

\( A+B=\left\{ a+b\ |\ a\in A,b\in B\right\} =\left\{ b+a\ |\ a\in A,b\in B\right\} =B+A \)

עבור אסוציאטיביות זה טיפונת יותר טריקי אז אני אעשה את זה בזהירות: נניח ש-\( x\in\left(A+B\right)+C \). אז זה אומר שקיימים רציונליים \( c,d \) כך ש-\( c\in C \) ו-\( d\in A+B \) ו-\( x=d+c \). עכשיו, מכיוון ש-\( d\in A+B \) זה אומר שיש רציונליים \( a\in A,b\in B \) כך ש-\( d=a+b \), כלומר \( x=\left(a+b\right)+c \). עכשיו נשתמש באסוציאטיביות של החיבור של רציונליים ונקבל \( x=a+\left(b+c\right) \). מכיוון ש-\( a\in A \) וגם \( b+c\in B+C \) קיבלנו \( x\in A+\left(B+C\right) \). זה כיוון אחד, והכיוון השני דומה, אז סיימנו גם עם אסוציאטיביות.

עכשיו צריך להתמודד עם השאלה הפילוסופית הקשה: מה הוא אפס?

קיים איבר שמסומן ב-0 כך ש-\( A+0=A \) לכל \( A \)

איזה חתך יתאים לתכונה הזו? ובכן, לא ממש צריך לשבור את הראש; עבור מספרים רציונליים אנחנו כבר יודעים מה החתך שאמור להתאים להם, הראיתי את זה קודם. עבור 0 זה החתך \( A_{0}=\left\{ q\in\mathbb{Q}\ |\ q<0\right\} \), כלומר כל המספרים השליליים. רק צריך להראות שבאמת מתקיים \( A+A_{0}=A \) לכל \( A \).

בואו ניקח \( a\in A \) כלשהו. אז לרוע המזל אני לא יכול לומר משהו כמו “\( a+0\in A+A_{0} \) כי \( 0\notin A_{0} \). אבל כאן תכונה 3 של חתכים נחלצת לעזרתי: אני יודע שקיים \( b\in A \) כך ש-\( a<b \), ולכן \( a-b<0 \) ולכן \( a-b\in A_{0} \) ולכן קיים \( c\in A_{0} \) כך ש-\( a-b=c \) ולכן \( a=b+c\in A+A_{0} \). כל זה הראה לי ש-\( A\subseteq A+A_{0} \).

בכיוון השני, אם \( x\in A+A_{0} \) אז קיימים \( a\in A,b\in A_{0} \) כך ש-\( x=a+b \). בגלל ש-\( b\in A_{0} \) אז \( b<0 \) ולכן \( x=a+b<a+0=a \), ומתכונה 2 של חתכים נקבל ש-\( x\in A \), מה שמוכיח ש-\( A+A_{0}\subseteq A \) ומסיים את ההוכחה ש-\( A+A_{0}=A \).

נשאר רק לטפל באיברים נגדיים:

לכל \( A \) קיים איבר שמסומן ב-\( -A \) ונקרא הנגדי של \( A \) כך ש-\( A+\left(-A\right)=0 \)

וכאן לצערי הכיף נגמר - ההגדרה הזו תהיה קצת מעצבנת. איך היינו רוצים שההגדרה תלך? מה ההגדרה ה”טבעית”? ובכן, זה קל: \( -A=\left\{ -a\ |\ a\in A\right\} \). אלא שההגדרה הזו היא קטסטרופה. למשל, אם \( A=\left\{ q\in\mathbb{Q}\ |\ q<2\right\} \) אז הקבוצה שקראתי לה \( -A \) תהיה \( \left\{ q\in\mathbb{Q}\ |\ q>-2\right\} \). אינטואיטיבית החלפתי את הקרן האינסופית-לשמאל \( \left(-\infty,2\right) \) בקרן האינסופית-לימין \( \left(-2,\infty\right) \). זה בוודאי לא מה שאני רוצה. מצד שני, הקטע הזה של היפוך קרן מאינסופית-לשמאל אל אינסופית-לימין דווקא יכול לסייע לי: אם אני אסתכל על \( A \) ואקח את \( \mathbb{Q}\backslash A \) אני אקבל את הקרן \( [2,\infty( \), כך שאם אני הופך אותה בצורה הזו אני מקבל את \( )-\infty,-2] \). זה כמעט מה שאני רוצה, ואם הייתי הולך על זה בצורה הזו, ההגדרה הייתה די פשוטה: \( -A=\left\{ q\ |\ -q\notin A\right\} \).

אבל זה רק כמעט עובד בגלל ש-\( )-\infty,-2] \) יש לנו את נקודת הקצה הימנית 2 (זו המשמעות של שימוש בסוגריים מרובעים ולא עגולים) ואנחנו לא רוצים שתהיה נקודת קצה - זה סותר את תכונה 3. לכן צריך ללכלך קצת את ההגדרה היפה של \( -A \) שלי: לא מספיק ש-\( -q \) לא יהיה ב-\( A \); צריך שהוא לא יהיה המינימלי שאינו ב-\( A \). כלומר, צריך שמישהו קטן יותר מ-\( -q \) גם כן לא יהיה ב-\( A \), ואת זה אפשר לנסח בתור “קיים \( r>0 \) כך ש-\( -q-r\notin A \)”. זה נותן לנו את ההגדרה הפורמלית שלנו:

\( -A\triangleq\left\{ q\in\mathbb{Q}\ |\ \exists r>0:-q-r\notin A\right\} \)

וזו… לא הגדרה יפה במיוחד, אין מה לעשות. אבל יש לה יתרון נחמד אחד: היא עובדת. בואו נוכיח שהיא עובדת.

ראשית, צריך להראות שגם \( -A \) הוא חתך. כדי להראות ש-\( -A\ne\emptyset \) צריך למצוא \( q \) ו-\( r \) כך ש-\( -q-r\notin A \). עכשיו, בגלל ש-\( A \) חתך אנחנו יודעים ש-\( A\ne\mathbb{Q} \) אז יש \( p\notin A \) וכזכור, גם כל מי שגדול מ-\( p \) לא שייך ל-\( A \) בגלל תכונה 2. אז נגדיר \( r=1 \) ו-\( q=-p-1 \) ונקבל ש-\( -q-r=-q-1=p+1-1=p \) ולכן \( q\in-A \).

כדי להראות ש-\( -A\ne\mathbb{Q} \) נשתמש בזה ש-\( A\ne\emptyset \) ולכן יש \( a\in A \) ופשוט נגדיר \( q=-a \). אנחנו יודעים שלכל \( r>0 \), \( -q-r<a \) ולכן מתכונה 2, \( -q-r\in A \), כך שלא ייתכן ש-\( q\in-A \). זה מסיים עם הוכחת תכונה 1 של חתכים עבור \( -A \).

עבור תכונה 2, נניח ש-\( q\in-A \) ו-\( b<q \). עכשיו, אנחנו יודעים שקיים \( r>0 \) כך ש-\( -q-r\notin A \) אז בואו נגדיל את \( r \) הזה קצת כדי שיעבוד גם עבור \( -b \): נגדיר \( r^{\prime}=r+\left(q-b\right) \), אז גם \( r^{\prime}>0 \) כי \( b<q \), וכעת

\( -b-r^{\prime}=-b-\left(r+\left(q-b\right)\right)=-q-r\notin A \)

אז קיבלנו שגם \( b\in-A \), כפי שצריך.

נשארה רק תכונה 3. נניח ש-\( q\in-A \) ונמצא \( b\in-A \) כך ש-\( q<b \). זה הולך להיות די קל: בגלל ש-\( q\in-A \) קיים \( r>0 \) כך ש-\( -q-r\notin A \). לפני רגע הגדלנו את \( r \), עכשיו בואו נקטין אותו: נגדיר \( r^{\prime}=\frac{r}{2} \) (\( r^{\prime} \) הוא רציונלי כי הוא חלוקה של המספר הרציונלי \( r \) ב-2). עכשיו נסתכל על \( q^{\prime}=q+r^{\prime} \): מתקיים \( q<q^{\prime} \), וכמו כן \( -q^{\prime}-\frac{r}{2}=-q-r\notin A \) ולכן \( q^{\prime}\in-A \), וסיימנו את ההוכחה ש-\( -A \) הוא חתך.

מה שעדיין נותר לנו להראות הוא שמתקיים \( A+\left(-A\right)=0 \). כלומר, שאם ניקח \( x\in A \) ו-\( y\in-A \) ונסתכל על הסכום שלהם \( x+y \) הוא בהכרח יהיה מספר שלילי, \( x+y<0 \). כלומר, אני צריך להראות ש-\( x<-y \). עכשיו, על \( -y \) אני יודע דברים כי \( y\in-A \): ספציפית, אני יודע שקיים \( r>0 \) כך ש-\( -y-r\notin A \) וכאן כדאי לחשוב על \( \notin A \) בתור “גדול מכל אברי \( A \)” (כי כזכור, זה מה שתכונה 2 אומרת). כלומר, \( x<-y-r<-y \) (אי השוויון הימני נובע מכך ש-\( r>0 \)), וזה מה שרציתי.

יפה מאוד, התקדמנו! סיימנו עם כל האקסיומות שנוגעות לפעולת החיבור לבדה (עדיין יש לנו דיסטריביוטיביות שמערבת חיבור וכפל). לאן עכשיו? עכשיו אנחנו יכולים לדבר על סדר.

אקסיומות השדה הסדור ואקסיומת השלמות

כשעובדים עם חתכי דדקינד, קל להגדיר את יחס הסדר \( A<B \) בצורה מפורשת: \( A<B \) אם ורק אם \( A\subset B \), כקבוצות. אבל אני לא אנקוט בגישה הזו אלא אשאר נאמן לתיאור אקסיומות השדה דרך הקבוצה \( P \) - קבוצת האיברים החיוביים. אני צריך להגדיר אותה, ואז להוכיח שתי אקסיומות:

לכל \( A\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( A\in P \), או ש-\( -A\in P \), או ש-\( A=0 \).
אם \( A,B\in P \) אז \( A+B\in P \)

אלו האקסיומות שאפשר לנסח עם חיבור בלבד; בשביל האחרונה אנחנו צריכים גם כפל, אז נשמור אותה עד אחרי הגדרת הכפל.

מה \( P \) צריך להיות? אינטואיטיבית, זה כל ה-\( A \)-ים שמקיימים \( 0<A \), כלומר כל ה-\( A \)-ים ש”נקודת הקצה הימנית” שלהם גדולה מ-0. עכשיו, כזכור \( 0 \) מיוצג אצלנו על ידי החתך \( A_{0}=\left\{ q\in\mathbb{Q}\ |\ q<0\right\} \) אז כל מי שגדול ממנו הולך להכיל את 0; למה לא להגדיר את \( P \) ככה?

\( P=\left\{ A\in\mathbb{F}\ |\ 0\in A\right\} \)

כאשר בהגדרה של \( P \) 0 הוא כמובן המספר הרציונלי 0 ולא החתך \( A_{0} \).

עכשיו בואו נוכיח את הטריכוטומיה: ניקח \( A \). נניח ש-\( A\ne0 \), אז יש שתי אפשרויות:

או שיש \( a\in A \) שמקיים \( 0<a \), ולכן מתכונה 2 של חתכים \( 0\in A \) ולכן \( A\in P \)
או שלכל \( a\in A \) מתקיים \( a<0 \). במקרה הזה, בגלל ש-\( A\ne0 \) וכל האיברים של 0 הם שליליים, אז קיים \( q<0 \) כך ש-\( q\notin A \). איך זה עוזר לי? אני רוצה להוכיח ש-\( -A\in P \), כלומר ש-\( 0\in-A \), כלומר שקיים \( r>0 \) כך ש-\( -0-r\notin A \), אז אני פשוט אגדיר \( r=-q \) וסיימתי.

זה היה פשוט; מה בדבר חיבור של חיוביים שאמור לצאת גם כן חיובי? זה אפילו עוד יותר קל: אם \( A,B\in P \) אז \( 0\in A,0\in B \) ולכן \( 0=0+0\in A+B \).

אם כן, מה עוד נשאר לנו? ראשית, בואו ניזכר במה שאמרתי קודם: הייתי יכול להגדיר את \( A<B \) על ידי \( A\subset B \). האמנם? ראשית, שימו לב שלכל שני חתכים \( A,B \) או שמתקיים \( A\subseteq B \) או שמתקיים \( B\subseteq A \). למה? ובכן, אם \( A\ne B \) אז בלי הגבלת הכלליות, יש \( b\in B \) כך ש-\( b\notin A \). עכשיו, אם היה \( a\in A \) כך ש-\( b<a \) אז מתכונה 2 היינו מקבלים ש-\( b\in A \); מכאן שלכל \( a\in A \) מתקיים \( a<b \) אבל אז מתכונה 2 נובע ש-\( a\in B \) לכל \( a\in A \), כלומר \( A\subseteq B \). אז אנחנו יודעים שתמיד יש יחס של הכלה בין הקבוצות, אבל למה הוא תואם את יחס הסדר? אם \( A\subset B \) אז ניקח \( b\in B \) כך ש-\( b\notin A \). מתכונה 3 של חתכים, קיים \( c\in B \) כך ש-\( b<c \). נסמן \( r=c-b \) וקיבלנו ש-\( c-r=b\notin A \), כלומר \( -c\in-A \), כך ש-\( 0=c-c\in B-A \) ולכן \( B-A\in P \), כלומר \( A<B \). הכיוון ההפוך (\( A<B \) גורר \( A\subset B \)) דומה.

יופי. איך זה עוזר לנו? ובכן, בניגוד למה שהלך בבניה של קנטור, כאן אנחנו הולכים להוכיח את אקסיומת השלמות די בקלות בזכות התכונה הזו. כדאי להזכיר גם כאן, כמו שעשיתי אצל קנטור, למה התכונה הזו לא נובעת מאליה - הרי מראש בניתי את החתכים בתור קבוצות של של איברים שמגיעים “עד” החסם העליון שלהם; אבל העניין הוא שבניתי קבוצות של מספרים רציונליים ואילו אקסיומת השלמות עכשיו אומרת משהו לא על רציונליים, אלא על קבוצות של ממשיים, כלומר על קבוצות של חתכים. בנסיון לפתור בעיה עם קבוצות של רציונליים, יצרתי בעיה קשה יותר, שמערבת קבוצות של חתכים ולא סתם של רציונליים; אלא שהבניה שלי חזקה מספיק כדי להתמודד עם זה.

מה שאני צריך להוכיח הוא

אם \( S\subseteq\mathbb{F} \) היא קבוצה לא ריקה וחסומה מלעיל, אז \( \sup S \) קיים.

בהינתן \( S \) כזו, איך אני אבנה פורמלית את החתך שיהיה \( \sup S \)? אצל קנטור הבניה שלי הייתה די מסובכת, אבל כאן הבניה היא טריוויאלית לגמרי, ותהיה מאוד מוכרת לכל מי שלמדו קורס בתורת הקבוצות: נגדיר \( B=\bigcup S \), כלומר \( B \) היא הקבוצה שאבריה הם האיחוד של כל קבוצות \( S \); \( a\in B \) אם ורק אם קיים \( A\in S \) כך ש-\( a\in A \).

כרגיל, השאלה הראשונה אחרי בניה כזו היא למה \( B \) הוא חתך בכלל. הוא לא ריק כי הוא איחוד של קבוצות לא ריקות (זכרו ש-\( S \) לא ריקה אז היא כוללת לפחות חתך אחד, והוא לא ריק כי הוא חתך). למה ש-\( B \) לא יהיה כל \( \mathbb{Q} \)? כאן נכנסת הדרישה ש-\( S \) תהיה חסומה מלעיל. כלומר, קיים חתך \( C \) כך ש-\( A\le C \) לכל \( A\in S \) , ולכן כפי שראינו \( A\subseteq C \) לכל \( A\in S \) כך שגם \( B\subseteq C \), אבל מכיוון ש-\( C \) הוא חתך אז \( C\ne\mathbb{Q} \) וזה גורר שגם \( B\ne\mathbb{Q} \).

כדי לראות סגירות כלפי מטה, נניח ש-\( b\in B \) וניקח \( a<b \) כלשהו. מכיוון ש-\( b\in B \) אז קיים \( A\in S \) כך ש-\( b\in A \), ומכיוון ש-\( a<b \) ו-\( A \) חתך אז \( a\in A \) ומכיוון ש-\( A\subseteq B \) אז \( a\in B \) - טיעון תורת-קבוצתי סטנדרטי ופשוט. אותו הדבר עבור תכונה 3: מכיוון ש-\( b\in A \) אז מתכונה 3 עבור \( A \) קיים \( a\in A \) כך ש-\( b<a \), ומכיוון ש-\( a\in B \) סיימנו. אז \( B \) הוא חתך; רק נשאר להראות שהוא חסם עליון של \( S \).

זה ש-\( B \) הוא חסם מלעיל זה ברור: \( A\subseteq B \) לכל \( A\in S \) ולכן \( A\le B \) לכל \( A\in S \), וזו בדיוק ההגדרה של חסם מלעיל. רק נותר להראות ש-\( B \) היא החסם מלעיל המינימלי. אז בואו ניקח חתך \( C \) כלשהו כך ש-\( C<B \), כלומר \( C\subset B \). זה אומר שיש \( b\in B \) כך ש-\( b\notin C \), כלומר קיים \( A\in S \) כך ש-\( b\in A \) עכשיו, תזכרו מה ראינו קודם: בהכרח מתקיים \( A\subseteq C \) או \( C\subseteq A \). מכיוון שיש ב-\( A \) איבר שאין ב-\( C \), מה שחייב לקרות הוא \( C\subset A \), כלומר \( C<A \) ולכן \( C \) אינו חסם מלעיל של \( S \). במילים אחרות: אם \( C \) הוא חסם מלעיל של \( S \) הוא לא יכול לקיים \( C<B \) אז בהכרח מתקיים \( B\le C \), וזה בדיוק מה שמראה ש-\( B \) הוא חסם עליון.

זהו, זה היה ממש קל! אז מה בעצם העוקץ? מה מסובך בבניה הזו של דדקינד? ובכן, הכפל. זה יהיה קצת לא נעים.

הכפל. זה יהיה קצת לא נעים

למה שהכפל יהיה לא נעים? שתי סיבות. ראשית, להבדיל מחיבור, כאן ההגדרה הנאיבית לא עובדת. להגדיר \( A\cdot B\triangleq\left\{ ab\ |\ a\in A,b\in B\right\} \) לא הולך לתת לנו אפילו חתך. למשל, אם \( A,B \) שניהם שליליים, אז המכפלה של כל זוג איברים מתוכם תהיה מספר חיובי - ואין כזה דבר, חתך שאין בו שליליים (כי מרגע ש-\( a \) כלשהו בחתך, גם כל מספר שקטן ממנו בחתך). אבל לא נורא, את הבעיה הזו אפשר לתקן על ידי כך שדורשים במפורש סגירות כלפי מטה, כלומר מגדירים \( A\cdot B\triangleq\left\{ q\in\mathbb{Q}\ |\ \exists a\in A,b\in B:q\le ab\right\} \). כלומר - לוקחים מכפלות, ולכל מכפלה כזו מכניסים אל \( AB \) את מי שברור שצריכים להיות שם - המספרים שקטנים או שווים למכפלה.

זה עדיין לא עובד.

זה לא עובד, כי מספרים שליליים הם יצורים מוזרים למדי. יש את הקטע הזה שמכפלה של שני שליליים היא מספר חיובי, וזה יוביל באופן בלתי נמנע לבעיות. בואו נסתכל למשל על החתך \( A_{1}=\left\{ q\in\mathbb{Q}\ |\ q<1\right\} \). הוא מייצג את 1 והיינו מצפים שיתקיים \( A_{1}\cdot A_{1}=A_{1} \), אבל הרי \( -2\in A_{1} \), למשל, אז על פי ההגדרה שנתתי למעלה, \( 4=\left(-2\right)\cdot\left(-2\right)\in A_{1}\cdot A_{1} \). אבל זה לא ייגמר שם - אפשר לקבל כל מספר רציונלי גדול כרצוננו על ידי כפל של המינוס שלו במינוס 1. אז מה שנקבל בסוף יהיה \( A_{1}\cdot A_{1}=\mathbb{Q} \), כלומר אפילו לא מקבלים חתך. נראה שהדרך ההגיונית היחידה להגדיר כפל היא פשוט לא להרשות למספרים השליליים להשתתף. אבל אם הם לא משתתפים, מה יקרה למשל עם \( A_{-1}\cdot A_{-1} \)? זו מכפלה של שתי קבוצות שהאיברים היחידים שלהן הם שליליים. אז המכפלה תהיה קבוצה ריקה? גם זה לא חתך. בקיצור, עסק ביש.

נקודת האור בכל הסיפור הזה היא שכל עוד אנחנו מסתכלים רק על מספרים חיוביים, הכל עובד כמו שצריך. זה מאפשר לי להתחיל את הגדרת הכפל עבור חתכים חיוביים, ולהתקדם משם. אז הנה ההגדרה הראשונית:

אם \( A,B>0 \) אז \( A\cdot B\triangleq\left\{ q\in\mathbb{Q}\ |\ \exists a>0\in A,b>0\in B:q\le ab\right\} \)

כלומר, עבור \( A,B \) חיוביים אנחנו כופלים את כל האיברים החיוביים שלהם, ואז לוקחים את כל מה שקטן או שווה לזה. למה זה יוצא חתך? זה לא ריק כי אם \( A,B \) חיוביים אז יש בהם \( a,b>0 \) ולכן \( ab\in AB \). זה לא \( \mathbb{Q} \) כי \( A,B \) חתכים ולכן קיימים \( q,p \) שלא שייכים אליהם וזה כזכור אומר ש-\( a<q,b<p \) לכל \( a\in A,b\in B \) ולכן \( ab<qp \) לכל האיברים \( a,b \) הללו כך שכל אברי \( AB \) קטנים מ-\( qp \).

תכונה 2, של הסגירות כלפי מטה, נובעת מיידית מההגדרה של \( AB \). נותרה רק תכונה 3: אם \( q\in AB \) אז יש \( a\in A,b\in B \) כך ש-\( q\le ab \). מכיוון ש-\( A,B \) חתכים אז יש \( a^{\prime}\in A,b^{\prime}\in B \) כך ש-\( a<a^{\prime},b<b^{\prime} \) ולכן \( q\le ab<a^{\prime}b^{\prime} \) וקיבלנו את תכונה 3. אז אמנם לא היה קל למצוא הגדרה שנותנת חתך, אבל עכשיו שהצטמצמנו קצת היה קל להוכיח שבהגדרה המצומצמת מקבלים אחד כזה.

עכשיו אפשר לעבור לקומוטטיביות ואסוציאטיביות:

\( A\cdot B=B\cdot A \)
\( \left(A\cdot B\right)\cdot C=A\cdot\left(B\cdot C\right) \)

ההוכחות מאוד דומות למה שראינו על חיבור. קומוטטיביות נובעת מייד מזה ש-\( q\le ab \) אם ורק אם \( q\le ba \) (וזה בזכות הקומוטטיביות של הרציונליים). אסוציאטיביות, כרגיל, מרגישה קצת יותר טריקית אז אני אעשה אותה בצורה יותר מפורשת:

נניח ש-\( q\in\left(A\cdot B\right)\cdot C \), אז קיימים \( x\in A\cdot B \) ו-\( c\in C \), חיוביים שניהם, כך ש-\( q\le xc \). זה אומר שעבור \( x \) קיימים \( a\in A,b\in B \) חיוביים כך ש-\( x\le ab \). לכן \( q\le\left(ab\right)c=a\left(bc\right) \) כשהשוויון נובע מהאסוציאטיביות של מספרים רציונליים. מכיוון ש-\( b,c \) שניהם חיוביים אז \( bc\in B\cdot C \) (כי עבור \( b,c \) עצמם מתקיים ש-\( bc\le bc \)) ולכן \( q\le a\left(bc\right) \) תואם את ההגדרה של \( q\in A\cdot\left(B\cdot C\right) \), והכיוון השני דומה.

עכשיו אפשר סוף סוף לערבב את החיבור והכפל:

\( A\cdot\left(B+C\right)=A\cdot B+A\cdot C \)

אבל שימו לב: רק בהנחה ש-\( A,B,C>0 \) אחרת המכפלות \( AB,AC \) לא יהיו מוגדרות היטב. מרגע ש-\( B,C>0 \) אנחנו מקבלים ש-\( B+C>0 \) (את זה הוכחנו כבר) ולכן גם המכפלה \( A\left(B+C\right) \) מוגדרת היטב. עכשיו אני אוכיח את הדיסטריביוטיביות בשיטה הסטנדרטית של הכלה דו-כיוונית:

ראשית, אם \( x\in A\left(B+C\right) \) זה אומר שקיימים \( a\in A \) חיובי ו-\( y\in B+C \) חיובי כך ש-\( x\le ay \). עכשיו הקטע הטריקי: אם אני סתם אומר שמ-\( y\in B+C \) נובע שקיימים \( b\in B,c\in C \) כך ש-\( y\in b+c \) זה לא מספיק טוב כי ייתכן למשל ש-\( b \) הוא שלילי (למשל, אם \( B=C=\left(-\infty,5\right) \) ואני לוקח \( y=3 \) ו-\( b=-1,c=4 \)). לא, אני צריך שיתקיים \( b,c>0 \) כדי להמשיך, אז אני אעשה “תיקון” קטן. בואו נניח בלי הגבלת הכלליות ש-\( b<0 \) ו-\( c>0 \). אני רוצה להגדיל קצת את הערך של \( b \) עד שיהפוך לחיובי. כל מה שאני אוסיף ל-\( b \) יצטרך לרדת מ-\( c \) - האם אני בטוח שזה לא יהפוך את \( c \) לשלילי? ובכן, מכיוון שאני יודע ש-\( b+c>0 \) זה אומר ש-\( c>-b \), כלומר אני יכול לחסר את כל הערך המוחלט של \( b \) מ-\( c \) ועדיין ישאר לי עודף - וזה חשוב, כי אני אצטרך את העודף הזה, כי אני לא רוצה להגדיל את \( b \) עד שיהפוך ל-0 אלא עד שיהפוך ל”משהו חיובי קטן”. כמה קטן? קטן ככה ש:

הוא עדיין שייך אל \( B \).
אם אני מחסר מ-\( c \) גם את הערך המוחלט של \( b \) וגם אותו אני עדיין מקבל משהו חיובי.

כלומר, זה טיעון טיפה מורכב יחסית לכמה שזה אמור להיות פשוט. מה שאני עושה הוא זה: ראשית, בגלל ש-\( B>0 \) אז \( 0\in B \) ולכן מתכונה 3 קיים \( \varepsilon_{1}>0 \) כך ש-\( \varepsilon_{1}\in B \). שנית, בגלל ש-\( c>-b \) קיים \( \varepsilon_{2}>0 \) כך ש-\( c>-b+\varepsilon_{2} \). עכשיו אני אבחר \( \varepsilon=\min\left\{ \varepsilon_{1},\varepsilon_{2}\right\} \). בגלל ש-\( \varepsilon\le\varepsilon_{1}\in B \) קיבלנו שגם \( \varepsilon\in B \), ובגלל ש-\( \varepsilon\le\varepsilon_{2} \) קיבלנו ש-\( c>-b+\varepsilon \) ולכן \( 0<c+b-\varepsilon<c \) כך ש-\( c+b-\varepsilon\in C \), וקיבלנו

\( y=b+c=\varepsilon+\left(c+b-\varepsilon\right) \)

וזו הצגה של \( y \) בתור סכום של שני חיוביים מ-\( B,C \). זה מאפשר לי לחזור להוכחה של הדיסטריביוטיביות: ראיתי שקיימים \( a\in A,b\in B,c\in C \) חיוביים כולם כך ש-\( x\le a\left(b+c\right)=ab+ac \) כשהמעבר האחרון נובע מדיסטריביוטיביות הרציונליים. החיוביות של \( a,b,c \) פירושה ש-\( ab\in AB \) ו-\( ac\in AC \) ולכן קיבלתי ש-\( x\le z \) כאשר \( z=ab+ac\in AB+AC \) ומכך ש-\( AB+AC \) הוא חתך ומתכונה 2 אני אקבל ש-\( x\in AC+AC \). זה משלים את הכיוון הזה של ההוכחה.

בכיוון השני, נניח ש-\( x\in AB+AC \), כלומר יש \( a_{1},a_{2}\in A \) ו-\( b,c \), חיוביים כולם, כך ש-\( x=y+z \) עבור \( y\le a_{1}b \) ו-\( z\le a_{2}c \). נניח בלי הגבלת הכלליות ש-\( a_{1}\le a_{2} \), כלומר \( a_{1}=a_{2}-\varepsilon \), אז

\( x\le a_{1}b+a_{2}c=a_{2}b+a_{2}c-\varepsilon b=a_{2}\left(b+c\right)-\varepsilon b\le a_{2}\left(b+c\right) \)

מכיוון ש-\( b,c \) שניהם חיוביים כך גם \( b+c \) ולכן \( a_{2}\left(b+c\right)\in A\left(B+C\right) \), וקיבלנו ש-\( x\in A\left(B+C\right) \). זה מסיים את הכיוון הזה של ההוכחה ומסיים עם דיסטריביוטיביות.

נשארנו עם שלושה דברים שצריך להוכיח על כפל:

אם \( A,B\in P \) אז \( A\cdot B\in P \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( A\cdot1=A \) לכל \( A \)
לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

את התכונה הראשונה טריוויאלי להוכיח: אם \( A>0,B>0 \) אז כפי שראינו קיימים \( a\in A,b\in B \) ששניהם גדולים מ-0, ובגלל ש-\( 0<ab \) אז \( 0\in AB \) וזה מסיים את ההוכחה. למרבה השמחה, זה מסיים לגמרי עם יחס הסדר \( P \); לא נצטרך לחזור לשם אחרי שנגדיר כפל בצורה מלאה על כל החתכים, כי בכל מקרה את התכונה הזו היה צריך להוכיח רק עבור חתכים חיוביים.

עכשיו נעבור להגדרת 1. כמו עם 0, אנחנו כבר יודעים מי בעצם אמור להיות החתך המתאים ל-1: \( A_{1}=\left\{ q\in\mathbb{Q}\ |\ q<1\right\} \). ברור ש-\( A_{1}\ne A_{0} \) כי \( 0\in A_{1} \) אבל \( 0\notin A_{0} \), אבל למה \( A\cdot A_{1}=A \) לכל \( A \) חיובי? כיוון אחד הוא קל: אם \( a\in A\cdot A_{1} \) אז \( a\le a^{\prime}\cdot q \) כך ש-\( a^{\prime}\in A \) וגם \( q<1 \); אבל בגלל ש-\( q<1 \) נקבל \( a\le a^{\prime}\cdot q<a^{\prime} \) והסגירות כלפי מטה של \( A \) נותנת לנו \( a\in A \).

הכיוון השני טריקי יותר. ראשית, אם \( a\in A \) מקיים \( a\le0 \) אז ברור ש-\( a\in A\cdot A_{1} \) כי \( 0\in A,A_{1} \). לכן אפשר להניח מראש ש-\( a>0 \). במקרה הזה, מנין לנו ש-\( a\in A\cdot A_{1} \)? הרי אין \( q\in A_{1} \) שעבורו \( a\cdot q=a \), בשביל זה נצטרך \( q \) גדול מדי (כי ה-\( q \) הזה הוא פשוט 1…). אבל אפשר להתחכם - במקום להתחיל עם \( a \) ולכפול אותו במשהו, להתחיל עם מישהו קצת יותר גדול מ-\( a \); תכונה 3 של חתכים נותנת לנו קיום של \( x\in A \) כך ש-\( a<x \). אני רוצה למצוא \( q \) כך ש-\( qx=a \), כלומר \( q=\frac{a}{x} \) (אין בעיה לחלק ב-\( x \) כי \( 0<a<x \)). מכיוון ש-\( 0<a<x \) אז \( 0<q<1 \) ולכן \( q\in A_{1} \) וקיבלנו \( a=x\cdot q\in A\cdot A_{1} \). זה מסיים את ההוכחה: \( A=A\cdot A_{1} \).

נשאר לטפל בהופכי, ושוב יש לנו שאלה של הגדרה: בהינתן \( A>0 \), איך נכון להגדיר את \( A^{-1} \)? הגדרת נגדי בחיבור הייתה טריקית ומעצבנת; האם בכפל אפשר סתם להגדיר בצורה “הטבעית” \( A^{-1}\triangleq\left\{ a^{-1}\ |\ a\in A,a>0\right\} \)? ובכן, ממש לא! תחשבו למשל ש-\( A=\left(-\infty,3\right) \) אז היינו מצפים שיתקיים \( A^{-1}=\left(-\infty,\frac{1}{3}\right) \) אבל מכיוון ש-\( 1\in A \), אם נהפוך אותו נקבל ש-\( 1\in A^{-1} \) וזה ממש לא אמור לקרות. יותר גרוע מזה, ככל שניקח איברים קרובים יותר ויותר ל-0 ב-\( A \), ההופכי שלהם ישאף לאינסוף - יוצא שנקבל את כל \( \mathbb{Q} \). לא, מה שאנחנו צריכים לעשות הוא כמו עם הנגדי - להסתכל לא על \( A \) אלא על כל מי שלא ב-\( A \). אז אולי נגדיר \( A^{-1}\triangleq\left\{ b^{-1}\ |\ b\notin A\right\} \)? זה כמעט יעבוד, אבל שוב יש לנו את הבעיה הזו עם נקודת הקצה שאנחנו לא רוצים שתהיה שייכת לחתך. זה מוביל אותנו להגדרה

\( A^{-1}\triangleq\left\{ q\in\mathbb{Q}\ |\ \exists b\notin A:q<b^{-1}\right\} \)

ראשית, למה \( A^{-1} \) הוא חתך? בגלל ש-\( A\ne\mathbb{Q} \) ו-\( 0<A \) קיים \( b>0 \) כך ש-\( b\notin A \) ולכן ב-\( A^{-1} \) יש את כל מי שקטן יותר מ-\( b^{-1} \), כך ש-\( A^{-1}\ne\emptyset \). מצד שני, קיים \( a\in A \) כך ש-\( a>0 \) ולכן לכל \( x\notin A \) מתקיים \( a<x \), כלומר \( a^{-1}>x^{-1} \), ולכן \( a^{-1}\notin A^{-1} \) כך ש-\( A^{-1}\ne\mathbb{Q} \).

תכונת הסגירות כלפי מטה נובעת מההגדרה (אם \( p<q \) ו-\( q\in A^{-1} \) אז קיים \( b \) מתאים כך ש-\( q<b^{-1} \) ומטרנזיטיביות \( p<b^{-1} \)). עבור תכונה 3, נניח ש-\( q\in A^{-1} \), אז קיים \( b\notin A \) מתאים כך ש-\( q<b^{-1} \) אבל מצפיפות הרציונליים נובע שקיים \( p \) כך ש-\( q<p<b^{-1} \) ולכן גם \( p\in A^{-1} \), וסיימנו.

שנית, האם \( A^{-1}>0 \)? בלי זה הכפל \( A\cdot A^{-1} \) לא יהיה מוגדר בשלב הזה. אבל גם זה ברור - מכיוון ש-\( A>0 \) אז \( 0\in A \) ולכן אם \( b\notin A \) אז \( 0<b \) ולכן \( 0<b^{-1} \), כך ש-\( 0\in A^{-1} \), מה שמראה ש-\( A^{-1}>0 \).

נשאר רק להראות ש-\( A\cdot A^{-1}=1 \) וכרגיל נשתמש בהכלה דו כיוונית. בכיוון אחד, אם \( x\in A\cdot A^{-1} \) אז יש \( a\in A \) ו-\( q\in A^{-1} \) כך ש-\( x\le aq \). על \( q \) אנחנו יודעים ש-\( q<b^{-1} \) עבור \( b\notin A \), ובגלל ש-\( b\notin A \) זה אומר ש-\( a<b \), ולכן \( ab^{-1}<1 \) וזה מסיים את הכיוון הזה כי \( x\le aq<ab^{-1}<1 \).

בכיוון השני, נניח ש-\( x<1 \) ונראה ש-\( x\in AA^{-1} \). כאן ההוכחה תסתבך ותהפוך לטכנית למדי ואני לא מכיר דרך אלגנטית להתחמק מזה. כדי להבין מה בעצם הבעיה, בואו נראה דוגמא: למשל, \( A=\left(-\infty,3\right) \) ואז\( A^{-1}=\left(-\infty,\frac{1}{3}\right) \) ונניח ש-\( x=\frac{1}{2} \). מה אני צריך לעשות? אני צריך למצוא שני איברים ב-\( A \) וב-\( A^{-1} \) שהמכפלה שלהם יוצאת \( \frac{1}{2} \). האם יש דרך “טבעית” לקבל אותם מתוך \( \frac{1}{2} \) עצמו? אני לא רואה כזו; למשל, \( \frac{1}{2}\notin A^{-1} \) אז אי אפשר סתם לבחור את \( \frac{1}{2} \) ולכפול ב-1 שב-\( A \). מה שכן אפשר לעשות הוא לומר “אוקיי, בואו נבחר מ-\( A \) איבר שממש קרוב ל-3 ומ-\( A^{-1} \) איבר שממש קרוב אל \( \frac{1}{3} \) ואז המכפלה שלהם תהיה ממש קרובה אל \( 1 \) ומן הסתם גדולה מ-\( \frac{1}{2} \)” וזה בדיוק מה שאני רוצה לעשות - אבל איך מפרמלים את ה”ממש קרוב ל-3” אם עבור חתך המספר שהוא מייצג לא נתון לנו באופן מפורש? האם יש דרך “נקייה” לעשות את זה? ובכן, כן, בערך.

הרעיון הוא זה: \( x<1 \) ולכן ראשית נמצא \( n \) כך ש-\( x<1-\frac{1}{n+1} \). אנחנו יודעים שקיים \( n \) כזה בזכות הארכימדיות של הרציונליים: אם נסתכל על \( \frac{1}{1-x} \), זה מספר רציונלי גדול מ-1 (כי המכנה שלו קטן מ-1 וגדול מ-0) ולכן קיים טבעי \( n \) כך ש-\( \frac{1}{1-x}-1<n \), ועל ידי העברת אגפים נקבל \( x<1-\frac{1}{n+1} \).

עכשיו נשים לב שלכל \( m\ge n \) מתקיים \( m+1\ge n+1 \) ולכן \( \frac{1}{m+1}\le\frac{1}{n+1} \) ולכן \( -\frac{1}{m+1}\ge-\frac{1}{n+1} \) ולכן

\( x<1-\frac{1}{n+1}\le1-\frac{1}{m+1}=\frac{m}{m+1} \)

זה נותן לנו הערכה קצת יותר קונקרטית של הגודל של \( x \) שאנחנו צריכים לעבור. עכשיו אפשר לבנות איבר של \( A \) שיתקרב אל הקצה של \( A \) “ממש קרוב”. הדרך לבנות איבר כזה היא לקחת איבר “ממש קטן” של \( A \) ולהתחיל לחבר אותו לעצמו עד שנגיע ממש אל הנקודה שבה האיבר עדיין ב-\( A \) אבל אם נחבר אותו לעצמו עוד פעם אחת כבר נצא מגבולות \( A \) (ואז, אחרי שניקח את ההופכי שלנו, נגיע לתוך \( A^{-1} \)).

את האיבר הממש קטן שלנו נבנה כך: ראשית, בגלל ש-\( A>0 \) קיים \( a>0 \) כך ש-\( a\in A \). מכיוון ש-\( a \) היה איבר שרירותי הוא לא הכי עוזר לנו, אבל אם נחלק אותו לפרוסות מספיק קטנות זה יהיה טוב: נסתכל על \( 0<\frac{a}{n} \) ועכשיו ניקח מספר חיובי שקטן יותר מזה: \( q<\frac{a}{n} \). על פי תכונה 2 של חתכים, \( q\in A \).

עכשיו נתחיל לחבר את \( q \) לעצמו, כלומר להסתכל על מכפלות מהצורה \( mq \) כך ש-\( m \) הוא מספר טבעי. אנחנו יודעים שעבור \( m=1 \), \( mq\in A \); אנחנו גם יודעים שקיים \( m \) כך ש-\( mq\notin A \) אחרת היינו מקבלים ש-\( A=\mathbb{Q} \) (לכל מספר רציונלי קיים \( m \) כך ש-\( mq \) גדול ממנו). אז בואו ניקח את \( m \) להיות האיבר שמקיים ש-\( mq\in A \) אבל \( \left(m+1\right)q\notin A \). שימו לב שבפרט צריך להתקיים \( m\ge n \) כי אם היה מתקיים \( m<n \) אז \( m+1\le n \), ולכן

\( \left(m+1\right)q<\frac{\left(m+1\right)a}{n}\le\frac{na}{n}=a\in A \)

בסתירה לכך ש-\( \left(m+1\right)q\notin A \).

מכיוון ש-\( m\ge n \) מתקיים, יש לנו את אי השוויון שהוכחנו קודם:

\( x<\frac{m}{m+1} \)

בואו נחלק את הכל באיבר הגדול ביותר שמצאנו ב-\( A \), כלומר ב-\( mq \), ונקבל:

\( \frac{x}{mq}<\frac{m}{m+1}\frac{1}{mq}=\frac{1}{\left(m+1\right)q} \)

ועכשיו, בגלל ש-\( \left(m+1\right)q\notin A \) אז ב-\( A^{-1} \) יש כל איבר שקטן יותר מההופכי שלו, כלומר שקטן יותר מ-\( \frac{1}{\left(m+1\right)q} \). זה עתה הראינו ש-\( \frac{x}{mq} \) הוא איבר כזה, כלומר \( \frac{x}{mq}\in A^{-1} \), ויחד עם זה ש-\( mq\in A \) קיבלנו ש-\( x=\left(mq\right)\cdot\frac{x}{mq}\in A\cdot A^{-1} \), מה שמסיים את ההוכחה.

כפל עם חתכים שליליים

הגענו אל הישורת האחרונה. הנה מה שאנחנו צריכים להוכיח:

\( A\cdot B=B\cdot A \)
\( \left(A\cdot B\right)\cdot C=A\cdot\left(B\cdot C\right) \)
\( A\cdot\left(B+C\right)=A\cdot B+A\cdot C \)
\( A\cdot1=A \) לכל \( A \)
לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

את כל אלו הוכחנו כבר בהנחה ש-\( A,B,C>0 \), אבל עכשיו אנחנו רוצים לטפל בכל \( A,B,C \), כולל שליליים. הצעד הראשון הוא להגדיר כפל שמעורבים בו חתכים שליליים, וכדי לעשות את זה אני רוצה להזכיר תכונה מהותית שמתקיימת בכל שדה: \( -\left(-A\right)=A \). התכונה הזו נובעת רק מאקסיומות החיבור של השדה, אז נוכל כבר עכשיו להוכיח שהיא מתקיימת עבור חתכים. ראשית נוכיח שמתקיים כלל הצמצום, כלומר שאם \( A+B=A+C \) אז \( B=C \). אינטואיטיבית, אנחנו “מחברים את \( -A \) לשני האגפים” אבל בפועל צריך להיות זהירים ולהשתמש רק במה שאנחנו יודעים:

\( B=0+B=\left(-A+A\right)+B=-A+\left(A+B\right) \)

עד כאן השתמשנו בכך ש-0 הוא אדיש, בכך שלכל \( A \), מתקיים \( A+\left(-A\right)=0 \) (וגם בקומוטטיביות כי הפכתי את הסדר ביניהם) ובאסוציאטיביות (המעבר האחרון). עכשיו אני אשתמש בנתון ואקבל

\( -A+\left(A+B\right)=-A+\left(A+C\right)=\left(-A+A\right)+C=0+C=C \)

אז קיבלתי שרשרת שוויונים שמראה ש-\( B=C \).

עכשיו, אפשר להשתמש בכלל הצמצום כדי להראות שהנגדי הוא יחיד: שאם \( A+B=0 \) אז \( B=-A \): הרי עבור \( -A \) מתקיים \( A+\left(-A\right)=0=A+B \) אז מצמצום ה-\( A \) משני האגפים נישאר עם \( -A=B \). עכשיו, מכיוון ש-\( \left(-A\right)+A=0 \) המסקנה היא ש-\( A=-\left(-A\right) \).

את זה כאמור הוכחנו פורמלית עבור חתכים, אבל אחרי שמגדירים כפל אפשר לקחת את הכללים הללו הלאה. באופן כללי, אם יש לי שדה ואיברים \( x,y \) בתוכו, אז מתקיים:

\( \left(-x\right)y=-\left(xy\right)=x\left(-y\right) \)
\( \left(-x\right)\left(-y\right)=xy \)

אני הולך להגדיר את הכפל עבור חתכים שליליים בצורה שתבטיח שהדברים הללו יתקיימו (כי אם ההגדרה לא נותנת את הדברים הללו, מה שאני מגדיר לא יכול להיות שדה). איך מוכיחים אותם? אז למשל, כדי להוכיח את \( \left(-x\right)y=-\left(xy\right) \) ראיתי עכשיו שאני צריך להוכיח \( \left(-x\right)y+xy=0 \) ואת זה עושים עם דיסטריביוטיביות:

\( \left(-x\right)y+xy=\left(-x+x\right)y=0\cdot y=0 \)

כשאני משתמש בכך שכפל ב-0 מחזיר 0 (כי \( 0\cdot y=\left(0+0\right)\cdot y=0\cdot y+0\cdot y \) ועכשיו משתמשים בכלל הצמצום).

גם ההוכחה של \( -\left(xy\right)=x\left(-y\right) \) דומה, ולכן נשאר רק להוכיח את \( \left(-x\right)\left(-y\right)=xy \). בשביל להוכיח את זה, ראשית נשתמש ב-\( \left(-x\right)y=-\left(xy\right) \) רק כשאנחנו מחליפים את \( y \) ב-\( -y \) ונקבל

\( \left(-x\right)\left(-y\right)=-\left(x\left(-y\right)\right) \)

עכשיו נשתמש ב-\( x\left(-y\right)=-\left(xy\right) \) ונקבל

\( -\left(x\left(-y\right)\right)=-\left(-\left(xy\right)\right) \)

ולסיום נשתמש בתכונה המהותית שבה התחלתי, כלומר ש-\( -\left(-\left(xy\right)\right)=xy \), וקיבלתי \( \left(-x\right)\left(-y\right)=xy \), כמו שרציתי.

בשביל מה כל זה היה טוב? כי כזכור, עבור חתך \( A \) יש שלוש אפשרויות: או ש-\( A>0 \) (ואז כבר הגדרנו עליו כפל), או ש-\( A=0 \) (ואז כפל בו פשוט יהיה 0) או ש-\( -A>0 \) ואז כדי להגדיר כפל על \( A \) אפשר להיעזר בכפל על \( -A \) ולהגדיר בהתאם לכללים שזה עתה ראינו.

בואו נכתוב במפורש את ההגדרה המלאה לכפל של \( A,B \). היא מתבססת בדיוק על החלוקה הזו למקרים אפשריים:

אם \( A=0 \) או \( B=0 \) אז \( AB\triangleq0 \)
אם \( A,B>0 \) אז \( AB\triangleq\left\{ q\in\mathbb{Q}\ |\ \exists a>0\in A,b>0\in B:q\le ab\right\} \)
אם \( A<0,B>0 \) אז \( AB\triangleq-\left(\left(-A\right)B\right) \)
אם \( A>0,B<0 \) אז \( AB\triangleq-\left(A\left(-B\right)\right) \)
אם \( A<0,B<0 \) אז \( AB\triangleq\left(-A\right)\left(-B\right) \)

בכל שלוש ההגדרות האחרונות ברשימה אני משתמש בהגדרה הקודמת, עבור כפל של חיוביים: מה שמוכפל בתוך הסוגריים הוא תמיד שני חתכים חיוביים, ואני בסך הכל לוקח את הנגדי של התוצאה במקרה שבו אחד מהחתכים חיובי והשני שלילי.

זו ההגדרה, רק נותר להראות שהיא עובדת. זה כמובן מערב בדיקה של המון מקרים אז אני לא אוכיח את הכל, אבל בואו נראה את המהות של כל דבר.

ראשית, קומוטטיביות.

\( AB=BA \)

נסתכל למשל על המקרה \( A<0,B>0 \), אז

\( AB=-\left(\left(-A\right)B\right)=-\left(B\left(-A\right)\right)=BA \)

בואו נבין מה קרה פה: המעבר הראשון הוא פשוט ההגדרה. המעבר השני הוא שימוש בקומוטטיביות עבור מכפלה של שני חיוביים, שכבר הוכחתי. המעבר השלישי הוא שוב הההגדרה, אבל לא אותה הגדרה; ההגדרה הראשונה הייתה שורה 3 (כשהאיבר השמאלי במכפלה שלילי) וכאן אני משתמש בהגדרה שבשורה 4 (כשהאיבר הימני במכפלה שלילי).

עכשיו לאסוציאטיביות:

\( \left(AB\right)C=A\left(BC\right) \)

למשל, אם \( A<0,B>0,C<0 \). אז

\( \left(AB\right)C=\left[-\left(\left(-A\right)B\right)\right]C \)

כאן אני משתמש בהגדרה של שורה 3. עכשיו יש לי את הכפל של שני החיוביים \( \left(-A\right)B \), וכפל של שני חיוביים נותן חיובי (את זה כבר הוכחנו קודם) ולכן המינוס שלהם הוא שלילי, ולכן קיבלתי ביטוי מהצורה \( XY \) כאשר \( X<0 \) וגם \( Y<0 \) (במקרה הזה \( X=-\left[\left(-A\right)B\right] \) ואילו \( Y=C \)) ולכן אותו אפשר לפתוח על פי שורה 5:

\( \left[-\left(\left(-A\right)B\right)\right]C=\left(-\left[-\left(\left(-A\right)B\right)\right]\right)\left(-C\right) \)

זה נראה די מזעזע אבל יש אור בקצה המנהרה - את הביטוי \( -\left[-\left(\left(-A\right)B\right)\right] \) אנחנו יודעים לפשט עם הזהות \( -\left(-A\right)=A \) שהראיתי בהתחלה: \( -\left[-\left(\left(-A\right)B\right)\right]=\left(-A\right)B \) ולכן נקבל

\( \left(-\left[-\left(\left(-A\right)B\right)\right]\right)\left(-C\right)=\left(\left(-A\right)B\right)\left(-C\right) \)

עכשיו יש לנו מכפלה מהצורה \( \left(XY\right)Z \) רק שהפעם כל המוכפלים הם חיוביים, כי \( A,C \) השליליים הוחלפו ב-\( -A,-C \) החיוביים, אז אנחנו יכלום להשתמש באסוציאטיביות שכבר הוכחנו עבור חיוביים ולקבל

\( \left(\left(-A\right)B\right)\left(-C\right)=\left(-A\right)\left(B\left(-C\right)\right) \)

הביטוי \( B\left(-C\right) \) תואם את שורה 4 במובן הבא: אנחנו יודעים שהנגדי שלו הוא \( BC \), אז בגלל היחידות של הנגדי שהוכחנו קודם אפשר לכתוב \( B\left(-C\right)=-\left(BC\right) \) ולכן

\( \left(-A\right)\left(B\left(-C\right)\right)=\left(-A\right)\left(-\left(BC\right)\right) \)

עכשיו שימו לב מה קורה פה: אנחנו יודעים ש-\( A<0 \) כי מזה התחלנו, ובנוסף אנחנו יודעים ש-\( BC<0 \) כי ראינו ש-\( B\left(-C\right)=-\left(BC\right) \) ואגף שמאל הוא מכפלת שני חיוביים ולכן חיובי, ולכן הנגדי של \( BC \) הוא חיובי, ולכן \( BC \) שלילי (באופן כללי שורות 3-4 בהגדרה מראות לנו שמכפלה של חיובי בשלילי היא שלילית). זה אומר ש-\( \left(-A\right)\left(-\left(BC\right)\right) \) הוא ביטוי שהוא מכפלה של שני נגדיים של שליליים - בדיוק מה שקורה באגף ימין של שורה 5, ולכן שווה לאגף שמאל:

\( \left(-A\right)\left(-\left(BC\right)\right)=A\left(BC\right) \)

וסיימנו סוף סוף - \( \left(AB\right)C=A\left(BC\right) \).

זו הייתה הוכחה של מקרה אחד של האסוציאטיביות.

מתוך 27 אפשרויות.

כמובן, אני עושה כאן הגזמה קומית, 27 אפשרויות זה רק אם מביאים בחשבון כל אחת משלוש הסיטואציות האפשריות לכל אחד מהחתכים: \( A>0 \) או \( A=0 \) או \( A<0 \). אבל אם ולו אחד מהחתכים מקיים \( A=0 \) אז המכפלה הסופית תצא 0 בשני האגפים והשוויון טריוויאלי, אז אין מה להוכיח פה, ואנחנו מצטמצמים אל “רק” 8 אפשרויות. מתוכן אחת היא האפשרות שכולם חיוביים שבה טיפלנו במפורש קודם, ועוד אחת ראינו כרגע, וכל היתר הן אותו דבר כמו מה שעשינו כרגע - שימוש זהיר בחוקי הצמצומים של מינוס ובהגדרות של הכפל במקרים שונים ומשונים. אני אוותר על יתר 6 המקרים אבל זה “תרגיל טוב” לנסות עצמאית אחד מהם.

מה עכשיו? דיסטריביוטיביות.

\( A\left(B+C\right)=AB+AC \)

דיסטריביוטיביות היא מקרה מעניין במיוחד כי \( B+C \) הוא ביטוי שיכול לצאת גם חיובי וגם שלילי, תלוי בערכים הספציפיים של \( B,C \). אם \( B,C>0 \) שניהם אז \( B+C>0 \) באופן טריוויאלי ואם \( B,C<0 \) אז \( B+C<0 \) גם באופן טריוויאלי - בשני המקרים זה נובע ישירות מההגדרה של הסכום בתור קבוצת כל הסכומים. אבל אם למשל \( B>0 \) ו-\( C<0 \) הסכום יכול לצאת חיובי או שלילי. למשל אם \( B=\left(-\infty,2\right) \) ו-\( C=\left(-\infty,-3\right) \) הסכום יצא שלילי, \( \left(-\infty,-1\right) \) ואילו אם \( C=\left(-\infty,-1\right) \) הסכום יצא חיובי, \( \left(-\infty,1\right) \). איכשהו ההוכחה צריכה לעבוד בכל אחד משני המקרים הללו למרות שהם לכאורה “הפוכים”.

נתחיל מהסיטואציה הקלה יותר - \( A>0,B<0,C<0 \). במקרה זה \( B<0,C<0 \) ולכן \( B+C<0 \) ולכן כל המכפלות \( A\left(B+C\right),AB,AC \) מוגדרות לפי שורה 4:

\( A\left(B+C\right)=-\left[A\left(-\left(B+C\right)\right)\right]=\left[A\left(-\left(B+C\right)\right)\right]=-\left[A\left(\left(-B\right)+\left(-C\right)\right)\right] \)

את המעבר האחרון צריך להצדיק; זה בעצם עוד חוק חיבור, \( -\left(x+y\right)=\left(-x\right)+\left(-y\right) \). בשביל להצדיק אותו אפשר להסתכל על הסכום

\( \left[\left(-x\right)+\left(-y\right)\right]+\left(x+y\right)=\left(-x\right)+\left[\left(-y\right)+\left(y+x\right)\right]= \)

\( =\left(-x\right)+\left[\left(-y+y\right)+x\right]=-x+x=0 \)

ולהסיק ש-\( \left(-x\right)+\left(-y\right) \) הוא הנגדי של \( \left(x+y\right) \) - הכל פה הוא שימוש סטנדרטי באסוציאטיביות, קומוטטיביות והתכונות שראינו בהתחלה של החיבור. אז אפשר לחזור לדיסטריביוטיביות שלנו. הגענו לכך שבסוגריים יש לנו \( A\left(\left(-B\right)+\left(-C\right)\right) \), ומכיוון ש-\( B,C<0 \) קיבלנו כאן ביטוי שתואם את הדיסטריביוטיביות במקרה שבו כל המעורבים הם חיוביים ואפשר להשתמש בכך שהוכחנו את המקרה הזה קודם:

\( -\left[A\left(\left(-B\right)+\left(-C\right)\right)\right]=-\left[A\left(-B\right)+A\left(-C\right)\right]=-\left(A\left(-B\right)\right)+\left(-\left(A\left(-C\right)\right)\right) \)

וביטוי כמו \( -\left(A\left(-B\right)\right) \) הוא אגף ימין של כלל 4 ולכן מקבלים

\( -\left(A\left(-B\right)\right)+\left(-\left(A\left(-C\right)\right)\right)=AB+AC \). אז זה היה קל, ואם \( A<0 \) זה יעבוד בערך אותו הדבר.

אם כן, בואו נעבור לסיטואציה הבעייתית: \( B<0,C>0 \) (ונניח ש-\( A>0 \) אבל \( A<0 \) יהיה דומה). כאן יש שלוש אפשרויות: או ש-\( B+C>0 \), או ש-\( B+C=0 \), או ש-\( B+C<0 \). נתחיל מ-\( B+C=0 \); במקרה הזה \( C=-B \) ואז \( A\left(B+C\right)=0 \) וכמו כן

\( AB+AC=AB+A\left(-B\right)=AB-AB=0 \)

כשהמעבר הלפני אחרון נובע משורה 3 בהגדרה: \( -\left(A\left(-B\right)\right)=AB \), כלומר \( A\left(-B\right)=-AB \).

עכשיו נניח ש-\( B+C>0 \) ונשתמש בטריק כדי להעביר את הסיטואציה לדיסטריביוטיביות שמערבת רק חיוביים. הטריק הוא לכתוב \( C=\left(B+C\right)+\left(-B\right) \): ככה כתבנו את \( C \) בתור סכום של שני חיוביים, ועכשיו נסתכל על

\( AC=A\left(\left(B+C\right)+\left(-B\right)\right)=A\left(B+C\right)+A\left(-B\right) \)

כשהמעבר השני הוא שימוש בדיסטריביוטיביות על חיוביים. עכשיו , מכיוון ש-\( B<0 \) אנחנו מקבלים מכלל 4 ש-\( A\left(-B\right)=-AB \) ולכן קיבלנו

\( AC=A\left(B+C\right)-AB \)

ועל ידי העברת אגפים מקבלים

\( A\left(B+C\right)=AB+AC \)

ושוב - יש שלל מקרים אחרים לטפל בהם אבל שום טכניקה חדשה, אז אני אברח מזה באלגנטיות.

עכשיו צריך לטפל באיבר היחידה:

\( A\cdot1=A \) לכל \( A \)

כבר הוכחנו את זה למקרה ש-\( A>0 \) וזה ברור במקרה ש-\( A=0 \). אם \( A<0 \) אז בגלל ש-\( 1>0 \) נקבל \( A\cdot1=-\left(\left(-A\right)\cdot1\right) \). עבור \( -A>0 \) כבר ראינו ש-\( \left(-A\right)\cdot1=-A \) ולכן

\( A\cdot1=-\left(\left(-A\right)\cdot1\right)=-\left(-A\right)=A \)

כפי שרצינו.

נותר רק דבר אחד - הופכי:

לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

הראינו את זה עבור \( A>0 \) ולא צריך לטפל במקרה \( A=0 \), אז נותר רק \( A<0 \). במקרה הזה נסמן \( B=-A \), אז \( B>0 \) ולכן קיים \( B^{-1} \) כך ש-\( B\cdot B^{-1}=1 \). עכשיו אני אגדיר \( A^{-1}=-B^{-1} \). שימו לב שבגלל ש-\( B>0 \) גם \( B^{-1}>0 \) כך ש-\( A^{-1}<0 \) ולכן המכפלה \( A\cdot A^{-1} \) תואמת את כלל מס’ 5: \( AA^{-1}=\left(-A\right)\left(-A^{-1}\right)=BB^{-1}=1 \), וסיימנו את כל מה שצריך להוכיח על חתכי דדקינד!

אז מה זה בעצם המספרים הממשיים? (חלק ד’: בונים את המספרים הממשיים עם סדרות קושי)

2024-11-11T00:00:00+00:00

מבוא

סדרת הפוסטים שלי על המספרים הממשיים כבר אמרה המון דברים על המספרים הממשיים חוץ מדבר בסיסי אחד: מהם המספרים הממשיים. קיבלנו אינטואיציה וקיבלנו רשימת תכונות שאנחנו מצפים שהמספרים הממשיים יקיימו, אבל לא קיבלו בניות קונקרטיות שלהם. בפוסט הזה סוף סוף נגיע להגדרה פורמלית: זו של קנטור שמסתמכת על סדרות. בנוסף להגדרה הזו יש גם את ההגדרה של דדקינד שמסתמכת על חתכים, אבל אני דוחה אותה לפוסט הבא כי ההוכחה שהיא עובדת היא טכנית להחריד (אפילו יותר מהדברים הטכניים להחריד שיהיו בהמשך הפוסט הזה) וסדר ההצגה של דברים בה הוא שונה, כך שבפוסט הזה אני אתמקד על הבניה של קנטור שהיא קצת יותר קלה לעיכול מבחינת הפרטים הטכניים.

לפני שנתחיל, בואו ניזכר שוב מה היה האפיון שנתתי למספרים הממשיים: המספרים הממשיים הם השדה הסדור השלם. כאשר “שדה”, “סדור” ו”שלם” כולם מוגדרים על ידי אקסיומות (תכונות בסיסיות שאנחנו מצפים מהאובייקט שלנו לקיים אם הוא רוצה להיקרא “שדה”, “סדור”, “שלם”) והשימוש שלי בה’ הידיעה הוצדק על ידי הוכחה שיש בדיוק אובייקט אחד (עד כדי איזומורפיזם) שמקיים את כל האקסיומות הללו.

זה אומר מה בעצם אני צריך לעשות בפוסט הזה והבא אחריו: לא סתם להציג בניה, אלא להסביר או אפילו להוכיח עד הסוף למה הבניה מקיימות את כל האקסיומות הללו (בכך זה שונה מאוד מפעמים אחרות שבהן הזכרתי את הבניות בבלוג; אף פעם לא הראיתי שהן מקיימות את האקסיומות, כלומר שהן עושות את מה שהן אמורות לעשות). לכן נתחיל עם להזכיר את רשימת כל האקסיומות:

\( \left(A+B\right)+C=A+\left(B+C\right) \)
\( \left(A\cdot B\right)\cdot C=A\cdot\left(B\cdot C\right) \)
\( A+B=B+A \)
\( A\cdot B=B\cdot A \)
\( A\cdot\left(B+C\right)=A\cdot B+A\cdot C \)
קיים איבר שמסומן ב-0 כך ש-\( A+0=A \) לכל \( A \)
לכל \( A \) קיים איבר שמסומן ב-\( -A \) ונקרא הנגדי של \( A \) כך ש-\( A+\left(-A\right)=0 \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( A\cdot1=A \) לכל \( A \)
לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

לכל \( A\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( A\in P \), או ש-\( -A\in P \), או ש-\( A=0 \).
אם \( A,B\in P \) אז \( A+B\in P \)
אם \( A,B\in P \) אז \( A\cdot B\in P \)

לבסוף, אקסיומת השלמות הייתה האקסיומה הבאה:

אם \( A\subseteq\mathbb{F} \) היא קבוצה לא ריקה וחסומה מלעיל, אז \( \sup A \) קיים.

בפוסט הקודם ראינו שהאקסיומה הזו שקולה לזוג אקסיומות אחר:

(ארכימדיות) לכל \( A\in\mathbb{F} \) קיים \( N\in\mathbb{N} \) כך ש-\( A<N \)
(שלמות-קנטור) כל סדרת קושי מתכנסת

אני לא מסביר לעומק מה כל האקסיומות אומרות כי כבר דיברנו על זה בפירוט בפוסטים הקודמים ועוד נעשה את זה בפירוט בהמשך, כחלק מההוכחות עצמן. בואו נעבור לראות את הבניה עצמה.

הבניה של קנטור למספרים הממשיים

בואו נראה את הדוגמא הקלאסית עם המספר האי-רציונלי \( \sqrt{2}=1.41421\ldots \). זה מספר אי רציונלי, אבל יש סדרת מספרים רציונליים פשוטה ששואפת אליו: \( 1,1.4,1.41,1.414,1.4142,1.41421,\ldots \). לא קשה להראות שהסדרה הזו היא סדרת קושי ולכן אם אנחנו רוצים שתתקיים שלמות-קנטור צריך להיות לה גבול ביקום המתמטי שלנו - אז אנחנו מגדירים מספר חדש באמצעות הסדרה הזו. לכאורה המספר החדש הזה הולך להיות \( \sqrt{2} \), אבל אי אפשר סתם להגיד את זה - צריך להשתכנע שהמספר החדש שבנינו, אחרי שכופלים אותו בעצמו, יוצא שווה ל-2. כלומר צריך להבין איך מבצעים פעולות אלגבריות על האובייקטים החדשים שלנו, ומתי שני אובייקטים הם שווים, ואיך בכלל “2” מוגדר בגישה שלנו (ובכן, בעזרת הסדרה \( 2,2,2,2,\ldots \), למשל).

לכאורה ההגדרה שלנו פשוטה: כל איבר של \( \mathbb{F} \) יהיה סדרת קושי של רציונליים. אבל ההגדרה הזו לא מספיק טובה כי יכולות להיות הרבה סדרות קושי שונות ש”מתכנסות לאותו איבר”. הדוגמא הקלאסית היא הסדרה הקבוצה \( 1,1,1,\ldots \) והסדרה \( 0.9,0.99,0.999,\ldots \) שהקדשתי לה כבר פוסט , אבל הבעיה הרבה יותר עמוקה מזה. למשל, אפילו אם אני אקח את \( 1,1,1\ldots \) לבדה ופתאום באיבר ה-54,527,822 אשנה אותו ל-42 וכל יתר הסדרה תהיה 1 - קיבלתי סדרת קושי שמתכנסת אל 1, אבל היא שונה מהסדרה שכולה 1-ים. ואפשר גם להסתכל על סדרה כמו \( a_{n}=1-\frac{1}{2^{n}} \) שמתכנסת גם היא אל 1 אבל בצורה שונה, ועוד ועוד ועוד.

מה שקנטור אומר הוא - אוקיי, אז בואו לא ניקח סדרת קושי אחת ספציפית בתור מספר ממשי; בואו ניקח את כל הסדרות שמתכנסות לאותו מספר להיות המספר עצמו. פורמלית אנחנו יכולים לתאר את זה עם המושג של יחס שקילות (מושג שיש לי עליו פוסט בבלוג וכאן אני אניח שהוא מוכר).

איך מגדירים יחס שקילות שאומר “שתי סדרות הקושי הללו מתכנסות לאותו דבר” כשאין “דבר” שהן מתכנסות אליו? פשוט אומרים שהן מתקרבות מספיק אחת לשניה: אם \( \left\{ a_{n}\right\} _{n=0}^{\infty},\left\{ b_{n}\right\} _{n=0}^{\infty} \) הן שתי סדרות קושי, נאמר שהן שקולות אם לכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n>N \) מתקיים \( \left|a_{n}-b_{n}\right|<\varepsilon \).

קל לראות שזה יחס שקילות: הוא רפלקסיבי כי \( \left|a_{n}-a_{n}\right|=0 \) לכל \( n \); הוא סימטרי כי \( \left|a_{n}-b_{n}\right|=\left|b_{n}-a_{n}\right| \) לכל \( n \). טרנזיטיביות היא טיפה יותר עבודה טכנית אבל שום דבר חכם במיוחד: אם \( \left\{ a_{n}\right\} _{n=0}^{\infty},\left\{ b_{n}\right\} _{n=0}^{\infty} \) שקולות וגם \( \left\{ b_{n}\right\} _{n=0}^{\infty},\left\{ c_{n}\right\} _{n=0}^{\infty} \) שקולות נראה ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty},\left\{ c_{n}\right\} _{n=0}^{\infty} \) שקולות על פי הגדרה. יהא \( \varepsilon>0 \) כלשהו, אז קיים \( N_{1} \) כך ש-\( \left|a_{n}-b_{n}\right|<\frac{\varepsilon}{2} \) לכל \( n>N_{1} \) וקיים \( N_{2} \) כך ש-\( \left|b_{n}-c_{n}\right|<\frac{\varepsilon}{2} \) לכל \( n>N_{2} \) ולכן אם נגדיר \( N=\max\left\{ N_{1},N_{2}\right\} \) אז לכל \( n>N \) מתקיים

\( \left|a_{n}-c_{n}\right|=\left|a_{n}-b_{n}+b_{n}-c_{n}\right|\le\left|a_{n}-b_{n}\right|+\left|b_{n}-c_{n}\right|<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

וזה מה שרצינו. אז יש לנו יחס שקילות, ואם יש לנו יחס שקילות יש לנו מחלקות שקילות, כלומר חלוקה של אוסף כל סדרות הקושי הרציונליות לקבוצות כך שכל האיברים של קבוצה שקולים זה לזה ולא שקולים לאיברים של אף קבוצה אחרת. אוסף מחלקות השקילות הזה הוא מה שקנטור מגדיר בתור \( \mathbb{F} \). ושוב, טרם הגדרנו חיבור או כפל או איברים חיוביים, אז בינתיים אין לנו אקסיומות כלשהן להראות שמתקיימות, אבל כן קל לראות ש-\( \mathbb{Q}\subseteq\mathbb{F} \) כי לכל רציונלי \( x\in\mathbb{Q} \) פשוט ניקח את מחלקת השקילות של הסדרה \( x,x,x,\ldots \).

חיבור וכפל של סדרות קושי

הגישה הסטנדרטית כשבונים אובייקט חדש מתוך אובייקט קיים שבא להרחיב אותו הוא שלא מתחילים מאפס, ומשתמשים במבנה שיש לאובייקט הקיים כדי ליצור את המבנה של האובייקט החדש. אצלנו זה אומר שאת פעולות החיבור והכפל של ממשיים נגדיר באמצעות פעולות החיבור והכפל של רציונליים, שאנחנו כבר מכירים. ברור לנו לגמרי איך לחבר ולכפול כי אנחנו יודעים לחבר ולכפול סדרות: עושים את זה “איבר-איבר”. רק מה, יש לנו סיבוך בלתי נמנע שנובע מכך שאנחנו מגדירים את הממשיים לא בתור סדרות אלא בתור מחלקות שקילות של סדרות. עוד סיבוך נובע מכך שאנחנו לא סתם עובדים עם סדרות אלא עם סדרות קושי ולכן גם תוצאת החיבור והכפל צריכה להיות סדרת קושי. זה לא יהיה סיבוך נוראי אבל נצטרך טיפה לעבוד.

קודם כל בואו נכניס לתמונה סימונים שיקלו עלינו את החיים. סימנתי סדרה עד כה ב-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \), אבל בואו נחסוך כתיבה מיותרת ופשוט נסמן אותה ב-\( a \). עכשיו אפשר להגדיר סכום וכפל של סדרות באופן הבא:

\( a+b=c \) כאשר \( c_{n}=a_{n}+b_{n} \)
\( a\cdot b=c \) כאשר \( c_{n}=a_{n}\cdot b_{n} \)

כלומר, החיבור והכפל הם “נקודתיים”, איבר-איבר.

עכשיו נעבור לדבר על מחלקות שקילות: דרך סטנדרטית לסמן מחלקת שקילות היא באמצעות נציג: ניקח סדרה \( a \) ונסמן

\( A=\left[a\right]\triangleq\left\{ a^{\prime}\ |\ a\sim a^{\prime}\right\} \)

כאשר אצלנו כזכור \( a\sim a^{\prime} \) פירושו שלכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n>N \) מתקיים \( \left|a_{n}-a_{n}^{\prime}\right|<\varepsilon \). כלומר, אנחנו מתארים את המחלקה בתור “כל האיברים ששקולים אל \( a \)” - במקרה הזה \( a \) הוא הנציג של המחלקה.

בואו ניסגר על הסימונים שלנו. כשאני כותב \( a_{n} \) אני כותב מספר רציונלי - איבר של הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \). כשאני כותב \( a \), זה קיצור במקום לכתוב \( \left\{ a_{n}\right\} _{n=0}^{\infty} \), וכשאני כותב \( A \) אני מתכוון למספר ממשי: מחלקת שקילות של סדרות קושי. כשאני כותב \( A=\left[a\right] \) אני בוחר לייצג את \( A \) באמצעות הנציג הקונקרטי \( a \), ולעתים קרובות אני לא אטרח לכתוב את \( A \) במפורש אלא אכתוב פשוט \( \left[a\right] \) מלכתחילה, שזו דרך לומר “המספר הממשי שאני מייצג כרגע עם \( a \)”.

עכשיו אפשר להגדיר חיבור וכפל של ממשיים, כלומר של מחלקות השקילות, על ידי נציגים:

\( \left[a\right]+\left[b\right]=\left[a+b\right] \)
\( \left[a\right]\cdot\left[b\right]=\left[a\cdot b\right] \)

כלומר: רוצים לחבר/לכפול שני ממשיים? קחו סדרת קירובים כלשהי לכל אחד מהם, חברו/כפלו את סדרת הקירובים והופס, קיבלתם סדרת קירובים למספר שהוא החיבור/כפל של הממשיים שהתחלתם איתם.

עד כאן הכל טוב, אבל בכל פעם שבה מגדירים פונקציה על מחלקות שקילות שמתבססת על הנציגים שלהן, יש את הסכנה שעבור נציגים שונים נקבל תוצאות שונות, וזה יאמר שהפונקציה שאנחנו מגדירים היא לא מוגדרת היטב כי על אותו הקלט (זוג ממשיים) היא יכולה להחזיר יותר מפלט אחד (כלומר, כמה ממשיים שונים) בהתאם לנציגים שאנחנו לוקחים.

אז בואו נראה שזה לא יכול לקרות, בצורה הסטנדרטית. לכל מחלקה ניקח שני נציגים, ונראה שהתוצאה זהה גם עבור זוג הנציגים הראשון וגם עבור זוג הנציגים השני.

פורמלית, ניקח \( a,a^{\prime} \) כך ש-\( \left[a\right]=\left[a^{\prime}\right] \), ניקח \( b,b^{\prime} \) כך ש-\( \left[b\right]=\left[b^{\prime}\right] \) ונוכיח ש:

\( \left[a+b\right]=\left[a^{\prime}+b^{\prime}\right] \)
\( \left[a\cdot b\right]=\left[a^{\prime}\cdot b^{\prime}\right] \)

נתחיל מהמקרה הראשון. אם “נקלף” את הרמה של מחלקות השקילות, נראה שמה שצריך להוכיח פה הוא בעצם שאם \( a\sim a^{\prime} \) וגם \( b\sim b^{\prime} \) אז \( a+b\sim a^{\prime}+b^{\prime} \). כלומר, נתחיל עם “יהי \( \varepsilon>0 \)” כרגיל ונמצא \( N \) כך שלכל \( n>N \) מתקיים \( \left|\left(a_{n}+b_{n}\right)-\left(a_{n}^{\prime}+b_{n}^{\prime}\right)\right|<\varepsilon \). בשלב הזה אני מקווה שאנחנו ממש מתורגלים כבר בשטיק הזה. עושים:

\( \left|\left(a_{n}+b_{n}\right)-\left(a_{n}^{\prime}+b_{n}^{\prime}\right)\right|=\left|\left(a_{n}-a_{n}^{\prime}\right)+\left(b_{n}-b_{n}^{\prime}\right)\right|\le\left|a_{n}-a_{n}^{\prime}\right|+\left|b_{n}-b_{n}^{\prime}\right|<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

כשהמעברים הללו עובדים עבור \( N=\max\left\{ N_{1},N_{2}\right\} \) כש-\( N_{1} \) הוא מה שמבטיח \( \left|a_{n}-a_{n}^{\prime}\right|<\frac{\varepsilon}{2} \) ו-\( N_{2} \) מבטיח את זה עבור ה-\( b \)-ים.

כפל מצריך טריק אלגברי קטן:

\( \left|a_{n}b_{n}-a_{n}^{\prime}b_{n}^{\prime}\right|=\left|\left(a_{n}-a_{n}^{\prime}\right)b_{n}+a_{n}^{\prime}\left(b_{n}-b_{n}^{\prime}\right)\right|\le\left|b_{n}\right|\left|a_{n}-a_{n}^{\prime}\right|+\left|a_{n}^{\prime}\right|\left|b_{n}-b_{n}^{\prime}\right| \)

זה טיפה מסבך לנו את החיים כי לא מספיק לחסום את \( \left|a_{n}-a_{n}^{\prime}\right| \) ואת \( \left|b_{n}-b_{n}^{\prime}\right| \) כמו קודם: צריך לחסום גם את \( \left|b_{n}\right| \) ואת \( \left|a_{n}^{\prime}\right| \). זו לא בעיה אמיתית כי סדרות קושי הן חסומות: אם \( a \) היא סדרת קושי, אז קיים \( N \) כל שלכל \( n>N \) מתקיים \( \left|a_{n}-a_{N}\right|<1 \), כלומר

\( \left|a_{n}\right|=\left|a_{n}-a_{N}+a_{N}\right|\le\left|a_{n}-a_{N}\right|+\left|a_{N}\right|<\left|a_{N}\right|+1 \)

לכן בכללי אפשר להניח שעבור \( N \) גדול מספיק נקבל לכל \( n>N \) ש-\( \left|b_{n}\right|<M \) וגם \( \left|a_{n}^{\prime}\right|<M \) עבור \( M \) כלשהו. עכשיו נמצא \( N \) גדול דיו כך שהאפקט הזה מתקיים וגם \( \left|a_{n}-a_{n}^{\prime}\right|<\frac{\varepsilon}{2M} \) וגם \( </strong>\left|b_{n}-b_{n}^{\prime}\right|<\frac{\varepsilon}{2M} \), ולכן נקבל

\( \left|a_{n}b_{n}-a_{n}^{\prime}b_{n}^{\prime}\right|=\le\left|b_{n}\right|\left|a_{n}-a_{n}^{\prime}\right|+\left|a_{n}^{\prime}\right|\left|b_{n}-b_{n}^{\prime}\right|<M\cdot\frac{\varepsilon}{2M}+M\cdot\frac{\varepsilon}{2M}=\varepsilon \)

מה שמסיים את ההוכחה שהחיבור והכפל מוגדרים היטב. למרבה השמחה, כדי להוכיח שהסכום והכפל של סדרות קושי הוא סדרת קושי אנחנו בעצם עושים את אותו דבר בדיוק כך שטיפלנו בשתי הבעיות שלנו במחיר אחת. כדי לראות את זה, בואו נחשוב מה בעצם אנחנו רוצים להוכיח: שלכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n,m>N \) אז

\( \left|\left(a_{n}+b_{n}\right)-\left(a_{m}+b_{m}\right)\right|<\varepsilon \)
\( \left|\left(a_{n}b_{n}\right)-\left(a_{m}b_{m}\right)\right|<\varepsilon \)

תחליפו את \( a_{m},b_{m} \) ב-\( a_{n}^{\prime},b_{n}^{\prime} \) וחזרנו להוכחה שכבר ראינו. אותן טכניקות עובדות בדיוק; לב העניין הוא בכך שכמו ש-\( a_{n},a_{n}^{\prime} \) קרובים מספיק עבור \( n \)-ים גדולים מספיק, כך גם \( a_{n},a_{m} \) קרובים מספיק עבור \( n,m \)-ים גדולים מספיק. זה מסיים עבורנו את ההגדרה של חיבור וכפל של מספרים ממשיים בגישה של קנטור (אבל הפעם לא הגדרנו על הדרך מתי איבר הוא חיובי או מה המינוס של איבר, עוד נצטרך להגיע אל זה).

אסוציאטיביות, קומוטטיביות, דיסטריביוטיביות

הגדרנו את פעולות החיבור והכפל ועכשיו אפשר להוכיח שהן מקיימות את התכונות הבסיסיות שנדרשות מהן בשדה:

\( \left(A+B\right)+C=A+\left(B+C\right) \)
\( \left(A\cdot B\right)\cdot C=A\cdot\left(B\cdot C\right) \)
\( A+B=B+A \)
\( A\cdot B=B\cdot A \)
\( A\cdot\left(B+C\right)=A\cdot B+A\cdot C \)
קיים איבר שמסומן ב-0 כך ש-\( A+0=A \) לכל \( A \)

מה שאנחנו יכולים להסתמך עליו הוא שכל התכונות הללו כבר נכונות עבור הממשיים, \( \mathbb{Q} \), וזה הולך מאוד להקל עלינו.

נוכיח למשל קומוטטיביות של חיבור. אני צריך להראות ש:

\( \left[a\right]+\left[b\right]=\left[b\right]+\left[a\right] \)

אבל זה קל: עבור שתי סדרות, \( a+b \) היא הסדרה שהאיבר הכללי שלה הוא \( a_{n}+b_{n} \), אבל מקומוטטיביות הרציונליים, האיבר הכללי הזה שווה אל \( b_{n}+a_{n} \) ולכן \( a+b=b+a \) ולכן \( \left[a+b\right]=\left[b+a\right] \). כפל מתקבל באותו אופן בדיוק וגם דיסטריביוטיביות, אבל בואו נראה דיסטריביוטיביות במפורש כדי לא לדאוג שאנחנו מדלגים על משהו קריטי:

\( \left[a\right]\cdot\left(\left[b\right]+\left[c\right]\right)=\left[a\right]\cdot\left[b+c\right]=\left[a\left(b+c\right)\right] \)

והאיבר הכללי של \( a\left(b+c\right) \), על פי הגדרת חיבור וכפל סדרות, הוא \( a_{n}\left(b_{n}+c_{n}\right) \) ולכן, על פי דיסטריביוטיביות של רציונליים, שווה אל \( a_{n}b_{n}+a_{n}c_{n} \) כלומר אל האיבר הכללי של \( ab+ac \), כמו שרצינו.

גם עבור אסוציאטיביות זה בעצם אותו דבר אבל כדאי לראות את זה בזהירות. מה זה \( \left(\left[a\right]+\left[b\right]\right)+\left[c\right] \), על פי הגדרה? זה \( \left[a+b\right]+\left[c\right] \), כלומר זה \( \left[\left(a+b\right)+c\right] \) ושוב אנחנו מתדרדרים לאסוציאטיביות ברמת האיבר הכללי: \( \left(a_{n}+b_{n}\right)+c_{n}=a_{n}+\left(b_{n}+c_{n}\right) \) ומכאן מתקדמים כרגיל. אז עבור סדרות קושי הכל פשוט (עבור חתכי דדקינד השלב הזה יהיה גיהנום).

אדיש חיבורי וכפלי, נגדי, הופכי

עכשיו אנחנו רוצים להראות שמתקיימות האקסיומות הבאות:

קיים איבר שמסומן ב-0 כך ש-\( A+0=A \) לכל \( A \)
לכל \( A \) קיים איבר שמסומן ב-\( -A \) ונקרא הנגדי של \( A \) כך ש-\( A+\left(-A\right)=0 \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( A\cdot1=A \) לכל \( A \)
לכל \( A\ne0 \) קיים איבר שמסומן ב-\( A^{-1} \) ונקרא ההופכי של \( A \) כך ש-\( A\cdot A^{-1}=1 \)

מכיוון שאנחנו מרחיבים את השדה \( \mathbb{Q} \) מתבקש שה-0 וה-1 שלנו יהיו גם אלו של \( \mathbb{Q} \), כלומר ניקח את 0 להיות מחלקת השקילות של סדרת הקושי \( 0,0,0,\ldots \) ואת \( 1 \) להיות המחלקה של \( 1,1,1,\ldots \). אלו בבירור סדרות קושי; הן בבירור לא שקולות זו לזו מכיוון שההפרש ביניהן הוא 1 באופן קבוע; ולכל סדרה אחרת מתקיים \( a+0=a \) ו-\( a\cdot1=a \) פשוט כי ברציונליים, \( a_{n}+0=a_{n} \) ו-\( a_{1}\cdot1=a_{n} \). אז יש לנו את האדישים שלנו.

נגדי חיבורי יהיה קל גם כן: אם \( A=\left[a\right] \) הוא מספר ממשי כלשהו, אני אגדיר \( -A=\left[-a\right] \). כרגיל, צריך להבהיר שזה מוגדר היטב, כלומר שאם \( a\sim a^{\prime} \) אז \( -a\sim-a^{\prime} \); זה טריוויאלי כי המינוס הזה “נבלע” בתוך הערך המוחלט שמופיע בהגדרת השקילות. עכשיו נותר להראות ש-\( A+\left(-A\right)=0 \) וזה למרבה השמחה קל מאוד כי אנחנו יכולים לבחור איזה נציג שאנחנו רוצים ל-\( A \) ול-\( -A \) בגלל שהוכחנו בעמל רב שהגדרת החיבור לא תלויה בנציג: אז נבחר \( A=\left[a\right],-A=\left[-a\right] \) ולכן

\( A+\left(-A\right)=\left[a\right]+\left[-a\right]=\left[a-a\right]=\left[0\right]=0 \)

ומה עם הופכי? הדבר המתבקש הוא לעשות את אותו קונץ, כלומר להגדיר \( A^{-1}=\left[a^{-1}\right] \) כש-\( a^{-1} \) מתקבל מהסדרה \( a \) על ידי היפוך של כל איבר ב-\( a \), ואז יתקיים \( A\cdot A^{-1}=\left[a\right]\cdot\left[a^{-1}\right]=\left[aa^{-1}\right]=\left[1\right]=1 \). אלא שכאן יש לנו בעיה: ראשית, כי הסדרה \( a \) עלולה לכלול את 0, ואין לנו דרך להפוך אותו. אבל אפילו אם הסדרה לא כוללת את 0 בכלל עדיין יש לנו בעיה כי אנחנו צריכים ש-\( a^{-1} \) תהיה סדרת קושי. אם הסדרה \( a \) “מצטופפת” סביב 0, אפילו אם היא לא נוגעת בו בכלל, הערכים של \( a^{-1} \) “מתפוצצים” - הם נהיים כל כך גדולים שהסדרה כבר לא תהיה סדרת קושי.

מה שאני רוצה להראות הוא שכל המקרים הבעייתיים הללו צצים רק במקרה שבו \( a\sim0 \). מה שאנחנו הולכים אוטוטו להראות כשנדבר על יחס הסדר על הממשיים הוא שלכל ממשי \( A \) קיים נציג \( a \) שמקיים אחד משלושת הדברים הבאים:

\( a\sim0 \)
קיים \( M>0 \) כך ש-\( a_{n}\ge M \) לכל \( n>N \) ("הסדרה חסומה חיובית הרחק מאפס")
קיים \( M>0 \) כך ש-\( a_{n}\le-M \) לכל \( n>N \) ("הסדרה חסומה שלילית הרחק מאפס")

זה משפט מועיל למדי כי הוא יאפשר לנו להגדיר את החיוביים בחלק הבא - אלו יהיו מן הסתם הממשיים שמיוצגים על ידי סדרה חסומה חיובית הרחק מאפס.

עכשיו, אם סדרה מקיימת את קריטריון 2 או 3 \( \left|a_{n}\right|\ge M>0 \) לכל אבריה ובפרט כל אבריה שונים מאפס, ולכן אפשר להגדיר סדרה חדשה, שנסמן \( a^{-1} \), שאבריה הם \( a_{n}^{-1} \). אבל למה זו סדרת קושי?

ובכן, בואו ניקח שני איברים כלליים של הסדרה וננסה להבין מה ההפרש ביניהם:

\( \left|a_{n}^{-1}-a_{m}^{-1}\right|=\left|\frac{1}{a_{n}}-\frac{1}{a_{m}}\right|=\left|\frac{a_{m}-a_{n}}{a_{n}a_{m}}\right|=\frac{\left|a_{m}-a_{n}\right|}{\left|a_{n}\right|\left|a_{m}\right|}\le\frac{\left|a_{m}-a_{n}\right|}{M^{2}} \)

זה פותר לנו את הבעיה: עבור \( \varepsilon>0 \) כלשהו, נפעיל את קריטריון קושי של הסדרה המקורית כדי למצוא \( N \) עבורו לכל \( n,m>N \) מתקיים \( \left|a_{n}-a_{m}\right|\le M^{2}\cdot\varepsilon \)

התקדמנו יפה! סיימנו את כל מה שצריך כדי להראות שהקבוצה שבנינו היא שדה, ועכשיו אפשר לדבר על סדר.

שדה סדור

עכשיו אנחנו רוצים להגדיר תת-קבוצה \( P \) של השדה שלנו, ולהראות שמתקיים:

לכל \( A\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( A\in P \), או ש-\( -A\in P \), או ש-\( A=0 \).
אם \( A,B\in P \) אז \( A+B\in P \)
אם \( A,B\in P \) אז \( A\cdot B\in P \)

ההגדרה לזה טמונה במשפט שציטטתי קודם: לכל ממשי \( A \) קיים נציג \( a \) שמקיים בדיוק אחד משלושת הדברים הבאים:

\( a\sim0 \)
קיים \( M>0 \) כך ש-\( a_{n}\ge M \) לכל \( n>N \) ("הסדרה חסומה חיובית הרחק מאפס")
קיים \( M>0 \) כך ש-\( a_{n}\le-M \) לכל \( n>N \) ("הסדרה חסומה שלילית הרחק מאפס")

כדי לראות את זה, בואו ניקח נציג כלשהו של \( A \) ומכיוון ש-\( a \) תפוס לתיאור הנציג המוצלח שאנחנו מחפשים, נקרא לו \( a^{\prime} \): \( A=\left[a^{\prime}\right] \). אם \( a^{\prime}\sim0 \) אז סיימנו; נגדיר \( a=a^{\prime} \) וחסל. אחרת, מה אני יודע על \( a^{\prime} \)? ראשית, הוא סדרת קושי. שנית, הוא לא מקיים \( a^{\prime}\sim0 \). מה זה אומר? \( a^{\prime}\sim0 \) אומר שלכל \( \varepsilon>0 \) קיים \( N>0 \) כך שלכל \( m>N \) מתקיים \( \left|a_{m}^{\prime}-0\right|<\varepsilon \). אם אני אומר שזה לא מתקיים, אני לוקח את השלילה הלוגית של הטענה הזו: זה אומר שקיים \( \varepsilon>0 \) כך שלכל \( N>0 \) קיים \( m>N \) שעבורו מתקיים \( \left|a_{m}^{\prime}\right|\ge\varepsilon \). זה טוב, אבל לא מספיק למצוא איבר אחד - אני רוצה שכל האיברים של הסדרה החל ממקום מסוים יהיו מרוחקים מאפס. בשביל זה אני אשתמש בכך שזו סדרת קושי, ולכן עבור \( \frac{\varepsilon}{2} \) קיים \( N \) כך שלכל \( n,m>N \) מתקיים \( \left|a_{n}^{\prime}-a_{m}^{\prime}\right|<\frac{\varepsilon}{2} \), ובמילים אחרות: \( a_{m}^{\prime}-\frac{\varepsilon}{2}<a_{n}^{\prime}<a_{m}^{\prime}+\frac{\varepsilon}{2} \).

עכשיו, אם \( a_{m}^{\prime} \) הוא חיובי אז מ-\( \left|a_{m}^{\prime}\right|\ge\varepsilon \) נקבל \( a_{m}^{\prime}\ge\varepsilon \), כלומר \( a_{n}^{\prime}>a_{m}^{\prime}-\frac{\varepsilon}{2}\ge\frac{\varepsilon}{2} \). אם לעומת זאת \( a_{m}^{\prime} \) שלילי אז \( a_{m}^{\prime}\le-\varepsilon \) ולכן \( a_{n}^{\prime}<a_{m}^{\prime}+\frac{\varepsilon}{2}\le-\frac{\varepsilon}{2} \). בכל מקרה קיבלנו ש-\( \left|a_{n}^{\prime}\right|\ge\frac{\varepsilon}{2} \) לכל \( n>N \), ונשאר רק לסמן \( M=\frac{\varepsilon}{2} \).

עדיין לא סיימתי; מצאתי מקום \( N \) שהחל ממנו, \( a^{\prime} \) עונה לקריטריונים, אבל אני לא רוצה שזה יהיה החל ממקום מסויים אלא לכל אברי הסדרה - אז אני אגדיר סדרה חדשה שפשוט מתחילה מאותו המקום המסוים. פורמלית, אני מגדיר \( a_{n}=a_{N+n}^{\prime} \), ואז מובטח לי שאכן \( a_{n}\ge M \) או לכל \( n \) (או \( a_{n}\le-M \) לכל \( n \)), וברור ש-\( a_{n} \) היא עדיין סדרת קושי כי היא הסיפא של סדרת קושי.

עכשיו ברור איך להגדיר את \( P \) שלנו: היא תכלול את כל הממשיים \( A \) שקיים להם נציג שמקיים את קריטריון 2.

נשאר להוכיח את שלוש האקסיומות. בשביל הראשונה, בואו ניקח \( A \) כלשהו ונציג \( A=\left[a\right] \) כלשהו. אם \( a\sim0 \) אז \( A=0 \); אם \( a \) מקיים את קריטריון 2 אז \( A\in P \); נשאר להראות שאם \( a \) מקיים את קריטריון 3 אז \( -A\in P \), אבל זה מובן מאליו: \( -A=\left[-a\right] \) ואם \( a_{n}\ge M \) לכל \( n \) אז \( -a_{n}\le-M \) לכל \( n \).

בשביל שתי האקסיומות האחרות צריך להראות בעצם שאם \( a,b \) סדרות שמקיימות את קריטריון 2, אז גם \( a+b \) וגם \( ab \) מקיימות את קריטריון 2. בשני המקרים נשתמש בקריטריון 2 כדי לקבל קיום של \( M_{a},M_{b}>0 \)כך ש-\( a_{n}\ge M_{a} \) ו-\( b_{n}\ge M_{b} \) לכל \( n \). עכשיו נחבר/נכפול את אי השוויונים ונקבל שלכל \( n \) מתקיים \( a_{n}+b_{n}\ge M_{a}+M_{b} \) ו-\( a_{n}b_{n}\ge M_{a}M_{b} \) וסיימנו בזכות העובדה ש-\( M_{a}+M_{b}>0 \) וגם \( M_{a}M_{b}>0 \) - כלומר, תכונות 2,3 עבור הממשיים שאנחנו בונים נובעות בסופו של דבר מכך שהן מתקיימות עבור הרציונליים \( M_{a},M_{b} \).

עכשיו אפשר לשאול את עצמנו מתי, עבור שני ממשיים \( A,B \), מתקיים \( A<B \). כזכור, מרגע שהגדרנו את \( P \) אנחנו מקבלים את \( < \) “בחינם”: \( A<B \) על פי הגדרה אם \( B-A\in P \).

אז הגדרה יש לנות אבל לא יזיק אם יהיה לנו גם משפט שמקל עלינו להוכיח בפועל שמתקיים \( A<B \) וכאן המצב יהיה טיפה טריקי. מה שהייתי רוצה להוכיח הוא שאם מצאתי נציגים \( a,b \) ל-\( A,B \) כך ש-\( a_{n}<b_{n} \) לכל \( n \) החל ממקום מסוים, אז \( A<B \), אלא שזה פשוט לא נכון: תסתכלו על הסדרות \( a_{n}=0 \) ו-\( b_{n}=\frac{1}{n} \) למשל שמייצגות שתיהן את 0. מה שכן נכון הוא שאם \( a_{n}\le b_{n} \) החל ממקום מסוים, אז \( A\le B \).

בואו נוכיח את זה. כלומר, יש לנו שתי סדרות \( a,b \) ואני מניח ש-\( a_{n}\le b_{n} \) החל ממקום מסוים. אז הסדרה \( b_{n}-a_{n} \) היא נציג של \( B-A \). אם נסתכל על ההוכחה של הטענה הקודמת, הראינו שכל נציג של מספר ממשי הוא או שקול לאפס, או חסום הרחק מאפס החל ממקום מסוים. אם \( b_{n}-a_{n}\sim0 \) אז \( B-A=0 \), כלומר \( B=A \); אחרת, \( b_{n}-a_{n} \) חסום הרחק מאפס החל ממקום מסוים, וכמו כן \( a_{n}\le b_{n} \) החל ממקום מסוים, כלומר \( b_{n}-a_{n}\ge0 \) החל ממקום מסוים, ולכן \( b_{n}-a_{n} \) חסום חיובית הרחק מאפס החל ממקום מסוים, כלומר \( B-A>0 \) וקיבלנו \( A<B \). זה מסיים את ההוכחה הזו.

עוד דבר שאנחנו יכולים לדבר עליו עכשיו הוא ערך מוחלט. כזכור, הגדרנו

\( \left|A\right|=\begin{cases} A & A\ge0\\ -A & A<0 \end{cases} \)

סיימנו עם השדה הסדור! עכשיו אנחנו מגיעים סוף סוף למטרה שלשמה התכנסנו.

אקסיומת השלמות

בפוסט הקודם ראינו שעבור אקסיומת השלמות אנחנו יכולים להסתפק בלהוכיח שני דברים:

(ארכימדיות) לכל \( A\in\mathbb{F} \) קיים \( N\in\mathbb{N} \) כך ש-\( A\le N \)
(שלמות-קנטור) כל סדרת קושי מתכנסת

שלמות-קנטור נראית כמו משהו שטבעי יותר להוכיח מאשר את אקסיומת השלמות, כי כל הבנייה של קנטור את המספרים הממשיים מכוונת אליה: אנחנו לוקחים את האובייקט הבסיסי של סדרת קושי ו”מכריחים” את הגבול שלו להתקיים על ידי כך שאנחנו בונים אותו. בפועל העניינים לא כל כך פשוטים ותכף אסביר גם למה, אבל לפני זה בואו נטפל בארכימדיות.

בואו ניקח \( A=\left[a\right] \) ממשי כלשהו עם נציג שרירותי \( a \). כל סדרת קושי של רציונליים היא חסומה, כלומר קיים \( q \) רציונלי כך ש-\( a_{k}\le q \) לכל \( k \). עכשיו אני אשתמש בארכימדיות של הרציונליים ואקבל שקיים \( n \) טבעי כך ש-\( q\le n \). אני אגדיר את הממשי \( N \) על ידי הסדרה הקבועה \( n,n,n,\ldots \) - לא קשה להראות ש-\( N \) הוא טבעי, כלומר הוא איבר של השדה \( \mathbb{F} \) שלנו שאפשר לכתוב בתור \( 1+1+\ldots+1 \). עכשיו, מכיוון ש-\( a_{k}\le n \) לכל \( k \), מהמשפט שהראיתי קודם נובע ש-\( A\le N \). אז ארכמדיות היה קל.

למה ששלמות-קנטור תהיה בעייתית? ניקח סדרת קושי \( a \), אז \( A=\left[a\right] \) הוא הגבול שלה, לא? ככה בנינו את הממשיים. אבל הנה העניין: \( a \) היא סדרת קושי של מספרים רציונליים ושלמות-קנטור שאנחנו רוצים להוכיח מדברת על התכנסות של סדרות קושי של מספרים ממשיים, כלומר על סדרות קושי של מחלקות שקילות של סדרות קושי של מספרים רציונליים. זה הולך להיות טיפה יותר טריקי.

הסיטואציה הזו צצה די הרבה במתמטיקה: יש לנו אובייקט מתמטי ש”חסר בו” משהו, אז אנחנו מרחיבים אותו בצורה שבאופן מובהק מטפלת במה שהיה חסר קודם - אלא שאחרי ההרחבה, האובייקט שלנו יותר גדול ומסובך, ויש סיכוי שעכשיו חסרים בו דברים חדשים, שלא היו במסגרת ההתייחסות שלנו קודם ולכן לא יכלו להיות חסרים. בניה חכמה היא בניה שמצליחה למנוע מהבעיה הזו להיווצר. ראינו לא מזמן בבלוג סוג מרשים במיוחד של בניה חכמה שכזו - כפייה בתורת הקבוצות האקסיומטית. יש עוד דוגמאות קלילות יותר, למשל המשפט היסודי של האלגברה: הרעיון שם הוא שגם במספרים ממשיים עדיין “חסרים דברים” - למשל, פתרון למשוואה הפולינומית \( x^{2}+1=0 \). אז מרחיבים את הממשיים אל המספרים המרוכבים ואז קורה הקסם שכל משוואה פולינומית היא פתירה; לא רק המשוואות שקודם לא היו פתירות, אלו שהמקדמים שלהן הם מספרים ממשיים, אלא גם כל המשוואות הפולינומיות החדשות שקיבלנו, עכשיו כשהמקדמים יכולים להיות גם מרוכבים.

פורמלית, מה שאנחנו צריכים לעשות הוא זה: לקחת סדרה \( A_{1},A_{2},A_{3},\ldots \) כש-\( A_{n}\in\mathbb{F} \) ולהוכיח שאם הסדרה הזו היא סדרת קושי, אז קיים \( B \) כך ש-\( \lim_{n\to\infty}A_{n}=B \). איך נבנה את \( B \)? אנחנו צריכים לבנות סדרה של רציונליים, \( \left\{ b_{n}\right\} _{n=1}^{\infty} \) ואנחנו צריכים שהסדרה הזו תהיה סדרת קושי, ובנוסף שהיא “תתקרב” אל סדרת ה-\( A_{n} \)-ים כרצוננו. זה מייד מזכיר תכונה שנקראת צפיפות הרציונליים: שעבור כל מספר ממשי, קיים מספר רציונלי שקרוב אליו כרצוננו. ראינו כבר תכונה אחרת שנקראה צפיפות - שבין כל שני ממשיים קיים רציונלי - אבל אני לא אכנס כאן לשאלה עד כמה התכונות הללו קשורות, אלא פשוט אוכיח פורמלית את תכונת הצפיפות שאני רוצה עכשיו.

אני רוצה להראות שאם \( A \) הוא מספר ממשי, אז קיים רציונלי \( q \) שקרוב אליו כרצוננו. פורמלית, אם \( \varepsilon>0 \) אז קיים \( Q\in\mathbb{Q} \) כך ש-\( \left|Q-A\right|\le\varepsilon \). שימו לב שכל המעורבים פה הם מספרים ממשיים: גם \( A \), גם \( Q \) (שהולך להיות מיוצג על ידי סדרה קבועה של מספר רציונלי ספציפי) וגם \( \varepsilon \). אבל שזה ש-\( \varepsilon \) הוא ממשי ולא בהכרח רציונלי זה מעצבן, כי זה אומר שאני צריך לתאר אותו עם סדרה במקום פשוט עם קבוע, אז נתבסס על זה שכבר הוכחתי ארכימדיות: זה אומר שקיים \( N \) טבעי כך ש-\( \frac{1}{\varepsilon}\le N \), כלומר \( \frac{1}{N}\le\varepsilon \), ואם נראה שמשהו קטן מ-\( \frac{1}{N} \) (הרציונלי) אז הוא בוודאי קטן גם מ-\( \varepsilon \), אז אני יכול פשוט להניח מכאן והלאה ש-\( \varepsilon \) רציונלי.

איפה כדאי לחפש את \( q \)? ובכן, זה קל: מכיוון ש-\( A \) הוא מספר ממשי, הוא בנוי מתוך הרציונליים, כלומר כדאי לחפש את \( q \) בתוך נציג \( A=\left[a\right] \) של \( A \). הנציג הזה הוא סדרת קושי של רציונליים, אז עבור \( \varepsilon>0 \) רציונלי קיים \( N \) כך שלכל \( n>N \) מתקיים \( \left|a_{N}-a_{n}\right|<\varepsilon \). עכשיו אני אגדיר את \( Q \) בתור המספר הממשי שמיוצג על ידי הסדרה הקבועה \( q_{n}=a_{N} \), ובואו נראה מה קיבלנו. אמרתי קודם שכדי להוכיח \( A\le B \) עבור ממשיים, מספיק להראות שעבור נציגים שלהם מתקיים \( a_{n}\le b_{n} \) החל ממקום מסוים. אצלנו הסיטואציה טיפה יותר מורכבת: אגף שמאל של \( \left|Q-A\right|\le\varepsilon \) כולל את הביטוי \( \left|Q-A\right| \) בזמן שאגף ימין הוא עדיין פשוט וכולל רק את \( \varepsilon \), שמיוצג על ידי הסדרה הקבועה \( \varepsilon_{n}=\varepsilon \). כשאני יורד לרמת הנציגים אני מקבל \( \left|q_{n}-a_{n}\right|<\varepsilon_{n} \), וזה הולך לתת לי את \( \left|Q-A\right|\le\varepsilon \) אם אני רק אשתכנע שהסדרה \( \left|q_{n}-a_{n}\right| \) היא נציג של המספר הממשי \( \left|Q-A\right| \).

את זה יחסית קל להראות: אם \( Q\ge A \) אז \( \left|Q-A\right|=Q-A \) וכמו כן בגלל ש-\( Q-A\ge0 \) אז החל ממקום מסוים, \( q_{n}-a_{n}\ge0 \), כלומר \( \left|q_{n}-a_{n}\right|=q_{n}-a_{n} \) וזו אכן סדרה שמייצגת את \( Q-A \). אם \( Q<A \) אז \( \left|Q-A\right|=A-Q \) ומכיוון ש-\( Q-A<0 \) החל ממקום מסוים \( q_{n}-a_{n}\le0 \), כלומר \( \left|q_{n}-a_{n}\right|=a_{n}-q_{n} \) וגם את הכיוון הזה סיימנו. זה מסיים את הוכחת תכונת הצפיפות.

עכשיו, אם נסתכל על מה שהוכחנו, בעצם ראינו משהו חזק יותר מאשר “סתם” צפיפות: ראינו שלכל מספר ממשי \( A \) ונציג שלו \( a \), אברי הנציג קרובים אל \( A \) כרצוננו. זה נשמע כמעט מובן מאליו, אז הנה המשמעות הפורמלית: לכל \( \varepsilon>0 \) קיים \( N \) כך שאם \( n>N \) אז \( \left|a_{n}-A\right|\le\varepsilon \). גם בתכונה המחוזקת הזו תכף אשתמש.

חזרה אל הטענה המקורית שאני רוצה להוכיח: \( \left\{ A_{n}\right\} _{n=1}^{\infty} \) היא סדרת קושי של ממשיים שאני מחפש לה גבול. אני אבנה מספר ממשי \( B=\left[b\right] \) באופן הבא: לכל \( n \), מתכונת הצפיפות של הרציונליים קיים רציונלי \( b_{n} \) כך ש-\( \left|b_{n}-A_{n}\right|\le\frac{1}{n} \). זהו, זו כל ההגדרה.

עכשיו קל להוכיח ש-\( \lim_{n\to\infty}A_{n}=B \). יהא \( \varepsilon>0 \) כלשהו, אז אני יודע שקיימים:

\( N_{1} \) כך שלכל \( n>N_{1} \) מתקיים \( \left|b_{n}-B\right|\le\frac{\varepsilon}{2} \) (זו תכונת הצפיפות ה"מחוזקת")
\( N_{2} \) כך ש-\( \frac{1}{N_{2}}<\frac{\varepsilon}{2} \), ולכן לכל \( n>N_{2} \) מתקיים \( \left|b_{n}-A_{n}\right|\le\frac{1}{n}\le\frac{1}{N_{2}}<\frac{\varepsilon}{2} \) (כי כך בנינו את ה-\( b_{n} \)-ים).

נגדיר \( N=\max\left\{ N_{1},N_{2}\right\} \) וקיבלנו שלכל \( n>N \) מתקיים:

\( \left|A_{n}-B\right|=\left|A_{n}-b_{n}+b_{n}-B\right|\le\left|A_{n}-b_{n}\right|+\left|b_{n}-B\right|<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

האם סיימנו? ובכן, עוד לא! כי קפצתי באלגנטיות על שלב קריטי בדרך: הגדרתי את \( B \) באמצעות הסדרה \( b_{1},b_{2},b_{3},\ldots \) אבל בשום מקום לא הוכחתי שזו סדרת קושי. ודי ברור שטרם סיימתי את ההוכחה, כי בעצם לא השתמשתי בשום שלב בכך שסדרת הממשיים, \( A_{1},A_{2},A_{3},\ldots \) היא סדרת קושי. אבל בואו נחשוב שניה בהגיון - אם היא לא הייתה סדרת קושי, אז סדרת ה-\( b_{n} \)–ים הזו הייתה סדרה אקראית של מספרים שקרובים ל-\( A_{1},A_{2},A_{3} \) וכן הלאה אבל אין שום סיבה שיהיו קרובים זה לזה, כי ה-\( A_{n} \)-ים הללו לא קרובים זה לזה.

הנה מה שנעשה: בהינתן \( \varepsilon>0 \), אני יודע שקיימים:

\( N_{1} \) כך שאם \( n,m>N_{1} \) אז \( \left|A_{n}-A_{m}\right|<\frac{\varepsilon}{3} \) (כי ה-\( A_{n} \)-ים הם סדרת קושי).
\( N_{2} \) כך ש-\( \frac{1}{N_{2}}<\frac{\varepsilon}{3} \) ולכן עבור \( n,m>N_{2} \) מתקיים \( \left|b_{n}-A_{n}\right|<\frac{\varepsilon}{3} \) וגם \( \left|b_{m}-A_{m}\right|<\frac{\varepsilon}{3} \) (כי כך בנינו את ה-\( b_{n} \)-ים).

ניקח \( N=\max\left\{ N_{1},N_{2}\right\} \) ואז לכל \( n,m>N \):

\( \left|b_{n}-b_{m}\right|=\left|b_{n}-A_{n}+A_{n}-A_{m}+A_{m}-b_{m}\right|\le \)

\( \le\left|b_{n}-A_{n}\right|+\left|A_{n}-A_{m}\right|+\left|A_{m}-b_{m}\right|< \)

\( \frac{\varepsilon}{3}+\frac{\varepsilon}{3}+\frac{\varepsilon}{3}=\varepsilon \)

וזה.. מסיים את הכל… אני חושב? אין לי אף מקור שמציג את הדברים ברמות הפירוט שאליה נכנסתי כאן (כדי לשכנע את עצמי אחת ולתמיד שהכל עובד) אז בטח יש לי שלל טעויות - אבל היי, נראה לי שבגדול ככה זה הולך! עוד פינה שסגרתי לעצמי אחרי עשרים שנים בערך!

אז מה זה בעצם המספרים הממשיים? (חלק ג’: על שתי שלמויות)

2024-10-12T00:00:00+00:00

מבוא

היה זה הטוב בזמנים, היה זה הרע בזמנים. ספציפית, השנה הייתה 1872, והמתמטיקה הייתה בשיאו של תהליך של בניית עצמה מחדש אחרי שהגאומטריה ההיפרבולית שמטה את הבסיס שעליו היא ניצבה במשך אלפי שנים. אני לא אכנס לסיפור הזה כאן (והוא מסופר היטב ב”משפטי גדל ובעיית היסודות של המתמטיקה” של ארנון אברון, למשל) אבל השורה התחתונה שלו הייתה שמאמץ כביר של שלל מתמטיקאים במאה ה-19 הוביל ליצירת החשבון הדיפרנציאלי והאינטגרלי בגרסה המודרנית שלו שבה אנחנו משתמשים גם היום, מה שנתן למתמטיקה בסיס יציב (וחייבים להשחיל פנימה את המילה האהובה “ריגורוזי”) ואז הגיע גאורג קנטור והעמיד את הבסיס היציב הזה על הבסיס היציב עוד יותר של תורת הקבוצות. אז אם הכל כל כך טוב, מה היה רע? שמעבר לאופק כבר הציצו הפרדוקסים שיתגלו בתורת הקבוצות הנאיבית ובפרט הפרדוקס של ראסל, ויגרמו לכך שהמתמטיקה תצטרך לבנות את עצמה מחדש פעם נוספת בתחילת המאה ה-20 והבניה הזו תסתיים בצורה שלא לגמרי עונה על השאיפות המלאות של העוסקים בה.

אבל זה כאמור סיפור לפעם אחרת. כרגע אנחנו בשנת 1872 (שנה לפני שקנטור יתחיל לפרסם מאמרים על תורת הקבוצות) ובשנה הזו מתפרסמים שני מאמרים, אחד של ריכארד דדקינד (“Stetigkeit und irrationale Zahlen”, “רציפות ומספרים אי רציונליים”) והשני של גאורג קנטור (“Ueber die Ausdehnung eines Satzes aus der Theorie der trigonometrischen Reihen “, “על הכללה של משפט מהתורה של טורים טריגונומטריים”), ובמאמרים הללו מופיעות בניות פורמליות של המספרים הממשיים שהן כל כך מוצלחות שעד היום הן הבניות המפורסמות ביותר (יש עוד, אבל זה באמת כבר יחכה לפעם אחרת). בשני המקרים, הבניות מופיעות לא כי התחשק למחברים שלהם להמציא את המתמטיקה מחדש, אלא כי הם גילו שהמתמטיקה הקיימת פשוט לא מספיק פורמלית בשביל שהם יצליחו להוכיח טענות פשוטות יחסית בצורה משביעת רצון; היה צורך בהגדרות פורמליות של הממשיים כדי שאפשר יהיה להוכיח פורמלית דברים שהיו סטנדרטיים בחשבון הדיפרנציאלי והאינטגרלי של זמנם. זה גם לא ממש מקרי ששתי ההגדרות צצו באותה בשנה - קנטור ודדקינד היו מיודדים והתכתבו, ודדקינד ספציפית קיבל מוטיבציה לפרסם את הרעיונות שלו (שהיו לו כבר שנים קודם לכן) אחרי שראה את המאמר של קנטור. אבל למרות סמיכות הזמנים והקשר בין המחברים, שתי הבניות הן שונות למדי באופיין והמוטיבציה שלהן שונה, מה שהופך את שתיהן למעניינות (ואת שתיהן לניתנות להכללה בדרכים שונות גם לדברים שאינם הממשיים), כך שלדעתי שווה לדבר על שתיהן.

דבר אחד שאני לא הולך לעשות בפוסט הוא להציג את הבניות בצורה פורמלית, להוכיח שהן עובדות כמו שצריך וכדומה; את זה אשאיר לפוסט הבא. מה שמעניין אותי כרגע הוא הרעיון הכללי של הבניות, אילו בעיות הן מנסות לפתור ולאילו תוצאות תיאורטיות הן מתקשרות. אז למרות שהפוסט הזה בהחלט ייכנס לפרטים טכניים, הם לא יהיו של הבניות עצמן אלא של ה”מסביב”. ספציפית, אנחנו נראה שכל אחת מהבניות באה ללכוד את מושג ה”שלמות” של \( \mathbb{R} \) והן עושות את זה בצורה די שונה - אפילו שונה מהותית, כמו שנראה בסוף.

לפני שאני נכנס לעובי הקורה, הנה בגדול שתי הבניות:

דדקינד מגדיר חתך בתור פירוק של \( \mathbb{Q} \) לשתי קבוצות \( A_{1},A_{2} \) כך שכל איבר של \( A_{1} \) קטן מכל איבר של \( A_{2} \). עכשיו דדקינד מגדיר את המספרים הממשיים בתור אוסף כל החתכים, כשהרעיון הוא שהמספר שחתך מייצג הוא המספר שנמצא "באמצע" בין \( A_{1} \) ו-\( A_{2} \).
קנטור מסתכל על סדרות קושי של מספרים רציונליים ומגדיר את המספרים הממשיים בתור אוסף כל סדרות הקושי הללו כשהוא מזהה שתי סדרות קושי ש"שואפות אחת לשניה" בתור אותו מספר. הרעיון הוא שהמספר הממשי שסדרת קושי מייצגת הוא המספר שהסדרה "שואפת" אליו.

ההגדרה של דדקינד אמורה להיות ברורה יחסית אפילו ברמה הפורמלית כבר בשלב הזה למי שעקבו אחרי סדרת הפוסטים הזו, כי ראינו בפוסט הקודם את המושג של “קטן מ-“. לעומת זאת ההגדרה של קנטור משתמשת במושגים שהם אמנם בסיסיים למדי בחשבון דיפרנציאלי ואינטגרלי אבל לא דיברתי עליהם בסדרת הפוסטים הזו בכלל - סדרות קושי ו”שאיפה”. אלו הדברים הראשונים שארצה להבהיר בפוסט הזה ולא אניח שאנחנו כבר מכירים אותם ממקום אחר. יותר מכך - יש חשיבות בהצגה שלהם מאפס מהטעם הפשוט שבדרך כלל רואים אותם בחדו”א שעושים במסגרת \( \mathbb{R} \) - כלומר, הלימודים מתחילים קודם כל עם זה ש-\( \mathbb{R} \) קיים ואז הצגת מושגים כמו שאיפה וסדרות קושי באמצעותו. הפעם אני לא אעשה את זה בכלל. אז יאללה, לעבודה.

הגדרת הגבול

השינוי הגדול שעבר החדו”א במאה ה-19 היה ויתור על גישה לא פורמלית ואינטואיטיבית (שהובילה בסך הכל לתורה שעובדת מצויין אבל יש לה גם פינות אפלות שגויות) לטובת פורמליות שכמותה לא נראתה עד אז במתמטיקה. זה אמר להפסיק להסתמך על האינטואיציה הגאומטרית לגבי מהי “רציפות” ולנסות להגדיר אותה במפורש, וזה אמר גם להפסיק להשתמש באינפיניטסימלים ולהשתמש במושג בסיסי אחר, מדויק יותר, שנקרא גבול. זה לא מושג פשוט או קל לעיכול (ואחת הסיבות שחדו”א הוא תחום ידוע לשמצה בקושי שלו למי שמתחילים ללמוד מתמטיקה היא בדיוק ההסתמכות שלו על מושג לא קל שכזה), אבל ההגדרה שלו חזקה להפתיע. יש לי פוסט על גבולות, אז כאן אני ארשה לעצמי לפרט פחות.

בשביל להגדיר גבול צריך קודם כל להגדיר מרחק, וזה למרבה השמחה משהו שקל לנו להגדיר על \( \mathbb{Q} \) בזכות פונקציית הערך המוחלט שראינו בפוסט הקודם שאפשר להגדיר ישירות מתוך הסדר שיש על \( \mathbb{Q} \). אפשר לחשוב על \( \left|q\right| \) בתור “המרחק של \( q \) מ-0” ואז להכליל את זה ולומר שהמרחק של \( a \) מ-\( b \) הוא \( d\left(a,b\right)=\left|a-b\right| \). עכשיו, בואו נראה אילו תכונות של פונקציית המרחק \( d \) אפשר להסיק מתוך התכונות של הערך המוחלט. בפוסט הקודם ראינו ש:

אם \( x\ne0 \) אז \( \left|x\right|\ne0 \) ו-\( \left|0\right|=0 \).
\( \left|xy\right|=\left|x\right|\cdot\left|y\right| \) ו-\( \left|-1\right|=1 \)
\( \left|x+y\right|\le\left|x\right|+\left|y\right| \)

את שלוש התכונות הללו אפשר לתרגם לשלוש תכונות של פונקציית המרחק, \( d \):

\( d\left(a,b\right)=0 \) אם ורק אם \( a=b \).
\( d\left(a,b\right)=d\left(b,a\right) \) לכל \( a,b \).
\( d\left(a,c\right)\le d\left(a,b\right)+d\left(b,c\right) \) לכל \( a,b,c \).

בואו נוכיח את זה:

\( d\left(a,b\right)=0 \) אם ורק אם \( \left|a-b\right|=0 \) כלומר אם ורק אם \( a-b=0 \) כלומר אם ורק אם \( a=b \).
\( d\left(a,b\right)=\left|a-b\right|=\left|\left(-1\right)\left(b-a\right)\right|=\left|-1\right|\left|b-a\right|=d\left(b,a\right) \)
\( d\left(a,c\right)=\left|a-c\right|=\left|\left(a-b\right)+\left(b-c\right)\right|\le\left|a-b\right|+\left|b-c\right|=d\left(a,b\right)+d\left(b,c\right) \)

עכשיו שיש לנו פונקציית מרחק, אפשר לנסח את מושג הגבול באמצעותה. בדרך כלל כשמלמדים חדו”א לא טורחים לעשות את זה ופשוט עובדים ישירות עם ערך מוחלט, אבל יש יתרון גם בגישה הכללית יותר - מה שאנחנו מנסחים בלשון של פונקציית המרחק תקף בכל מרחב מטרי שהוא בסך הכל קבוצה שמוגדרת עליה פונקציית מרחק שכזו. גם פונקציית מרחק מוזרות על \( \mathbb{Q} \) כמו זו שבה \( d\left(a,b\right) \) הוא \( \frac{1}{2^{n}} \) כש-\( 2^{n} \) היא החזקה הגדולה ביותר של 2 שמחלקת את \( a-b \) (אלא אם \( a=b \) ואז \( d\left(a,b\right)=0 \)). המטריקה המוזרה הזו נקראת “המטריקה ה-2-אדית” והיא מרתקת בפני עצמה אבל אני לא ארחיב עליה יותר מדי כאן (יש לי פוסט על זה).

אפשר להגדיר גבול על שני אובייקטים: סדרות, ופונקציות. על סדרה \( a_{0},a_{1},a_{2},\ldots \) אפשר לחשוב בעצם בתור פונקציה \( g:\mathbb{N}\to\mathbb{Q} \) כך ש-\( g\left(i\right)=a_{i} \), אז המרחק בין זה ובין גבולות של פונקציות \( f:\mathbb{Q}\to\mathbb{Q} \) הוא באמת לא כזה גדול, אבל אני עדיין אתחיל עם ניסוח ספציפי עבור סדרות כי הוא פשוט יותר.

בהינתן סדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) אני אומר שהיא שואפת אל \( L \) ומסמן את זה \( \lim_{n\to\infty}a_{n}=L \) או \( a_{n}\to L \) אם לכל \( \varepsilon>0 \) קיים \( N \) טבעי כך שלכל \( n>N \) מתקיים \( d\left(a_{n},L\right)<\varepsilon \).

במילים: לכל רמת קרבה גדולה מאפס, קיים מקום בסדרה שהחל ממנו כל אברי הסדרה נמצאים ברמת הקרבה הזו אל \( L \). בלי שום יוצאים מן הכלל. בלי שהסדרה פתאום “תקפוץ” למקום אחר ואז תחזור. החל משלב מסויים בסדרה, זהו, נגמר - הסדרה קרובה כולה עד כדי \( \varepsilon \) אל \( L \), וזה נכון לכל \( \varepsilon \) חיובי, לא משנה כמה קטן. הדבר היחיד שאני לא דורש בשום צורה הוא שהסדרה תגיע אל \( L \). אפילו לא איבר אחד שלה צריך להיות שווה אל \( L \).

ההגדרה עבור פונקציה קצת יותר מסובכת, כי בניגוד לטבעיים שהם דיסקרטיים, הרציונליים הם צפופים ולכן לכל נקודה אפשר “להתקרב” עם סדרה של רציונליים, כך שאם יש לי פונקציה שמוגדרת על כל הרציונליים ואני רוצה להגיד שהיא שואפת למשהו, עולה השאלה איפה היא שואפת אל המשהו הזה - לאילו ערך הקלטים שלה צריכים להתקרב כדי שאפשר יהיה להגיד שהפלטים שלה מתקרבים אל משהו. אז הנה הפורמליזם:

בהינתן פונקציה \( f:\mathbb{Q}\to\mathbb{Q} \) אני אומר שהיא שואפת אל \( L \) בנקודה \( x_{0} \) ומסמן את זה \( \lim_{x\to x_{0}}f\left(x\right)=L \) או \( f\left(x\right)\underset{x\to x_{0}}{\to}L \) אם לכל \( \varepsilon>0 \) קיים \( \delta>0 \) כך שלכל \( x \) עבורו \( 0<d\left(x,x_{0}\right)<\delta \) מתקיים \( d\left(f\left(x\right),L\right)<\varepsilon \)

ההבדל הבולט בין ההגדרות הוא שבהגדרה עבור סדרות לא היה \( \delta \) אלא היה \( N \) והסתכלנו על כל ה”קלטים” \( n \) שגדולים מ-\( N \), ואילו כאן אנחנו מסתכלים על כל ה-\( x \)-ים שקרובים אל \( x_{0} \) עד כדי \( \delta \). כאמור, יש דרך לאגד את שתי ההגדרות הללו ביחד אבל נעזוב את זה.

עוד נקודה שכדאי לשים לב אליה היא \( 0<d\left(x,x_{0}\right) \). אי השוויון הזה אומר שאני לא מניח ש-\( x_{0} \) עצמה הפונקציה קרובה ל-\( L \). הפונקציה אפילו לא חייבת להיות מוגדרת ב-\( L \). אם כן הייתי דורש שהקרבה ל-\( L \) תתקיים גם ב-\( x_{0} \), זו הייתה דרישה חזקה יותר מ-\( f \), וזו דרישה חשובה כל כך שיש לה שם מיוחד: אומרים ש-\( f \) רציפה ב-\( x_{0} \) אם הדרישה הזו מתקיימת - מה ששקול לטענה ש-\( \lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right) \).

סדרות מונוטוניות מתכנסות

עכשיו, כשיש לנו את מושג הגבול אפשר להתחיל לראות את מה שהיה חסר לדדקינד וקנטור והוביל אותם להגדרה פורמלית של הממשיים, \( \mathbb{R} \), כשכאן “הממשיים” פירושם “הקבוצה שבה מתרחשת החדו”א” ולכן כל המשפטים שאתאר יעסקו בה. דדקינד מדבר על במפורש במאמר שלו על מה שהפריע לו. הוא מתאר איך ב-1858, כשלימד קורס חדו”א, התעורר בו תסכול מחוסר הפורמליות של ההוכחות הבסיסיות. הפריע לו שבסופו של דבר, ההוכחות הללו פונות לטיעונים גאומטריים או לכל הפחות “בהשראה” גאומטרית, ומשתמשים בצורה עמומה במושג ה”רציפות” של המספרים הממשיים. לא חייתי בזמנו של דדקינד ואני לא יודע איך נראתה הוראת המתמטיקה אז, אבל אני יכול להבין אותו; הייתה לי תחושה דומה בשעתו עם ההוכחה ש-\( \lim_{x\to0}\frac{\sin x}{x}=1 \). על הטענה הזו נבנה כל החדו”א של פונקציות טריגונומטריות, אבל רוב ספרי החדו”א שמוכיחים אותה קופצים על שלב או שניים, ולרוב יש להם איזה “קל לראות” גאומטרי לגמרי באופיו. זה לא מפריע בדרך כלל (והמשפט כמובן נכון ויש לו הוכחות פורמליות עד הסוף וכבר דיברתי על זה בבלוג), אבל מה שלא מפריע לך בתור סטודנט בהחלט יכול להתחיל להציק כשאתה בא ללמד את הנושא (או לכתוב עליו פוסט בבלוג…) ומגלה שיש איזה משהו שם שלא לגמרי עובד עד הסוף.

לדעתי (ושוב, לא הייתי בסביבה בזמנו של דדקינד) חוסר הפורמליות הזה לא בהכרח היה האופי הכללי של לימודי החדו”א; אני בטוח שרוב ההוכחות היו פורמליות וסבבה. הסיבה לכך היא שמרגע שמוכיחים טענה ספציפית שדורשת הסתמכות על ההגדרה הפורמלית של המספרים הממשיים, אפשר להוכיח טענות אחרות בעזרתה, בצורה פורמלית מלאה, כך שהמחסור בפורמליות מתבטא רק בהוכחה אחת ספציפית (בדיוק כמו עם ה-\( \lim_{x\to0}\frac{\sin x}{x}=1 \)) שלי. דדקינד מביא כדוגמא משפט אחד ספציפי, שהוא אכן “קרש קפיצה” כזה שממנו אפשר להוכיח את יתר הדברים:

כל סדרה מונוטונית עולה וחסומה מלעיל היא מתכנסת.

צריך להסביר את המונחים הללו. סדרה היא מתכנסת אם היא שואפת לגבול כלשהו (גבול סופי, לא אינסוף, אבל לא הגדרתי פה שאיפה לאינסוף בכל מקרה). סדרה היא מונוטונית עולה אם \( a_{n}\le a_{n+1} \) לכל \( n \), כלומר האיברים שלה יכולים רק לגדול, לא לקטון. וסדרה היא חסומה מלעיל אם קיים \( M \) כך ש-\( a_{n}\le M \) לכל \( n \) (על זה דיברתי בפוסט הקודם). זו אולי נראית כמו טענה פשוטה ותמימה יחסית, אבל למעשה היא הרבה יותר ערמומית מזה - זו סדרה שמבטיחה קיום של מספר מסוים - מספר שמהווה גבול של הסדרה - והמספר הזה יכול להיות אי-רציונלי. כל אי רציונלי. כי בואו נראה דוגמא עבור \( \sqrt{2}=1.4142\ldots \):

\( 1,1.4,1.41,1.414,1.4142,\ldots \)

מה עשיתי פה? כתבתי סדרת מספרים שנבנית מהפיתוח העשרוני של \( \sqrt{2} \), כשבכל פעם אני מוסיף איבר נוסף אחרי הנקודה העשרונית ולכן מגדיל את המספר שבניתי ולכן זו סדרה מונוטונית עולה. היא בוודאי חסומה, למשל על ידי 2, ולכן על פי הטענה של דדקינד היא מתכנסת - ומן הסתם אנחנו מבינים שהגבול שלה יהיה חייב להיות \( \sqrt{2} \). כלומר הטענה הזו מבטיחה את קיום \( \sqrt{2} \), ואת קיום \( \pi \) וכל מספר ממשי אחר שנרצה ואנחנו יודעים איך לתאר בעצם, וכמובן שהטענה הזו לא נכונה ב-\( \mathbb{Q} \). אבל איך מוכיחים אותה פורמלית עבור \( \mathbb{R} \)?

טרם בניתי את \( \mathbb{R} \) פורמלית, אבל בשביל להוכיח משפטים במסגרת \( \mathbb{R} \) אני לא צריך לבנות אותו פורמלית, למעשה; אני אוכיח משפטים עבור השדה הסדור השלם, שזה מושג שהצגתי בפוסט הקודם, ולכן בהמשך כשאתן בניה פורמלית ל-\( \mathbb{R} \) שאכן תניב שדה סדור שלם, ההוכחה שלי תעבוד עליה אוטומטית. אז למרות שזה לא מה שדדקינד עשה, בואו נראה איך מוכיחים את המשפט הזה עם האקסיומות של שדה סדור שלם, ומה עוד אני יכול להוכיח כשזו נקודת המוצא שלי.

למרבה השמחה ההוכחה קלה למדי. נסתכל על הקבוצה \( A=\left\{ a_{n}\ |\ n\in\mathbb{N}\right\} \) של אברי הסדרה. זו בוודאי קבוצה לא ריקה (אפילו אם הסדרה קבועה, עדיין יהיה ב-\( A \) איבר אחד לפחות) ועל פי ההנחה שהסדרה חסומה מלעיל, \( A \) חסומה מלעיל. לכן על פי אקסיומת השלמות, יש \( L=\sup A \). מה שאני ארצה להוכיח הוא ש-\( a_{n}\to L \) הזה.

יהא \( \varepsilon>0 \) כלשהו. מכיוון ש-\( L=\sup A \), קיים \( N \) כך ש-\( d\left(a_{N},L\right)<\varepsilon \). זה דורש הסבר; אם לא היה אף איבר שקרוב ל-\( L \) עד כדי \( \varepsilon \), היה נובע מכך ש-\( L^{\prime}=L-\varepsilon \) הוא בעצמו חסם מלעיל של \( A \), בסתירה לכך ש-\( L \) הוא החסם העליון שלה. \( L^{\prime} \) היה חסם מלעיל כזה כי בואו ניקח \( a\in A \) כלשהו. אני יודע ש-\( d\left(a,L\right)\ge\varepsilon \), כלומר \( \left|a-L\right|\ge\varepsilon \). אני גם יודע ש-\( a\le L \) (כי \( L \) הוא חסם מלעיל של \( A \)) כלומר \( \left|a-L\right|=L-a \). קיבלתי ש-\( L-a\ge\varepsilon \), כלומר \( a\le L-\varepsilon=L^{\prime} \) וזה לכל \( a\in A \).

אם כן, קיים \( N \) כך ש-\( d\left(a_{N},L\right)<\varepsilon \). עכשיו בואו נסתכל על \( n>N \) כלשהו: מצד אחד, \( a_{N}\le a_{n} \) (כי הסדרה מונוטונית עולה) ומצד שני \( a_{n}\le L \) (כי \( L \) הוא חסם מלעיל) ולכן

\( d\left(a_{n},L\right)=L-a_{n}\le L-a_{N}<\varepsilon \) (כאן אני משתמש בתכונות שכבר ראינו של ערך מוחלט ואי שוויונים).

זה מסיים את ההוכחה ומראה לנו את השימושיות הרבה של אקסיומת השלמות ואת חוסר השימושיות הבולט של הסימון \( d\left(a,b\right) \) שלי במקום להשתמש פשוט בערך מוחלט - ההוכחה שלי מסתמכת חזק מאוד על תכונות של ערך מוחלט, ולדבר על מטריקה כללית לא עוזר לי פה בכלל. המשפט מנוסח מלכתחילה על קבוצה סדורה ולא לגמרי ברור מה המשמעות שלו בסיטואציות כלליות יותר - אפילו במשהו כמו \( \mathbb{R}^{2} \) עם פונקציית המרחק הסטנדרטית \( d\left(\left(x_{1},y_{1}\right),\left(x_{2},y_{2}\right)\right)=\sqrt{\left(x_{1}-x_{2}\right)^{2}+\left(y_{1}-y_{2}\right)^{2}} \).

לכאורה המשפט סובל מחוסר סימטריה מוזר - הוא מדבר על סדרה מונוטונית עולה וחסומה מלעיל. אבל מה עם סדרות מונוטוניות יורדות וחסומות מלרע? להן לא מגיע להתכנס? ובכן, אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) סדרה מונוטונית יורדת (\( a_{n}\ge a_{n+1} \)) וחסומה מלרע (קיים \( M \) כך ש-\( a_{n}\ge M \) לכל \( n \)) אז הסדרה \( \left\{ b_{n}\right\} _{n=0}^{\infty} \) שמוגדרת על ידי \( b_{n}=-a_{n} \) היא מונוטונית עולה (כי \( -a_{n}\le-a_{n+1} \)) וחסומה מלעיל (כי \( -M \) מקיים \( -a_{n}\le-M \) לכל \( n \)) ולכן היא מתכנסת לגבול \( L \) וזה עכשיו עניין של משחק קליל עם ההגדרה כדי להראות ש-\( a_{n} \) מתכנסת אל \( -L \).

בולצאנו-ויירשטראס

סיימנו עם המשפט על הסדרות המונוטוניות. העניין הוא שהמשפט הזה הוא מעין הקדמה למשפט מרכזי מאין כמוהו - משפט בולצאנו-ויירשטראס, שהוא כנראה המשפט שמבטא בצורה הכי ברורה את תחושת ה”רציפות” של \( \mathbb{R} \) בכל הנוגע לסדרות:

(בולצאנו-ויירשטראס): לכל סדרה חסומה קיימת תת-סדרה מתכנסת.

גם פה צריך לתת הסבר: “תת-סדרה” היא פשוט סדרה אינסופית שמתקבלת מסדרה קיימת על ידי בחירה של חלק מהאיברים שלה, על פי הסדר שלהם בתוך הסדרה המקורית. פורמלית (וזה כואב לכתוב את זה פורמלית) אם יש לנו סדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) אז תת-סדרה שלה היא סדרה \( \left\{ b_{k}\right\} _{k=0}^{\infty} \) כך ש-\( b_{k}=a_{n_{k}} \) עבור \( n_{0}<n_{1}<n_{2}<\ldots \), כלומר עבור סדרה מונוטונית עולה ממש של אינדקסים. עוד דבר שכדאי להזכיר הוא ש”חסומה” אומר שקיימים גם חסם מלעיל וגם חסם מלרע.

אפשר לנסח את בולצאנו-ויירשטראס גם באופן שקול, שיהיה רלוונטי כשנדבר על קנטור: לכל קבוצה \( A \) שהיא אינסופית וחסומה קיימת נקודת הצטברות. כש”נקודת הצטברות” היא נקודה \( b\in\mathbb{R} \) (לאו דווקא כזו ששייכת ל-\( A \)) כך שלכל \( \varepsilon>0 \) קיימת \( a\in A \) כך ש-\( d\left(b,a\right)<\varepsilon \) (לא קשה להראות שבאופן שקול זה אומר שלכל \( \varepsilon>0 \) יש אינסוף נקודות \( a\in A \) כך ש-\( d\left(b,a\right)<\varepsilon \)). זה תרגיל נחמד להוכיח ששני הניסוחים שקולים, אז לא אעשה את זה בעצמי פה.

יש לי בבלוג פוסט שמרפרף על ההוכחה של בולצאנו-ויירשטראס, אבל הפעם אכנס יותר לפרטים. למעשה, אני רוצה להראות שתי הוכחות, כל אחת עם היתרונות שלה. נתחיל מהפשוטה יותר, שתשתמש במה שראינו על התכנסות של סדרות מונוטוניות וחסומות. נתונה לי הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \), ואני אגיד שאיבר כלשהו בסדרה הוא פסגה אם הוא גדול מכל האיברים שבאים אחריו. כלומר \( a_{n} \) הוא פסגה אם לכל \( n<m \) מתקיים \( a_{m}<a_{n} \). עכשיו, יש שתי אפשרויות: או שבסדרה יש אינסוף פסגות, או שיש מספר סופי. נטפל בכל מקרה בנפרד.

במקרה שבו יש אינסוף פסגות, אני אבנה את תת-הסדרה המתכנסת \( \left\{ b_{k}\right\} _{k=0}^{\infty} \) ככה: ראשית \( b_{0} \) תהיה הפסגה הראשונה בסדרה. שנית, בואו נניח שכבר בניתי את \( b_{k} \) והוא פסגה בסדרה המקורית (זה נכון עבור \( b_{0} \) ואני אבנה את \( b_{k+1} \) כדי שזה ימשיך להיות נכון). מכיוון שבסדרה המקורית יש אינסוף פסגות, נבחר את \( b_{k+1} \) להיות פסגה כלשהי בסדרה המקורית שמגיעה אחרי \( b_{k} \). עכשיו, שימו לב שבגלל ש-\( b_{k} \) היא פסגה היא גדולה מכל איבר שבה אחריה, כלומר \( b_{k+1}<b_{k} \). במילים אחרות, בנינו פה תת-סדרה מונוטונית יורדת \( b_{0}>b_{1}>b_{2}>\ldots \) והיא חסומה בגלל שהסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) חסומה (זו ההנחה של משפט בולצאנו-ויירשטראס). לכן סדרת ה-\( b_{k} \)-ים מתכנסת.

עכשיו נניח שדווקא אין אינסוף פסגות. אז קיים \( N \) כך ש-\( a_{N} \) הוא הפסגה האחרונה בסדרה. נגדיר \( b_{0}=a_{N+1} \), כלומר \( b_{0} \) אינה פסגה. נניח עכשיו באופן כללי שכבר בנינו את \( b_{k} \) והיא אינה פסגה, אז מכיוון שהיא אינה פסגה קיים איבר שמופיע אחרי \( b_{k} \) וגדול ממנו: נבחר את האיבר הזה להיות \( b_{k+1} \), ונשים לב שגם הוא לא יהיה פסגה כי אין יותר פסגות בסדרה המקורית. לכן \( b_{k}<b_{k+1} \) ואפשר להמשיך ככה ולקבל סדרה מונוטונית עולה \( b_{0}<b_{1}<b_{2}<\ldots \) ולכן מתכנסת. זה מסיים את ההוכחה הזו ומראה את השימושיות היפה של הטענה על סדרות מונוטוניות מתכנסות.

אבל אני רוצה, כאמור, להראות עוד הוכחה, כי היא תיתן לי מוטיבציה לעוד משפט שימושי שאני רוצה להציג. זו ההוכחה שהצגתי ברפרוף בפוסט הקודם ומשתמשת ברעיון שאוהבים לקרוא לו אריה במדבר בהתאם ל”בדיחה” הזו: איך תופסים אריה במדבר? קודם כל מקיפים את המדבר בגדר. עכשיו מעבירים גדר באמצע המדבר. האריה נמצא באחד משני החצאים, אז הולכים לחצי שבו האריה נמצא ומעבירים גדר באמצע שלו וכן הלאה. בסופו של דבר האריה מוגבל לשטח של מטר על מטר - תפסנו אותו!

מה שנחמד בדימוי הזה, כשמקזזים את ההתעללות בבעלי חיים ואת העובדה שאין אריות במדבר, הוא שאנחנו אוטומטית כבר מקבלים הצצה אל איך זה יכול לעבוד בדו-מימד, או במספר כלשהו של ממדים, וזאת להבדיל מההוכחה הקודמת שהייתה מאוד חד ממדית באופי שלה. עדיין, אני מתעסק כאן רק עם \( \mathbb{R} \) אז אני אנסח את ההוכחה רק עבור המקרה החד ממדי, מה שיוביל לכך שהיא תהיה טיפה יותר מסורבלת מהקודמת - אבל כאמור, הרווח הוא שקל להכליל אותה (גם את ההוכחה השניה אפשר להכליל עם לא יותר מדי מאמץ, אבל לטעמי זה פחות מיידי).

אז יש לנו את הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) שאני רוצה למצוא לה תת-סדרה מתכנסת ואני יודע שהיא חסומה, כלומר קיים \( M>0 \) כך ש-\( \left|a_{n}\right|\le M \) לכל \( n \). זו ה”גדר” שבה מקיפים את כל המדבר. עכשיו אני הולך להגדיר סדרה של קטעים, \( C_{n}=\left[\alpha_{n},\beta_{n}\right] \). ההגדרה של קטע כזה, למי שלא זוכרים, היא \( \left[\alpha,\beta\right]\triangleq\left\{ x\in\mathbb{R}\ |\ \alpha\le x\le\beta\right\} \). זה מה שנקרא קטע סגור כי הוא כולל את נקודות הקצה שלו: זה יהיה חשוב בהמשך.

את סדרת הקטעים אני הולך לבנות ככה שמתקיימים הדברים הבאים:

בכל קטע \( C_{n} \) יש אינסוף איברים של הסדרה \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) (זו המקבילה לכך ש"האריה נמצא בתוך הקטע").
\( \left|C_{n}\right|=\beta_{n}-\alpha_{n}=\frac{M}{2^{n-1}} \), כלומר האורך של \( C_{n} \) לא סתם ידוע לנו אלא הוא שואף לאפס כש-\( n \) שואף לאינסוף (זה כל מה שנזדקק לו, האורך המדויק לא חשוב).
\( C_{n-1}\supseteq C_{n} \), כלומר כל קטע מוכל בקטע שקודם לו.

הקטע הראשון בסדרה יהיה \( C_{0}=\left[-M,M\right] \) והוא בוודאי מקיים את תכונות 1 ו-2. תכונה 3 מתקיימת “באופן ריק” כי אין קטע שקודם לו. עכשיו, בואו נניח שבנינו כבר את \( C_{n} \) והוא אכן מקיים את תכונות 1-3 ונבנה את \( C_{n+1} \). מה שנעשה הוא לקחת את \( C_{n}=\left[\alpha_{n},\beta_{n}\right] \) ולחצות אותו לשניים (זו המקבילה לכך ש”מעבירים גדר באמצע המדבר”), כלומר נסתכל על הקטעים \( \left[\alpha_{n},\frac{\alpha_{n}+\beta_{n}}{2}\right] \) ו-\( \left[\frac{\alpha_{n}+\beta_{n}}{2},\beta_{n}\right] \).

האיחוד של שני הקטעים הללו הוא בדיוק \( C_{n} \) ולכן הוא מכיל אינסוף איברים של הסדרה; לכן אחד משני החצאים חייב להכיל אינסוף איברים של הסדרה כי אם בשני החצאים היה רק מספר סופי של איברים, גם באיחוד שלהם היה רק מספר סופי של איברים. נבחר את \( C_{n+1} \) להיות החצי שיש בו אינסוף איברים (“החצי עם האריה”). עם ההגדרה הזו של \( C_{n+1} \) מקבלים מייד את תכונות 2-3 (תוכיחו אותן לעצמכם!)

עכשיו אני רוצה לבנות את תת-הסדרה שלי, \( \left\{ b_{k}\right\} _{k=0}^{\infty} \). נניח שכבר בניתי את כל האיברים עד \( b_{k} \) ונראה איך בונים אותו: בקטע \( C_{k} \) יש אינסוף איברים של הסדרה המקורית, ובתת-הסדרה שבניתי עד כה יש רק מספר סופי של איברים, אז אני אבחר את \( b_{k} \) להיות איבר של הסדרה המקורית עם אינדקס גדול משל כל האיברים שמופיעים בתת-הסדרה שבניתי עד עכשיו. זה מסיים את הבניה, ורק נשאר להוכיח שתת-הסדרה הזו מתכנסת.

אינטואיטיבית, תת-הסדרה הזו נמצא באיזורים שהולכים וקטנים כל הזמן, ולכן יש הרגשה שהיא “חייבת להתכנס”, אבל ההרגשה הזו (שבהמשך אתן לה שם פורמלי: סדרת קושי) לא נותנת לי איבר ספציפי שאליו הולכים להתכנס - ואכן, אם אנחנו עובדים מעל \( \mathbb{Q} \) כל תהליך הבניה שתיארתי עד כה עובד מושלם אבל תת-הסדרה לא תהיה חייבת להתכנס. אני חייב להכניס פה לתמונה משפט שמשתמש בתכונת השלמות של הממשיים, והמשפט שאני רוצה להשתמש בו הוא מה שאני הולך עוד מעט לתאר: משפט החיתוך של קנטור.

הנה ניסוח פורמלי של המשפט: אם \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) היא סדרה של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) אז קיים \( c\in\mathbb{R} \) יחיד כך ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \). במילים: קיימת נקודה יחידה שנמצאת בכל הקטעים בסדרה. זה הקיום שאנחנו זקוקים לו.

אם כן, יש לנו נקודה \( c \) והייתי רוצה להראות שתת-הסדרה שבניתי מתכנסת אליה, כלומר \( \lim_{k\to\infty}b_{k}=c \). זו הוכחה סטנדרטית: מתחילים עם “יהא \( \varepsilon>0 \)” ואז לוקחים \( N \) כך שאם \( k>N \) אז \( \left|C_{k}\right|<\varepsilon \) (קיים כזה, כי \( \lim_{n\to\infty}\left|C_{n}\right|=0 \)). עכשיו, \( c\in C_{k} \) (על פי משפט החיתוך של קנטור) וגם \( b_{k}\in C_{k} \) (על פי הבניה של \( b_{k} \)) ולכן אני יכול להסיק ש-\( d\left(b_{k},c\right)<\varepsilon \) ונגמר הסיפור. אני אסביר עכשיו איך אני מסיק את זה במקרה של \( \mathbb{R} \), מה שכמובן מוסיף סרבול להוכחה; אני אגלה שבאופן כללי, משפט החיתוך של קנטור לא דורש שמה שיישאף לאפס הוא האורך של קטע, אלא הקוטר של קבוצה במרחב מטרי, כש”הקוטר” הוא המרחק המקסימלי בין זוג איברים מהקבוצה - כלומר, במקרה הכללי המסקנה ש-\( d\left(b_{k},c\right)<\varepsilon \) מגיעה בחינם.

במקרה שלנו, נניח בלי הגבלת הכלליות ש-\( b_{k}<c \), כלומר

\( d\left(b_{k},c\right)=\left|b_{k}-c\right|=c-b_{k} \)

עכשיו שימו לב ש-\( b_{k},c\in\left[\alpha_{k},\beta_{k}\right] \) ולכן בפרט \( c\le\beta_{k} \) וגם \( b_{k}\ge\alpha_{k} \), כלומר \( -b_{k}\le-\alpha_{k} \), ולכן

\( c-b_{k}\le\beta_{k}-\alpha_{k}=\left|C_{k}\right|<\varepsilon \)

מה שמסיים את ההוכחה. השגנו את בולצאנו-ויירשטראס וקיבלנו מוטיבציה להוכיח את משפט החיתוך של קנטור, אבל לפני שאני אעשה את זה - בואו נראה מה בכלל עושים עם בולצאנו-ויירשטראס ועם משפט החיתוך של קנטור שבגללו אנחנו כל כך אוהבים אותם.

משפט ערך הביניים ומשפטי ויירשטראס

הדבר המרכזי שבו מתעסקים בחדו”א הוא פונקציות ממשיות, \( f:\mathbb{R}\to\mathbb{R} \). בואו ניזכר מה ראינו קודם לגבי מושג הגבול עבור פונקציות כאלו:

אומרים ש-\( f\left(x\right) \) מתכנסת ב-\( x_{0} \) אל \( L \) ומסמנים זאת \( \lim_{x\to x_{0}}f\left(x\right)=L \) אם לכל \( \varepsilon>0 \) יש \( \delta>0 \) כך שאם \( 0<d\left(x,x_{0}\right)<\delta \) אז \( d\left(f\left(x\right),L\right)<\varepsilon \)
אומרים ש-\( f\left(x\right) \) רציפה ב-\( x_{0} \) אם \( \lim_{x\to x_{0}}f\left(x\right)=f\left(x_{0}\right) \)

מושג הרציפות הוא נקודתי; אנחנו מדברים על נקודה קונקרטית שבה \( f \) רציפה. אבל המושג הזה באמת זורח כשיש לנו סיטואציה שבה \( f \) לא רציפה רק בנקודה אחת, אלא בתוך קבוצה “נחמדה” של נקודות. למשל, קטע (קטע הוא דבר טוב כי אין בו “חורים באמצע” שבהם פתאום הפונקציה לא צריכה להיות רציפה ויכולה להשתולל). אני רוצה להראות כמה משפטים בסיסיים שמסתמכים על כך שפונקציה רציפה בקבוצה נחמדה מתנהגת נחמד, אבל לפני כן בואו נראה דרך לחבר את מושג הגבול של סדרה עם מושג הרציפות.

נניח ש-\( f \) רציפה בנקודה \( a \) ונניח שבנוסף לכך יש לנו סדרה \( a_{0},a_{1},a_{2},\ldots \) כך ש-\( \lim_{n\to\infty}a_{n}=a \). עכשיו, בואו נפעיל את \( f \) על אברי הסדרה ונקבל סדרה חדשה, \( f\left(a_{0}\right),f\left(a_{1}\right),\ldots \). אני טוען שהרציפות של \( f \) גוררת ש-\( \lim_{n\to\infty}f\left(a_{n}\right)=f\left(a\right) \). כדי לראות את זה בואו נשתמש בהוכחה סטנדרטית: נגיד שיהא \( \varepsilon>0 \) כלשהו, ומהרציפות של \( f \) נסיק שקיים \( \delta \) כך שאם \( d\left(x,a\right)<\delta \) אז \( d\left(f\left(x\right),f\left(a\right)\right)<\varepsilon \). עכשיו, נעבור לפתוח את הגדרת הגבול \( \lim_{n\to\infty}a_{n}=a \): מהגדרת הגבול נובע שעבור ה-\( \delta \) שמצאנו קודם קיים \( N \) כך שאם \( n>N \) אז \( d\left(a_{n},a\right)<\delta \), אבל זה אומר ש-\( d\left(f\left(a_{n}\right),f\left(a\right)\right)<\varepsilon \) כפי שרצינו, וסיימנו. עכשיו, כשיש לי את המשפט המועיל הזה, אני יכול להתחיל להראות תוצאות מגניבות של רציפות.

בואו נתחיל עם המשפט היסודי של האלגברה. המשפט בעל השם המפוצץ הזה אומר שבמספרים המרוכבים \( \mathbb{C} \), לכל פולינום יש שורש, כלומר אם \( p\left(x\right)=a_{n}x^{n}+a_{n-1}x^{n-1}+\ldots+a_{1}x+a_{0} \) הוא פולינום, קיים \( z\in\mathbb{C} \) כך ש-\( p\left(z\right)=0 \). במבט ראשון לא ברור איך זה קשור אלינו, הרי זה משפט שמדבר על מספרים מרוכבים; אבל מספרים ממשיים הם מקרה פרטי חשוב של מרוכבים, ובפרט אם יש לנו פולינום שהמקדמים שלו ממשיים והדרגה שלו אי-זוגית אז קל לראות שחייב להיות לו לפחות שורש ממשי אחד (כי השורשים הלא ממשיים בהכרח באים בזוגות של \( z,\overline{z} \)), כלומר מקרה פרטי של המשפט היסודי הוא הטענה “לפולינום ממשי מדרגה אי זוגית יש שורש ממשי”. בשעתו הראיתי בבלוג הוכחה יפה למשפט היסודי של האלגברה שהשתמשה בטכניקות אלגבריות מתורת גלואה - אבל הטכניקות הללו לא יכלו להוכיח בעצמן את הטענה עבור פולינום ממשי ממעלה אי זוגית, ונזקקו להוכחה שאני הולך להראות עכשיו, שהיא חדו”אית לגמרי (ועל כן יש כאלו שאוהבים ללגלג בצורה לא הוגנת ש”המשפט היסודי של האלגברה הוא משפט באנליזה”).

הרעיון הוא זה: ראשית, פולינום הוא פונקציה רציפה (אני לא הולך להוכיח את זה, אבל זה לא קשה; \( f\left(x\right)=x \) הוא די בבירור רציף ועכשיו רק צריך להראות שסכומים ומכפלות סופיים של פונקציות רציפות הם רציפים). שנית, אם הפולינום הוא ממעלה אי-זוגית, ואפשר להניח שהוא מתוקן כלומר שהמעלה של החזקה הגבוהה ביותר \( x^{n} \) היא 1, אז לא קשה לראות שעל ידי הצבת ערך \( a \) שלילי שהוא מספיק גדול בערכו המוחלט אפשר לקבל ש-\( p\left(a\right)<0 \) ובדומה אפשר למצוא \( b \) כך ש-\( p\left(b\right)>0 \). כלומר, קיבלנו שני ערכים ש-\( p \) “מחליף סימן” ביניהם, בקטע \( \left[a,b\right] \). מכיוון ש-\( p \) רציף, אנחנו מדמיינים אותו בתור קו כזה שמציירים על הנייר בלי להרים את העיפרון מהדף, ולכן אם ברגע אחד הוא מתחת לציר \( x \) ורגע אחר כך הוא מעל ציר \( x \) היה שבריר שניה שבו הוא היה בדיוק על ציר \( x \), כלומר יש נקודה \( c\in\left(a,b\right) \) כך ש-\( f\left(c\right)=0 \). משכנע?

לא, לא ממש משכנע. בדיוק בגלל זה צריך הוכחות. הטענה שאני רוצה להוכיח נקראת משפט ערך הביניים והנה הניסוח הפורמלי יותר שלה: אם \( f \) היא פונקציה רציפה בקטע \( \left[a,b\right] \) כך ש-\( f\left(a\right)<0<f\left(b\right) \), אז קיימת \( c\in\left(a,b\right) \) כך ש-\( f\left(c\right)=0 \) (אפשר לנסח בצורה כללית יותר, עבור כל ערך ביניים ולא רק 0, אבל זה ניתן לרדוקציה למקרה של \( 0 \) כי מחליפים את הפונקציה \( f \) שרוצים להראות שמקבלת את הערך \( T \) בפונקציה \( f\left(x\right)-T \)).

איך מוכיחים את זה? הנה הוכחת “אריה במדבר” סטייל עם משפט החיתוך של קנטור. נבנה סדרה של קטעים \( \left[a_{n},b_{n}\right] \) כשהקטע הראשון הוא \( a_{0}=a,b_{0}=0 \). הכלל המנחה יהיה שבכל הקטעים הללו מתקיים \( f\left(a_{n}\right)<0<f\left(b_{n}\right) \), שהם מכילים אחד את השני ושהאורך של כל אחד מהם הוא חצי מהאורך של הקודם, כלומר שהאורכים שלהם שואפים לאפס. נעשה את זה בצורה פשוטה מאוד: נסתכל על נקודת האמצע של כל קטע, \( x_{n}=\frac{a_{n}+b_{n}}{2} \). אם \( f\left(x_{n}\right)=0 \) מצאנו את ה-\( c \) שחיפשנו ואפשר לסיים את ההוכחה; אחרת, אם \( f\left(x_{n}\right)>0 \) אז נגדיר \( a_{n+1}=a \) ו-\( b_{n+1}=x_{n} \), ואילו אם \( f\left(x_{n}\right)<0 \) אז נגדיר \( a_{n+1}=x_{n} \) ו-\( b_{n+1}=b_{n} \).

עכשיו, משפט החיתוך של קנטור אומר לנו שקיימת נקודה יחידה \( c\in\bigcap_{n=1}^{\infty}\left[a_{n},b_{n}\right] \). האינטואיציה היא שזו הנקודה שחיפשתי, שבה \( f\left(c\right)=0 \), כי עם הקטעים \( \left[a_{n},b_{n}\right] \) אני עושה “זום אין” מדויק על רגע שבו הפונקציה עוברת משלילית לחיובית. אבל איך אני מוכיח את זה? כאן הרציפות נכנסת לתמונה. ראשית, קל להראות ש-\( a_{n}\to c \). שנית, בגלל ש-\( f \) רציפה נובע ממה שהראיתי קודם ש-\( \lim_{n\to\infty}f\left(a_{n}\right)=f\left(c\right) \). בנוסף, \( f\left(a_{n}\right)<0 \) לכל \( n \) כי ככה בניתי את סדרת ה-\( n \)-ים. אז קיבלנו ש-\( f\left(c\right) \) הוא הגבול של סדרה של מספרים שליליים, וגבול כזה חייב להיות שלילי או אפס, כי אם הוא \( L>0 \) אז כל איבר בסדרה יהיה לפחות במרחק \( L \) ממנו ולכן עבור \( \varepsilon<L \) הוכחת הגבול תיכשל. כלומר, \( f\left(c\right)\le0 \). באופן דומה בעזרת סדרת ה-\( b \)-ים מראים ש-\( f\left(c\right)\ge0 \), והמסקנה משני אלו היא ש-\( f\left(c\right)=0 \), כפי שרצינו.

מה קרה פה? הרציפות היא זו שנתנה לנו את \( f\left(c\right)\le0 \) ואת \( f\left(c\right)\ge0 \), אבל מה שתכונת השלמות נתנה לנו הוא את זה שבכלל קיים \( c \) כזה - קיים חלקיק שניה מדויק שבו אפשר לעצור את הסרט של \( f \) ולהגיד “הנה! רואים?! זו השניה המדויקת שבה עברנו את ציר \( x \)!” במספרים הרציונליים זה פשוט לא עובד: אם למשל נסתכל על הפונקציה \( f\left(x\right)=x-\pi \): אין מספר רציונלי שמאפס אותה, אבל היא כמובן רציפה. פשוט אין בסרט שלנו את הפריים עבור \( x=\pi \) שבו רואים אותה מתאפסת, כי הסרט כולל רק פריימים שנלקחו בנקודות רציונליות.

בואו נעבור עכשיו למה שמכונה משפט ערך הקיצון של ויירשטראס (Extreme value theorem) ולפעמים מחלקים לשני משפטים - “משפט ויירשטראס הראשון” ו”משפט ויירשטראס השני” (שההוכחה שלו מסתמכת על הראשון) וגם אני כאן אדבר עליהם בתור שני משפטים. הרעיון בהם די פשוט: אם אני מצייר פונקציה רציפה בקטע סגור, העפרון שלי מתחיל בנקודה אחת ומצייר איזה קו עד שהוא מגיע לנקודה בקצה השני. הוא לא יכול בשום שלב לברוח לאינסוף, כי פונקציה רציפה היא “רגועה”. אני אצייר את כולה על הנייר שעל השולחן ולא אמצא את עצמי פתאום נאלץ ללכת עד לקוטב הצפוני בשביל לצייר אותה (זה לא נכון, אני משקר כדי לתת אינטואיציה, פונקציה רציפה בהחלט עלולה לדרוש ממני ללכת עד לקוטב הצפוני, פשוט לא עד לאינסוף). באופן פורמלי: פונקציה רציפה על קטע סגור וחסום היא חסומה בו. זה משפט ויירשטראס הראשון, והשני מרחיב: לא סתם חסומה, אלא מקבלת את המקסימום והמינימום שלה, כלומר אם יש לנו את הקטע \( \left[a,b\right] \) ופונקציה רציפה \( f:\left[a,b\right]\to\mathbb{R} \) אז קיימות נקודות \( c_{1},c_{2}\in\left[a,b\right] \) כך ש-\( f\left(c_{1}\right)=\min\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \) ו-\( f\left(c_{2}\right)=\max\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \).

האם המשפט הראשון מתבסס רק על הרציפות של \( f \) או גם על השלמות של \( \mathbb{R} \)? לכאורה לא צריך פה את השלמות, הרי הטענה היא לא מהצורה “קיימת נקודה בקטע שמקיימת כך וכך” אלא “קיים חסם אחיד עבור כל הנקודות בקטע”. אבל הנקודה היא שבלי ש-\( \mathbb{R} \) יהיה שלם, פונקציה יכולה “להשתגע” כשהערכים שלה מתקרבים לנקודה ש”חסרה” ב-\( \mathbb{R} \) ועדיין להיחשב רציפה, כי הדוגמא הנגדית לרציפות שלה היא נקודה שלא קיימת בכלל.

איך גורמים לפונקציה “להשתגע”? פשוט מאוד, מחלקים באפס. למשל, נסתכל על הקטע \( \left(0,1\right) \) ועל הפונקציה \( f\left(x\right)=\frac{1}{x} \). הפונקציה הזו בבירור כן רציפה בקטע (זה דורש טיפה הוכחה) אבל כש-\( x \) מתקרב ל-\( 0 \) הפונקציה “מתפוצצת”, גדלה ועוברת כל חסם אפשרי; היא בוודאי לא חסומה ב-\( \left(0,1\right) \), והסיבה שזו לא דוגמא נגדית למשפט ויירשטראס היא שעל הקטע הסגור \( \left[0,1\right] \) הפונקציה לא תהיה רציפה כי היא בכלל לא מוגדרת ב-0. זה ממחיש את החשיבות בכך שהקטע הוא סגור; בלי זה המשפט לא עובד.

עכשיו, בואו נניח לרגע ש-0 בכלל לא קיים ביקום שלנו ואנחנו מסתכלים עדיין על \( f\left(x\right)=\frac{1}{x} \), אבל בקטע \( \left[-1,1\right] \). הפונקציה עדיין לא חסומה בו כי בסביבות \( x=0 \) היא “מתפוצצת”, אבל האם היא לא רציפה? בכל נקודה חוץ מ-0 היא כן רציפה, אז אם 0 לא קיים ביקום שלנו, קיבלנו פונקציה שרציפה בקטע הסגור והחסום \( \left[-1,1\right] \) אבל לא חסומה בו. כמובן, 0 כן קיים ביקום שלנו, אבל אם אנחנו לא ב-\( \mathbb{R} \) אלא ב-\( \mathbb{Q} \) אז מספרים אחרים כמו \( \pi \) לא קיימים בו ואפשר לתקן את הדוגמא כדי שתהיה סביבם, באופן הבא: נסתכל על הקטע \( \left[3,4\right] \) ועל הפונקציה \( f\left(x\right)=\frac{1}{x-\pi} \) ש”מתפוצצת” ב-\( x=\pi \).

ההוכחה של משפט ויירשטראס הראשון מתבססת על הדוגמא הנגדית המטופשת הזו: היא מניחה בשלילה שהפונקציה לא חסומה ולכן יש מקום שבו היא “מתפוצצת”, ואז משתמשת בשלמות של הממשיים כדי למצוא נקודה שנמצאת במרכז הפיצוץ הזה והפונקציה פשוט לא יכולה להיות רציפה בה. בואו נניח בשלילה ש-\( f\left(x\right) \) הרציפה לא חסומה בקטע \( \left[a,b\right] \), אז לכל \( n \) קיימת נקודה \( x_{n}\in\left[a,b\right] \) כך ש-\( f\left(x_{n}\right)\ge n \). קיבלנו סדרה \( \left\{ x_{n}\right\} _{n=0}^{\infty} \) של נקודות שביחד מתארות את ה”התפוצצות” של \( f \), אלא שלרוע המזל ייתכן שהנקודות הללו נמצאות במקומות שונים לגמרי של הקטע \( \left[a,b\right] \) ואני רוצה התפוצצות שמרוכזת בנקודה אחת; כאן בדיוק בא משפט בולצאנו-ויירשטראס לעזרתי ומוצא תת-סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) של \( \left\{ x_{n}\right\} _{n=0}^{\infty} \). תחשבו על בולצאנו-ויירשטראס כאילו הוא מתמקד בנקודת “התפוצצות” כלשהי ומעיף מהסדרה \( \left\{ x_{n}\right\} _{n=0}^{\infty} \) את כל הנקודות שלא קשורות אליה אלא מתארות התפוצצויות אחרות או סתם מקומות שבהם הפונקציה מגיעה לגבהים בלי להתפוצץ (“הקוטב הצפוני”). נסמן \( c=\lim_{n\to\infty}c_{n} \), וכאן השתמשנו בשלמות של \( \mathbb{R} \): בלי זה הנקודה \( c \) לא הייתה בהכרח קיימת, אפילו אם היינו מצליחים לבנות מקבץ \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) של נקודות שנראה כאילו הוא סובב סביב נקודת התפוצצות כלשהי.

הטיעון עכשיו הוא שבגלל הרציפות של \( f \) צריך להתקיים \( f\left(c\right)=\lim_{n\to\infty}f\left(c_{n}\right) \) אבל מכיוון שהסדרה \( f\left(c_{n}\right) \) לא חסומה (קל להראות ש-\( f\left(c_{n}\right)\ge n \) כי כשיצרנו את תת-הסדרה \( c_{n} \) מתוך \( x_{n} \) התכונה \( x_{n}\ge n \) רק התחזקה) נובע שהגבול לא קיים בכלל (הוא קיים במובן הרחב, של \( \lim_{n\to\infty}f\left(c_{n}\right)=\infty \), אבל זו הגדרה שונה) ולכן \( f\left(c\right) \) לא מוגדרת בכלל; זה תרגיל טוב ולא קשה לנסח את זה פורמלית עד הסוף. סיימנו את ההוכחה של משפט ויירשטראס הראשון במובן זה שהראינו שהפונקציה חסומה מלעיל, ובאותו אופן מוכיחים שהיא חסומה מלרע.

עכשיו אפשר לעבור למשפט ויירשטראס השני - ננצל את זה שאנחנו כבר יודעים שהפונקציה חסומה כדי להראות שהיא מקבלת את הערך המקסימלי שלה. כרגיל, כדי להבין מה זה אומר ולמה השלמות של הממשיים קריטית לזה, בואו נסתכל על דוגמת צעצוע: הפונקציה הרציפה \( f\left(x\right)=1-\left|x\right| \). קל לראות ש-\( f\left(0\right)=1 \) הוא הערך המקסימלי של הפונקציה הזו, אבל אם \( 0 \) לא היה חלק מהיקום המתמטי שלנו, הפונקציה לא הייתה מגיעה ל-1 אף פעם, רק שואפת אליו. רק מה, 0 הוא כן חלק מהעולם שלנו אז אפשר לעשות את הטריק הרגיל של להזיז את הכל כך שהנקודה שאנחנו מדברים עליה תהיה \( \pi \) ולא 0, כלומר להגדיר \( f\left(x\right)=1-\left|x-\pi\right| \). אני חוזר שוב ושוב על השטיק הזה כדי שיהיה ברור שהפואנטה של השלמות של \( \mathbb{R} \) היא לא שקיים מספר מעניין ומיוחד כמו \( \pi \), כי אין למהות של \( \pi \) תפקיד אמיתי כאן; מה שחשוב הוא המבנה של קבוצת הממשיים בכללותה, המחסור הזה בחורים, כי אם יש אפילו חור אחד אפשר “להזיז” את כל העולם כך שהחור יהיה מרכז העולם, ולא משנה אם זה חור ב-0 או ב-\( \pi \).

בדוגמא \( f\left(x\right)=1-\left|x-\pi\right| \) יש לנו פונקציה שאם תוגדר על הרציונליים, לא תקבל את המקסימום שלה בקטע \( \left[3,4\right] \), אבל מה שכן יהיה נכון הוא שלפחות יהיה סופרמום לקבוצת הערכים שהיא מקבלת שם: \( \sup\left\{ f\left(x\right)\ |\ x\in\left[3,4\right]\right\} =1 \). גם את זה אפשר לקלקל בקלות אם מגדירים \( f\left(x\right)=\pi-\left|x-\pi\right| \). כלומר, כדי שמשפט ויירשטראס השני יעבוד אנחנו צריכים להשתמש בשלמות פעמיים: פעם אחת בשביל התחום של \( f \), כדי להוכיח את קיום הנקודה שבה יתקבל המקסימום; ופעם שניה, עוד יותר מוקדמת, עבור הטווח של \( f \) כדי להוכיח שבכלל יש ערך מקסימלי ששווה לנסות ולקבל.

ההוכחה הסטנדרטית הולכת כך: בואו באמת נסתכל על \( \sup\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \). מכיוון שידוע לנו ש-\( f \) חסומה ב-\( \left[a,b\right] \) (זה משפט ויירשטראס הראשון) ומכיוון ש-\( \left[a,b\right] \) כולל לפחות נקודה אחת (אם \( a=b \) הקטע עדיין כולל את \( a \)) אז \( A=\sup\left\{ f\left(x\right)\ |\ x\in\left[a,b\right]\right\} \) קיים כי לקחנו סופרמום של קבוצה חסומה לא ריקה; זה שימוש ישיר באקסיומת השלמות של שדה סדור שלם. עכשיו אפשר להשתמש בטריק בולצאנו-ויירשטראסי בדיוק כמו קודם, רק במקום עם סדרה שמתפוצצת, עם סדרה ששואפת אל \( A \): לכל \( n \) נמצא \( x_{n}\in\left[a,b\right] \) כך ש-\( A-\frac{1}{n}\le f\left(x_{n}\right)\le A \) (קיים כזה כי \( A \) סופרמום), ניקח תת-סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \), נסמן \( c=\lim_{n\to\infty}c_{n} \), נשתמש ברציפות של \( f \) כדי להסיק \( f\left(c\right)=\lim_{n\to\infty}f\left(c_{n}\right) \) ונוכיח די בקלות (תרגיל טוב!) ש-\( \lim_{n\to\infty}f\left(c_{n}\right)=A \).

ההוכחה הזו פשוטה ונהדרת, ולרוע המזל היא גורמת לי אי נוחות בפוסט הספציפי הזה כי קלעתי את עצמי לפינה שבה אני מנסה לא להשתמש ישירות באקסיומת השלמות, כי אני רוצה להראות שטבעי באותה מידה להתחיל מהניסוח האלטרנטיבי של קנטור לשלמות ו”להיפגש באמצע”, כלומר להשתמש במשפט החיתוך של קנטור או בבולצאנו-ויירשטראס. אבל כאן אני לא רואה דרך לא מסורבלת לעשות את זה. זו כנראה נקודה פדגוגית לזכות ההצגה המוקדמת של אקסיומת השלמות.

לסיכום חלק הדוגמאות הזה, רציתי להביא כאן גם את משפט הערך הממוצע של לגראנז' שהוא באמת משפט שימושי בצורה יוצאת דופן, אבל אני לא אעשה את זה כי זה ייאלץ אותי לדבר גם על נגזרות ומשפטים שקשורים אליהן שאני לא רוצה להוכיח, אז הנה שורה אחת על לגראנז’ למי שמכירות אותו: כדי להוכיח את לגראנז’ אנחנו עושים תעלול אלגברי קטן שמבצע לו רדוקציה אל משפט רול. את משפט רול מוכיחים על ידי שילוב של שני משפטים: משפט פרמה, שאומר שנגזרת של פונקציה בנקודת קיצון מתאפסת; ומשפט ויירשטראס השני, שמראה שבתנאים של משפט רול יש לפונקציה נקודת קיצון. במילים אחרות, בכל מקרה אין כאן תוכן מתמטי רלוונטי שלא ראינו כי אנחנו מסתמכים פה על משפט ויירשטראס; ומצד שני בלי לגראנז’ באמת שאין חדו”א כמו שאנחנו מכירים. וכך זה ממשיך ומפעפע עוד ועוד לכל רחבי החדו”א.

כל זה כנראה משכנע שאקסיומת השלמות היא דבר חשוב ושהגישה של דדקינד נכונה; אבל עכשיו הגיע הזמן לדבר גם על הגישה הנוספת.

סדרות קושי

בשלבים הקודמים של הפוסט ראינו את משפט החיתוך של קנטור. הנה תזכורת איך הוא הולך: אם \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) היא סדרה של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) אז קיים \( c\in\mathbb{R} \) יחיד כך ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \). איך אפשר להוכיח את זה? ובכן, הנה גישה אחת: מכיוון שהקטעים \( C_{n} \) הם סגורים כל אחד כולל לפחות נקודה אחת, אז פשוט ניקח \( c_{n}\in C_{n} \) לכל קטע וקיבלנו סדרה. עכשיו נגדיר \( c=\lim_{n\to\infty}c_{n} \) וקיבלנו את ה-\( c \) שלנו. עכשיו צריך עדיין להוכיח שהוא בחיתוך של כל הקטעים ושהוא יחיד, אבל עברנו את השלב הקשה של להוכיח שהוא קיים… רגע רגע רגע, לא הוכחנו שום דבר. אני לא יכול להגדיר \( c=\lim_{n\to\infty}c_{n} \) כי אני לא יודע שהסדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) מתכנסת בכלל. אבל מה שאני כן יודע הוא שהסדרה הזו נראית כאילו היא אמורה להתכנס. למה? ובכן, כי בגלל שהאיברים שלה שייכים לסדרת קטעים שהולכת ומצטופפת, גם האיברים שלה צריכים, ובכן, ללכת ולהצטופף יחד. וכשיש לי סדרה שנראה שהאיברים שלה מצטופפים סביב מקום אחד, הייתי יכול לקוות שהיא תתכנס, לא?

זה הרעיון מאחורי המושג שנקרא סדרת קושי (במאמר שלו קנטור קרא לה “סדרה יסודית”, אבל זה לא המושג המקובל כיום). פורמלית, \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי אם לכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n,m>N \) מתקיים \( d\left(a_{n},a_{m}\right)<\varepsilon \). כלומר, לכל אפסילון קיים מקום בסדרה שהחל ממנו כל זוג איברים בסדרה קרובים זה לזה עד כדי אפסילון. ניסוח שימושי שקול הוא שלכל \( \varepsilon>0 \) קיים \( N \) כך שלכל \( n>N \) מתקיים \( d\left(a_{n},a_{N}\right)<\varepsilon \), כלומר לכל אפסילון קיים איבר בסדרה שכל יתר אברי הסדרה קרובים אליו עד כדי אפסילון.

שימו לב להבדל בין זה ובין הגדרת הגבול. גבול אומר שלכל אפסילון, קיים מקום בסדרה שהחל ממנו כל יתר איברי הסדרה קרובים אל הגבול עד כדי אפסילון - הגבול עצמו בכלל לא צריך להיות איבר בסדרה. לעומת זאת בסדרת קושי לכל אפסילון אנחנו בוחרים איבר מהסדרה שאליו כל יתר האיברים יהיו קרובים - והאיבר הזה תלוי באפסילון, כלומר זה לא שיש בסדרה איבר בודד שכל יתר האיברים קרובים אליו לכל אפסילון שנרצה (להבדיל מגבול שכן מקיים את זה). כלומר, התכונה שמגדירה סדרת קושי מרגישה קצת “חלשה יותר” מקיום גבול.

האמנם? ובכן, יש כאן שני משפטים שאפשר להוכיח: ראשית, שאם סדרה מתכנסת לגבול אז היא סדרת קושי (מה שמראה שקיום גבול “חזק לפחות כמו” להיות סדרת קושי) ושנית, שאם סדרה היא סדרת קושי אז היא אכן מתכנסת לגבול. בואו נוכיח את שניהם.

ראשית, נניח ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) מתכנסת, \( \lim_{n\to\infty}a_{n}=a \), ונוכיח ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי ממש על פי ההגדרה. ניקח \( \varepsilon>0 \), אז קיים מקום \( N \) בסדרה כך שלכל \( n>N \) מתקיים \( d\left(a_{n},a\right)<\frac{\varepsilon}{2} \) (השתמשנו בהגדרת הגבול של סדרה עם \( \frac{\varepsilon}{2} \)). עכשיו, ניקח \( n,m>N \), נשתמש באי שיוויון המשולש ונקבל

\( d\left(a_{n},a_{m}\right)\le d\left(a_{n},a\right)+d\left(a,a_{m}\right)<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

וסיימנו. זה היה כיוון קל.

מה עם הכיוון השני? ובכן, אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי אנחנו עדיין לא יודעים אם היא מתכנסת או לא, אבל בזכות בולצאנו-ויירשטראס אנחנו יודעים שקיימת לה תת-סדרה מתכנסת. נסמן את הגבול של תת-הסדרה הזו ב-\( a \). עכשיו נראה ש-\( \lim_{n\to\infty}a_{n}=a \) בשיטה הסטנדרטית: ניקח \( \varepsilon>0 \) כלשהו ונמצא \( N \) כך שאם \( n>N \) אז \( d\left(a_{n},a\right)<\varepsilon \). בשביל זה נשלב גם את התכונה של סדרת קושי וגם את הקטע של תת-סדרה מתכנסת.

ראשית, בגלל ש-\( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא סדרת קושי, קיים \( N \) כך שלכל \( n,m>N \) מתקיים \( d\left(a_{n},a_{m}\right)<\frac{\varepsilon}{2} \). עכשיו, בתת-הסדרה המתכנסת של \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) קיים מקום \( N^{\prime} \) כך שלכל \( n>N^{\prime} \), אם \( a_{n} \) שייך לתת-הסדרה אז \( d\left(a_{n},a\right)<\frac{\varepsilon}{2} \). בואו ניקח \( m \) כך ש-\( m>\max\left\{ N,N^{\prime}\right\} \) אז בפרט מתקיים \( d\left(a_{m},a\right)<\frac{\varepsilon}{2} \) ובנוסף, לכל \( n>N \), מכיוון ש-\( n,m>N \) אז \( d\left(a_{n},a_{m}\right)<\frac{\varepsilon}{2} \) ואפשר להשתמש באי שוויון המשולש:

\( d\left(a_{n},a\right)\le d\left(a_{n},a_{m}\right)+d\left(a_{m},a\right)<\frac{\varepsilon}{2}+\frac{\varepsilon}{2}=\varepsilon \)

וסיימנו גם את הכיוון הזה. אבל שימו לב מה היה המחיר ששילמנו: בניגוד להוכחה של הכיוון הקודם שהייתה אלמנטרית, כאן השתמשנו במשפט המאוד לא טריוויאלי של בולצאנו-ויירשטראס. זה רומז לנו שיש כאן משהו מהותי, ובעצם זה לא צריך להיות מפתיע - אנחנו שוב פעם בוראים איבר יש מאין, במקרה הזה את גבול הסדרה. כבר ראינו בפוסט הזה את הסדרה \( 1,1.4,1.41,1.414,1.4142,\ldots \) ש”אמורה להתכנס” אל \( \sqrt{2} \); הבאתי אותה במקור בתור סדרה מונוטונית חסומה, אבל זו גם בבירור סדרת קושי של מספרים ב-\( \mathbb{Q} \) ולכן בלי ש-\( \sqrt{2} \) יהיה חלק מהעולם שלנו פשוט לא יהיה לה לאן להתכנס.

זה זמן טוב לעצור לרגע ולראות את שרשרת ההוכחות שיש לנו:

אקסיומת השלמות \( \leftarrow \) כל סדרה מונוטונית וחסומה מתכנסת \( \leftarrow \) בולצאנו ויירשטראס (הוכחת ה"פסגות") \( \leftarrow \) כל סדרת קושי מתכנסת

בתוך כל זה גם הכנסתי את משפט החיתוך של קנטור, בתור דרך אחרת להוכיח את בולצאנו ויירשטראס, וקיבלתי מוטיבציה להוכחה של משפט החיתוך של קנטור דווקא מסדרות קושי. זה רומז לנו במעורפל שאולי אפשר גם לקחת את שרשרת ההוכחות הזו בכיוון ההפוך - להתחיל מכך שכל סדרת קושי מתכנסת ולהסיק מכך את בולצאנו ויירשטראס, את ההתכנסות של כל סדרה מונוטונית וחסומה, ואת אקסיומת השלמות.

כלומר, אני מציע שבמקום להתחיל מאקסיומת השלמות, נתחיל ממה שאני אקרא לו “שלמות-קנטור”, בזמן שלשלמות ה”רגילה” אני אקרא “שלמות-דדקינד”:

שלמות-קנטור: כל סדרת קושי מתכנסת.
שלמות-דדקינד: לכל קבוצה לא ריקה וחסומה קיים חסם עליון.

נתחיל אם כן מהאקסיומה שבמספרים הממשיים מתקיימת שלמות-קנטור ונראה לאן נגיע עם זה. כרגיל, אני מזהיר שהמילה אקסיומה פה לא אומרת “משהו שברור מאליו ולא צריך להוכיח” אלא “תכונה שהיא בסיסית מספיק כדי שנציין אותה במפורש ואנחנו מצפים מהבניה של המרחב שלנו לוודא שהיא מתקיימת”. בבניה של קנטור למספרים הממשיים, שלמות-קנטור היא מה שכל הבניה סובבת סביבו כדי להבטיח שיתקיים, בעוד שבבניה של דדקינד, באופן לא מפתיע, הבניה סובבת סביב להראות ששלמות-דדקינד מתקיימת. את שתי הבניות, כאמור, אני לא אציג בפוסט הזה כי הוא גם ככה ארוך מדי.

בואו נוכיח דברים עם שלמות-קנטור. בראש ובראשונה, את משפט החיתוך של קנטור. כבר התחלתי את זה: הייתה לי סדרה \( \left\{ C_{n}\right\} _{n=0}^{\infty} \) של קטעים סגורים כך ש-\( C_{n}\supseteq C_{n+1} \) ו-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \). אמרתי שאני בונה סדרה \( c_{n}\in C_{n} \). בגלל התכונה \( C_{n}\supseteq C_{n+1} \) נובע שאם \( n>N \) אז \( a_{n}\in C_{N} \), ולכן קל להראות שזו סדרת קושי: עבור \( \varepsilon>0 \) כלשהו, נשתמש בכך ש-\( \lim_{n\to\infty}\left|C_{n}\right|=0 \) כדי למצוא \( N \) כך ש-\( \left|C_{N}\right|<\varepsilon \). כלומר, פורמלית, \( C_{N}=\left[a_{N},b_{N}\right] \) כך ש-\( \left|a_{N}-b_{N}\right|<\varepsilon \), אבל אפשר לחשוב על זה קצת יותר כללי: לחשוב על\( \left|C_{n}\right| \) בתור סימון של הקוטר של הקבוצה \( C_{N} \), המרחק המקסימלי בין כל שני איברים שלה. כשמכלילים את משפט קנטור למרחבים מטריים כלליים, זה המושג שנעזרים בו.

זה נותן לנו את סדרת הקושי שלנו: ניקח \( n,m>N \) אז בגלל ש-\( c_{n},c_{m}\in C_{N} \) נקבל ש-\( d\left(c_{n},c_{m}\right)\le\left|C_{N}\right|<\varepsilon \), כפי שרצינו. ועכשיו נשתמש בשלמות-קנטור כדי לקבל \( c \) כך ש-\( c=\lim_{n\to\infty}c_{n} \). זה היה החלק הקריטי - לעבור ממצב שבו אין לנו איבר ביד למצב שבו יש לנו אותו ביד. עכשיו צריך להראות עדיין ש-\( c\in\bigcap_{n=0}^{\infty}C_{n} \) ושהוא האיבר היחיד שמקיים את זה, אבל זה החלק הקל.

ראשית, כדי להראות ש-\( c\in C_{n} \) לכל \( n\ge0 \), נשים לב לכך ש-\( c \) הוא הגבול של הסדרה \( a_{n},a_{n+1},a_{n+2},\ldots \) (כלומר, הסדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שבניתי כשאני זורק לפח את האיברים הראשונים עד \( a_{n} \)). בגלל התכונה \( C_{n}\supseteq C_{n+1} \) אנחנו יודעים שכל אברי הסדרה הזו שייכים ל-\( C_{n} \), כך ש-\( a \) הוא גבול של סדרה ששייכת ל-\( C_{n} \), ו-\( C_{n} \) הוא קטע סגור ולכן הוא בפרט קבוצה סגורה וההגדרה של קבוצה סגורה היא “קבוצה של הגבולות של איבריה שייכים אליה” ולכן \( c\in C_{n} \). שכנעתי אתכם? בוודאי שלא, מאיפה שלפתי את ההגדרה הזו של קבוצה סגורה? תכף נחזור לזה.

שנית, בואו נראה את היחידות של \( c \). ניקח \( c_{1},c_{2}\in\bigcap_{n=0}^{\infty}C_{n} \) כלשהם. כעת, לכל \( n \) מתקיים \( d\left(c_{1},c_{2}\right)\le\left|C_{n}\right| \) כי \( c_{1},c_{2}\in C_{n} \), ולכן \( d\left(c_{1},c_{2}\right)\le\lim_{n\to\infty}\left|C_{n}\right|=0 \) והמסקנה היא ש-\( d\left(c_{1},c_{2}\right)=0 \) כלומר \( c_{1}=c_{2} \) (ושוב - זה תרגיל טוב לפרמל את זה עד הסוף אם אתם מרגישים שמשהו חסר). אז הכל פה באמת קל, ורק נשארה לי הטענה “קטע סגור הוא קבוצה סגורה” שלא באמת קשורה להוכחה הזו אלא היא משהו כללי יותר.

כדי לעשות לעצמנו סדר בהגדרות, הנה הן שוב, במפורט:

קבוצה סגורה היא קבוצה \( D \) כך שלכל סדרה מתכנסת \( \left\{ a_{n}\right\} _{n=0}^{\infty} \), אם \( a_{n}\in D \) לכל \( n \), גם \( \lim_{n\to\infty}a_{n}\in D \).
קטע סגור הוא קבוצה מהצורה \( D=\left[a,b\right]=\left\{ x\in\mathbb{R}\ |\ a\le x\le b\right\} \)

במבט ראשון לא נראה שיש ביניהן קשר וזה סתם שימוש מבלבל כפול ב”סגור”, אבל בפועל קל להראות שקטע סגור הוא אכן קבוצה סגורה. ניקח \( D=\left[a,b\right] \) שכזה. אם יש לנו סדרה מתכנסת \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שכל אבריה שייכים ל-\( D \), נסמן את הגבול שלה ב-\( c=\lim_{n\to\infty}c_{n} \). אם \( a\le c\le b \) הכל בסדר, אז בואו נראה למשל איך מגיעים לסתירה אם \( c<a \). זה די פשוט: נסמן \( \varepsilon=a-c \), ולכן על פי הגדרת הגבול קיים \( c_{n} \) כך ש-\( d\left(c_{n},c\right)<\varepsilon \). אבל \( c_{n}\in D \), כלומר \( a\le c_{n} \), כלומר

\( d\left(c_{n},c\right)=\left|c_{n}-c\right|=c_{n}-c=\left(c_{n}-a\right)+\left(a-c\right)\ge\varepsilon \)

וזו סתירה ל-\( d\left(c_{n},c\right)<\varepsilon \), מה שמסיים את ההוכחה הזו.

סיכום ביניים: הראינו איך שלמות-קנטור גוררת את משפט החיתוך של קנטור, וראינו עוד קודם שמשפט החיתוך של קנטור גורר את בולצאנו-ויירשטראס. מה שנחמד הוא שאפשר לדבר על כל התוצאות הללו בהקשרים כלליים יותר של מרחבים מטריים וההוכחות די דומות, אבל לא אכנס לזה כאן - אנחנו מאוד ממוקדים באובייקט של “שדה סדור שלם”.

מה נשאר לנו להראות? ראינו את המשפט על כך שסדרה מונוטונית חסומה היא מתכנסת. האם בולצאנו-ויירשטראס מוכיח אותו? אם \( \left\{ a_{n}\right\} _{n=0}^{\infty} \) היא הסדרה המונוטונית החסומה אז החסימות שלה נותנת לנו את בולצאנו-ויירשטראס ואנחנו מקבלים תת-סדרה \( \left\{ c_{n}\right\} _{n=0}^{\infty} \) שמתכנסת אל \( c \). שימו לב שבהכרח \( c_{n}\le c \) לכל איבר בתת-הסדרה, בגלל המונוטוניות שלה: אם היה מתקיים \( c<c_{N} \) עבור \( N \) כלשהו, אז עבור \( \varepsilon=c_{N}-c \) היינו מקבלים שלכל \( n>N \), \( d\left(c_{n},c\right)=\left(c_{n}-c_{N}\right)+\left(c_{N}-c\right)\ge\varepsilon \).

בואו נוכיח ש-\( \lim_{n\to\infty}a_{n}=c \): ניקח \( \varepsilon>0 \) כלשהו, אז קיים \( N \) כך ש-\( a_{N} \) שייך לתת-הסדרה וגדול מספיק כדי שיתקיים \( d\left(a_{N},c\right)<\varepsilon \), כלומר \( c-a_{N}<\varepsilon \). עכשיו, לכל \( n>N \) מתקיים \( a_{N}<a_{n}\le c \) ולכן \( c-a_{n}<c-a_{N}<\varepsilon \), כמו שרצינו (הסיבה שבגללה \( a_{n}\le c \) היא שאם היה מתקיים \( a_{n}>c \) זה היה מכריח גם איברים של תת-הסדרה שמופיעים בסדרה אחרי \( a_{n} \) להיות גדולים מ-\( c \) וראינו שזה לא יכול לקרות).

אם כן, לסיכום - הראינו איך משלמות-קנטור נובעות אותן התוצאות בחדו”א שעניינו אותנו - מלבד אחת, זו של שלמות-דדקינד עצמה. בשביל זה כדאי לעבור לחלק נוסף ואחרון.

שלמות דדקינד נגד שלמות קנטור - הקרב האחרון

מה ראינו עד כה?

שלמות-דדקינד גוררת את שלמות-קנטור.
שלמות-קנטור גוררת את כל התוצאות שראינו בפוסט בערך חוץ מאשר את שלמות-דדקינד (ולכן בעצם גם המשפט השני של ויירשטראס שמשתמש בה).

אם נחזור לטרמינולוגיה של הפוסט הקודם, ראינו ששדה סדור שלם הוא גם שלם-קנטור. למעשה, סביר להניח שחלק נכבד מהקוראים נתקלו בשלמות-קנטור בתור המשמעות של “שלם”; כשמדברים בטופולוגיה על “מרחב מטרי שלם” ועל “השלמה של מרחב מטרי” זה במובן של שלמות-קנטור. האם ההפרדה הזו בין שלמות-דדקינד ושלמות-קנטור היא לא קצת מלאכותית? אי אפשר לקרוא לשני אלו “שלמות” וזהו?

ובכן, למרבה הצער, לא בדיוק.

הטענה “אם \( \mathbb{F} \) הוא שדה סדור שבו כל סדרת קושי מתכנסת, אז הוא שלם” היא פשוט לא נכונה.

מה שנכון, ואני הולך להוכיח, הוא הטענה “אם \( \mathbb{F} \) הוא שדה סדור ארכימדי שבו כל סדרת קושי מתכנסת, אז הוא שלם”. אבל צריך את הארכימדיות. מה זו ארכימדיות? כזכור, זו התכונה לפיה לכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \). כשיש לנו שדה סדור שלם הוא אוטומטית ארכימדי. זה כבר אומר שיהיה לנו קצת קשה להראות דוגמא לשדה סדור שהוא שלם-קנטור אבל לא שלם-דדקינד, כי הוא יצטרך להיות מוזר בגלל חוסר הארכימדיות שלו. יש דוגמא סטנדרטית עם שדה של טורי לורן אבל אני לא אכנס לזה כאן כי היא טכנית וארוכה. במקום זה אני אעשה משהו טכני וארוך אחר: אוכיח ששדה סדור ארכימדי שבו כל סדרת קושי מתכנסת הוא שלם.

יש כל מני הוכחות שראיתי ואני אלך דווקא על אחת טכנית יחסית כי אני מרגיש שזו דרך טובה להרגיש בידיים “מה הולך פה”. אני לוקח קבוצה לא ריקה וחסומה \( A\subseteq\mathbb{F} \) ורוצה להוכיח ש-\( \sup A \) קיים. בשביל זה אני צריך כלי כלשהו שיודע להראות לי שמשהו קיים, והכלי הזה עבורי יהיה משפט החיתוך של קנטור, שכבר ראינו שנובע משלמות-קנטור. הרעיון המרכזי הוא פשוט: נבנה סדרה של קטעים, \( \left[a_{n},b_{n}\right] \), שמקיימים את התנאים הרגילים של משפט החיתוך כלומר \( \left[a_{n},b_{n}\right]\supseteq\left[a_{n+1},b_{n+1}\right] \) ו-\( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \), ובנוסף הם מקיימים את התכונה הבאה: לכל \( n \), \( b_{n} \) הוא חסם מלעיל של \( A \) אבל \( a_{n} \) אינו חסם מלעיל של \( A \). עכשיו נשתמש במשפט החיתוך ונקבל \( c \) שמקיים ש-\( a_{n}\le c\le b_{n} \) לכל \( n \).

מצד אחד, \( c \) חייב להיות חסם מלעיל של \( A \), כי אם הוא לא היה כזה, אז היה קיים \( a\in A \) כך ש-\( c<a \), ומכאן בפרט ש-\( a_{n}<a \) לכל \( n \) (כלומר, נקודות הקצה השמאליות של הקטעים שלנו “לא מתקרבות מספיק לקצה של \( A \)”). אבל תזכרו שסדרת נקודות הקצה הימניות, ה-\( b_{n} \)-ים, מתקרבות כרצוננו אל ה-\( a_{n} \)-ים, אז ברור שנוכל להנדס פה סתירה עם טכניקות שכבר ראינו לא אחת בפוסט הבא: נגדיר \( \varepsilon=a-c \) (מכיוון ש-\( c<a \) אז \( \varepsilon>0 \)) וניעזר בכך ש-\( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \) כדי למצוא \( N \) עבורו \( b_{N}-a_{N}<\varepsilon \). אבל עכשיו תראו מה קרה: \( a_{N}<c<a\le b_{N} \), כשאי השוויון האחרון נובע מכך ש-\( b_{N} \) הוא חסם מלעיל של \( A \) וש-\( a\in A \). המסקנה מהשרשרת היא ש

\( \varepsilon=a-c\le b_{N}-c<b_{N}-a_{N}<\varepsilon \)

וזו סתירה. אז קיבלנו ש-\( c \) הוא חסם מלעיל של \( A \).

בנוסף, אני טוען ש-\( c \) הוא החסם מלעיל המינימלי של \( A \), כי אם הוא לא היה כזה אז היה קיים \( b \) שהוא חסם מלעיל של \( A \) כך ש-\( b<c \), ומכאן בפרט ש-\( b<b_{n} \) לכל \( n \) (כלומר, נקודות הקצה הימניות של הקטעים שלנו “הן לא חסמים מלעיל מספיק קטנים של \( A \)”). רואים את הדז’ה-וו? בואו נסיים את זה באותו האופן: נגדיר \( \varepsilon=c-b \) ונמצא \( N \) עבורו \( b_{N}-a_{N}<\varepsilon \) ועכשיו תראו מה קרה: \( a_{N}\le b<c<b_{N} \) כשאי השוויון הראשון נובע מכך ש-\( b \) הוא חסם מלעיל של \( A \) (גדול או שווה לכל אברי \( A \)) ואילו \( a_{N} \) אינו חסם מלעיל כזה (קיים איבר ב-\( A \) שגדול ממנו, ו-\( b \) גדול או שווה מאותו איבר). המסקנה מהשרשרת היא ש

\( \varepsilon=c-b<b_{N}-b\le b_{N}-a_{N}<\varepsilon \)

וזו סתירה. אז קיבלנו ש-\( c \) קטן מכל חסם מלעיל אחר של \( A \), ולכן הוא החסם מלעיל המינימלי, ולכן \( c=\sup A \). זה מסיים את החלק התיאורטי יותר בהוכחה ונשאר לעבור לחלק הקונקרטי - איך בונים בפועל סדרת קטעים \( \left[a_{n},b_{n}\right] \) כזו שעוטפת בצורה כל כך אפקטיבית את הקצה הימני של הקבוצה \( A \)? וכאן הארכימדיות הולכת לצוץ בכל הכוח כי בלעדיה יכול להיות חור עצום בין קבוצת האיברים ב-\( A \) וקבוצת החסמים מלעיל שלהם.

הרעיון הבסיסי הוא זה: בואו נחלק את כל ציר המספרים למקטעים באורכים קצרים - נאמר, \( \frac{1}{2} \). עכשיו נעבור על נקודות הקצה של המקטעים הללו: \( -\frac{1}{2},0,\frac{1}{2},1,\frac{3}{2},\ldots \). מתישהו יגיע הרגע הראשון שבו אנחנו עוברים את \( A \), כלומר מוצאים מספר \( \frac{k}{2} \) שהוא חסם מלעיל של \( A \) אבל \( \frac{k-1}{2} \) הוא לא חסם מלעיל של \( A \). כשזה קורה, נסמן \( a_{1}=\frac{k-1}{2} \) ו-\( b_{1}=\frac{k}{2} \).

איך נגדיר עכשיו את \( a_{2},b_{2} \)? כדאי לחלק את העולם לחלקים עוד יותר קטנים, כי ככל שאנחנו מקטינים את העולם ככה הדיוק שלנו משתפר. אבל צריך להיות זהירים מאוד כאן: אם למשל אני אחלק את העולם לשלישים, \( -\frac{1}{3},0,\frac{1}{3},\frac{2}{3},\ldots \), נקודות הקצה ממש לא בהכרח יהיו שיפור ביחס לקודם. למשל, אם הסופרמום של \( A \) הוא \( \frac{1}{2} \) אז נקבל \( a_{1}=0,b_{1}=\frac{1}{2} \) אבל \( a_{2}=\frac{1}{3},b_{2}=\frac{2}{3} \). במקרה הזה אמנם \( a_{1}<a_{2} \) כפי שהיינו רוצים שיקרה (כי אנחנו רוצים שיתקיים \( \left[a_{1},b_{1}\right]\supseteq\left[a_{2},b_{2}\right] \)) אבל ממש לא מתקיים \( b_{2}<b_{1} \). אז לא מספיק להגדיל את המכנה - צריך להגדיל אותו בצורה שבעצם לוקחת את החלוקה הקודמת ומחלקת אותה עוד קצת. אם קודם חילקנו לקטעים באורך \( \frac{1}{2} \), עכשיו משתלם לחלק לקטעים באורך \( \frac{1}{4} \), וכן הלאה: באופן כללי נחלק לקטעים באורך \( \frac{1}{2^{n}} \).

אם כן, הבניה שלי תהיה כזו: לכל \( n\ge1 \) אני אמצא מספר שלם \( k_{n} \) שהוא המספר השלם המינימלי עבורו \( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) - כלומר, כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל של \( A \) (אני כמובן אצטרך להוכיח שקיים \( k_{n} \) כזה) ואז אגדיר \( a_{n}=\frac{k_{n}-1}{2^{n}} \) ו-\( b_{n}=\frac{k_{n}}{2^{n}} \).

תחת ההגדרה הזו, \( b_{n}-a_{n}=\frac{k_{n}-\left(k_{n}-1\right)}{2^{n}}=\frac{1}{2^{n}} \) ולכן \( \lim_{n\to\infty}\left(b_{n}-a_{n}\right)=0 \) וזה אחד משני הדברים שרצינו עבור תנאי משפט החיתוך של קנטור. הדבר השני שאנחנו צריכים להוכיח הוא \( \left[a_{n},b_{n}\right]\supseteq\left[a_{n+1},b_{n+1}\right] \).

ראשית, להוכיח ש-\( b_{n+1}\le b_{n} \) יהיה קל יחסית. נסתכל על \( b_{n}=\frac{k_{n}}{2^{n}} \) ונכפול ונחלק את זה ב-2, כלומר

\( b_{n}=\frac{k_{n}}{2^{n}}=\frac{2k_{n}}{2^{k+1}} \)

המכנה עכשיו הוא מה שאנחנו מחפשים. המונה? ובכן, תזכרו שאנחנו לוקחים את \( k_{n+1} \) להיות המספר הקטן ביותר עבורו \( \frac{k_{n+1}}{2^{n+1}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n+1}-1}{2^{n+1}} \) לא. ואנחנו כבר יודעים ש-\( b_{n} \) הוא חסם מלעיל של \( A \), ולכן \( k_{n+1}\le2k_{n} \), כלומר קיבלנו

\( b_{n+1}=\frac{k_{n+1}}{2^{n+1}}\le\frac{2k_{n}}{2^{n+1}}=b_{n} \)

יהיה קצת יותר טריקי להראות ש-\( a_{n}\le a_{n+1} \), כלומר להראות ש-\( \frac{k_{n}-1}{2^{n}}\le\frac{k_{n+1}-1}{2^{n+1}} \). נכפול את שני האגפים ב-\( 2^{n+1} \) ונקבל שמספיק להראות \( 2\left(k_{n}-1\right)\le k_{n+1}-1 \), ואחרי העברת אגפים נקבל שמספיק להראות \( 2k_{n}-1\le k_{n+1} \).

כדי לראות את זה, בואו נסתכל על \( 2k_{n}-2 \). כזכור, בחרנו את \( k_{n} \) כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל שכזה. אם נכפול מונה ומכנה ב-2 נקבל ש-\( \frac{2k_{n}-2}{2^{n+1}} \) אינו חסם מלעיל של \( A \). אנחנו יודעים ש-\( \frac{k_{n+1}}{2^{n+1}} \) הוא כן חסם מלעיל של \( A \) ולכן \( 2k_{n}-2<k_{n+1} \), ומכיוון שבשני האגפים יש מספרים שלמים, הוספת 1 לאגף שמאל יכולה לכל היותר להפוך את אי השוויון לשוויון, אגף שמאל לא יכול להפוך לגדול יותר מאגף ימין. לכן \( 2k_{n}-1\le k_{n+1} \), כפי שרצינו.

כל מה שנשאר לנו לעשות הוא להסביר איך עושים את זה: לכל \( n \), למצוא מספר שלם \( k_{n} \) כך ש-\( \frac{k_{n}}{2^{n}} \) הוא חסם מלעיל של \( A \) אבל \( \frac{k_{n}-1}{2^{n}} \) אינו חסם מלעיל של \( A \).

הנתון שלנו הוא ש-\( A \) היא קבוצה לא ריקה וחסומה. מכך שהיא לא ריקה נסיק שיש \( x\in A \) כלשהו. מכך שהיא חסומה נסיק קיים מספר \( M\in\mathbb{F} \) שהוא חסם מלעיל של \( A \).

עכשיו הגיע הזמן להשתמש בארכימדיות. אני אצטט את אחד מהניסוחים של ארכימדיות שנתתי בפוסט הקודם:

“עוד דרך לחשוב על זה, שאני אוהב במיוחד, היא זו: בואו ניקח \( \varepsilon>0 \) כלשהו, כשהאינטואיציה היא לחשוב על \( \varepsilon \) בתור משהו ממש ממש קטן (זה השימוש הסטנדרטי של האות הזו בחדו”א). בואו ניקח גם \( M>0 \) כלשהו, כשהאינטואיציה היא לחשוב עליו בתור מספר ממש ממש ענק. אז ארכימדיות פירושה שקיים \( n \) כך ש-\( n>\frac{M}{\varepsilon} \), או במילים אחרות \( n\varepsilon>M \). זה אומר שלא משנה עד כמה משהו קטן - אם אנחנו בשדה ארכימדי, לחבר אותו מספר פעמים לעצמו יגרום לו לעבור בגודלו כל מספר כולל ענקיים.”

אוקיי, “מספר ענק” \( M \) כבר יש לנו - זה החסם מלעיל של \( A \). המספר הקטן שלנו יהיה \( \varepsilon=\frac{1}{2^{n}} \), והארכימדיות תיתן לנו מספר שלם \( T \) כך ש-\( \frac{T}{2^{n}}>M \) - כלומר, קיבלנו שקיים חסם מלעיל של \( A \) שהוא מהצורה \( \frac{T}{2^{n}} \) כאשר \( T \) שלם. הרעיון הוא שעכשיו אפשר להתחיל “ללכת אחורה” מה-\( T \) הזה עד שמוצאים את הערך המינימלי שעדיין נשאר חסם מלעיל, אבל בשביל זה צריך כמובן להשתכנע שאם נלך מספיק אחורה באמת נגיע למצב שבו האיברים שלנו הם כבר לא חסמים מלעיל. כאן נזדקק ל-\( x\in A \) שמצאנו, ולתכונה הארכימדית פעם נוספת.

מה שהייתי רוצה למצוא הוא \( S \) שלם כך ש-\( \frac{S}{2^{n}}<x \), כי אז \( \frac{S}{2^{n}} \) הוא בודאות לא חסם מלעיל של \( A \). אבל איך מוצאים את זה עם ארכימדיות, שנותנת לנו משהו גדול יותר? בפוסט הקודם אמרנו שזו לא בעיה כי עושים טריק של כפל ב-\( -1 \), אז בואו נעשה טריק של כפל ב-\( -1 \): נשתמש בארכימדיות כדי למצוא \( R \) שלם כך ש-\( -x<\frac{R}{2^{n}} \), ואז נכפול את שני האגפים ב-\( -1 \), נסמן \( S=-R \) ונקבל שמצאנו \( S \) שלם כך ש-\( \frac{S}{2^{n}}<x \).

עכשיו סיימנו: קיבלנו את הסדרה הסופית \( S,S+1,S+2,\ldots,T \) שהאיבר הראשון בה לא נותן חסם מלעיל של \( A \) והאיבר האחרון בה כן נותן חסם מלעיל כזה, אז פשוט ניקח את \( k_{n} \) להיות האיבר המינימלי בסדרה שנותן חסם מלעיל. הוא בודאות קיים (כי זו סדרה סופית, ויש לפחות איבר אחד בסדרה שמקיים את הקריטריון הזה) והוא בודאות גדול מ-\( S \) ולכן \( k_{n}-1 \) הוא גם כן איבר בסדרה, והוא איבר שעבורו לא מתקבל חסם מלעיל של \( A \) - בדיוק מה שרצינו.

אם כן - סיימנו את ההוכחה, הבנו את הקשר בין שלמות-דדקינד ושלמות-קנטור, ועכשיו נשאר לנו רק דבר אחד: להראות את הבניות של קנטור ודדקינד ואיך הן שתיהן נותנות לנו את \( \mathbb{R} \).

אז מה זה בעצם המספרים הממשיים? (חלק ב’: השדה הסדור השלם)

2024-08-31T00:00:00+00:00

מבוא

בפוסט הקודם התחלתי לדבר על המספרים הממשיים ומה הם בכלל. הראיתי את ההגדרה הנפוצה, שרובנו מכירים עוד מבית הספר, של מספר ממשי בתור משהו שיש לו פיתוח עשרוני, נאמר \( 3.14159\ldots \). ההגדרה הזו בעצם מגדירה את המספרים הממשיים על ידי כך שהיא מדברת על האופן שבו מספר ממשי קונקרטי בנוי; אין כאן ממש התייחסות לקבוצה של כל המספרים הממשיים.

חוץ מזה, אמרתי שההגדרה בעייתית כי את רוב המספרים הממשיים אי אפשר ממש לתאר בעולם האמיתי בעזרת פיתוח עשרוני כי לרובם המכריע אין פיתוח עשרוני שיש לנו דרך לחשב את הספרות שלו, או אפילו לתת להם הגדרה קונקרטית כלשהי - הממשיים היא קבוצה “גדולה מדי” בשביל זה. זה נותן מוטיבציה כלשהי לחיפוש אחרי הגדרה שמדברת לא על הממשי הקונקרטי אלא על המכלול שלהם, כל הקבוצה, מה בעצם הקטע שלה.

ועוד משהו בעייתי בהגדרה הזו היא שלא אמרתי בעצם מה אפשר לעשות עם המספרים הללו. מספרים הם משהו שקיים כדי שנוכל לעשות איתו דברים, ובפרט שנוכל לעשות דברים עם שני מספרים: לחבר, לחסר, להכפיל, לחלק, להשוות… אפשר לתת את ההגדרות הללו גם כשמגדירים ממשיים דרך פיתוח עשרוני, אבל זה מאלץ אותנו לנטוש את האינטואיציה הבית ספרית, ואני לא אעשה את זה כרגע.

במקום להמשיך בכיוון הזה, אני ארצה בפוסט הזה להציג את ההגדרה שאני אישית אוהב: המספרים הממשיים הם השדה הסדור השלם. כרגע אין סיבה שתבינו מה אף אחת מהמילים בהגדרה הזו אומרות, מתמטית; עד סוף הפוסט אני מקווה שנבין את כולן. אבל לפני שנתחיל צריך לתת הבהרה קטנה מה בעצם הולך בהגדרה הזו.

במתמטיקה, יש שתי דרכים מקובלות להגדיר אובייקט. דרך אחת היא לתאר במדויק מהו, כמו שעשיתי במקרה של הפיתוח העשרוני (“סדרה אינסופית של ספרות שכוללת נקודה ויכולה לכלול בהתחלה סימן מינוס”). דרך אחרת היא לתאר את האובייקט אקסיומטית. בצורה הזו לא אומרים במפורש מה האובייקט, אלא נותנים רשימה של תכונות שאנחנו מצפים שהאובייקט יקיים. התכונות הללו נקראות אקסיומות, אבל זה שונה מהשימוש במילה “אקסיומה” שהיוונים הקדמונים עשו או שאנחנו עושים בחיי היום יום. “אקסיומה” במובן היומיומי היא “משהו שאנחנו מניחים שהוא נכון בלי הוכחה”. במובן המתמטי שלנו, אקסיומה היא תכונה שיכולה להתקיים עבור אובייקטים מסויימים ולא להתקיים עבור אחרים - אנחנו נראה לזה הרבה דוגמאות עוד מעט.

מרגע שיש לנו אוסף של אקסיומות, אנחנו יכולים לדבר על האובייקטים שמקיימים את כל האקסיומות. ייתכן שיש המון כאלו, ייתכן שיש רק אובייקט אחד, וייתכן שאין בכלל. במקרה של הממשיים אפשר להראות שיש לכל היותר אובייקט אחד כזה, אבל זה בפני עצמו לא אומר שהוא קיים; בנוסף להגדרה האקסיומטית נצטרך גם לתת בניה קונקרטית של הממשיים. אי אפשר להתחמק מזה. אז למה אני אוהב את ההגדרה האקסיומטית? כי היא לטעמי מה שהכי עוזר לנו להבין מה זה בעצם הממשיים, ומה התכונות שלהם. בואו נתחיל ואני מקווה שזה יתבהר בהמשך.

שדה

חזרה לבית הספר היסודי

“שדה” זה השם המפוצץ שהמתמטיקה העניקה לקבוצה שמקיימת את מה שלמדנו בבית הספר היסודי שמספרים מקיימים: יש פעולות חיבור, חיסור, כפל וחילוק ויש את חוק הקיבוץ, חוק החילוף וחוק הפילוג. את כללי החשבון אני מניח שאנחנו זוכרים (אבל יש לי סדרת פוסטים עליהם אם לא) אבל בואו נכתוב את החוקים במפורש:

\( \left(a+b\right)+c=a+\left(b+c\right) \) (חוק הקיבוץ לחיבור)
\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \) (חוק הקיבוץ לכפל)
\( a+b=b+a \) (חוק החילוף לחיבור)
\( a\cdot b=b\cdot a \) (חוק החילוף לכפל)
\( a\cdot\left(b+c\right)=a\cdot b+a\cdot c \) (חוק הפילוג).

כל החוקים הללו מתקיימים יפה מאוד כבר על ידי קבוצת המספרים הטבעיים, שמסומנת ב-\( \mathbb{N} \). אבל \( \mathbb{N} \) לא נקראת “שדה” כי יש דברים שחסרים. ספציפית, חיסור. החיסור חסר. אין ב-\( \mathbb{N} \) חיסור. או, ליתר דיוק, בוודאי שיש ב-\( \mathbb{N} \) חיסור, אבל הוא לא מוגדר עד הסוף כי אמנם \( 5-2=3 \) אבל לא ממש ברור מה זה \( 2-5 \) כל עוד “העולם” שלנו כולל רק את המספרים הטבעיים. אז אנחנו מרחיבים את \( \mathbb{N} \) ומוסיפים פנימה את המספרים השליליים ואת 0 (או ש-0 כבר היה ב-\( \mathbb{N} \), תלוי את מי שואלים) ומקבלים את הקבוצה \( \mathbb{Z} \). מה שנחמד ב-\( \mathbb{Z} \) הוא שהיא מקיימת את כל החוקים שכבר ראינו - כלומר, ההרחבה לא “עלתה” לנו באובדן של מבנה קיים, אבל אפשר לנסח בצורה נחמדה עוד חוקים בעזרתה:

קיים איבר שמסומן ב-0 כך ש-\( a+0=a \) לכל \( a \)
לכל \( a \) קיים איבר שמסומן ב-\( -a \) ונקרא הנגדי של \( a \) כך ש-\( a+\left(-a\right)=0 \)

בעזרת המושג הזה של “הנגדי” אפשר להגדיר חיסור בעזרת פעולת החיבור שכבר מוכרת לנו: \( a-b \) זה בעצם \( a+\left(-b\right) \), כלומר מחברים ל-\( a \) את הנגדי של \( b \). ואם אני כבר בקטע של שמות, אז ל-0 קוראים אדיש חיבורי בהקשר הזה, כי הוא לא משפיע על מי שמתחבר איתו.

מה שנחמד בשלמים ומה שלא

אני הולך להגדיר מושג שנקרא שדה אבל שווה לעצור לרגע ולהעיר שהאקסיומות שכבר ראינו משמשות גם להגדרת מבנים אלגבריים אחרים ש-\( \mathbb{Z} \) הוא דוגמא מרכזית אליהם. למשל, המבנה חבורה שדורש רק קיום של פעולה אחת - חיבור - ורק את חוק הקיבוץ, קיום 0 וקיום נגדי. או המבנה חוג שדורש קיום של חיבור וכפל ואת חוקי הקיבוץ וחוק הפילוג ואת קיום 0 וקיום נגדי ואת חוק החילוף לחיבור אבל לא את חוק החילוף לכפל. אני לא אזדקק למושגים הללו בהמשך אבל שווה היה לפחות להזכיר אותם.

עכשיו, האם השלמים \( \mathbb{Z} \) הם האובייקט היחיד שמקיים את כל התכונות שראינו עד כה או שיש אחרים? התשובה היא שבהחלט יש אחרים, למשל פולינומים. הנה למשל פעולת הכפל של פולינומים: \( \left(x+3\right)\left(x+5\right)=x^{2}+8x+15 \). קל לראות שכל התכונות שתיארתי עד כה מתקיימות גם עבור פולינומים (והדמיון שלהם ל-\( \mathbb{Z} \) הוא למעשה גדול עד להפתיע אבל לא ניכנס לזה).

מה בכל זאת חסר ב-\( \mathbb{Z} \) שמדרבן אותנו להמשיך הלאה? חילוק. מכיוון שחילוק הוא סוג של הפעולה ההפוכה לכפל, אפשר לקוות להגדרה שלו שתהיה דומה למה שהלך במקרה של חיבור: קודם נגדיר “אדיש כפלי”, כזה שכפל בו לא משנה את התוצאה (מי זה כבר יכול להיות? נו, 1 כמובן). אחר כך נגדיר “נגדי כפלי” (אני פשוט אקרא לזה הופכי) שכפל בו מחזיר 1; ולבסוף, נגדיר חילוק במישהו בתור כפל בהופכי שלו. זה עובד לא רע, חוץ מבעיה קטנה אחת: אין ל-\( 0 \) הופכי כי לא יכול להיות איבר שמכפלה שלו ב-0 מחזירה את \( 1 \). הראיתי את זה ממש לא מזמן בפוסט שלי על כך שמותר לחלק באפס בכל מני סיטואציות; ובכן עכשיו זו לגמרי לא אחת מאותן סיטואציות.

בואו ניזכר איך ההוכחה הלכה. הסתכלתי על הביטוי \( a\cdot0 \) ואז השתמשתי בכך ש-\( 0=0+0 \) (כי הוא אדיש חיבורי) ולכן, על פי חוק הפילוג

\( a\cdot0=a\cdot\left(0+0\right)=a\cdot0+a\cdot0 \)

עכשיו חיסרתי את \( a\cdot0 \) משני האגפים - כלומר, חיברתי את הנגדי של \( a\cdot0 \) לשני האגפים (קיים כזה כי הנחנו שיש נגדי לכל איבר בקבוצה שלנו). כתוצאה מזה קיבלתי \( 0=a\cdot0 \), כלומר לא משנה באיזה איבר אני כופל את \( 0 \), אני אקבל 0. אבל הרי \( 0\ne1 \) ולכן לא קיים \( a \) כך ש-\( a\cdot0=1 \).

אלא אם כן באמת מתקיים \( 0=1 \). אבל אם היה מתקיים \( 0=1 \) אז על ידי כפל ב-\( a \) בשני האגפים היינו מקבלים \( 0=a \), כלומר הדרך היחידה שבה יתקיים \( 0=1 \) תהיה אם כל הקבוצה שלנו תהיה רק \( \left\{ 0\right\} \) ותו לא.

יודעים מה מעליב? שהקבוצה \( \left\{ 0\right\} \) באמת מקיימת את כל הדרישות שכתבתי עד כה. והיא תקיים גם את הבאות בתור אם אני לא אדרוש במפורש \( 0\ne1 \), אז אני אדרוש את זה במפורש, ופשוט אגדיר הופכי לכל מי שאיננו 0:

קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( a\cdot1=a \) לכל \( a \)
לכל \( a\ne0 \) קיים איבר שמסומן ב-\( a^{-1} \) ונקרא ההופכי של \( a \) כך ש-\( a\cdot a^{-1}=1 \)

המספרים השלמים \( \mathbb{Z} \) אמנם מקיימים את הדרישה על 1, אבל הם לא מקיימים את הדרישה על קיום הופכי. שני המספרים היחידים ב-\( \mathbb{Z} \) שיש להם הופכי הם 1 ו-\( -1 \); אצל שניהם הם ההופכיים של עצמם אבל באופן כללי זה לא חייב להיות ככה, כמובן.

הרציונליים נכנסים לתמונה

כדי לקבל מ-\( \mathbb{Z} \) קבוצה שיש בה הופכי לכל מי ששונה מאפס, אנחנו מכניסים לתמונה שברים, מספרים מהצורה \( \frac{a}{b} \) כך ש-\( b\ne0 \), עם כללי חיבור וכפל שמכלילים את מה שאנחנו מכירים ממספרים שלמים:

\( \frac{a}{b}+\frac{c}{d}=\frac{ad+bc}{bd} \)
\( \frac{a}{b}\cdot\frac{c}{d}=\frac{ac}{bd} \)

זה לא לגמרי מובן מאליו שכל התכונות שכבר ראינו עדיין מתקיימות תחת הכללים החדשים הללו, אבל לא כזה קשה לבדוק את זה. התוצאה שמתקבלת מסומנת ב-\( \mathbb{Q} \) ואנחנו קוראים לה בדרך כל המספרים הרציונליים. אם אני רוצה לבנות פורמלית את \( \mathbb{Q} \) (מה שאני לא עושה כאן) אני צריך קצת להיזהר כי למשל \( \frac{1}{2}=\frac{2}{4} \); אבל בפוסט הזה הגישה שלי היא לא לבנות שום דבר אלא רק לדבר על האקסיומות, ולראות אילו אובייקטים מקיימים אותן. והאקסיומות שתיארתי עד כה הן סוף הדרך מבחינת ההגדרה של מה זה שדה, והמספרים הרציונליים הם סוג של השדה הכי פשוט שקיים (אבל חכו עוד שניה עם זה). כדי לחדד את ההגדרה, בואו נאסוף את מה שפיזרתי לאורך החלק הזה

שדה הוא קבוצה \( F \) עם שתי פעולות בינאריות “חיבור” \( + \) ו”כפל” \( \cdot \) (פעולה בינארית היא פונקציה שמקבלת זוג איברים מ-\( F \) ומחזירה איבר ב-\( F \)) שמקיימת את התכונות הבאות:

\( \left(a+b\right)+c=a+\left(b+c\right) \)
\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \)
\( a+b=b+a \)
\( a\cdot b=b\cdot a \)
\( a\cdot\left(b+c\right)=a\cdot b+a\cdot c \)
קיים איבר שמסומן ב-0 כך ש-\( a+0=a \) לכל \( a \)
לכל \( a \) קיים איבר שמסומן ב-\( -a \) ונקרא הנגדי של \( a \) כך ש-\( a+\left(-a\right)=0 \)
קיים איבר שמסומן ב-\( 1 \) כך ש-\( 0\ne1 \) ו-\( a\cdot1=a \) לכל \( a \)
לכל \( a\ne0 \) קיים איבר שמסומן ב-\( a^{-1} \) ונקרא ההופכי של \( a \) כך ש-\( a\cdot a^{-1}=1 \)

תשע האקסיומות הללו הן כל מה שיש; מתוכן אפשר להסיק כללים אחרים שמוכרים לנו, כמו למשל הכלל שכפל של משהו ב-0 תמיד מחזיר 0.

בואו נוכיח עוד תכונה לדוגמא: שהאדיש החיבורי הוא יחיד. כלומר שאין איזה איבר \( 0^{\prime}\ne0 \) כך ש-\( a+0^{\prime}=a \) לכל \( a \). ההוכחה היא די טריוויאלית, כי אם נניח שיש \( 0^{\prime} \) כך ש-\( a+0^{\prime}=a \) לכל \( a \) אז זה בפרט נכון עבור \( a=0 \), ואז \( 0+0^{\prime}=0 \) (כי \( 0^{\prime} \) אדיש) אבל גם \( 0+0^{\prime}=0^{\prime} \) (כי \( 0 \) אדיש) וקיבלנו \( 0=0^{\prime} \).

הנה משהו יותר טריקי באותה רוח: אני רוצה להראות שלא סתם אין אדיש נוסף, אלא שאפילו אם נבחר איבר \( a \) ספציפי כלשהו, אין מישהו נוסף שמשמש כאדיש עבורו. כלומר, אם \( x \) הוא איבר כלשהו כך ש-\( a+x=a \) אז \( x=0 \). על פניו גם זה טריוויאלי: בואו פשוט נעביר את \( a \) אגף ונקבל \( x=0 \). אבל בואו נעשה את זה לאט, כדי שנבין באילו כללים אנחנו משתמשים:

\( a+x=a \) (זו נקודת המוצא שלנו)

\( -a+\left(a+x\right)=-a+a \) (חיברנו \( -a \) לשני האגפים; שימו לב ששמתי סוגריים על \( a+x \) מאגף שמאל כדי להדגיש שפעולת החיבור שלהם “מתבצעת קודם”)

\( \left(-a+a\right)+x=-a+a \) (על אגף שמאל השתמשתי בחוק הקיבוץ לחיבור)

\( \left(a+\left(-a\right)\right)+x=a+\left(-a\right) \) (על שני האגפים השתמשתי בחוק החילוף לחיבור)

\( 0+x=0 \) (השתמשתי בכך שאיבר ועוד הנגדי שלו זה 0)

\( x+0=0 \) (עוד שימוש בחוק החילוף לחיבור)

\( x=0 \) (סיימנו)

שימו לב לרמת הפדנטיות שלי: אני לא אומר \( 0+x=x \) ישירות, כי בניסוח שלי של מהו 0 אמרתי רק ש-\( a+0=a \) לכל \( a \). הסיבה לכך שהגדרתי 0 ככה היא שידעתי שיהיה לי את חוק החילוף; אם חוק החילוף לא היה מובטח לי, הייתי מגדיר את האדיש בתור מישהו שמקיים \( a+0=0+a=a \) (ואכן, אם תסכלו בהגדרות של תורת החבורות, איפה שכללי החילוף לא מובטחים, כך מגדירים).

הנה עוד משהו באותו רוח - לכל \( a \), הנגדי של \( a \) הוא יחיד. כלומר אם \( a+x=0 \) וגם \( a+y=0 \) אז \( x=y \). את זה קל למדי להראות: מכך ש-\( a+x=0=a+y \) נסיק \( a+x=a+y \) ועכשיו נחבר את \( -a \) לשני האגפים, נשתמש בחוק הקיבוץ ונקבל \( x=y \).

בעזרת יחידות הנגדי אני אוכיח עוד תכונה מעניינת במיוחד: \( \left(-a\right)\cdot\left(-b\right)=ab \), כלומר “מינוס כפול מינוס זה פלוס”. יש לי פוסט שמנסה להסביר את האינטואיציה מאחורי זה, אבל עכשיו אנחנו לא זקוקים לאינטואיציה - יש לנו אקסיומות ואפשר להוכיח מהן דברים.

ראשית, בואו נראה ש-\( -a=\left(-1\right)\cdot a \). במילים: הנגדי של \( a \) שווה לנגדי של 1 כפול \( a \). כדי להראות את זה בואו נסתכל על הסכום \( \left(-1\right)\cdot a+a \). נשתמש בחוק הפילוג ונקבל

\( \left(-1\right)\cdot a+a=\left(-1+1\right)\cdot a=0\cdot a=0 \)

ולכן קיבלנו ש-\( \left(-1\right)\cdot a \) הוא באמת הנגדי של \( a \), תוך שאנחנו משתמשים במובלע בזה שהנגדי הוא יחיד.

עוד דוגמאות לשדות ובפרט שדות סופיים

עכשיו בואו נדבר על עוד שדות. מבית הספר אנחנו מכירים את הממשיים \( \mathbb{R} \) שמכילים את \( \mathbb{Q} \), ואולי מכירים גם את המרוכבים \( \mathbb{C} \) שמכילים את \( \mathbb{R} \): כולם שדות, אבל מכיוון שאני מנסה בפוסטים הללו להגדיר את \( \mathbb{R} \) אולי לא נלך לכיוון של הדוגמאות האלו. האם יש עוד דברים? האמת היא שיש המון שדות. הנה דוגמא פשוטה: אנחנו יודעים ששורש 2 הוא לא מספר רציונלי, מה שמסומן ב-\( \sqrt{2}\notin\mathbb{Q} \) (יש לי הסבר כאן). אז אני יכול “לצרף” אותו ל-\( \mathbb{Q} \) במובן הבא: אני יוצר קבוצה \( \mathbb{Q}\left(\sqrt{2}\right)=\left\{ a+b\sqrt{2}\ |\ a,b\in\mathbb{Q}\right\} \). איברים טיפוסיים של הקבוצה הם \( \sqrt{2} \) ו-\( 3-5\sqrt{2} \) וגם \( 17 \). עכשיו, פעולות החיבור והכפל של איברים בקבוצה יתנהגו באופן המתבקש:

\( \left(a+b\sqrt{2}\right)+\left(c+d\sqrt{2}\right)=\left(a+c\right)+\left(b+d\right)\sqrt{2} \)
\( \left(a+b\sqrt{2}\right)\cdot\left(c+d\sqrt{2}\right)=\left(ac+2bd\right)+\left(bc+ad\right)\sqrt{2} \)

לא קשה לראות שתחת ההגדרות הללו, קיבלנו ש-\( \mathbb{Q}\left(\sqrt{2}\right) \) היא שדה. מכיוון שאפשר היה לעשות את המשחק הזה עם כל שורש של כל מספר רציונלי (וגם עם מספרים טיפה יותר מסובכים) אנחנו מקבלים פה בעצם עושר אדיר של שדות. יש תחום שלם - תורת השדות - שמתעסק בשדות הללו ובבלאגן העצום שלהם; זה התחום שבו מוכיחים שלבעיות הבניה בסרגל ומחוגה של היוונים הקדמונים אין פתרון, ושאין נוסחה לפתרון משוואה ממעלה חמישית ומעלה, אבל אני לא אדבר על זה כאן (והמתמטיקה המעורבת היא מסובכת יחסית, אם כי עדיין ברמה של תואר ראשון).

בואו נעבור לראות עוד שדות, פשוטים יותר. קודם ראינו שבאופן מעליב משהו, הקבוצה \( \left\{ 0\right\} \) היא כמעט שדה - הסיבה היחידה שהיא לא הייתה שדה היא הדרישה המפורשת שלנו ש-\( 0\ne1 \). אם כן, מה עם \( \left\{ 0,1\right\} \)? האם הקבוצה הזו היא כן שדה? לכאורה לא, כי פעולת החיבור מוציאה אותנו מגבולות השדה: \( 1+1=2 \). אבל נניח שהיינו רוצים שהקבוצה הזו תהיה שדה, איך היינו צריכים “לתקן” את פעולת החיבור? ובכן, אפשר להגדיר או \( 1+1=1 \) או \( 1+1=0 \). אבל ההגדרה הראשונה מובילה, אחרי העברת אגפים אל \( 1=0 \) שכבר אמרנו שאסור. לעומת זאת ההגדרה \( 1+1=0 \) היא מצוינת; היא לא גורמת לשום בעיות. עם ההגדרה הזו, \( \left\{ 0,1\right\} \) היא באמת שדה, שבדרך כלל מסומן בתור \( \mathbb{Z}_{2} \) או \( \mathbb{F}_{2} \) ותכף נבין את הניואנס שמבדיל בין הסימונים.

אם כן, \( \mathbb{F}_{2} \) הוא השדה הזעיר ביותר שקיים. בפרט יש בו מספר סופי של איברים, להבדיל מ-\( \mathbb{Q} \) האינסופי. האם יש עוד שדות שדומים ל-\( \mathbb{F}_{2} \)? נראה די מתבקש להסתכל על הקבוצה \( \mathbb{Z}_{3}=\left\{ 0,1,2\right\} \). ושוב, אנחנו נתקלים בבעיה כשאנחנו מסתכלים על \( 1+1+1 \) שלא יכול להיות שווה 3. הוא גם לא יכול להיות שווה 1 כי מ-\( 1+1+1=1 \) נקבל \( 2=0 \) ואז אין לנו שלושה איברים; והוא לא יכול להיות 2 כי אז \( 1+1+1=2 \) יגרור \( 1=0 \) כמו קודם; לכן אנחנו מגדירים \( 1+1+1=0 \).

מההגדרה הזו עולה גם מה אמור לצאת \( 2\cdot2 \), כי הרי \( 2=1+1 \) אז אפשר להשתמש בחוק הפילוג ולקבל \( 2\cdot2=\left(1+1\right)\left(1+1\right)=1+1+1+1=1 \). מה שקורה כאן בפועל הוא שב-\( \mathbb{Z}_{3} \) אנחנו נדחפים להגדיר את פעולות החיבור והכפל מודולו 3. כלומר - מבצעים חיבור או כפל רגילים, אבל אחר כך מחלקים את התוצאה ב-3 ולוקחים רק את השארית. בגלל ש-\( 1+1+1 \) מתחלק ב-3, השארית יוצאת 0 ולכן אנחנו מקבלים את השוויון \( 1+1+1=0 \) שממנו אפשר להסיק גם במקרה של \( 2\cdot2 \). עם ההגדרות הללו, \( \mathbb{Z}_{3} \) היא באמת שדה, שמסומן \( \mathbb{F}_{3} \).

את הרעיון הזה אפשר להכליל לכל מספר טבעי \( n \): מסמנים ב-\( \mathbb{Z}_{n} \) את הקבוצה \( \left\{ 0,1,2,\ldots,n-1\right\} \) של כל המספרים הטבעיים מאפס עד \( n-1 \); אם חושבים על זה רגע, זו קבוצת כל השאריות האפשריות שמתקבלות כשמחלקים מספר טבעי כלשהו ב-\( n \). פעולות החיבור והכפל מוגדרות על הקבוצה הזו כמו על מספרים טבעיים רגילים, אבל אחרי קבלת התוצאה מחלקים ב-\( n \) ולוקחים את השארית. לא קשה לראות ש-\( \mathbb{Z}_{n} \) הזו מקיימת את רוב התכונות היפות שדיברנו עליהן: חוקי הקיבוץ, החילוף והפילוג; קיום אדיש חיבורי (0) וקיום נגדי לכל איבר (הנגדי של \( a\ne0 \) הוא \( n-a \) והנגדי של 0 הוא 0); וקיום אדיש כפלי (1). אבל \( \mathbb{Z}_{n} \) הוא לא בהכרח שדה, והדוגמא הראשונה היא \( \mathbb{Z}_{4} \).

הבעיה הבסיסית ב-\( \mathbb{Z}_{4} \) היא ש-\( 2\cdot2=0 \), מה שמבטיח של-\( 2 \) לא יכול להיות הופכי, כי נניח שהיה \( x \) כלשהו כך ש-\( 2x=1 \), אז היינו כופלים את \( 2\cdot2=0 \) ב-\( x \) משני האגפים ומקבלים

\( 0=0\cdot x=2\cdot2x=2 \)

כלומר \( 0=2 \), מה שאנחנו מניחים שלא מתקיים. זו תוצאה שנכונה לא ל-2 אלא באופן כללי במבנה שקראתי לו חוג: אומרים ש-\( a,b \) הם מחלקי אפס אם \( ab=0 \) למרות ש-\( a\ne0 \) וגם \( b\ne0 \), ואפשר להוכיח בדיוק באותו אופן שראינו שמחלקי אפס לא יכולים להיות הפיכים.

כדי ש-\( \mathbb{Z}_{n} \) יהיה שדה, הכרחי שלא יהיו בו מחלקי אפס. מכיוון שאם יש \( a,b>0 \) כך ש-\( n=ab \) אז \( a,b \) כן יהיו מחלקי אפס, תנאי הכרחי לכך ש-\( \mathbb{Z}_{n} \) יהיה שדה הוא ש-\( n \) יהיה ראשוני. לא קשה להראות שזה גם תנאי מספיק, כלומר שאם \( p \) ראשוני אז \( \mathbb{Z}_{p} \) הוא שדה, ובמקרה הזה מסמנים את השדה ב-\( \mathbb{F}_{p} \). הנה הניואנס המדובר: \( \mathbb{Z}_{n} \) הוא סימון כללי עבור החוג שמשתמשים בו גם כשהחוג אינו שדה, אבל ב-\( \mathbb{F}_{n} \) משתמשים רק כשהוא שדה.

אם כן, קיבלנו עכשיו עושר של שדות חדשים: \( \mathbb{F}_{p} \) לכל אחד מאינסוף הראשוניים \( p \) הקיימים. בניגוד ל-\( \mathbb{Q} \) כל השדות הללו הם סופיים. האם אלו כל השדות הסופיים? ובכן, לא, אבל זו נקודת התחלה טובה. אפשר להוכיח שלכל מספר ראשוני \( p \) ולכל מספר טבעי \( n \) קיים שדה אחד ויחיד עם \( p^{n} \) איברים, שמסומן \( \mathbb{F}_{p^{n}} \), והשדה הזה מכיל את \( \mathbb{F}_{p} \) בתור תת-קבוצה.

איך בדיוק \( \mathbb{F}_{p^{n}} \) נראה? זה טיפה טריקי: אפשר לחשוב על אברי \( \mathbb{F}_{p^{n}} \) בתור פולינומים ממעלה קטנה מ-\( n \) שהמקדמים שלהם שייכים ל-\( \mathbb{F}_{p} \), למשל אפשר לחשוב על אברי \( \mathbb{F}_{7^{3}} \) בתור פולינומים כמו \( 2x+5 \) ו-\( 6x^{2}+2 \) ופעולת החיבור מוגדרת באופן הסטנדרטי עבור פולינומים, כך שבדוגמא שלי \( \left(6x^{2}+2\right)+\left(2x+5\right)=6x^{2}+2x+7=6x^{2}+2x \) (ה-\( 7 \) נעלם כי החיבור הוא מודולו 7 כי המקדמים של הפולינום הם איברים של \( \mathbb{F}_{7} \)). אבל כפל הוא לא כזה פשוט. הרעיון הוא שכופלים את הפולינומים, ואז מחלקים את התוצאה בפולינום ספציפי ממעלה \( n \) מעל \( \mathbb{F}_{p} \) שנבחר מראש. כדי שזה יעבוד ונקבל שדה הפולינום הזה צריך להיות אי פריק אבל אני גולש פה כבר לנושא לא קשור - הנה פוסט שלי שמתעסק בשדות סופיים ונכנס לפרטים הללו.

לסיום, בואו נעניק שם מפורש למושג המובלע שהשתמשנו בו בחלק הזה. אנחנו אומרים שהמציין של השדה \( \mathbb{F} \) הוא \( n \) אם לחבר את 1 לעצמו \( n \) פעמים מחזיר 0 אבל כל חיבור של 1 לעצמו מספר קטן יותר של פעמים הוא לא 0. למשל, המציין של \( \mathbb{F}_{7} \) הוא 7. כבר ראינו שהמציין של שדה חייב להיות מספר ראשוני, אם הוא קיים; אם לא משנה כמה פעמים נחבר את 1 לעצמו, תמיד נקבל משהו שונה מאפס, אומרים שהמציין של השדה הוא 0 (למשל, המציין של \( \mathbb{Q} \) הוא 0).

עכשיו כשאנחנו כבר מבינים פחות או יותר מה זה שדה, מה מפריד שדות מדברים דומים שאינם שדות, ויש לנו כמה דוגמאות קונקרטיות לשדות ובפרט \( \mathbb{Q} \) והשדות \( \mathbb{F}_{p} \), אפשר להתקדם הלאה ולעבור אל עוד אקסיומות שאפשר להוסיף לשדה והן פחות נפוצות באלגברה אבל סופר-שימושיות בחשבון דיפרנציאלי ואינטגרלי: אקסיומות סדר.

סדור

מה זה "מספר חיובי"?

כשאנחנו כותבים \( 3<5 \) אנחנו יודעים למה אנחנו מתכוונים: 5 גדול מ-3. הוא בא “אחריו” בסדר של המספרים. אנחנו הרי סופרים ככה: אחת, שתיים, שלוש, ארבע, חמש. שלוש בא קודם, חמש אחר כך, אז זה מסומן קומפקטית ב-\( 3<5 \). אז אינטואיציה יש, אבל איך מגדירים את זה פורמלית?

ההגדרה ה”סדרתית” לא תביא אותנו יותר מדי רחוק אם יש לנו שאיפות גדולות יותר מאשר לדבר על הטבעיים. אנחנו רוצים הגדרה שיהיה בה הגיון בהרבה שדות, למשל ב-\( \mathbb{Q} \). יש לנו את האינטואיציה לכך ש-\( \frac{1}{2}<\frac{3}{4} \), אבל איך זה מוגדר פורמלית? לנסות לסדר את השברים בסדרה כמו שעשינו עם הטבעיים זה כאב ראש שלא ייאמן (נסו!) אבל למרבה המזל יש לנו טריק פשוט מאוד: פשוט נסתכל על \( \frac{3}{4}-\frac{1}{2} \) ונשאל את עצמנו - האם זה מספר חיובי או שלילי?

כמובן, במבט ראשון לא פתרנו הרבה כי מה זה בכלל “מספר חיובי”? ההגדרה הפשוטה היא - מספר \( a \) הוא חיובי אם \( 0<a \), כלומר אני מגדיר חיוביים בעזרת הסימן \( < \) של “גדול מ-“. אבל היופי בעניין הוא שאני לא צריך את הסימן הזה כדי להגדיר חיובי. מלכתחילה אני קורא למספרים הטבעיים (בלי אפס) “החיוביים” ולנגדיים שלהם “השליליים”, אז אני יכול להתבסס על הדיכוטומיה הזו כדי להגדיר את \( < \) מלכתחילה.

זה נשמע קצת רעוע, אני מודה, אבל היופי פה שזה באמת עובד, וכדי לראות כמה טוב זה עובד אני אעשה את זה על שדה כללי, עם הגדרות אבסטרקטיות, ונראה כמה רחוק אפשר להגיע.

הרעיון הוא זה: נניח ש-\( \mathbb{F} \) הוא שדה כלשהו. עכשיו אנחנו מגדירים עליו מבנה חדש באמצעות קבוצה \( P\subseteq\mathbb{F} \) שאנחנו קוראים לאיברים שלה חיוביים. כדי שדברים יעבדו כמו שאנחנו מצפים, אנחנו דורשים שלוש אקסיומות מה”חיוביים” הללו:

לכל \( a\in\mathbb{F} \) בדיוק אחד מהבאים מתקיים: או ש-\( a\in P \), או ש-\( -a\in P \), או ש-\( a=0 \).
אם \( a,b\in P \) אז \( a+b\in P \)
אם \( a,b\in P \) אז \( a\cdot b\in P \)

זה הכל! האקסיומה הראשונה אומרת “כל איבר שונה מאפס הוא או חיובי או שלילי”. שתי האחרות אומרות “סכום ומכפלה של חיוביים הוא חיובי”. אלו בבירור תכונות שאנחנו מצפים מחיוביים לקיים ומתקיימות עבור \( \mathbb{N} \); מה שנראה קצת הזוי פה הוא שזה מספיק כדי להגדיר את יחס הסדר \( < \) ולהסיק את כל התכונות שלו, אבל למרבה השמחה זה בדיוק מה שקורה, ואנחנו קוראים בשם שדה סדור לשדה \( \mathbb{F} \) עם תת-קבוצה \( P \) שמקיימת את האקסיומות הללו.

בתור התחלה, בואו נשים לב ש-\( 1 \) הוא תמיד חיובי, לא משנה כמה מוזר ננסה ש-\( P \) תהיה. מכיוון ש-\( 0\ne1 \) יש ל-1 בדיוק שתי ברירות: או ש-\( 1\in P \) או ש-\( -1\in P \). אבל זכרו שראינו שמינוס כפול מינוס הוא פלוס (ואת זה ראינו עוד לפני שהתחלנו לדבר על חיוביים ושליליים!) אז אם \( -1\in P \), מהאקסיומה על כפל נקבל ש-\( 1=\left(-1\right)\cdot\left(-1\right)\in P \), בסתירה להנחה ש-\( -1\in P \). אז המסקנה שלנו היא ש-\( 1\in P \) ואילו \( -1\notin P \), כלומר 1 הוא תמיד חיובי ו-\( -1 \) הוא תמיד שלילי. עכשיו אפשר להשתמש בסגירות של \( P \) לחיבור כדי לקבל שבכל שדה סדור, כל האיברים מהצורה \( n \) (חיבור של \( 1 \) לעצמו \( n \) פעמים) הם חיוביים וכל האיברים מהצורה \( -n \) הם שליליים. במילים אחרות, כל שדה סדור ממציין 0 מכיל עותק של \( \mathbb{Z} \) ששומר על המשמעות המקורית של “חיוביים” ו”שליליים” ב-\( \mathbb{Z} \).

ההגדרה של \( P \) השתמשה בצורה מהותית באיברים נגדיים, אבל מה עם איברים הופכיים? אם \( a\in P \), האם גם \( a^{-1}\in P \)? התשובה חיובית. ראשית שימו לב ש-\( a^{-1} \) בכלל מוגדר; אם היה מתקיים \( a=0 \) הוא לא היה מוגדר, אבל \( a\in P \) ולכן \( a\ne0 \). שנית, בגלל ש-\( a^{-1}\ne0 \) מאותו נימוק, אז או ש-\( a^{-1}\in P \) או ש-\( -a^{-1}\in P \). בואו נניח בשלילה שדווקא המקרה השני מתקיים, אז בגלל שגם \( a\in P \) נקבל \( -1=\left(-a^{-1}\right)\cdot a\in P \) וזו סתירה, לכן \( a^{-1}\in P \).

התוצאה שזה עתה ראיתי מאפשרת לי לדבר על \( \mathbb{Q} \). כזכור, כל שדה ממציין 0 מכיל יותר מאשר עותק של \( \mathbb{Z} \) - הוא מכיל עותק של \( \mathbb{Q} \); האם גם בו נשמרת המשמעות המקורית של “חיוביים” ו”שליליים”? כל מספר רציונלי ניתן לכתיבה בתור \( \frac{a}{b} \), שזו דרך אחרת לכתוב את הביטוי \( a\cdot b^{-1} \) שמשתמש ישירות באקסיומות השדה. כך ש-\( b\ne0 \). אם \( a=0 \) אז \( \frac{a}{b}=0 \). אחרת, אם \( a\in P \) וגם \( b\in P \) אז \( b^{-1}\in P \) ממה שראינו ולכן \( ab^{-1}\in P \). באופן דומה, אם \( -a,-b\in P \) נקבל שוב \( \frac{a}{b}\in P \) ואילו אם \( a,-b\in P \) או \( -a,b\in P \) נקבל ש-\( -ab^{-1}\in P \) . זה תואם את המשמעות הרגילה של חיוביים והשליליים עבור הרציונליים.

מה עם שדות שהם לא ממציין 0, למשל \( \mathbb{F}_{5} \)? באופן די מובהק פשוט לא ניתן להגדיר עליהם סדר. כי אם \( \mathbb{F} \) הוא שדה ממציין \( n \), אז מצד אחד \( 1,n-1 \) שניהם חיוביים ממה שכבר ראינו, אבל אז גם \( 1+\left(n-1\right) \) צריך להיות חיובי - אבל הוא יוצא 0, ו-0 הוא לא חיובי. אז מלכתחילה כשאנחנו מדברים על “שדה סדור” אנחנו מתכוונים לשדה ממציין 0 (ובפרט, אין שדה סדור סופי).

איך מגדירים סדר וערך מוחלט בעזרת החיוביים

עכשיו בואו נשתמש בחיוביים והשליליים כדי להגדיר יחס סדר \( < \), ונעשה את זה על פי הרעיון האינטואיטיבי שכבר ראינו קודם: נאמר ש-\( a<b \) אם \( b-a\in P \). ונרחיב את הסימון כך ש-\( a\le b \) אם \( a<b \) או \( a=b \).

אנחנו רגילים לחשוב על \( \le \) בתור יחס סדר, כלומר משהו שמקיים שלוש אקסיומות משל עצמו:

\( a\le a \) לכל \( a \) ("רפלקסיביות")
אם \( a\le b \) וגם \( b\le a \) אז \( a=b \) ("אנטיסימטריות")
אם \( a\le b \) וגם \( b\le c \) אז \( a\le c \) ("טרנזיטיביות")

אפשר להוכיח ש-\( \le \) שלנו מקיים את שלוש התכונות הללו.

רפלקסיביות זה פשוט על פי הגדרה: אמרנו שאם \( a=b \) אז \( a\le b \) אז ברור שלכל \( a \) מתקיים \( a\le a \).

אנטיסימטריות זה גם כן די פשוט. אם \( a=b \) סיימנו, אחרת נניח ש-\( a\ne b \) ולכן ההנחות שלנו הן ש-\( a<b \) וגם \( b<a \), כלומר על פי ההגדרה שלנו \( b-a\in P \) וגם \( a-b\in P \). עכשיו, שימו לב ש-\( a-b=-\left(b-a\right) \) (צריך להוכיח את זה מאקסיומות השדה אבל זה קל) אז הגענו לסתירה: מצאנו איבר שגם הוא וגם הנגדי שלו שייכים שניהם ל-\( P \), בסתירה לאקסיומה שאומרת שבדיוק אחד משניהם שייך ל-\( P \). המסקנה היא שההנחה ש-\( a\ne b \) לא הייתה נכונה ולכן \( a=b \), שזה מה שרצינו.

עבור הטרנזיטיביות, הנתון שלנו הוא \( a\le b \) וגם \( b\le c \). אם \( a=b \) אז מ-\( b\le c \) ברור ש-\( a\le c \) (פשוט כותבים \( a \) במקום \( b \)) ובדומה אם \( b=c \) אז מ-\( a\le b \) ברור ש-\( a\le c \). לכן נשאר לנו להוכיח רק שאם \( a<b \) וגם \( b<c \) אז \( a\le c \). משתי ההנחות הללו אנחנו מקבלים \( b-a\in P \) וגם \( c-b\in P \) ועל פי הסגירות של \( P \) לחיבור נקבל ש-\( c-a=\left(c-b\right)+\left(b-a\right)\in P \), כמו שרצינו.

בתורת הקבוצות כשמדברים על יחסי סדר, שלוש האקסיומות למעלה מגדירות את מה שנקרא סדר חלקי. בסדר חלקי, ייתכן שיהיו איברים שבכלל אי אפשר להשוות ביניהם, וזה יכול לסבך מאוד דברים. אצלנו, ביחס הסדר של שדה סדור, זה פשוט לא יכול לקרות ויחס הסדר יהיה מה שנקרא מלא, כלומר לכל \( a,b\in\mathbb{F} \) או שמתקיים \( a<b \) או שמתקיים \( b<a \) או שמתקיים \( a=b \). זה נובע ישירות מכך ש-\( b-a\in P \) או ש-\( -\left(b-a\right)\in P \) או ש-\( b-a=0 \), כלומר מהאקסיומה הראשונה שהייתה לנו על \( P \).

הוכחנו כאן ש-\( \le \) הוא יחס סדר כמו שלומדים בקורס בתורת הקבוצות, אבל למה לעצור כאן? בואו נוכיח את הטענות שראינו בבית הספר! למשל, שאם \( x<y \) ובנוסף \( a>0 \) אז \( ax<ay \). כדי להוכיח את זה, נסתכל על \( ay-ax=a\left(y-x\right) \). מכך ש-\( x<y \) אנחנו מקבלים ש-\( y-x\in P \) ומכך ש-\( a>0 \) אנחנו מקבלים ש-\( a\in P \) (כי \( a=a-0\in P \)) ולכן המכפלה שלהם גם שייכת ל-\( P \) וקיבלנו את מה שרצינו.

עוד דבר שראינו בבית הספר הוא שכפל במספר שלילי הופך את כיוון אי השוויון, כלומר אם \( x<y \) ו-\( a<0 \) אז \( ax>ay \). כדי להוכיח את זה, בואו נסתכל על \( ax-ay=a\left(x-y\right)=-a\left(y-x\right) \). מכיוון ש-\( x<y \) אז \( y-x\in P \) ומכיוון ש-\( a<0 \) אז \( -a\in P \) ולכן שוב קיבלנו מכפלה ששייכת ל-\( P \), כפי שרצינו.

ועוד דבר שראינו בבית הספר הוא שגם לקחת הופכי לשני האגפים של אי שוויון במספרים חיוביים הופך את כיוון אי השוויון. כלומר, אם \( 0<x<y \) אז \( x^{-1}>y^{-1} \). כדי לראות את זה, פשוט נכפול את שני האגפים של \( x<y \) ב-\( x^{-1} \) מצד שמאל ואז נכפול את שני האגפים ב-\( y^{-1} \) מצד ימין ונקבל \( y^{-1}<x^{-1} \). הכל מסתדר מאוד נחמד.

עוד משהו נחמד הוא שעכשיו אנחנו יכולים להגדיר ערך מוחלט. זו פונקציה קטנה ותמימה למראה שהופכת לקריטית ממש כשמתחילים לדבר על חשבון דיפרנציאלי ואינטגרלי, וקל להגדיר אותה בכל שדה סדור (אפשר להגדיר אותה גם בשדות לא סדורים אבל זה סיפור אחר). לכל \( x \) נגדיר

\( \left|x\right|=\begin{cases} x & x\ge0\\ -x & x<0 \end{cases} \)

ומה שנחמד לראות הוא שכבר בהגדרה האבסטרקטית הזו, מתקיימות התכונות הבסיסיות שאנחנו רגילים אליהן מערך מוחלט “רגיל” ואפשר להוכיח אותן מהכמות הבאמת זעומה של אקסיומות שעליהן הסתמכנו.

ראשית, אם \( x\ne0 \), אז גם \( \left|x\right|\ne0 \), פשוט כי אם \( x\ne0 \) אז \( \left|x\right| \) הוא או \( x \) או \( -x \) ושניהם שונים מאפס.

שנית, לכל \( x,y\in\mathbb{F} \) מתקיים \( \left|xy\right|=\left|x\right|\cdot\left|y\right| \), כלומר פונקציית הערך המוחלט היא כפלית. את זה אפשר לראות למשל על ידי בדיקה מפורשת של כל: למשל, אם \( x,y\ge0 \) אז \( \left|x\right|=x,\left|y\right|=y \) וכמו כן \( xy\ge0 \) ולכן \( \left|xy\right|=xy=\left|x\right|\left|y\right| \). והנה דוגמא טיפה יותר מסובכת: אם \( x\ge0 \) אבל \( y<0 \) אז \( xy\le0 \) ולכן נצטרך לחלק פה למקרים: אם \( x=0 \) אז \( xy=0=0\cdot\left|y\right|=\left|x\right|\cdot\left|y\right| \) . לעומת זאת אם \( x>0 \) אז \( xy<0 \) ולכן \( \left|xy\right|=-xy=x\left(-y\right)=\left|x\right|\left|y\right| \), וכן הלאה.

התכונה השלישית היא המעניינת מכולן: אי-שוויון המשולש, שאפילו שמו מגיע לו מגאומטריה שפשוט לא קיימת כאן, בעולם של ההגדרות האלגבריות הטהורות:

הטריק בהוכחה הוא לשים לב שלכל \( a\in\mathbb{F} \) מתקיים \( \left|a\right|^{2}=a^{2} \) פשוט כי אם \( a\ge0 \) זה ברור ואם \( a<0 \) אז \( \left|a\right|^{2}=\left(-a\right)\left(-a\right)=a^{2} \) כי מינוס כפול מינוס זה פלוס, כמו שראינו. אז אפשר לכתוב:

\( \left|x+y\right|^{2}=\left(x+y\right)^{2}=x^{2}+2xy+y^{2}\le \)

\( \left|x\right|^{2}+2\left|xy\right|+\left|y\right|^{2}=\left|x\right|^{2}+2\left|x\right|\left|y\right|+\left|y\right|^{2}=\left(\left|x\right|+\left|y\right|\right)^{2} \)

הגענו אל המסקנה \( \left|x+y\right|^{2}\le\left(\left|x\right|+\left|y\right|\right)^{2} \). מה שאנחנו באמת רוצים לעשות הוא “להוציא שורש” משני האגפים. כלומר, להראות שאם \( a,b\ge0 \) שניהם וגם \( a^{2}\le b^{2} \) אז \( a\le b \). הנה דרך אחת להראות את זה: אם \( a^{2}\le b^{2} \) אז \( b^{2}-a^{2}\ge0 \) אבל \( b^{2}-a^{2}=\left(b-a\right)\left(b+a\right) \). עכשיו, הנחנו ש-\( a,b\ge0 \) ולכן \( b+a\ge0 \). מכאן שאם לא היה מתקיים \( a\le b \) אז היה מתקיים \( b-a<0 \) מה שהיה גורר ש-\( b^{2}-a^{2}<0 \), בסתירה להנחה המקורית שלנו. זה מסיים את ההוכחה של אי שוויון המשולש.

ארכימדיות

אני רוצה לתת עכשיו עוד הגדרה די מהותית, שתהפוך להיות חשובה מאוד בהמשך: ארכימדיות של שדה סדור (מארכימדס, המתמטיקאי היווני). דרך אחת לנסח את תכונת הארכימדיות של שדה סדור \( \mathbb{F} \) היא שלכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \) . כאן צריך לחדד שב-\( \mathbb{Z} \) הכוונה שלי היא לתת-הקבוצה של \( \mathbb{F} \) שנוצרת על ידי חיבור/חיסור של \( 1 \) לעצמו (זכרו שמקבלים את \( \mathbb{Z} \) רק אם השדה ממציין 0, אבל אם הוא לא ממציין 0 הוא בפרט לא סדור). במילים אחרות, האיברים של השדה אף פעם לא “בורחים” מבחינת גודלם למספרים הטבעיים.

יש עוד כמה דרכים לראות את זה. ראשית, ארכימדיות הוגדרה בתור “קיים \( n \) גדול יותר” אבל מזה נובע מייד גם “קיים \( n \) קטן יותר”, כלומר לכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( n<a \). כדי לראות את זה, פשוט נפעיל ארכימדיות “רגילה” על \( -a \), נקבל שקיים \( n^{\prime} \) כך ש-\( -a<n^{\prime} \), נכפול את שני האגפים ב-\( -1 \), מה שכבר ראינו שהופך את הסדר, נסמן \( n=-n^{\prime} \) ונקבל \( n<a \).

שנית, “קיים מספר טבעי גדול כרצוננו” זה אותו הדבר כמו “קיים מספר רציונלי חיובי קטן כרצוננו”. כלומר, לכל \( a>0 \) קיים \( n\in\mathbb{Z} \) כך ש-\( \frac{1}{n}<a \) - כדי לראות את זה, ניקח \( n \) כך ש-\( a^{-1}<n \) ואז ניקח הופכי לשני האגפים ונקבל \( \frac{1}{n}<a \).

עוד דרך לחשוב על זה, שאני אוהב במיוחד, היא זו: בואו ניקח \( \varepsilon>0 \) כלשהו, כשהאינטואיציה היא לחשוב על \( \varepsilon \) בתור משהו ממש ממש קטן (זה השימוש הסטנדרטי של האות הזו בחדו”א). בואו ניקח גם \( M>0 \) כלשהו, כשהאינטואיציה היא לחשוב עליו בתור מספר ממש ממש ענק. אז ארכימדיות פירושה שקיים \( n \) כך ש-\( n>\frac{M}{\varepsilon} \), או במילים אחרות \( n\varepsilon>M \). זה אומר שלא משנה עד כמה משהו קטן - אם אנחנו בשדה ארכימדי, לחבר אותו מספר פעמים לעצמו יגרום לו לעבור בגודלו כל מספר כולל ענקיים.

כמובן, שאלה מתבקשת עכשיו היא אילו שדות סדורים הם לא ארכימדיים. התשובה היא שיש כאלו, אבל להציג אותם קונקרטית יהיה מתוסבך מדי אם אני רוצה לסיים מהר את החלק הזה. עדיין, בואו נחשוב מה המשמעות של קיום שלהם. יש למשל שדה לא ארכימדי שמרחיב את הממשיים, \( \mathbb{R} \) (שדה ה”היפר-ממשיים”). בשדה כזה יהיה איבר \( \omega \) כך ש-\( n<\omega \) לכל \( n \) טבעי; על \( \omega \) הזה אפשר לחשוב בתור איבר מגודל “אינסופי”. מכיוון שאנחנו בשדה קיים לו הופכי, \( \omega^{-1} \); אי השוויון \( n<\omega \) מלמד אותנו ש-\( \omega^{-1}<\frac{1}{n} \). כלומר נקבל ש-\( \omega^{-1} \) קטן מכל מספר ממשי (כי לכל מספר ממשי קיים \( \frac{1}{n} \) שקטן ממנו); \( \omega^{-1} \) הוא מה שמכונה במתמטיקה מודרנית “אינפיניטסימל” (מושג שהייתה לו משמעות הרבה יותר רופפת בימי התהוות החדו”א).

הקיום של שדות לא ארכימדיים שמכלילים את הממשיים הוא מבחינתי תמרור אזהרה עצום להגדרה של הממשיים בתור “כל המספרים על ציר המספרים”. הגישה הזו מניחה שהאינפיניטסימל \( \omega^{-1} \) בכלל לא נמצא על ציר המספרים. עוד הייתי יכול להבין טענות ש-\( \omega \) לא נמצא עליו כי הוא אי שם הרחק באינסוף רחוק רחוק - אבל לטעון ש-\( \omega^{-1} \) הוא לא על ציר המספרים, בהינתן כמה שהוא קרוב לאפס - זה כבר מוזר. אני אישית לא מצליח לחשוב על דרך טובה לנמק למה אסור למה שאנחנו קוראים לו “ציר המספרים” לכלול את \( \omega^{-1} \) בלי פשוט לומר “אנחנו מגדירים את ציר המספרים להיות \( \mathbb{R} \)” וחסל (זו הגישה שלי), מה שכמובן מונע מאיתנו להגדיר את \( \mathbb{R} \) בתור ציר המספרים.

צפיפות

לפני שנמשיך לחלק הבא, יש עוד תכונה סופר-חשובה אחת שתהיה סופר-שימושית בהמשך שכבר אפשר לדבר עליה. מה ההבדל העקרוני בין \( \mathbb{Z} \) ובין \( \mathbb{Q} \) בתור חוגים סדורים? ובכן, \( \mathbb{Q} \) הוא לא סתם חוג אלא שדה וזה באמת הבדל מהותי, אבל אני חושב יותר על הבדל שקשור ליחס הסדר עצמו. ב-\( \mathbb{Z} \), מתקיים למשל אי השוויון \( 3<4 \), ויוצא שבין שני המספרים הללו אין עוד איבר נוסף - אני יכול “לדלג בצעד אחד” מ-\( 3 \) אל \( 4 \). לעומת זאת ב-\( \mathbb{Q} \) אין דבר כזה: לכל \( a,b\in\mathbb{Q} \) כך ש-\( a<b \) קיים \( c\in\mathbb{Q} \) כך ש-\( a<c<b \). התכונה הזו, של קיום איבר בין כל זוג איברים שונים זה מזה נקרא צפיפות ובאמת שהוא חשוב בצורה בלתי רגילה. אז ההבדל בין \( \mathbb{Z} \) ובין \( \mathbb{Q} \) שרציתי לדבר עליו: יחס הסדר של \( \mathbb{Z} \) לא צפוף אבל של \( \mathbb{Q} \) כן.

המקרה של \( \mathbb{Z} \) מראה לנו שקיימים חוגים סדורים שאינם צפופים. אבל האם כל שדה סדור הוא צפוף? ובכן, כן, בצורה לא מעניינת: יהיו \( a<b \) איברים כלשהם של שדה סדור \( \mathbb{F} \), אז \( a=\frac{a+a}{2}<\frac{a+b}{2}<\frac{b+b}{2}=b \) ולכן \( \frac{a+b}{2} \) הוא איבר שנמצא בין \( a \) לבין \( b \). בגלל שזה היה פשוט מדי, אנחנו יכולים לחפש תכונת צפיפות עוד יותר יעילה. מה שהוכחתי הוא שבכל שדה סדור \( \mathbb{F} \), לכל זוג איברים \( a,b\in\mathbb{F} \) קיים \( c\in\mathbb{F} \) כך ש-\( a<c<b \). עכשיו, בגלל ש-\( \mathbb{F} \) שדה סדור הוא ממציין 0 ולכן מכיל עותק של \( \mathbb{Q} \), ואני יכול להראות שהעותק הזה של \( \mathbb{Q} \) צפוף בתוך \( \mathbb{F} \) במובן הזה שאת ה-\( c \) שנמצא בין כל \( a,b\in\mathbb{F} \) אני יכול לבחור מתוך \( \mathbb{Q} \). למה ההוכחה הנוכחית לא עובדת? כי אני בונה את \( c \) שלי בתור הסכום \( \frac{a+b}{2} \), מה שנותן לי משהו שאנחנו רק יודעים עליו שהוא איבר כללי ב-\( \mathbb{F} \) ולכן לא חייב להיות רציונלי. ובאמת, עבור \( \mathbb{F} \) לא ארכימדי אני לא אוכל לקבל צפיפות של \( \mathbb{Q} \) בתוך \( \mathbb{F} \). אבל אם \( \mathbb{F} \) ארכימדי, אפשר להוכיח את זה.

הנקודה המרכזית היא שאם \( b-a>1 \), אז קל למצוא איבר רציונלי ביניהם, ולא סתם רציונלי אלא ממש מספר שלם. למה? ובכן, התכונה הארכימדית אומרת לנו שקיים \( m \) שלם כך ש-\( a<m \). יש הרבה \( m \)-ים כאלו, אבל אני יכול לבחור מתוכם את המינימלי. זה דורש נימוק בפני עצמו, אבל הנה נימוק זריז: ראשית, מכיוון שהשדה ארכימדי קיים \( n_{1} \) כך ש-\( n_{1}<a \) וגם קיים \( n_{2} \) כך ש-\( a<n_{2} \). עכשיו אפשר להסתכל על הקבוצה \( \left\{ n\in\mathbb{Z}\ |n_{1}\le n\le n_{2},a<n\right\} \). זו קבוצה סופית כי יש רק מספר סופי של שלמים בין \( n_{1} \) ל-\( n_{2} \) - בדיוק \( n_{2}-n_{1}+1 \) כאלו. כמו כן זו לא קבוצה ריקה, כי לפחות עבור \( n_{2} \) אנחנו יודעים ש-\( a<n_{2} \). לכן קיים לה איבר מינימלי \( m \) (אני עוד מעט אדבר על איברים מינימליים יותר בפירוט, למי שעדיין חשדנים). ה-\( m \) הזה יקיים ש-\( a<m \) אבל \( m-1<a \).

עכשיו, נתון לי ש-\( b-a>1 \), כלומר \( a+1<b \). ניקח את \( m-1<a \), נחבר 1 לשני האגפים, ונקבל \( m<a+1<b \); קיבלנו ש-\( a<m<b \), כמו שרצינו.

זה מסיים את הוכחת הצפיפות למקרה של \( b-a>1 \). באופן כללי, אם \( a<b \) אז \( b-a>0 \) ולכן ארכימדיות נותנת לנו שקיים \( n>0 \) שלם כך ש-\( \frac{1}{b-a}<n \). נכפול את שני האגפים ב-\( b-a \) ונקבל \( 1<bn-an \), ועכשיו אני יכול להשתמש במה שהוכחתי לפני רגע ולהראות שקיים \( m \) שלם כך ש-\( an<m<bn \). לסיום אני אחלק את כל האגפים ב-\( n \) ואקבל \( a<\frac{m}{n}<b \), וסיימנו! זה לא היה קל במיוחד אבל זו תוצאה שימושית ביותר.

שלם

מה בעצם חסר?

בשלב הזה אנחנו יודעים מה זה שדה סדור, וגם יש לנו דוגמא טובה לשדה סדור שכזה: \( \mathbb{Q} \). אז מה עוד אנחנו צריכים?

ובכן, ראשית אנחנו צריכים מספרים. חסרים לנו מספרים. לא יעלה על הדעת שנסתפק במספרים שיש ב-\( \mathbb{Q} \). אם אני מצייר ריבוע עם אורך צלע 1 ומותח בו אלכסון, האורך של האלכסון הזה יהיה \( \sqrt{2} \) (נובע ממשפט פיתגורס). אבל \( \sqrt{2}\notin\mathbb{Q} \), אז חסרים לי מספרים. אני רוצה לפחות את כל השורשים \( \sqrt{n} \) לכל \( n\ge0 \). ולמה לא גם את השורשים השלישיים, \( \sqrt[3]{n} \)? ובעצם שיהיה \( \sqrt[k]{n} \) לכל \( n\ge0 \) ו-\( k>0 \). אפשר אפילו להגדיל ולומר שאני רוצה את כל המספרים האלגבריים, כלומר כל המספרים שאני יכול לקבל בתור שורשים של פולינום עם מקדמים רציונליים, אבל אני מעדיף לא ללכת לכיוון של טענות כאלו כי הן שוב מניחות שאני כבר מכיר את “העולם הרחב” של המספרים ופשוט גוזר מתוכו תת-קבוצה מעניינת, וכרגע אני רק רוצה להצביע על מספרים קונקרטיים שברור שחסרים לי. גם \( \pi \) חסר. גם \( e \) חסר. בקיצור, \( \mathbb{Q} \) ממש לא מספיק.

העניין הוא שאם אני אוסיף את כל המספרים הללו, הכל הולך ממש להסתבך. ראיתי למשל שאם אני מוסיף את \( \sqrt{2} \) ל-\( \mathbb{Q} \) ו”סוגר” את הקבוצה כך שעדיין אקבל שדה, אני אצטרך להוסיף את כל האיברים מהצורה \( a+b\sqrt{2} \) כך ש-\( a,b\in\mathbb{Q} \). אם אני אוסיף את \( \pi \) זה יהיה יותר בעייתי - אני אצטרך להוסיף את כל האיברים מהצורה \( a_{0}+a_{1}\pi+a_{2}\pi^{2}+a_{3}\pi^{3}+\ldots+a_{k}\pi^{k} \). אבל אפילו זה לא מספיק, כי מכיוון ש-\( \pi>1 \) אז \( 0<\pi^{-1}<1 \) ולכן אני יכול לקחת סכומים אינסופיים של חזקות שליליות של \( \pi \) ולצפות שזה יתכנס למשהו, ובעצם אני מכניס לתמונה המון שיקולים של חדו”א למרות שעדיין לא פיתחתי את החדו"א כי אין לי איפה כי החדו”א הרי מתחיל מזה שמדברים על השדה שבו האקשן הולך להתרחש. בקיצור, כל הגישה הזו של “בואו נרחיב את \( \mathbb{Q} \) עם איברים קונקרטיים” היא קצת מבורחשת, ואני לא רוצה לנקוט בה בכלל (וגם הבניות הקונקרטיות של \( \mathbb{R} \) שאראה בהמשך לא עושות את זה).

מה שאני אעשה, כמו קודם, הוא לשאול את עצמי - איזו אקסיומה חסרה לי? איזו תכונה נוספת של השדה הסדור שאני בונה תיתן לי את מה שאני צריך? וכאן מגיעות בשורות טובות נחמדות מאוד: יש אקסיומה אחת, פשוטה יחסית לניסוח מילולי ודי אינטואיטיבית מבחינת מה שהיא עושה, שהיא כל מה שחסר לי. מרגע שאוסיף אותה אקבל את \( \sqrt{2} \) ואת \( \pi \) ואת \( e \) ואת כל המספרים שחסרים לי, והשדה שאני בונה יהפוך להיות מקום ממש נחמד שבו אפשר להוכיח את כל משפטי הבסיס של החדו”א (שלא אציג בפוסט הזה אבל נראה בהמשך למה הם צריכים דווקא את האקסיומה הזו). האקסיומה המושלמת הזו נקראת אקסיומת השלמות (באנגלית משחק המילים הדלוח הזה לא עובד; היא נקראת Axiom of Completeness). הנה הניסוח שלה, ותכף אסביר מה הוא אומר: לכל קבוצה לא ריקה וחסומה מלעיל קיים חסם עליון.

מה זו קבוצה אנחנו יודעים. בהקשר שלנו יש לנו שדה \( \mathbb{F} \) ו”קבוצה” היא בסך הכל אוסף של איברים מתוכו, מה שמסומן ב-\( A\subseteq\mathbb{F} \). הקבוצה הריקה מסומנת ב-\( \emptyset \) אז כדי להגיד שקבוצה לא ריקה אנחנו כותבים \( A\ne\emptyset \). החלק הבאמת מעניין בהגדרה הוא זה שמערב את המילה “חסם” להטיותיה השונות.

חסמים

קבוצה חסומה זה כבר עניין של הכנסת יחס הסדר \( \le \) לתמונה. אנחנו אומרים ש-\( A \) חסומה מלעיל (“חסומה מלמעלה”) אם קיים \( b\in\mathbb{F} \) כך שלכל \( a\in A \) מתקיים \( a\le b \). יש כמובן גם הגדרה מקבילה עבור חסם מלמטה: אומרים ש-\( A \) חסומה מלרע אם קיים \( b\in\mathbb{F} \) כך שלכל \( a\in A \) מתקיים \( b\le a \), ואנחנו אומרים ש-\( A \) חסומה אם היא חסומה גם מלעיל וגם מלרע (למרות שבטח לפעמים יתפקשש לי סתם “חסומה” גם על קבוצה שחסומה רק מכיוון אחד). הנה כמה דוגמאות פשוטות עבור המקרה של \( \mathbb{F}=\mathbb{Q} \): הקבוצה \( A=\mathbb{N} \) היא חסומה מלרע (על ידי 0, למשל) אבל לא חסומה מלעיל. לעומת זאת הקבוצה \( \left\{ \frac{1}{n}\ |\ n\in\mathbb{N}^{+}\right\} \) (\( \mathbb{N}^{+} \) פירושו הטבעיים פרט ל-0, ולא משנה אם בהגדרה שלנו הטבעיים כוללים את 0 או לא) חסומה גם מלרע (על ידי 0 שוב) וגם מלעיל (על ידי 1). שימו לב להבדל בין שני החסמים: בעוד ש-1 הוא איבר של הקבוצה (\( 1=\frac{1}{1} \)), 0 הוא לא איבר של הקבוצה. על 1 אנחנו אומרים שהוא גם איבר מקסימלי של הקבוצה, אבל מה נגיד על 0? ובכן, נגיד שהוא חסם תחתון, אבל אני מקדים את המאוחר.

ראשית בואו נדבר על מינימום ומקסימום. אם \( A \) קבוצה, וקיים \( a\in A \) כך ש-\( b\le a \) לכל \( b\in A \) אז אומרים ש-\( a \) הוא המקסימום של \( A \) ומסמנים \( a=\max A \). באופן דומה, אם קיים \( a\in A \) כך ש-\( a\le b \) לכל \( b\in A \) אז אומרים ש-\( a \) הוא המינימום של \( A \) ומסמנים \( a=\min A \). לקבוצה יכול להיות רק מקסימום יחיד, כי אם \( a,a^{\prime} \) שניהם מקיימים את ההגדרה אז בגלל ששניהם איברים בקבוצה, מתקיים גם \( a\le a^{\prime} \) וגם \( a^{\prime}\le a \) ומאנטיסימטריות נובע ש-\( a=a^{\prime} \), ובאופן דומה גם המינימום הוא יחיד, אם הוא קיים. אבל הוא לא חייב להיות קיים, ובואו נראה מה יכול להשתבש.

ראשית, אם \( A=\emptyset \) אז לא יכול להיות בה מקסימום מהטעם הפשוט שמקסימום חייב להיות איבר בקבוצה וזה קצת קשה עבור קבוצה בלי איברים. שנית, אם \( A \) לא חסומה מלעיל אז מן הסתם לא יהיה לה מקסימום, כי אם אין בכלל מישהו שגדול או שווה לכל אברי הקבוצה, ברור שלא יהיה מישהו שהוא גם בקבוצה וגם גדול או שווה לכל איבריה. אבל גם בלי שתי הבעיות הברורות האלו, עדיין יכולות להיות קבוצות שהן לא ריקות, חסומות מלעיל ואין להן מקסימום. הנה דוגמא - הקבוצה

\( \left\{ 0.9,0.99,0.999,\ldots\right\} \)

אפשר לחשוב על האיברים בקבוצה הזו כאילו הם עולים ועולים, \( 0.9<0.99<0.999<\ldots \), אבל הם אף פעם לא עוברים את 1. מצד שני, הם גם לא מגיעים אל 1, כי כל איבר בקבוצה הזו הוא מהצורה \( 1-\frac{1}{10^{n}} \) עבור \( n\ge1 \), ולכן תמיד קטן מ-1. אם הייתי מוסיף את 1 לקבוצה, אז הוא היה האיבר המקסימלי שלה; אבל הוא לא שם.

שימו לב שהסיטואציה הזו דרשה ממני קבוצה עם אינסוף איברים. אם יש קבוצה לא ריקה עם מספר סופי של איברים, תמיד קיים לה מקסימום. הנה הוכחה פשוטה: לקבוצה בת איבר אחד יש מקסימום - האיבר האחד הזה. נניח באינדוקציה שלקבוצה בת \( n \) איברים יש תמיד מקסימום; תהא \( A=\left\{ a_{1},\ldots,a_{n},a_{n+1}\right\} \) קבוצה עם \( n+1 \) איברים. אז לקבוצה \( A^{\prime}=\left\{ a_{1},\ldots,a_{n}\right\} \) יש מקסימום, \( b=\max A^{\prime} \). עכשיו, אם \( a_{n+1}>b \) אז קל לראות ש-\( \max A=a_{n+1} \) ואחרת קל לראות ש-\( \max A=b \). זה מוכיח פורמלית את הטיעון שהשתמשתי בו קודם, כשהוכחתי ש-\( \mathbb{Q} \) היא קבוצה צפופה ב-\( \mathbb{F} \).

עכשיו אפשר סוף סוף לסיים את הגדרת אקסיומת השלמות. כזכור, היא אומרת “לכל קבוצה לא ריקה וחסומה מלעיל קיים חסם עליון” אז רק נשאר להסביר מה זה חסם עליון, וזה קל: זה החסם מלעיל המינימלי של הקבוצה אם הוא קיים. באופן דומה מגדירים חסם תחתון בתור החסם מלרע המקסימלי, אם הוא קיים. לשני אלו יש שמות שאני מחבב קצת יותר מאשר “חסם עליון” (שלטעמי הוא תרגום לא טוב של least upper bound כי החלק של ה-least התפספס) - סופרמום לחסם עליון ואינפימום לחסם תחתון. והם מוגדרים פורמלית כך:

\( \sup A=\min\left\{ b\in\mathbb{F}\ |\ \forall a\in A:a\le b\right\} \)

\( \inf A=\max\left\{ b\in\mathbb{F}\ |\ \forall a\in A:b\le a\right\} \)

בואו נדבר על ההגדרה של סופרמום (הדיון על אינפימום יהיה זהה, אבל מעצבן להתייחס לשניהם בבת אחת). ההגדרה של סופרמום דורשת לקחת מינימום על קבוצת כל החסמים העליונים של \( A \). ראינו כבר שלקיחת מינימום היא פעולה “מסוכנת” כי הוא עשוי לא להיות קיים, וראינו שלוש בעיות אפשריות: ראשית, אם הקבוצה שעליה לוקחים מינימום היא ריקה - במקרה שלנו זה אומר שאין ל-\( A \) חסמים מלעיל, כלומר שהיא לא חסומה. אז אוקיי, \( \sup A \) לא מוגדר אם \( A \) לא חסומה מלעיל, נשמע הגיוני.

הבעיה השניה היא אם הקבוצה שעליה לוקחים מינימום היא לא חסומה מלרע. זה אומר שלכל \( b \), לא משנה כמה קטן, עדיין תתקיים התכונה שלכל \( a\in A \) מתקיים \( a\le b \). זה לא ממש הגיוני, כי אם ניקח \( b=a-1 \) עבור \( a\in A \) כלשהו נקבל מישהו שהוא כבר לא חסם מלעיל של כל \( A \). כלומר, סיטואציה כזו יכולה לצוץ רק אם \( A \) ריקה. כש-\( A \) ריקה, התנאי “לכל \( a\in A \) מתקיים \( a\le b \)” מתקיים תמיד, לכל \( b \); זה מה שנקרא במתמטיקה “נכון באופן ריק” (כדי לראות למה זה ככה, שווה לחשוב על הטענה השקולה לוגית: “לא קיים \( a\in A \) כך ש-\( b<a \)”; ברור שאם \( A \) ריקה אז באמת לא קיים כזה). אז אוקיי, \( \sup A \) לא מוגדר אם \( A \) ריקה, נשמע הגיוני.

מה שאקסיומת השלמות אומרת הוא שאלו שתי הבעיות היחידות שיכולות להיווצר, ושבכל מקרה אחר, יהיה ל-\( A \) סופרמום. כדי להבין למה זה כל כך חזק, ואיך זה פותר לנו בעיות ו”יוצר” לנו מספרים כמו \( \sqrt{2} \), בואו נראה את הדוגמא הקלאסית - הקבוצה \( A=\left\{ q\in\mathbb{Q}\ |\ q^{2}\le2\right\} \).

האם הקבוצה הזו לא ריקה? בוודאי, \( 0\in A \). האם הקבוצה הזו חסומה מלעיל? בוודאי, \( 2\in A \) כי אם \( q>2 \) אז \( q^{2}>4 \) ומן הסתם לא מתקיים \( q^{2}<2 \). מכאן שקיים לקבוצה הזו סופרמום. מי הוא יהיה? ובכן, אם ניקח את אברי \( q \) ונגדיל אותם עוד ועוד עד שיהיה שוויון, \( q^{2}=2 \), אז נקבל \( q=\sqrt{2} \) ולכן האינטואיציה היא ש-\( \sup A=\sqrt{2} \), אבל צריך להיזהר מאוד כאן: \( \sqrt{2} \) הוא לא מספר רציונלי, ולכן הוא לא איבר של \( A \), אז עדיין צריך לשלול את האפשרות שיש חסם מלעיל קטן יותר ל-\( A \). למרבה השמחה, קל לשלול את זה. ניקח \( r \) כלשהו כך ש-\( r<\sqrt{2} \). עכשיו אפשר להשתמש בתכונת הצפיפות של הרציונליים שהוכחתי קודם ולקבל שקיים \( q\in\mathbb{Q} \) כך ש-\( r<q<\sqrt{2} \). בפרט \( q^{2}<2 \) ולכן \( q\in A \), ולכן \( r \) לא יכול להיות חסם מלעיל של \( A \), וזה לכל \( r<\sqrt{2} \). בנוסף, ברור ש-\( \sqrt{2} \) עצמו הוא חסם מלעיל שכזה, כי אם \( q>\sqrt{2} \) אז \( q^{2}>2 \) ולכן \( q\notin A \). זה מוכיח ש-\( \sup A=\sqrt{2} \).

דוגמא בעזרת שורש 2

עכשיו אני רוצה לסבך עוד יותר את העניינים, ואלו שאין להם כוח לנקודה העדינה שאני מתעקש עליה כאן מוזמנים לדלג. ההוכחה שהראיתי עכשיו חייתה “בתוך” \( \mathbb{R} \). היא הניחה ש-\( \sqrt{2} \) קיים ואפשר להשתמש בצפיפות הרציונליים יחד איתו. אבל בואו נניח עכשיו שאנחנו עוברים לחיות ביקום \( \mathbb{Q} \) ולא יודעים על שום דבר מחוצה לו, ובפרט \( \sqrt{2} \) לא קיים מבחינתנו. האם יש דרך להוכיח שלקבוצה \( A \) במקרה הזה פשוט לא יהיה סופרמום? אחרת \( A \) היא לא דוגמא מעניינת כל כך - היא לא מראה לנו בעיה שיש ב”סתם” שדה סדור ושדה סדור שלם פותר.

אז בואו נוכיח שאין ל-\( A \) סופרמום ב-\( \mathbb{Q} \), עם הוכחה שמשתמשת רק ב-\( \mathbb{Q} \). ראשית, בואו ניקח \( 0<r\in\mathbb{Q} \) כך ש-\( r^{2}>2 \) ונראה שלא ייתכן ש-\( r=\sup A \); נעשה את זה על ידי מציאת \( d<r \) שהוא חסם מלעיל של \( A \) - ובשביל זה מספיק למצוא \( d<r \) כך ש-\( d^{2}>2 \) כי אז לכל \( q\in A \) שמקיים \( q>0 \) יתקיים \( q^{2}<d^{2} \) וראינו שאפשר להסיק מזה \( q<d \) (אני לא טורח לטפל ב-\( r \) שלילי כי אם \( r<0 \) הוא בוודאי לא חסם מלעיל של \( A \) שכוללת את 0).

איך אני אמצא את \( d \) ואעשה את זה בצורה שלא תהיה טכנית ויבשה? ובכן, בואו נחשוב על הסיטואציה בתור נסיון לקרב את \( \sqrt{2} \) באמצעות שיטת הקירוב היפהפיה של הרון מאלכסנדריה. הרעיון של השיטה הוא זה: נניח שאנחנו רוצים למצוא שורש למספר \( N \). בואו נבנה סדרה \( a_{1},a_{2},a_{3},\ldots \) של קירובים לשורש הזה. נתחיל עם מספר כלשהו \( a_{1} \) שיהיה קירוב גס כלשהו של שורש \( N \). למשל, עבור \( N=2 \) אפשר לקחת \( a_{1}=4 \). עכשיו נתחיל לשפר את הקירוב על ידי הפעלה נשנית של הכלל הבא:

\( a_{n+1}=\frac{1}{2}\left(a_{n}+\frac{N}{a_{n}}\right) \)

הרעיון פה: ניקח את הקירוב הנוכחי שלנו, ונחלק את \( N \) בו. אם הקירוב הנוכחי היה יוצא בדיוק \( \sqrt{N} \) אז החלוקה של \( N \) בקירוב הייתה יוצאת \( \sqrt{N} \) בעצמה. אחרת, יצא לנו מספר קצת שונה - אם למשל \( a_{n} \) הוא גדול מדי מכדי להיות השורש, אז \( \frac{N}{a_{n}} \) ייצא קטן מדי מכדי להיות השורש. ועכשיו אומר הרון - אוקיי, בואו ניקח ממוצע חשבוני של שני המספרים הללו - נראה לי שהוא יהיה קרוב יותר לשורש. עבור הדוגמא שלנו עם \( N=2 \) ו-\( a_{1}=4 \) נקבל \( a_{2}=\frac{1}{2}\left(4+\frac{1}{2}\right)=\frac{9}{4}=2.25 \) וזה יותר טוב! אם נמשיך את הסדרה, נקבל התכנסות מהירה בצורה מפתיעה אל \( \sqrt{2} \):

\( 4,2.25,1.569444\ldots,1.42189\ldots,1.414234\ldots \)

אפשר לחשוב על השיטה הזו בתור מקרה פרטי של אלגוריתם ניוטון-רפסון והזכרתי אותה פה בעבר בפוסט על המעשה המופלא בקבוע המסתורי 0x5f3759df, אבל נראה לי שכבר סטיתי מספיק מהעניין. הפואנטה שלי: אני רוצה בהינתן \( 0<r\in\mathbb{Q} \) כך ש-\( r^{2}>2 \) לקבל \( d<r \) כך שעדיין \( 2<d^{2} \) - זה בדיוק מה ששיטת הרון תיתן לי. אני אגדיר

\( d=\frac{1}{2}\left(r+\frac{2}{r}\right)=\frac{r}{2}+\frac{1}{r} \)

ואקבל \( d \) רציונלי כי \( r \) היה רציונלי. בואו נראה שהוא עובד.

דבר ראשון, קל לראות ש-\( d<r \), כי מכיוון ש-\( 2<r^{2} \) אז נחלק ב-\( 2r \) ונקבל \( \frac{1}{r}<\frac{r}{2} \) ולכן

\( d=\frac{r}{2}+\frac{1}{r}<\frac{r}{2}+\frac{r}{2}=r \)

שנית,

\( d^{2}=\left(\frac{r}{2}+\frac{1}{r}\right)^{2}=\frac{r^{2}}{4}+1+\frac{1}{r^{2}} \)

אנחנו רוצים להראות ש-\( d^{2}>2 \), אז מספיק להראות שאם \( r^{2}>2 \) אז \( \frac{r^{2}}{4}+\frac{1}{r^{2}}>1 \). קל לראות את זה בשיטות של תיכון אם מסמנים \( x=r^{2} \), מקבלים את אי השוויון \( \frac{x}{4}+\frac{1}{x}>1 \) שעבור \( x>0 \) מתורגם לאי השוויון \( x^{2}-4x+4>0 \). אגף שמאל הוא פרבולה “צוחקת” שנקודת החיתוך הימנית שלה עם ציר \( x \) היא \( x=2 \) ולכן היא חיובית לכל \( x>2 \), שזה מה שרצינו.

כל הזוועה הזו הראתה לנו ש-\( r \) הוא לא חסם עליון של \( A \) כי אפשר למצוא חסם מלעיל קטן יותר, \( d \), אבל התחלנו מההנחה ש-\( r^{2}>2 \). אולי בכלל החסם הטוב ביותר מקיים \( r^{2}<2 \)? כלומר, הוא איבר של \( A \) בעצמו? אולי יש ב-\( A \) איבר מקסימלי?

במקרה הזה לנסות להשתמש בנוסחת הרון לא עובד (אם אני אגדיר \( d=\frac{r}{2}+\frac{1}{r} \) אני אקבל \( d^{2}>2 \)) וכבר אין לי רעיונות לדברים נחמדים להראות אז בואו נעשה את זה בכוח: נגדיר \( d=r+\varepsilon \) כשהרעיון הוא שנקבע את \( \varepsilon \) להיות מספר חיובי קטן ותכף נראה כמה קטן. אז

\( d^{2}=r^{2}+2r\varepsilon+\varepsilon^{2} \)

ולכן כדי שיתקיים \( d^{2}<2 \) צריך שיתקיים \( \left(2r+\varepsilon\right)\varepsilon<2-r^{2} \). אם אני אוודא ש-\( \varepsilon<r \) אז מספיק לי אפילו למצוא \( \varepsilon \) שעבורו \( \left(2r+\varepsilon\right)\varepsilon<3r\varepsilon<2-r^{2} \). עכשיו, \( 2-r^{2} \) הוא מספר קבוע וגם \( 3r \) הוא מספר קבוע, אז אפשר להשתמש בארכימדיות של \( \mathbb{Q} \) כדי למצוא \( \varepsilon \) מתאים.

סיום זריז לפני הגרנד פינאלה

אם לסכם את מה שראינו בדוגמא - ב-\( \mathbb{Q} \) יש קבוצות לא ריקות וחסומות בלי חסם עליון, אבל כאלו שיוצרות אצלנו תחושה חזקה שאמור להיות להן חסם עליון. שאפילו בלי להכיר את \( \mathbb{R} \), יש איזה איבר קונקרטי אחד שאנחנו מצפים שיהיה החסם העליון שלהן, וזה שאין כזה - זה מרגיש לנו כמו “חור” בציר המספרים, שתכונת השלמות באה לסתום.

זו אינטואיציה טובה; היא תוביל לאחת משתי הבניות הפורמליות של הממשיים שאני הולך להציג, זו של חתכי דדקינד. כרגע, כזכור, אני עדיין לא בונה שום דבר - אני רק שואל את עצמי אילו תכונות אני רוצה שיהיו לממשיים. זה מעביר אותנו ישירות אל החלק הבא והאחרון.

ה

מה אני רוצה עכשיו?

ההגדרה שלי בתחילת הפוסט הייתה כזכור “השדה הסדור השלם”. מה זה שדה - ראינו. מה זה שדה סדור - ראינו. מה זה שדה סדור שלם - ראינו. מה שעדיין לא ברור הוא התפקיד של האות ה’ בביטוי הזה. אות קטנה, משמעות גדולה: כשאני מדבר על “השדה הסדור השלם” הכוונה היא שקיים שדה כזה והוא יחיד. כלומר, כשאני משתמש בהגדרה הזו אני טוען טענת קיום ויחידות, שהיא משהו שצריך להוכיח. במובן הזה ההגדרה שלי היא יותר מסתם הגדרה - היא גם הבטחה.

מצד שני, זה מרגיש שאני קצת מרמה כי אני לא באמת מסביר עד הסוף איך אפשר לקבל לידיים את האובייקט שאני מגדיר. כאמור, זה דבר די סטנדרטי במתמטיקה; אנחנו צריכים להבדיל בין הגדרה אקסיומטית שמתארת תכונות רלוונטיות של אובייקטים שאחר כך אפשר להשתמש בהן כדי להוכיח תכונות נוספות של האובייקטים, וההוכחה תהיה תקפה לכל אובייקט שמקיים את התכונות - ובין מה שאני מעדיף לקרוא לו בנייה שמתאר איך מייצרים את האובייקט מתוך אובייקטים פשוטים יותר.

ראינו סוג של בניה בפוסט הקודם, עם הייצוגים העשרוניים; זו לא הייתה בניה מלאה כי הגדרתי את האובייקטים של הקבוצה אבל לא את פעולות החיבור והכפל ולא את האופן שבו מוגדר יחס הסדר (כל אלו לא טריוויאליים). אני אראה בפוסט הבא שתי בניות נוספות, שאותן אציג עד הסוף. יותר מזה - שתי הבניות לא הולכות לבנות את אותו הדבר, במובן זה שאחת מהן תיצור לנו אוסף של קבוצות של רציונליים, ואילו השניה תיצור אוסף של מחלקות שקילות של סדרות של רציונליים. אלו שני אובייקטים שונים, מה שמעלה את השאלה - מי מביניהם יהיה \( \mathbb{R} \) “האמיתי”? התשובה היא ששניהם הם \( \mathbb{R} \) האמיתי, במובן זה ששניהם מקיימים את התכונות המהותיות שאנחנו מצפים להן מ-\( \mathbb{R} \) - שניהם יהיו שדה סדור שלם ויותר מכך - שביחס לתכונות הללו הם יהיו בדיוק אותו אובייקט עד כדי שינוי שמות האיברים. זו המהות של טיעון ה”יחידות”, ואותו אני אוכל להוכיח כאן, אפילו לפני שאני מציג בניות אלו ואחרות. פורמלית, אני אוכיח שאם \( \mathbb{F}_{1},\mathbb{F}_{2} \) הם שני שדות סדורים שלמים, אז הם איזומורפיים, עם ההגדרה הבאה של איזומורפיזם:

\( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \) הוא איזומורפיזם של שדות סדורים אם \( f \) פונקציה חד-חד-ערכית ועל ומתקיים

\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \)
\( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \)
\( x<y \) אם ורק אם \( f\left(x\right)<f\left(y\right) \)

אני אזכיר מה “חד-חד-ערכית” ו”על” אומרים (ויש לי גם פוסט): \( f:A\to B \) היא חח”ע אם \( f\left(x\right)=f\left(y\right) \) גורר \( x=y \), כלומר אם קלטים שונים מתמפים לפלטים שונים. \( f:A\to B \) היא על אם לכל \( b\in B \) קיים \( a\in A \) כך ש-\( f\left(a\right)=b \), כלומר כל איבר של \( B \) מתקבל כפלט של \( f \) על משהו מ-\( A \). זה שפונקציה היא גם חח”ע וגם על אומר שאפשר לחשוב עליה כאילו היא מסדרת את אברי \( A \) ו-\( B \) בזוגות-זוגות - לכל איבר של \( a \) יש בן זוג אחד ויחיד מ-\( b \), וההפך. זה מאפשר לנו לדמיין ש-\( B \) היא פשוט “אברי \( A \) עם שמות אחרים”: לוקחים את \( A \), מחליפים את השם של כל איבר \( a\in A \) ב-\( f\left(a\right) \), מקבלים את \( B \).

אם על \( A,B \) יש עוד מבנה מלבד סתם איברים, האשליה הזו של שינוי השם עשוי להתנפץ. למשל, אם \( A=\mathbb{N} \) ו-\( B=\mathbb{Z} \) אז פונקציה חח”ע ועל \( f:A\to B \) היא \( f\left(n\right)=\begin{cases} \frac{n}{2} & n\equiv_{2}0\\ -\frac{n+1}{2} & n\equiv_{2}1 \end{cases} \). מה ש-\( f \) עושה הוא להעביר את סדרת הטבעיים \( 0,1,2,3,\ldots \) אל סדרת השלמים \( 0,-1,1,-2,2,\ldots \). זו התאמה חח”ע ועל, אבל היא ממש לא מתנהגת יפה עם המבנה הנוסף שיש לנו על \( \mathbb{N} \). למשל, \( 1+1=2 \) ולכן אם \( f \) היא בסך הכל שינוי שם היינו מצפים שיתקיים \( f\left(1\right)+f\left(1\right)=f\left(2\right) \). אבל \( f\left(2\right)=1 \) ואילו \( f\left(1\right)=-1 \) ולכן \( f\left(1\right)+f\left(1\right)=-2=f\left(3\right)\ne f\left(2\right) \), כך שהאשליה שיש כאן שינוי שמות ותו לא מתנפצת ברגע שבו אנחנו מצפים משינוי השמות לשחק יפה עם המבנה הנוסף שיש על הקבוצות.

מה הולכים להוכיח ואיך

על שדה סדור יש שלושה מבנים: פעולת החיבור, פעולת הכפל ויחס הסדר \( < \) (או באופן שקול, הקבוצה \( P \); במקום הדרישה השלישית היינו יכולים לדרוש \( f\left(P_{1}\right)=P_{2} \)). האתגר שלי יהיה להציג פונקציה שמשחקת יפה עם כולם.

הנה בגדול הרעיון:

ראשית נראה שכל שדה סדור מכיל עותק של \( \mathbb{Q} \) וששני העותקים הללו איזומורפיים.
אחר כך נראה שכל שדה סדור שלם הוא ארכימדי.
המסקנה מזה תהיה שאפשר להציג כל איבר בשדה בתור \( \sup \) של קבוצה של רציונליים, וזה יאפשר לנו להרחיב את האיזומורפיזם של הרציונליים לאיזומורפיזם של כל השדה.

בעצם, בואו נתחיל מזה שכל שדה סדור שלם הוא ארכימדי, זו תוצאה קלילה להוכחה וככה היא לא תקטע את הרצף של מה שנעשה אחר כך. ניקח שדה סדור שלם \( \mathbb{F} \) כלשהו. כבר ראינו שבגלל שהשדה סדור, הוא חייב להיות ממציין 0, כלומר כל האיברים \( 1,1+1,1+1+1,\ldots \) קיימים ושונים זה מזה - במילים אחרות, יש בתוך \( \mathbb{F} \) עותק של \( \mathbb{Z} \). עכשיו, אם \( \mathbb{F} \) לא ארכימדי, מה זה אומר? ארכימדיות פירושה שלכל \( a\in\mathbb{F} \) קיים \( n\in\mathbb{Z} \) כך ש-\( a<n \).

אם ניקח את השלילה של הטענה הזו נקבל שקיים \( a\in\mathbb{F} \) כך שלכל \( n\in\mathbb{Z} \) מתקיים \( n\le a \). במילים אחרות, \( a \) הוא חסם מלעיל של \( \mathbb{Z} \), והשלמות של \( \mathbb{F} \) אומרת ש-\( d=\sup\mathbb{Z} \) קיים. עכשיו, בואו ניקח \( n\in\mathbb{Z} \) כלשהו. מכיוון שגם \( n+1\in\mathbb{Z} \), אנחנו יודעים ש-\( n+1<d \), כלומר \( n<d-1 \), וזה נכון לכל \( n\in\mathbb{Z} \) ולכן גם \( d-1 \) חסם מלעיל של \( \mathbb{Z} \), בסתירה למינימליות של \( d \). כלומר - בשדה סדור, או ש-\( \mathbb{Z} \) לא חסומה (כלומר, השדה ארכימדי) או שהשדה לא שלם, אין עוד אפשרויות.

עכשיו בואו נדבר על \( \mathbb{Q} \). ראינו כבר במהלך הפוסט שיש ב-\( \mathbb{F} \) קבוצה שזהה ל-\( \mathbb{Q} \), אבל בואו נעשה את זה שוב, הכי מסודר שאפשר. מה שאקסיומות השדה נותנות לנו הוא קיום של איברים \( 0,1\in\mathbb{F} \). שימו לב שהאיברים הללו הם לא המספרים 0,1; הם סתם שני איברים של \( \mathbb{F} \) שזכו לסימון מיוחד. אז בואו כרגע ניתן להם סימון אחר: את האדיש החיבורי אסמן ב-\( \mathcal{O} \) ואת האדיש הכפלי אסמן ב-\( \mathcal{I} \). מה שאני יודע לומר הוא שלכל \( a\in\mathbb{F} \) מתקיים \( a+\mathcal{O}=a \) ו-\( a\cdot\mathcal{I}=a \). עכשיו בואו נבנה מזה את \( \mathbb{Q} \).

בונים את הרציונליים (מתוך השדה הקיים)

ראשית, לכל מספר טבעי \( n\in\mathbb{N} \) בואו נגדיר איבר \( \mathcal{Z}_{n}\in\mathbb{F} \). נעשה את זה רקורסיבית: \( \mathcal{Z}_{0}=\mathcal{O} \) ואם \( \mathcal{Z}_{n} \) כבר הוגדר, נגדיר \( \mathcal{Z}_{n+1}=\mathcal{Z}_{n}+\mathcal{I} \).

עכשיו אני רוצה לטעון ש-\( \mathcal{Z}_{k}+\mathcal{Z}_{n}=\mathcal{Z}_{k+n} \). ההוכחה תכה אותנו בכזה הלם של טרחנות שנוותר על המשך ההוכחות בסגנון, כי זה הכל אותו דבר (מי שמכירים את ההגדרות הפורמליות של טבעיים ירגישו בוודאי בבית עם ההוכחה הזו). אני אוכיח את הטענה באינדוקציה על \( n \). אם \( n=0 \) אז על פי הגדרה, \( \mathcal{Z}_{0}=\mathcal{O} \) ולכן

\( \mathcal{Z}_{k}+\mathcal{Z}_{0}=\mathcal{Z}_{k}+\mathcal{O}=\mathcal{Z}_{k}=\mathcal{Z}_{k+0} \)

ואם הטענה כבר הוכחה עבור \( n \) ואנחנו רוצים להוכיח אותה עבור \( n+1 \), נשתמש בכך ש-\( \mathcal{Z}_{n+1}=\mathcal{Z}_{n}+\mathcal{I} \) ונקבל

\( \mathcal{Z}_{k}+\mathcal{Z}_{n+1}=\mathcal{Z}_{k}+\left(\mathcal{Z}_{n}+\mathcal{I}\right)=\left(\mathcal{Z}_{k}+\mathcal{Z}_{n}\right)+\mathcal{I}= \)

\( =\mathcal{Z}_{k+n}+\mathcal{I}=\mathcal{Z}_{\left(k+n\right)+1}=\mathcal{Z}_{k+\left(n+1\right)} \)

אני לא חושב שקיימת אפשרות להיות יותר פדנט מזה, אבל לא הכל נורא! עכשיו אנחנו רואים יפה וברור שבהוכחה הזו משתמשים באסוציאטיביות החיבור (“חוק הקיבוץ”) גם ב-\( \mathbb{F} \) וגם ב-\( \mathbb{N} \). בלי אסוציאטיביות, שום דבר לא היה עובד! אנחנו לא תמיד מעריכים עד כמה היקום היה קורס בלי אסוציאטיביות.

בכל מקרה, עכשיו אני ארשה לעצמי לנופף ידיים בפראות בהמשך. לא קשה להוכיח גם ש-\( \mathcal{Z}_{k}\cdot\mathcal{Z}_{n}=\mathcal{Z}_{k\cdot n} \) ולא קשה גם להוכיח ש-\( \mathcal{Z}_{k}<\mathcal{Z}_{n} \) אם ורק אם \( k<n \), הכל עם אינדוקציות מזעזעות. לכן מה שעשיתי כאן בעצם היה להגדיר פונקציה \( f:\mathbb{N}\to\mathbb{F} \) על ידי \( f\left(n\right)=\mathcal{Z}_{n} \), והפונקציה הזו מקיימת את שלוש הדרישות שלי:

\( f\left(n+k\right)=f\left(n\right)+f\left(k\right) \)
\( f\left(n\cdot k\right)=f\left(n\right)\cdot f\left(k\right) \)
\( n<k \) אם ורק אם \( f\left(n\right)<f\left(k\right) \)

בנוסף, זו פונקציה חח”ע, כי אם \( \mathcal{Z}_{n}=\mathcal{Z}_{k} \) עבור \( k<n \) אז נשתמש בטענה הנכונה תמיד \( \mathcal{Z}_{k}+\mathcal{Z}_{n-k}=\mathcal{Z}_{n} \), נעביר את \( \mathcal{Z}_{k} \) אגף, נשתמש ב-\( \mathcal{Z}_{n}=\mathcal{Z}_{k} \) ונקבל \( \mathcal{Z}_{n-k}=\mathcal{O} \), ומכיוון ש-\( n-k>0 \) המסקנה היא שקיבלנו סכום של \( \mathcal{I} \)-ים שמסתכם לאפס - זאת בסתירה למה שכבר ראינו, שהשדה הוא ממציין 0.

המסקנה היא ש-\( f \) היא פונקציית “אותו הדבר רק בסימון אחר” מצויינת, ולכן אפשר לנטוש את כל פיאסקו הכתיבה של דברים בתור \( \mathcal{Z}_{n} \) וכאלו ופשוט לכתוב \( 0,1,2\ldots,n,\ldots \) עבור האיברים שהגדרתי פה ולהתייחס אליהם כאילו הם “באמת” הטבעיים.

מרגע שיש לנו את זה, אפשר להרחיב את הגדרת \( f \). ראשית, נגדיר אותה על כל \( \mathbb{Z} \), כלומר צריך להסביר איך היא מתנהגת גם על השליליים, איברים מהצורה \( -n \) כך ש-\( n\in\mathbb{N} \): \( f\left(-n\right)=-n \). זו נראית הגדרה כמעט ריקה, אבל העיקרון לא טריוויאלי: אנחנו מזמנים את \( \mathcal{Z}_{n} \), ואז מפעילים את האקסיומה של \( \mathbb{F} \) שאומרת שקיים לו נגדי, שמסומן \( -\mathcal{Z}_{n} \), וזה מה ש-\( f \) תחזיר - רק שכאמור, כבר הפסקתי עם השטות של כתיבת \( \mathcal{Z}_{n} \) ואני כותב \( n \) וזהו.

גם על ההגדרה הזו צריך להוכיח שהיא מקיימת את שלוש התכונות שלמעלה. זה עובד. תסמכו עלי. בואו נרוץ אל הרחבת \( f \) לכל \( \mathbb{Q} \). מה שמדגדג לומר הוא שנגדיר לכל \( a,b\in\mathbb{Z} \) כך ש-\( b\ne0 \) את ההגדרה הבאה:

\( f\left(\frac{a}{b}\right)=a\cdot b^{-1} \)

כלומר, אנחנו לוקחים את האיבר ב-\( \mathbb{F} \) שמתאים ל-\( a \) והאיבר ב-\( \mathbb{F} \) שמתאים ל-\( b \), משתמשים בזה שהאיבר שמתאים ל-\( b \) יהיה שונה מ-0 כי \( b \) שונה מאפס ו-\( f \) חח”ע, משתמשים באקסיומות השדה כדי למצוא הופכי ל-\( b \) הזה וכופלים אותו ב-\( a \). אין שום בעיה בהגדרה הזו אבל צריך לוודא שהיא מה שנקרא מוגדרת היטב כי קיימת הסכנה שאותו מספר רציונלי יניב פלטים שונים של \( f \), כתלות בייצוג שלו. כלומר, אני רוצה להראות למשל ש-\( f\left(\frac{1}{2}\right)=f\left(\frac{2}{4}\right) \). זה לא לגמרי מובן מאליו כי באגף ימין של ההגדרה אין מספרים אלא יש איברים של \( \mathbb{F} \) ולכו תדעו איזה מוזרויות יש להם, אבל למרבה המזל ההוכחה די פשוטה.

נניח שברציונליים, \( \frac{a}{b}=\frac{c}{d} \). כלומר, \( ad=bc \). זו משוואה של מספרים ב-\( \mathbb{Z} \), ולכן היא נכונה גם בתוך \( \mathbb{F} \). לכן אפשר לקחת את \( ad=bc \) בתוך \( \mathbb{F} \) ולכפול את שני האגפים ב-\( b^{-1} \) וב-\( d^{-1} \) ולקבל \( ab^{-1}=cd^{-1} \), כלומר \( f\left(\frac{a}{b}\right)=ab^{-1}=cd^{-1}=f\left(\frac{c}{d}\right) \), שזה מה שרצינו. אנחנו עדיין צריכים להוכיח ששאר התכונות של \( f \) מתקיימות - זה כאמור תרגיל טוב שאני לא הולך לעשות כאן. קיבלנו \( f:\mathbb{Q}\to\mathbb{F} \) שהיא חח”ע ומכבדת את המבנה של השדה. במתמטית קוראים לזה שיכון (להבדיל מאיזומורפיזם; כי כאן \( f \) לא על כל \( \mathbb{F} \)). מכאן ואילך אני יכול להתייחס ל-\( \mathbb{F} \) כאילו יש עותק של \( \mathbb{Q} \) שיושב בתוכה, כמו שבעצם עשיתי גם קודם.

עכשיו הגענו סוף סוף אל הפאנץ’ האחרון: יש לי שני שדות סדורים שלמים \( \mathbb{F}_{1},\mathbb{F}_{2} \). אני רוצה להגדיר \( g:\mathbb{F}_{1}\to\mathbb{F}_{2} \) שהיא חח”ע, על ומכבדת את המבנה של השדה הסדור. איך אני אעשה את זה? התשובה היא שכל אחד ואחד מהאיברים של השדות הללו הוא חסם עליון של קבוצה של רציונליים ואני הולך לבנות את \( g \) כך שהיא מעבירה את החסם העליון של קבוצה ב-\( \mathbb{F}_{1} \) אל החסם העליון של אותה קבוצה ב-\( \mathbb{F}_{2} \).

בואו ננסח את זה פורמלית. אנחנו יודעים שיש תת-שדות \( \mathbb{Q}_{1}\subseteq\mathbb{F}_{1} \) ו-\( \mathbb{Q}_{2}\subseteq\mathbb{F}_{2} \) שאיזומורפים לרציונליים ובפרט איזומורפים זה לזה, עם פונקציה \( f:\mathbb{Q}_{1}\to\mathbb{Q}_{2} \) שהיא איזומורפיזם. אני הולך להרחיב את \( f \) הזו כדי להגדיר איזומורפיזם \( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \) באופן הבא: לכל \( x\in\mathbb{F}_{1} \) נגדיר קבוצה \( A_{x}\subseteq\mathbb{F}_{2} \) (כלומר, של איברים בשדה השני) על ידי

\( A_{x}=\left\{ f\left(q\right)\ |\ q\in\mathbb{Q}_{1}\wedge q<x\right\} \)

עכשיו אני אגדיר \( f\left(x\right)=\sup A_{x} \). זהו, זו כל ההגדרה - ועכשיו תגיע המהומה הגדולה מכולן, להראות שההגדרה הזו עובדת.

המהומה הגדולה מכולן

מה זה אומר, להראות שההגדרה עובדת? צריך להוכיח את כל הדברים הבאים:

\( f \) מוגדרת היטב (לכל קלט קיים פלט יחיד)
\( f \) חד-חד-ערכית
\( f \) על
\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \)
\( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \)
\( x<y \) אם ורק אם \( f\left(x\right)<f\left(y\right) \)

ראשית צריך להראות ש-\( f \) מוגדרת היטב. יש כאן שתי סכנות: גם סכנה של הגדרה כפולה, וגם סכנה שיהיו קלטים שעבורם \( f \) לא מוגדרת. נתחיל עם ההגדרה הכפולה: הרי לקחתי פונקציה קיימת \( f:\mathbb{Q}_{1}\to\mathbb{Q}_{2} \) והגדרתי באמצעותה פונקציה חדשה \( f:\mathbb{F}_{1}\to\mathbb{F}_{2} \). אני רוצה להראות שאם \( x\in\mathbb{Q}_{1} \) אז שתי ההגדרות מסכימות זו עם זו על \( x \), כלומר ש-\( f\left(x\right)=\sup A_{x} \) (אגף שמאל הוא ההגדרה “המקורית”, אגף ימין הוא ההגדרה החדשה). אפשר ובצדק לשאול למה לא פשוט להגדיר פונקציה חדשה בעזרת \( f \) אבל לקרוא לפונקציה החדשה הזו \( g \) ואז לדלג על השלב הזה; התשובה היא שאני אסתמך על כך שהפונקציה שבניתי מרחיבה את \( f \) המקורית בהמשך ההוכחה, כשנצטרך להוכיח שהפונקציה החדשה היא על.

נתחיל עם להראות ש-\( \sup A_{x}\le f\left(x\right) \) עבור \( x\in\mathbb{Q}_{1} \). בשביל זה מספיק להראות ש-\( f\left(x\right) \) הוא חסם מלעיל של \( A_{x} \) כי הסופרמום של \( A_{x} \) קטן או שווה לכל חסם מלעיל שלה. אז ניקח איבר כללי ב-\( A_{x} \), כלומר איבר \( f\left(q\right) \) כך ש-\( q<x \), ועכשיו נשתמש בכך ש-\( f \) היא איזומורפיזם, כלומר משמרת סדר, כלומר \( f\left(q\right)<f\left(x\right) \), שהוא מה שרצינו. עכשיו, בואו נראה שלא ייתכן ש-\( \sup A_{x}<f\left(x\right) \): במקרה הזה, הצפיפות של \( \mathbb{Q}_{2} \) ב-\( \mathbb{F}_{2} \) נותנת לנו איבר \( p^{\prime}\in\mathbb{Q}_{2} \) כך ש-\( \sup A_{x}<p^{\prime}<f\left(x\right) \). במקום לעבוד עם \( p^{\prime} \) ישירות, יהיה לי כאן ובהמשך יותר קל לדבר עליו בתור \( f\left(p\right) \) עבור \( p\in\mathbb{Q}_{1} \) - אני יודע ש-\( p \) כזה קיים כי \( f \) היא איזומורפיזם ולכן פשוט \( p=f^{-1}\left(p^{\prime}\right) \).

אם כן, נתון לי \( \sup A_{x}<f\left(p\right)<f\left(x\right) \). אי השוויון \( f\left(p\right)<f\left(x\right) \) פירושו \( p<x \) (שוב, כי \( f \) איזומורפיזם ובפרט משמרת סדר), כלומר \( f\left(p\right)\in A_{x} \) על פי הגדרת \( A_{x} \) ולכן \( f\left(p\right)\le\sup A_{x} \) - סתירה לנתון \( \sup A_{x}<f\left(p\right) \). זה מראה לנו ש-\( \sup A_{x}=f\left(x\right) \).

זה עדיין לא מסיים את ההוכחה ש-\( f \) מוגדרת היטב כי יש עוד סכנה: שעבור \( x \) כלשהו, \( A_{x} \) תהיה קבוצה נטולת סופרמום. אני כמובן משתמש פה חזק בכך ש-\( \mathbb{F}_{2} \) מקיים את אקסיומת השלמות (ומתי אשתמש בה עבור \( \mathbb{F}_{1} \)?) אבל גם עם אקסיומת השלמות אני עדיין צריך להשתכנע ש-\( A_{x} \) לא ריקה (הארכימידיות של \( \mathbb{F}_{2} \) נותנת את זה מיד) וש-\( A_{x} \) חסומה. החסימות נובעת מהארכימידית של \( \mathbb{F}_{1} \), שנותנת לנו \( n \) כך ש-\( x<n \). אז \( f\left(n\right) \) הוא חסם מלעיל של \( A_{x} \), כי אם ניקח איבר כלשהו ב-\( A_{x} \) הוא מהצורה \( f\left(q\right) \) כך ש-\( q<x \) ולכן מטרנזיטיביות יחס הסדר, \( q<n \) ומכך ש-\( f \) היא איזומורפיזם נקבל \( f\left(q\right)<f\left(n\right) \). זה מסיים את הטענה ש-\( g \) מוגדרת היטב, כי ראינו שאכן \( \sup A_{x} \) קיים.

כדי לראות ש-\( f \) חח”ע, בואו ניקח \( x\ne y\in\mathbb{F}_{1} \) כלשהם ונראה ש-\( f\left(x\right)\ne f\left(y\right) \). בלי הגבלת הכלליות אני אניח ש-\( x<y \), ומהצפיפות של הרציונליים קיימים \( p_{1},p_{2}\in\mathbb{Q}_{1} \) כך ש-\( x<p_{1}<p_{2}<y \). עכשיו, \( f\left(p_{1}\right) \) הוא חסם מלעיל של \( A_{x} \), כי אם \( q<x \) אז בפרט \( q<x<p_{1} \) ולכן \( f\left(q\right)<f\left(p_{1}\right) \) (כבר ראינו לפני רגע את אותו טיעון) ולכן \( \sup A_{x}\le f\left(p_{1}\right) \) (כי הסופרמום הוא החסם מלעיל הקטן ביותר). בנוסף, \( p_{2}<y \) פירושו על פי הגדרה \( f\left(p_{2}\right)\in A_{y} \) ולכן \( f\left(p_{2}\right)\le\sup A_{y} \) ולכן

\( f\left(x\right)=\sup A_{x}\le f\left(q\right)<f\left(p\right)\le\sup A_{y}=f\left(y\right) \)

כלומר \( f\left(x\right)<f\left(y\right) \) ובפרט \( f\left(x\right)\ne f\left(y\right) \). שימו לב שבעצם הוכחנו כבר חצי מהתכונה האחרונה: הראינו שאם \( x<y \) אז \( f\left(x\right)<f\left(y\right) \). אבל למעשה, זה נותן לנו גם את החצי השני: אם \( f\left(x\right)<f\left(y\right) \) אבל \( y\le x \) אז \( f\left(y\right)\le f\left(x\right) \) וקיבלנו סתירה (כאן אנחנו מסתמכים על כך שיחס הסדר הוא מלא; עבור יחס סדר כללי לא מקבלים את שני הכיוונים ביחד).

כדי לראות ש-\( f \) על, בואו ניקח \( y\in\mathbb{F}_{2} \) כלשהו ונמצא \( x\in\mathbb{F}_{1} \) כך ש-\( f\left(x\right)=y \). לצורך כך, בואו נסתכל על הקבוצה \( B_{y}=\left\{ q\in\mathbb{Q}_{1}\ |\ f\left(q\right)<y\right\} \) - זו הגדרה שמזכירה את זו של \( A_{x} \) ולא במקרה - זה כאילו אני מנסה להגדיר פונקציה בכיוון ההפוך, מ-\( \mathbb{F}_{2} \) אל \( \mathbb{F}_{1} \), אז גם ברור מה יהיה הצעד הבא: אני ארצה להגדיר \( x=\sup B_{y} \). בשביל זה אצטרך לראות ש-\( B_{y} \) לא ריקה וחסומה. בשביל שני אלו אני אשתמש בכך ש-\( f \) היא איזומורפיזם, כלומר \( f^{-1} \) קיימת: אני אשתמש בארכימדיות של \( \mathbb{F}_{2} \) כדי לקבל איברים \( f\left(q_{1}\right)<y<f\left(q_{2}\right) \) כך ש-\( q_{1},q_{2}\in\mathbb{Q}_{1} \), ואז \( q_{1}\in B_{y} \) ולכן זו לא קבוצה ריקה, ו-\( f\left(q_{2}\right) \) יהיה חסם מלעיל של \( B_{y} \), כי אם \( q\in B_{y} \) אז \( f\left(q\right)<y<f\left(q_{2}\right) \) ולכן בגלל ש-\( f \) משמרת סדר \( f\left(q\right)<f\left(q_{2}\right) \) ייתן לנו \( q<q_{2} \).

הגדרתי את \( x \) אבל עדיין צריך להראות ש-\( f\left(x\right)=y \). האם ייתכן ש-\( f\left(x\right)<y \)? במקרה כזה, צפיפות הרציונליים תיתן לנו \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(x\right)<f\left(p\right)<y \), אבל מכיוון ש-\( f\left(p\right)<y \) הרי ש-\( p\in B_{y} \), ולכן מכיוון ש-\( x=\sup B_{y} \) אז \( p\le x \) ולכן \( f\left(p\right)\le f\left(x\right) \) (זה נובע מכך שכבר הוכחנו שאם \( a<b \) אז \( f\left(a\right)<f\left(b\right) \)) וזו סתירה לכך ש-\( f\left(x\right)<f\left(p\right) \). נשאר רק להראות שלא ייתכן \( y<f\left(x\right) \). אם זה כן היה מתקיים, אז היינו מקבלים \( f^{-1}\left(y\right)<x \), אבל \( f^{-1}\left(y\right) \) הוא בעצמו חסם מלעיל של \( B_{y} \) (כי אם \( f\left(q\right)<y \) אז \( q<f^{-1}\left(y\right) \)) ולכן \( f^{-1}\left(y\right)<x \) סותר את ההגדרה \( x=\sup B_{y} \). זה מסיים את החלק הזה של ההוכחה.

עכשיו צריך להוכיח ש-\( f\left(x+y\right)=f\left(x\right)+f\left(y\right) \). כרגיל כבר, אנחנו מניחים שזה לא המצב ולכן אפשר לכתוב \( f\left(x+y\right)<f\left(x\right)+f\left(y\right) \) או \( f\left(x+y\right)>f\left(x\right)+f\left(y\right) \) ולהתעלל בכל אחד מהמקרים הללו לחוד עם כל מני רציונליים שנדחפים בין האיברים. במקרה \( f\left(x+y\right)<f\left(x\right)+f\left(y\right) \) אני אמצא \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(x+y\right)<f\left(p\right)<f\left(x\right)+f\left(y\right) \) .

בואו נסתכל על \( f\left(x+y\right)<f\left(p\right) \). בגלל ש-\( f \) משמרת סדר, \( x+y<p \), ועכשיו נשתמש בטריק יפה. נמצא \( q_{x},q_{y}\in\mathbb{Q}_{1} \) כך ש-\( p=q_{x}+q_{y} \) ו-\( x<q_{x} \) ו-\( y<q_{y} \), באופן הבא: מכיוון ש-\( x+y<p \) אז \( x<p-y \), ולכן ניתן לבחור רציונלי \( q_{x} \) כך ש-\( x<q_{x}<p-y \). עכשיו נגדיר \( q_{y}=p-q_{x} \); \( q_{y} \) יהיה רציונלי כי \( p \) ו-\( q_{x} \) שניהם רציונליים. בנוסף, \( q_{y}=p-q_{x}>p-\left(p-y\right)=y \), כלומר קיבלתי \( x<q_{x} \) וגם \( y<q_{y} \), כמו שרציתי.

עכשיו נשתמש במספרים הללו:

\( f\left(p\right)=f\left(q_{x}+q_{y}\right)=f\left(q_{x}\right)+f\left(q_{y}\right)>f\left(x\right)+f\left(y\right) \)

וקיבלנו סתירה ל-\( f\left(p\right)<f\left(x\right)+f\left(y\right) \). המעבר השני מתבסס על כך ש-\( f \) בגרסה המצומצמת שלה היא איזומורפיזם של \( \mathbb{Q}_{1} \) ו-\( \mathbb{Q}_{2} \).

במקרה השני, \( f\left(x\right)+f\left(y\right)<f\left(x+y\right) \), עושים משהו דומה - זה מה שנקרא “תרגיל טוב” כדי לוודא שהבנו את הרעיון.

נשאר לנו רק להראות \( f\left(x\cdot y\right)=f\left(x\right)\cdot f\left(y\right) \). ראשית נוכיח את זה עבור ערכים חיוביים, \( 0<x,y \), כי כאן נמצא עיקר הרעיון. כמו קודם, אני אניח שאין שוויון ואטפל במקרה \( f\left(xy\right)<f\left(x\right)f\left(y\right) \) והמקרה השני יהיה “תרגיל טוב”. אני אמצא \( p\in\mathbb{Q}_{1} \) כך ש-\( f\left(xy\right)<f\left(p\right)<f\left(x\right)f\left(y\right) \) ואז אמצא \( q_{x},q_{y}\in\mathbb{Q}_{1} \) כך ש-\( x<q_{x},y<q_{y} \) ו-\( q_{x}q_{y}=p \) , כך שאני אקבל

\( f\left(p\right)=f\left(q_{x}q_{y}\right)=f\left(q_{x}\right)f\left(q_{y}\right)>f\left(x\right)f\left(y\right) \)

וזו סתירה ל-\( f\left(p\right)<f\left(x\right)f\left(y\right) \).

נשאר רק למצוא את \( q_{x},q_{y} \) הללו. \( xy<p \) ולכן \( x<\frac{p}{y} \) - אבל שימו לב שכאן נזקקתי להנחה ש-\( 0<y \) אחרת זה לא היה עובד (הנחה שלא הייתי צריך במקרה של חיבור, כשאמרתי ש-\( x<p-y \)). עכשיו אפשר רציונלי \( q_{x} \) כך ש-\( x<q_{x}<\frac{p}{y} \) ואגדיר \( q_{y}=\frac{p}{q_{x}} \) (ושוב, בלי \( 0<x \) הייתי מסתכן כאן בחלוקה באפס). עם ההגדרה הזו, \( q_{x}q_{y}=p \) וכמו כן \( q_{y} \) רציונלי כי הוא מנה של שני רציונליים. אנחנו יודעים ש-\( x<q_{x} \) על פי האופן שבו \( q_{x} \) נבחר. בנוסף, מכיוון ש-\( q_{x}<\frac{p}{y} \) ושני המספרים הללו חיוביים, אנחנו מקבלים \( \frac{1}{q_{x}}>\frac{y}{p} \) ולכן \( q_{y}=\frac{p}{q_{x}}>p\cdot\frac{y}{p}=y \) וקיבלנו גם את \( q_{y}>y \) שהיינו צריכים.

הראינו את \( f\left(xy\right)=f\left(x\right)f\left(y\right) \) למקרה שבו \( 0<x,y \), אבל מה עם המקרים האחרים? ראשית, אם \( x=0 \) אז קל לראות ש-\( f\left(0\right)=0 \), פשוט כי \( f\left(0\right)=f\left(0+0\right)=f\left(0\right)+f\left(0\right) \), אז השוויון בוודאי יתקיים כי

\( f\left(xy\right)=f\left(0\cdot y\right)=f\left(0\right)=0=0\cdot f\left(y\right)=f\left(0\right)\cdot f\left(y\right)=f\left(x\right)f\left(y\right) \)

ובדומה גם אם \( y=0 \). שימו לב שכאן לא השתמשנו במה שהוכחנו כבר על כפל, אבל כן במה שהוכחנו כבר על חיבור (טוב, ליתר דיוק רק על \( f\left(0+0\right)=f\left(0\right)+f\left(0\right) \) שנבע מכך ש-\( f \) המקורית על הרציונליים הייתה איזומורפיזם).

עכשיו, מה אם \( x<0 \) אבל \( y>0 \)? במקרה הזה \( -x>0 \) אז אפשר להשתמש עליו במה שכבר הוכחנו. לפני כן, בואו נראה שמתקיים הדבר המתבקש \( f\left(-x\right)=-f\left(x\right) \), מה שמזמין שוב שימוש במה שהוכחנו על חיבור:

\( f\left(-x\right)+f\left(x\right)=f\left(-x+x\right)=f\left(0\right)=0 \)

ולכן אחרי העברת אגפים נקבל \( f\left(-x\right)=-f\left(x\right) \). ועכשיו אפשר לחזור אל הכפל:

\( f\left(xy\right)=-f\left(-xy\right)=-f\left(-x\right)f\left(y\right)=f\left(x\right)f\left(y\right) \)

ובאופן דומה מטפלים במקרה שבו \( x>0 \) ו-\( y<0 \). ואם \( x,y<0 \) שניהם? זה הכי קל:

\( f\left(xy\right)=f\left(\left(-x\right)\left(-y\right)\right)=f\left(-x\right)f\left(-y\right)=\left(-1\right)^{2}f\left(x\right)f\left(y\right)=f\left(x\right)f\left(y\right) \)

וסיימנו את כל ההוכחה!

סיכום זריז

זה היה פוסט ארוך במיוחד ומחולק להרבה חלקים כי רציתי שכל הדברים הרלוונטיים זה לזה ישבו באותו מקום. יש משהו קצת אירוני שעבור ההגדרה המאוד פשוטה “הממשיים הם השדה הסדור השלם” הייתי צריך לכתוב כל כך הרבה, ועוד יותר אירוני שבעצם לא בנינו את הממשיים בכלל כאן. קיבלנו מושג מאוד ברור של מה הממשיים אמורים להיות: מה זה שדה, מה זה סדור, מה זה שלם. ראינו גם שאם בכלל קיימת קבוצה שמקיימת את התכונות הללו שאנחנו דורשים מהממשיים, אז היא יחידה במובן זה שכל קבוצה אחרת שמקיימת את התכונות הללו איזומורפית אליה. אבל עדיין לא בניתי שום קבוצה כזו - את זה אני אעשה בהמשך, עם שתי הבניות הסטנדרטיות של הממשיים: זו שמשתמשת בחתכי דדקינד וזו שמשתמשת בסדרות קושי. ההגדרה של חתכי דדקינד מגיעה באופן כמעט ישיר מאקסיומת השלמות שדיברנו עליה בפוסט הזה; אבל ההגדרה עם סדרות קושי (שאני אישית אוהב טיפה יותר למרות ששתי ההגדרות נהדרות) תדרוש עוד קצת עבודת הכנה תיאורטית, שבה יעסוק הפוסט הבא.

אז מה זה בעצם המספרים הממשיים? (חלק א’: השיטה העשרונית)

2024-08-11T00:00:00+00:00

המספרים הממשיים הם אחד מהדברים המרכזיים במתמטיקה. הם מופיעים בערך בכל מקום. בבית הספר משתמשים בהם כל הזמן באופן מובלע; כשמתחילים ללמוד מתמטיקה ברמת אוניברסיטה הם צצים מייד בתור העולם המרכזי שבו מתרחש החשבון הדיפרנציאלי והאינטגרלי, בתור בסיס למה שקורה באלגברה לינארית, בתור קבוצה מעניינת במיוחד בתורת הקבוצות, וכו’ וכו’ וזה עוד בלי שנתחיל לדבר על השימושים שלהם בפיזיקה ויתר המדעים.

רק דבר אחד לא ממש ברור - מהם המספרים הממשיים? במתמטיקה מגדירים כל דבר אפשרי בערך, אז איך הממשיים מוגדרים? מתברר שזה לא כל כך פשוט. יש הגדרה קצרה וקולעת שאני אוהב: השדה הסדור השלם. כרגע ההגדרה הזו היא פשוט רצף אקראי של מילים שלא אומר שום דבר ולא ברור מה הקשר בינו לבין מה שכולם מכירים מבית הספר, אז בואו נחזור קודם כל ליסודות ונדבר על מה שכולם יודעים, ואז נראה למה צריך יותר מזה ואיך אפשר לעשות את זה.

כשאני מבקש מאנשים להגדיר את הממשיים, הגדרה די נפוצה היא “כל המספרים, חוץ מהמרוכבים”. זו הגדרה שמשמחת אותי כי אני תמיד אוהב לראות כמה הרבה אנשים מכירים את המספרים המרוכבים, אבל זו לא הגדרה מועילה כל כך עבורנו כי היא מניחה שאנחנו כבר יודעים מה זה כל המספרים ורק צריך לסנן החוצה את אלו הבעייתיים. אז אני לא אדבר פה בכלל על מרוכבים, ולא אניח שאנחנו כבר מכירים ממשיים.

הגדרה נפוצה אחרת היא “כל המספרים שעל ציר המספרים” ועוד אחזור גם אליה בהמשך כי יש איתה כמה בעיות לטעמי, אבל הברורה ביותר היא שגם פה אנחנו מסבירים מה זה אובייקט מסובך (הממשיים) על ידי הנחה שאנחנו כבר מכירים אובייקט מסובך (ציר המספרים שהוא לכאורה פשוט אבל בפועל ממש לא).

אז הנה ההגדרה הכי פשוטה ומוכרת שגם עובדת לא רע בפועל: כל המספרים שאפשר לכתוב בייצוג עשרוני. בואו נראה כמה דוגמאות לפני שנסביר מה זה בכלל ייצוג עשרוני: \( 42 \) הוא מספר ממשי. גם \( -13 \) הוא מספר ממשי. גם \( 0.5 \) הוא מספר ממשי (שאנחנו מכירים בתור “חצי”). גם \( 1.4142\ldots \) הוא מספר ממשי (שאנחנו מכירים בתור \( \sqrt{2} \)). גם \( 3.14159\ldots \) הוא מספר ממשי (שאנחנו מכירים בתור \( \pi \)).

כל המספרים הללו נכתבים בצורה דומה: סדרה של ספרות, כשכל ספרה היא בין 0 ל-9. אנחנו קוראים את הספרות הללו משמאל לימין. לפני הספרות עשוי להופיע הסימן \( - \) שמציין “מינוס” ואומר שהמספר הוא שלילי. בתוך סדרת הספרות עשויה להופיע נקודה (שנקראת “הנקודה העשרונית”) וייתכן שבצד ימין של הספרות יופיעו שלוש נקודות, “\( \ldots \)” שהמשמעות שלהן היא קצת טריקית אבל בגדול הן אומרות “ויש עוד ספרות בהמשך אבל נמאס לנו לכתוב אותן”. זה הכל, אין עוד דקויות לאיך כותבים מספר בייצוג עשרוני - רק צריך להבין מה הכתיב הזה אומר בכלל.

פחות או יותר כל שיטה שאני מכיר לכתיבת מספרים מבוססת על כמה “אבני בניין”, מספרים פשוטים יחסית שיש לנו סימונים ספציפיים עבורם, ואז כתיבה של מספר מורכב יותר כוללת הוראות איך לקחת את אבני הבניין הללו ולחבר אותן ביחד. דוגמא פשוטה ויפה לזה היא השיטה הרומית, שבה \( I \) הוא הסימן של 1, \( V \) הוא הסימן של 5, \( X \) הוא הסימן של 10 ויש עוד כל מני סימנים. כשכותבים \( XXVIII \) אומרים “קחו פעמיים 10, תוסיפו לזה פעם אחת 5 ושלוש פעמים 1” וככה מקבלים את המספר 28. בשיטה הרומית יש גם התחכמות; כדי לא לכתוב את אותו סימן 4 פעמים ברצף, מרשים סוג של חיסור, כלומר עבור 9 במקום לכתוב \( VIIII \) כותבים \( IX \) כשהעובדה ש-\( I \) בא לפני \( X \) אומרת “במקום לחבר 1 בואו נחסר 1”. בייצוג עשרוני למרבה השמחה אין שטיקים כאלה: תמיד מחברים, אין חיסורים ואין שום שטות אחרת.

“אבני הבניין” בשיטה העשרונית הם המספרים \( 1,10,100,1000 \) וכן הלאה - חזקות של 10. בשביל לפשט את העניינים אני אכתוב לפעמים \( 10^{1} \) במקום 10, \( 10^{2} \) במקום 100 וכן הלאה, וכמו כן \( 10^{0} \) במקום 1; יש לי פוסט על למה להעלות דברים בחזקת 0 אמור להחזיר 1 אז לא אכנס לזה כאן.

כשאני כותב מספר בשיטה העשרונית והנקודה העשרונית לא מופיעה, הרעיון הוא זה: הספרה הימנית ביותר אומרת כמה פעמים 1 משתתף במספר. הספרה הבאה אחריה לכיוון שמאל אומרת כמה פעמים 10 משתתף במספר, הבאה אחריה מדברת על 100 וכן הלאה. כלומר, כשאני כותב \( 42 \) הכוונה היא לקחת את 1 ולחבר אותו פעמיים, ואז לקחת את 10 ולחבר אותו 4 פעמים: \( 2\times1+4\times10 \). ו-\( 103 \) פירושו \( 3\times1+0\times10+1\times100 \). אני אישית מוצא את סגנון הכתיבה הזה בלתי קריא לחלוטין, עם כל האיקסים והמהומות. אני מעדיף \( 3\cdot10^{0}+0\cdot10^{1}+1\cdot10^{2} \) שקצת יותר קל לי לקרוא. מה שאפשר לראות כאן קצת יותר בקלות הוא שהמספר בנוי מסכום של חזקות של 10 שמוכפלות במספרים שהיו הספרות שהופיעו בייצוג העשרוני: בהקשר הזה, המספרים הללו נקראים המקדמים של החזקות.

עם השיטה שהצגתי עד עכשיו אפשר לבנות את כל המספרים הטבעיים, שהם המספרים הפשוטים ביותר שאנחנו מכירים - \( 1,2,3 \) וכן הלאה (גם 0 יכול להיחשב מספר טבעי אבל לא ניכנס לזה) ומסומנים ב-\( \mathbb{N} \). אני מניח שאנחנו מכירים את המספרים הטבעיים, ואני מניח גם שאנחנו בסדר עם המספרים השליליים. הטבעיים והשליליים יחד עם 0 נקראים המספרים השלמים ומסומנים ב-\( \mathbb{Z} \). בשיטה העשרונית כדי לייצג מספר שלילי מה שעושים הוא כאמור להוסיף סימן מינוס לפניו, כך שאנחנו כבר עכשיו יודעים איך לתאר את כל המספרים השלמים.

כשמתחילים לדבר על שברים הסיפור מסתבך. בדרך כלל נוח לנו לתאר שברים באמצעות קו שבר: את “חצי” אנחנו כותבים בתור \( \frac{1}{2} \) ואת “שליש” בתור \( \frac{1}{3} \) ואת “שלושת-רבעי” בתור \( \frac{3}{4} \) וכן הלאה. בשיטת הכתיבה הזו יש לנו קו - קו השבר - שמעליו יש מספר שלם שנקרא המונה, מתחתיו יש מספר שנקרא המכנה והאינטואיציה הוא שהמספר שמיוצג בצורה כזו הוא התוצאה של חילוק המונה במכנה. לכן \( \frac{5}{10} \) הוא שיטה אחרת לכתוב \( \frac{1}{2} \), למשל. זו שיטת כתיב שימושית בצורה יוצאת מן הכלל, וגם במתמטיקה מתקדמת זה האופן שבו בדרך כלל מתארים שברים.

אם רוצים לתאר שברים בעזרת כתיב עשרוני, אנחנו מסתבכים. אמרנו שכתיב עשרוני עובד עם לחבר חזקות של 10, אבל איזה חזקות של 10 אפשר לחבר בכלל כדי לקבל \( \frac{1}{2} \)? לכאורה החזקה הקטנה ביותר של 10 היא \( 10^{0}=1 \) שהיא לבדה גדולה מחצי. אז בשביל לקבל שברים צריך להכניס לתמונה סוג חדש של חזקות של 10: חזקות שליליות. ההגדרה די פשוטה: אם \( n \) הוא מספר טבעי (בפרט, לא שלילי) אז \( 10^{-n}=\frac{1}{10^{n}} \). כלומר, \( 10^{-1} \) הוא עשירית, \( 10^{-2} \) הוא מאית וכן הלאה. אם יש לי עשיריות, אני יודע לתאר את חצי: \( 5\cdot\frac{1}{10} \) הולך לצאת בדיוק חצי, כמו שראינו. אז כשאני הולך לכתוב את חצי בשיטה העשרונית, אני אשתמש בספרה 5 - אבל איך מסמנים שאני מתחיל להשתמש בחזקות שליליות של 10 במקום בחיוביות?

כאן נכנסת לתמונה הנקודה העשרונית. את חצי כותבים בתור \( 0.5 \). מה זה אומר? ה-0 בצד שמאל הוא ספרת האחדות. הנקודה שמימין ל-0 הזה אומרת “כאן מתחילות להופיע חזקות שליליות של 10” וככל שמתקדמים יותר ימינה, מקבלים חזקות שליליות קטנות יותר של 10. ב-\( 0.5 \) יש רק ספרה אחת, שמייצגת את המקדם של החזקה השלילית \( 10^{-1} \). כלומר, המספר הזה הוא

\( 0\cdot10^{0}+5\cdot10^{-1} \)

וכפי שראינו, זה אכן יוצא חצי. זה היה פשוט, אבל מהר מאוד זה מסתבך. כדי לכתוב \( \frac{1}{4} \), למשל, אני נזקק ל-\( 0.25 \), כי

\( 2\cdot\frac{1}{10}+5\cdot\frac{1}{100}=\frac{25}{100}=\frac{1}{4} \)

אפשר לחשוב על זה ככה: ראשית שאלתי את עצמי - האם יש מספר טבעי \( a \) כך ש-\( \frac{a}{10}=\frac{1}{4} \)? קל לראות שאין כזה, כי \( a \) צריך לצאת \( 2.5 \) בעצמו. אז הלכנו אל החזקה הבאה בתור ושאלנו את עצמנו האם יש \( a \) טבעי כך ש-\( \frac{a}{100}=\frac{1}{4} \). כאן התשובה הייתה חיובית: \( a=25 \). אבל אי אפשר לכתוב מספר שבו המקדם של ספרת המאיות היא 25 כי 25 הוא גדול מ-\( 9 \), שהיא הספרה הגדולה ביותר, אז היה הכרח “לפצל” את המספר לסכום. זה קצת מבלבל אבל באמת שלא כזה נורא.

מה שכן נורא הוא \( \frac{1}{3} \). הבעיה איתו היא שפשוט לא קיים מספר \( a \) שלם כך ש-\( \frac{a}{10}=\frac{1}{3} \). או \( \frac{a}{100}=\frac{1}{3} \). או \( \frac{a}{10^{n}}=\frac{1}{3} \) ולא משנה איזו חזקה של \( 10 \) ניקח. למה? כי נניח ש-\( \frac{a}{10^{n}}=\frac{1}{3} \) כן מתקיים עבור מספר שלם \( a \) כלשהו, אז \( a=\frac{10^{n}}{3} \), כלומר \( 10^{n} \) מתחלק ב-3 בלי שארית וזה פשוט לא נכון - כל חזקה של 10 שנחלק ב-3 תחזיר שארית 1. אז יש לנו בעיה. ולמעשה, יש לנו את הבעיה הזו כמעט תמיד, עבור כל מכנה שהמספר שבו לא מחלק בלי שארית חזקה כלשהי של 10. ובגלל ש-\( 10=2\cdot5 \) כש-\( 2,5 \) ראשוניים, גם קל לאפיין את המספרים הבעייתים: כל מספר שיש לו גורם ראשוני שהוא לא 2 או 5 יהיה בעייתי. כמעט כל המספרים! הדוגמאות הנחמדות של \( \frac{1}{2} \) ושל \( \frac{1}{4} \) (כמו גם \( \frac{1}{5} \) למשל, שיוצא \( 0.2 \)) הן היוצא מן הכלל. ברוב המוחלט של המקרים פשוט אי אפשר לכתוב את השבר בתור סכום סופי של חזקות שליליות של 10.

אז מה עושים? אה, כאן הכיף מתחיל. משתמשים במספר אינסופי של חזקות שליליות של 10. למשל, בהחלט יש מצב שכבר ידעתם ש-\( \frac{1}{3}=0.333\ldots \). בדור שלי ידענו את זה כי השתעממנו למוות בשיעור מתמטיקה ועשינו דברים אקראיים עם מחשבונים, למשל לחלק 1 ב-3 ולצהול איך המסך של המחשבון התמלא בספרות. אבל מחשבון לא כותב בדרך כלל \( 0.333\ldots \). הוא כותב משהו כמו \( 0.333333333 \) וזהו. או אולי \( 0.3333333334 \) אם הוא ממש רוצה לשגע אותנו. אין אצלו את שלוש הנקודות, מה שיוצר אולי אשליה ש-\( \frac{1}{3}=0.33333333 \), אבל זה פשוט לא נכון: למשל, \( 0.333=\frac{3}{10}+\frac{3}{100}+\frac{3}{1000}=\frac{333}{1000} \), והמספר הזה הוא לא \( \frac{1}{3} \). אם נכפיל אותו ב-3 נקבל \( \frac{999}{1000} \), לא 1. ואם נכפיל ב-3 את \( \frac{334}{1000} \) נקבל \( \frac{1002}{1000} \), לא 1. אז לעצור אחרי מספר סופי של 3-ים משאיר אותנו עם קירוב של המספר, לא עם המספר עצמו, וגם לשנות את הספרה האחרונה לא יעזור לנו. אנחנו חייבים אינסוף ספרות.

מה קורה כשיש אינסוף ספרות? ובכן, האינטואיציה היא שמשהו כמו \( 0.333\ldots \) הוא הסכום

\( \frac{3}{10}+\frac{3}{100}+\frac{3}{1000}+\ldots \)

שפשוט נמשך עוד ועוד עד אינסוף, מה שבמתמטית מסומן בקיצור בתור \( \sum_{n=1}^{\infty}\frac{3}{10^{n}} \). זה מה שנקרא טור אינסופי. יש במתמטיקה תחום מכובד ומפותח שמטפל בין היתר בטורים אינסופיים - החשבון הדיפרנציאלי והאינטגרלי. במסגרת שלו אפשר להוכיח שהטור \( \sum_{n=1}^{\infty}\frac{3}{10^{n}} \) באמת מתכנס, כלומר שאפשר לייחס ערך מספרי לסכום שלו, וגם אפשר להוכיח שהערך הזה יהיה \( \frac{1}{3} \). אבל מה זה אומר? שאנחנו נזקקים למתמטיקה מתקדמת למדי כדי להסביר סימון פשוט. הרי \( \frac{1}{3} \) זה משהו שאנחנו מכירים מבית הספר היסודי; איך זה הגיוני בכלל שאנחנו נזקקים לחומר של אוניברסיטה כדי להצדיק כתיב עשרוני לאותו מספר? זו שאלה שאני תוהה כמה אנשים בכלל טורחים לשאול את עצמם; הרי רואים גם את השיטה העשרונית, וגם את השטיק של \( 0.333\ldots \) בשלב מוקדם יחסית של ההיכרות עם המתמטיקה, ואני חושד שפשוט קל לקבל את זה ש”זה עובד” בלי לפקפק יותר מדי. הפקפוקים מגיעים רק כשאנשים מגיעים לפינות אפלות, כמו השאלה האם \( 0.999\ldots \) שווה ל-1 (תשובה: כן, בוודאי, זה נובע ישירות מההגדרה של \( 0.999\ldots \) ועוד נחזור לזה בסדרת הפוסטים הזו).

מה שראינו עד עכשיו עשוי לתת רושם שכשכותבים מספר בייצוג עשרוני אינסופי, מה שקורה הוא פשוט שיש ספרה שחוזרת על עצמה לנצח. בדרך כלל המצב מסובך יותר. אם למשל נחשב את \( \frac{1}{7} \) נגלה ש-\( \frac{1}{7}=0.142857142857\ldots \), כלומר רצף הספרות \( 142857 \) חוזר על עצמו לנצח, לא סתם ספרה בודדת. הדרך הטובה ביותר להרגיש “מה קורה כאן” היא באמת לחשב בפועל את \( \frac{1}{7} \) לפי שיטת החילוק הארוך (אני מציג אותה ומראה את החישוב הספציפי הזה כאן). בלי להיכנס יותר מדי לפרטים, מה שקורה בחילוק ארוך הוא שהחל משלב מסוים, המשך תהליך החילוק תלוי רק בשארית שיש לנו כרגע, ואם אנחנו למשל מחלקים ב-7 אז השארית הזו תהיה מספר מ-0 עד 6. זה אומר שמתישהו אותה שארית תחזור על עצמה פעמיים, ואז המשך החישוב יהיה חזרה שוב ושוב על מה שקורה בין מופעים עוקבים של השארית הזו. גם אם לא עקבתם, השורה התחתונה היא זו: כשאנחנו מחשבים את הייצוג העשרוני של שבר, הוא תמיד יהיה מחזורי החל ממקום מסויים אחרי הנקודה העשרונית.

התוצאה הזו יכולה לתת לנו תקווה שבעצם, אפשר לתת ייצוג עשרוני סופי לכל מספר. במקום השלוש נקודות המטופשות הללו אפשר פשוט לשים קו מעל הספרות שהולכות לחזור על עצמן. למשל, במקום לכתוב \( 0.333\ldots \) לכתוב פשוט \( 0.\overline{3} \). במקום לכתוב \( 0.142857142857\ldots \) לכתוב פשוט \( 0.\overline{142857} \), וכן הלאה.

העניין הוא, שזה באמת נותן לנו רק את השברים. במתמטית “השברים” נקראים מספרים רציונליים, מסומנים ב-\( \mathbb{Q} \), והם קבוצה חשובה ביותר ומרכזית לשלל ענפי המתמטיקה - והם רחוקים מלכלול את כל המספרים שמעניינים אותנו. למשל, \( \sqrt{2} \) הוא לא מספר רציונלי (כאן אני מדבר על זה) וגם \( \pi \) הוא לא מספר רציונלי. בפרט, זה אומר שאין להם ייצוג מחזורי כשבר עשרוני - אנחנו חייבים לכתוב משהו מטופש כמו \( \pi=3.14159\ldots \) כששלוש הנקודות אומרות “כן, ומכאן והלאה זה נמשך, אבל זה לא נמשך באופן מחזורי ובתכל’ס פשוט אין לי מושג מה הספרות הולכות להיות אבל אני יכול לנסות לחשב אותן אם אתאמץ”.

אז בשביל מספרים כלליים, אני חייב להרשות את זה שהייצוג העשרוני יהיה אינסופי, גם אם הספרות לא חוזרות על עצמן. זה מוביל אותנו להגדרה הכללית של ייצוג עשרוני של מספר ממשי: סדרה אינסופית של ספרות, שכוללת סימן של נקודה איפה שהוא בתוכה, ויכולה גם להתחיל בסימן מינוס.

ההגדרה נשמעת אולי קצת מוגזמת: ב-\( 0.5 \) אין אינסוף ספרות, וב-\( 42 \) אין אפילו נקודה עשרונית. אבל כמובן, אפשר לחשוב על הסימונים הללו בתור קיצורים. \( 0.5 \) הוא קיצור של \( 0.5000\ldots \) ואילו \( 42 \) הוא קיצור של \( 42.000\ldots \). זה מאפשר לנו לתת הגדרה די פשוטה לייצוג עשרוני של מספר ממשי.

אז מה בעצם הבעיה פה?

חשוב לי להבהיר שאין בעיה אמיתית. אני מעדיף גישות אחרות להגדרת הממשיים ואראה את כולן, אבל אפשר להגדיר את המספרים הממשיים גם בעזרת הגישה הזו ובהמשך אני כנראה גם אסביר כל הפרטים, אבל זה בהחלט לא יהיה חף מסיבוכים טכניים. לב הקושי הוא בזה שלא מספיק להגדיר את המספרים עצמם; צריך גם להגדיר עליהם פעולות אלגבריות כמו חיבור וכפל. אבל כרגע זה אפילו לא מה שמעניין אותי.

מה שמעניין אותי הוא שאני חושב שלפעמים מתפספסת ההבנה עד כמה ההגדרה שנתנו כרגע היא גורפת ומה המשמעויות שלה. סדרות אינסופיות של ספרות יש המון - בלשון של תורת הקבוצות, זו קבוצה לא בת מניה. המשמעות של זה היא שעבור רובם המוחץ, המכריע של המספרים הממשיים אין דרך לחשב את הספרות שלהם כמו שהיה במקרה של \( \pi \). אצל \( \pi \), כזכור, אמרתי “אוקיי אני שם פה שלוש נקודות כדי להגיד שאין לי כוח לתאר עוד ספרות, אבל בעיקרון גם אם תבקשו ממני לחשב את הספרה במקום ה-1,345,823 אני אוכל לעשות את זה”. עבור רוב המספרים הממשיים אין את זה, ולעולם לא יהיה (אינטואיטיבית, זה נובע מכך שיש רק מספר בן מניה של תוכניות מחשב אפשריות אבל מספר לא בן מניה של ממשיים). אפילו יותר גרוע מזה - עזבו אתכם מלחשב, את רוב המספרים הממשיים לא ניתן בכלל להגדיר. מה שאני יודע להגדיר הוא את קבוצת כל המספרים הממשיים, אבל איברים קונקרטיים וספציפיים שלה? אני יכול להצביע אינדיבידואלית רק על מיעוט זניח מביניהם. כמעט כל המספרים הממשיים הם משהו שאף פעם לא נכתוב, אף פעם לא נשתמש בו במפורש בחישוב, אף פעם לא יהיה רלוונטי לחיים שלנו בשום צורה.

זו, אגב, גם תשובה לאלו שמגדירים מספרים ממשיים בתור “כל המספרים שיכולים להתקבל בתור תוצאת מדידה פיזיקלית” (נעזוב את השאלה האם גם מרוכבים יכולים להתקבל כך) - כל מכשירי המדידה שלנו הם בעלי רזולוציה מוגבלת, ויוצא שאנחנו מודדים רק כמות בת מניה של מספרים, אז גם בגישה הזו אנחנו לא מגרדים את כל קבוצת הממשיים. ההגדרה שנתתי למעלה מנסה לחמוק מזה עם מעבר לדיבור על משהו פוטנציאלי (“שיכולים להתקבל”) אבל אני חושב שאם נוקטים בגישה הזו הדבר ההוגן לעשות הוא קודם לתאר את כל סט מכשירי המדידה שעומדים לרשותנו, ואז לשאול את השאלה האם נוכל למדוד איתם את כל המספרים הממשיים (לא; נוכל למדוד איתם רק קבוצה בת מניה של מספרים, כלומר זניחה יחסית לכל המספרים הממשיים).

העניינים הללו מעלים שאלה מצוינת - אם כך, בשביל מה אנחנו בכלל צריכים את המספרים הממשיים? אי אפשר פשוט להצטמצם רק למספרים שאפשר לחשב אותם או משהו? התשובה היא שאפשר, ויש כאלו שעושים את זה, אבל את רוב המתמטיקאים זה פשוט לא מעניין, כי הרבה יותר קל לעבוד עם המספרים הממשיים. כי אולי להצביע על ממשיים אינדיבידואליים זה כאב ראש, אבל כשמסתכלים על הקבוצה כולה, המכלול - זו קבוצה עם תכונות מאוד נוחות ויפות שמאפשרות למתמטיקאים להוכיח משפטים בקלות יחסית. כשאני קורא לממשיים “השדה הסדור השלם” אני בעצם מציין בדיוק את התכונות הללו. בפוסט הבא נדבר עליהן יותר לעומק.

למה מותר לחלק באפס?

2024-08-09T00:00:00+00:00

מבוא

כידוע לכולם, אסור לחלק באפס.

התמונה שלעיל, שלקוחה מהתוכנית הקלאסית “חשבון פשוט” שאפשר לראות כאן, מסכמת יפה את העניין - היא פשוט אומרת “חילוק באפס זו טעות, כיוון שאין לו - משמעות”. זה מה שאנחנו גדלים עליו מגיל צעיר, ואפשר להוסיף לזה שלל סיפורי זוועות על אנשים אומללים שחילקו באפס וסופם היה רע ומר, ובפרט אהוב הסיפור על ספינת הקרב USS Yorktown שנתקעה למשך כמה שעות טובות אחרי שהמחשב שלה קרס בעקבות חלוקה באפס.

אני לא אוהב את זה.

אני לא אוהב את זה, בגלל שזה יוצר את הרושם שמתמטיקה היא מין תחום כזה של חוקים ברורים וחד משמעיים שאי אפשר לערער עליהם. ותגידו - כן, נו, ברור, זו בדיוק המהות של המתמטיקה! ובכן, אני לא בדיוק מסכים. במתמטיקה, כמו למשל בציור, חוקים קיימים כדי שישברו אותם, אבל סתם לשבור אותם כדי לשבור דברים זה לא מעניין לכשעצמו, כמו שסתם קשקושים אקראיים זה לא מעניין; אם השבירה הזו מגיעה ממישהו שמכיר היטב את החוקים והסיבה שהם קיימים אבל מערער עליהם כי יש לו מה להגיד עם זה - זה כבר סיפור אחר. וכשזה נוגע לחלוקה באפס, הדבר הזה קורה שוב ושוב - אנחנו מחלקים באפס בסבבה, כי בהקשרים מסוימים ותחת מגבלות מסוימות זה דווקא יכול להיות בסדר. אז אני רוצה להסביר בפוסט הזה את ה”למה לא” וגם את ה”למה כן”. יש לי כבר פוסט ישן על זה, מראשית ימי הבלוג, אבל אני אפילו לא אנסה לקרוא אותו, משתי סיבות: ראשית, כי חלק ניכר ממנו ומפוסט ההמשך שלו סבב סביב איזה טרחן שהמציא שיטה לחלק באפס, וזה פשוט פחות מעניין ללמוד משהו חדש אם זה משולב בהתעסקות בטרחנים; ושנית - כי אני מקווה להיות אפילו יותר חיובי בפוסט הזה מאשר בפוסט הישן ההוא.

אז למה יש בכלל בעיה עם חלוקה באפס?

כשהייתי ילד וניסיתי להסביר לעצמי מה הבעיה עם חלוקה באפס (כי לא כל כך הצלחתי להבין - אמרו לי שאסור, אבל לא לגמרי הבנתי למה) סיפרתי לעצמי את הסיפור הבא: לחלק 0 תפוחים ל-4 ילדים זה קל - כל ילד יקבל 0 תפוחים, וזה הגיוני. אבל אם אני מחלק 4 תפוחים ל-0 ילדים, זה בעייתי כי אז השאלה “כמה תפוחים יקבל כל ילד” היא חסרת משמעות כי אין בכלל ילדים. אני חושב שזו התחלה של טיעון טוב, אבל זה לא הטיעון עצמו - כרגע זה מרגיש לי כמו נפנוף ידיים, סוג של תעלול לשוני, אולי דרך להראות שבהקשר הספציפי של ילדים ותפוחים חילוק באפס לא עובד הכי טוב. אבל חלק מהיופי במתמטיקה הוא בסיטואציות שבהן עושים ניסים ונפלאות למרות שנראה שמה שבאים לעשות הוא בכלל בלתי אפשרי - תחשבו למשל על המלון של הילברט. אז כשאני בא לנסח טיעון נגד חלוקה באפס אני רוצה לומר משהו יותר קונקרטי. והנה משהו יותר קונקרטי: אם אני מחלק 6 תפוחים ל-3 ילדים ומקבל שכל ילד קיבל 2 תפוחים, זה אומר שאם אני מבקש מהילדים להחזיר את התפוחים, כל ילד יחזיר 2 תפוחים ואני אקבל ככה 3 פעמים 2 תפוחים, כלומר 6. אבל אם אני מחלק איכשהו 6 תפוחים ל-0 ילדים ואז מבקש להחזיר - מאיפה התפוחים יגיעו? אני אקבל 0 פעמים תפוחים מה”ילדים” שלא קיימים, ולכן בסוף הסיפור יהיו לי ביד 0 תפוחים למרות שאמורים להיות 6. אז יש כאן בבירור בעיה אמיתית של תפוחים נעלמים, ואני אנסה לחדד אותה קצת.

לפני ששואלים מה מפריע לנו עם לחלק באפס אפשר לשאול אם משהו מפריע לנו עם לחלק באופן כללי: נאמר, אם יגידו לנו “נא לחלק 6 ב-2” כנראה שנגיד 3 בלי הרבה ויכוחים, אבל אם יגידו לנו “נא לחלק 5 ב-2” עלולה להתעורר מהומה כלשהי כי תמיד יש את ההוא שאומר שאין דבר כזה בכלל “שברים” ורק המספרים הטבעיים קיימים, ותמיד יש את המתחכם כמוני שיגיד “אוקיי אבל מה אם אלו 5 כלבים?” כלומר, יש משהו בעייתי קצת בכל פעולת החילוק - משהו בעייתי שאין בפעולת הכפל. כשאנחנו כופלים מספרים טבעיים, התוצאה תהיה תמיד מספר טבעי. אבל כשאנחנו מחלקים מספרים טבעיים, ייתכן שנצטרך לצאת מהעולם הנוח והנחמד של הטבעיים, ותמיד כשיוצאים מאיזור הנוחות שלנו יהיו השגות לגבי זה.

אם אנחנו מהסוג שאומר “אה, \( 5 \) חלקי \( 2 \) זה \( 2.5 \) שהוא מספר שלא שמעתי עליו מעולם עד עכשיו אבל יאללה, נזרום” למה בעצם שלא נזרום עם האפשרות שיש מספר ששווה ל-5 חלקי 0? ובכן, אין שום בעיה עם זה. השאלה היא רק מה יהיו התכונות של המספר הזה. זה מה שמעניין אותנו במתמטיקה - לא השאלה אם “מותר” להגדיר משהו, אלא איך אנחנו מצפים שהוא יתנהג אחרי שהגדרנו אותו והאם זה יהיה מעניין. והנה הבשורות המרות: זה לא יהיה כזה מעניין. ובשביל לראות את הסיבה לכך, בואו נעבור לדבר במשוואות. נניח ש-\( \frac{6}{3}=x \), מה \( x \) הזה מקיים? אם נכפיל את שני אגפי המשוואה ב-\( 3 \) נקבל שהוא מקיים \( 6=3\cdot x \). זה מה שקראתי לו קודם “הילדים מחזירים את התפוחים שלהם”. תוצאה של חילוק במשהו אמורה להיות מספר שהכפל שלו באותו משהו מחזיר אותי למספר שממנו התחלתי. ולכן, אם אני מחלק באפס וכותב \( \frac{6}{0}=x \) הציפייה שלי היא שיתקיים \( 6=0\cdot x \), וזה לא קורה עם מספרים רגילים, כי במספרים רגילים - לכפול משהו באפס תמיד מחזיר אפס.

זה השלב שבו אפשר וצריך לפקפק בטענה הזו של “לכפול משהו באפס תמיייייד מחזיר אפס”. במתמטיקה שום דבר הוא לא שרירותי כזה, זו טענה שאפשר להוכיח. בואו נראה את ההוכחה: ניקח “משהו” כללי שנקרא לו \( a \), ואת 0. נסתכל על המכפלה שלהם ונעשה את התעלול הבא:

\( 0\cdot a=\left(0+0\right)\cdot a=0\cdot a+0\cdot a \)

קיבלנו \( 0\cdot a=0\cdot a+0\cdot a \) ועכשיו נחסר \( 0\cdot a \) משני האגפים, ונקבל \( 0=0\cdot a \). זו הוכחה קצרה וקומפקטית מאוד, אבל היא כן מניחה כל מני הנחות ששווה לשים עליהן זרקור.

ראשית, המעבר הראשון בהוכחה הוא \( 0\cdot a=\left(0+0\right)\cdot a \), שמניח את השוויון \( 0=0+0 \). אני חושב שאין לנו ויכוח על השוויון הזה, שבכלל לא נוגע למספר הקסום \( a \), אלא למהות של 0 שהופכת אותו למספר כזה בעייתי: \( 0 \) הוא המספר הנייטרלי לפעולת החיבור, כלומר אם מחברים 0 למשהו, המשהו לא משתנה. גם כשהמשהו הוא אפס בעצמו.

המעבר השני בהוכחה \( \left(0+0\right)\cdot a=0\cdot a+0\cdot a \) הוא מקרה פרטי של משהו שנקרא חוק הפילוג (או במתמטית, דיסטריביוטיביות). הנה הכתיב הכללי:

\( \left(x+y\right)\cdot z=x\cdot z+y\cdot z \)

את חוק הפילוג אנחנו רואים כבר בבית הספר היסודי, ואפשר להוכיח שהוא מתקיים לכל המספרים הממשיים. אבל - אף אחד לא טוען ש-\( a \) הוא מספר ממשי, אז בהחלט ייתכן שההוכחה נשברת בשלב הזה; אלא שזה אומר שהיא גוררת איתה למצולות את חוג הפילוג. עוד מעט אחזור לזה.

השלב האחרון בהוכחה הוא ה”לחסר \( 0\cdot a \) משני האגפים” שהוא בעצם ההנחה שמתקיים \( 0\cdot a-0\cdot a=0 \). גם כאן, זו לא הנחה מובנת מאליה: לכאורה לחסר משהו מעצמו אמור תמיד לתת אפס, אבל בהמשך אני אראה דוגמה לסיטואציה שבה זה לא המצב ואנחנו חיים עם זה טוב במתמטיקה. אלא מה, אם אני מניח ש-\( 0\cdot a \) הוא מספר ממשי, ההנחה הזו כן נכונה. כלומר, אם אני טוען ש-\( 0\cdot a=6 \), אז לחסר אותו מעצמו כן צריך לתת 0.

בקיצור, אם אני רוצה לטעון שיש \( a \) כך ש-\( 0\cdot a=6 \), מה שברור לי הוא ש-\( a \) לא יכול להיות מספר ממשי - כלומר, מהמספרים ה”רגילים” שאנחנו מתעסקים איתם ביומיום. הוא חייב להיות מספר חדש. וזה קצת מזכיר סיטואציה דומה שהתרחשה במתמטיקה לפני כמה מאות שנים: אנחנו יכולים להוכיח די בקלות שלכל מספר ממשי \( a \) מתקיים \( a\cdot a\ge0 \), ולכן פשוט לא קיים מספר ממשי \( a \) כך ש-\( a^{2}=-1 \), אבל המתמטיקאים מצאו את עצמם בסיטואציה שבה הם נאלצים להוציא שורש ל-\( -1 \) ולעבוד איתו מתמטית. אז הם “המציאו” (במרכאות, כי זו לא באמת המצאה, יש בניות קונקרטיות מאוד) מספר \( i=\sqrt{-1} \) והכניסו אותו למתמטיקה והיום אי אפשר לזוז שני מטרים במתמטיקה בלי להיתקל ב-\( i \) הזה ובמספרים שנבנים בעזרתו (“מספרים מרוכבים”). זו המצאה שימושית בצורה יוצאת דופן והמתמטיקה שהיא הניבה היא יפהפיה. אבל הנה לב העניין כאן: המתמטיקה עם \( i \) היא יפהפיה כי \( i \) משחק יפה עם המספרים הקיימים. כדי להכניס אותו לתמונה לא היינו צריכים לוותר על חוק הפילוג או על זה שמספר פחות עצמו הוא 0. במתמטית נפוצה אנחנו אומרים על זה שהמספרים הממשיים \( \mathbb{R} \) היו שדה, שזו קבוצה שמקיימת את חוקי החשבון הרגילים (חיבור, חיסור, כפל, חילוק) עם כל התכונות הנחמדות שלהן מבית הספר (חוק הקיבוץ, חוק החילוף, חוק הפילוג) וגם המרוכבים \( \mathbb{C} \) הם שדה.

זה לא אומר שלהוסיף את \( i \) לתמונה לא עלה לנו שום דבר. בממשיים \( \mathbb{R} \) יש יחס סדר, אפשר להשוות בין שני מספרים ולומר ש-\( 3<8 \) וכדומה. אם מכניסים את \( i \) לתמונה זה הולך לאיבוד. אין ב-\( \mathbb{C} \) יחס סדר “טבעי”, כזה שמשחק יפה עם תכונות השדה. במתמטית: \( \mathbb{R} \) הוא שדה סדור ואילו \( \mathbb{C} \) הוא כבר לא שדה סדור. זה מחיר שאנחנו מוכנים לשלם, משתי סיבות: ראשית, כי אנחנו עדיין יכולים לעבוד עם \( \mathbb{R} \) לבדה, אף אחד לא מכריח אותנו תמיד לעבוד עם \( \mathbb{C} \), אנחנו לא זורקים לפח את המתמטיקה שלא מערבת מרוכבים. שנית, כי המתמטיקה שאנחנו כן יכולים לעשות עם \( \mathbb{C} \) היא כאמור די יפהפיה. וזה פשוט לא קורה אם אנחנו מגדירים \( a=\frac{6}{0} \). במקום זה רק צצות עוד ועוד בעיות.

בואו נראה עוד בעיה. דיברתי על חוק הקיבוץ. הוא אומר (עבור כפל) ש-\( \left(a\cdot b\right)\cdot c=a\cdot\left(b\cdot c\right) \). נשמע סביר? ובכן, אם \( a\cdot0=6 \) אז בואו נכפול ב-2 את שני האגפים. נקבל

\( \left(a\cdot0\right)\cdot2=12 \)

ומחוק הקיבוץ נקבל

\( a\cdot\left(0\cdot2\right)=12 \)

כלומר

\( a\cdot0=12 \)

אבל התחלנו מכך ש-\( a\cdot0=6 \), אז קיבלנו \( 6=12 \), ובמילים אחרות קיבלנו \( 6=0 \). אאוץ’. אין מנוס, נצטרך לוותר על חוק הקיבוץ כש-\( a \) מעורב, או על הקטע הזה שאם \( a\cdot0 \) שווה לשני דברים שונים אז הם שווים זה לזה, שזה עיקרון בסיסי במתמטיקה עוד מאז אוקלידס (“שוויון הוא טרנזיטיבי” במתמטית מודרנית).

אוקיית אז אם אנחנו מניחים ש-\( \frac{6}{0}=a \) הלכו לנו חוק הפילוג וחוק הקיבוץ. אבל אולי אפשר להציל את עצמנו בדרך פשוטה? להגיד שמכך ש-\( \frac{6}{0}=a \) לא נובע ש-\( 6=0\cdot a \)? אפשר לעשות את זה, ואז עולה השאלה מה השוויון \( \frac{6}{0}=a \) בעצם נותן לנו; ומכיוון שזה אחד מאותם דברים שעושים בפועל והם אפילו שימושיים, אני אדבר על זה בהמשך.

הדבר האחרון שאני רוצה לדבר עליו בגזרת ה”בעיות” הוא השאלה הבאה: אם אמרנו ש-0 כפול כל דבר יוצא 0, מה בעצם הבעיה עם \( \frac{0}{0} \)? אם אני למשל אגדיר \( \frac{0}{0}=0 \), האם זה יוביל לסתירה? לא, כי \( 0=0\cdot0 \). ומה אם, למשל, אני אגדיר \( \frac{0}{0}=1 \)? גם במקרה הזה אין סתירה כי \( 0=0\cdot1 \). אז מה הבעיה? ובכן, זה עתה ראינו מה הבעיה - עכשיו הבעיה היא לא שאין לנו מספר מתאים עבור \( \frac{0}{0} \) אלא שיש יותר מדי כאלו. איך אני אמור להגדיר? \( \frac{0}{0}=0 \) או \( \frac{0}{0}=1 \) או אולי משהו אחר? אני הרי לא יכול להגדיר את שניהם גם יחד, כי אז \( 0=\frac{0}{0}=1 \) וקיבלנו \( 0=1 \) או שוב פעם ויתור על העקרון הממש בסיסי ששוויון הוא טרנזיטיבי.

עכשיו, אנחנו יודעים שלכל \( x\ne0 \) מתקיים \( \frac{x}{x}=1 \), אז באמת, למה שלא נגדיר \( \frac{0}{0}=1 \)? אה, טוב ששאלתם, כי זה לא ייגמר כאן. אני אחבר את \( \frac{0}{0} \) עם עצמו: אם זה באמת מספר ממשי, אז לא אמורה להיות בעיה לעשות את זה. אז \( \frac{0}{0}+\frac{0}{0}=1+1=2 \) מצד אחד, אבל מצד שני

\( \frac{0}{0}+\frac{0}{0}=\frac{0+0}{0}=\frac{0}{0}=1 \)

וזה כשאני משתמש בכללי החיבור הרגילים של שברים - והופס, קיבלתי \( 1=2 \), סתירה במתמטיקה! אז אני יכול או לוותר על ההגדרה \( \frac{0}{0}=1 \) או לוותר על העיקרון לפיו אפשר לחבר שברים כשיש 0 במכנה, מה שהופך את \( \frac{0}{0} \) שוב למשהו שאין לנו מושג מה אפשר לעשות איתו, בעצם. אז לכאורה כל זה דוחף אותנו לכיוון ההגדרה \( \frac{0}{0}=0 \), אבל אל תתפתו לחשוב שזה יאפשר לנו לעשות חשבון עם הדבר הזה. כזכור, כשמחברים זוג שברים \( \frac{a}{b},\frac{c}{d} \), הנוסחה היא \( \frac{a}{b}+\cfrac{c}{d}=\frac{ad+bc}{bd} \), ולכן

\( 1=1+0=\frac{1}{1}+\frac{0}{0}=\frac{0+0}{0}=\frac{0}{0} \)

והופס! קיבלנו שוב את \( \frac{0}{0}=1 \) שכבר ראינו שהוא רועץ המתמטיקה - אלא אם כן שוב נוותר על משהו בסיסי. זה פשוט לא נגמר. זה כמו הצעצועים הללו שלוחצים עליהם במקום אחד ויוצאת בליטת פיכסה מהצד השני.

לפני שאני אעבור לדברים החיוביים, יש לי עוד דבר שלילי אחד לומר, שהוא אולי הגרוע מכולם - איך חלוקה באפס יכולה ממש לשגע אותנו. זה יקרה כשאנחנו נחלק באפס בלי לשים לב בכלל, אם איכשהו יצא שאנחנו פותרים להנאתנו משוואה ומחלקים אותה בביטוי כלשהו ושוכחים לסייג את זה שהוא לא שווה לאפס. יש לי פוסט עם דוגמא יפה במיוחד לזהת שבה ניסו לנצל את העניין הזה כדי לטעון שכל המתמטיקה מבוססת על כשלים לוגיים. כאן אני אסתפק בדוגמה הבסיסית שבה אפשר לראות עד כמה זה בעצם מטופש. הביטו במשוואה הבאה:

\( 4x=3x \)

אני יכול לחלק את שני האגפים ב-\( x \) ולקבל \( 4=3 \). הופס, סתירה במתמטיקה! הבעיה היא, כמובן, שאני לא יכול לחלק את שני האגפים ב-\( x \). לעשות דבר כזה אומר שלא משנה מה הערך של \( x \), תמיד ניתן לחלק בו. או, טכנית, תמיד ניתן לכפול את שני אגפים המשוואה בהופכי שלו. ל-\( 0 \) אין הופכי - אין מספר שאפשר לכפול בו את שני אגפי המשוואה ופשוט יעלים את \( x \) ממנה במקרה שבו \( x=0 \). מה שכן אפשר לעשות הוא להגיד “נניח ש-\( x \) שונה מאפס” ואז לחלק ב-\( x \), אבל אם מקבלים תוצאה לא הגיונית, המסקנה היא שההנחה הייתה לא נכונה. כמובן, את המשוואה \( 4x=3x \) אפשר לפתור יותר בקלות - מחסרים \( 3x \) משני האגפים ומקבלים \( x=0 \) מייד.

יפה, אז ראינו למה חלוקה באפס היא בעייתית. עכשיו בואו נראה הקשרים שבהם אנחנו כן עושים אותה בכל זאת, כי היא מועילה - תחת מגבלות מאוד מדויקות.

לאינסוף, והמינוס שלו

ההקשר המרכזי שצריך לדבר עליו הוא התחום המאוד מרכזי במתמטיקה שהבסיס שלו נעוץ בטריק של “בואו נחלק באפס, אבל בעצם לא” שאיכשהו באופן פלאי במהלך המאה ה-19 המתמטיקאים הבינו איך לפרמל עד הסוף - החשבון הדיפרנציאלי והאינטגרלי. אני לא אכנס פה לכל ההגדרות - יש לי פוסטים על זה. במקום זה, הנה הרעיון המרכזי.

נניח שאני רוצה לחלק את 1 ב-0 אבל אמרנו שהתוצאה לא יכולה לצאת מספר ממשי. מה כן הולך לצאת מספר ממשי? אם אני אחלק את 1 לא באפס אבל במשהו די קטן. למשל, \( \frac{1}{10000} \). זה מספר די קטן, לא? אם אני מחלק את 1 בו, אני מקבל \( 10000 \), שהוא די גדול. אבל “קטן” ו”גדול” זה מושג יחסי. 10000 הוא גדול אם אנחנו רוצים לאכול 10000 תפוחים, אבל לא אם אנחנו מסתכלים על מספר הכוכבים ביקום. אפשר לקחת מספרים עוד יותר קטנים ולחלק את 1 בהם. למשל \( \frac{1}{10^{100}} \), ותוצאת החלוקה תהיה \( 10^{100} \) - המספר שמכונה “גוגול”. הבנו את הרעיון: לכל מספר טבעי \( n \), אני יכול לחלק את 1 ב-\( \frac{1}{n} \) והתוצאה תהיה \( n \) עצמו. אז המתמטיקאים אומרים - בואו לא נסתכל על חלוקה במספר קונקרטי, אלא ניקח סדרה של מספרים: המספרים \( 1,\frac{1}{2},\frac{1}{3},\ldots \) וכן הלאה. הסדרה שהאיבר הכללי שלה הוא \( \frac{1}{n} \).

ככל ש-\( n \) גדול יותר, כך המספרים בסדרה הזו קטנים יותר, והם מתקרבים עוד ועוד לאפס באופן בלתי מוגבל: על הדבר הזה אומרים שהסדרה \( \frac{1}{n} \) שואפת לאפס כאשר \( n \) שואף לאינסוף. אפילו כותבים \( \lim_{n\to\infty}\frac{1}{n}=0 \), למי שממש רוצים להיות פורמליים. מעשית זה אומר שאם ניקח מספר חיובי כלשהו, לא משנה כמה קטן הוא יהיה, נוכל למצוא מקום בסדרה שבו האיברים של הסדרה כבר יותר קטנים. פורמלית: לכל \( \varepsilon>0 \) יש \( n \) כך ש-\( \frac{1}{n}<\varepsilon \) (ההגדרה האמיתית של גבולות יותר מסובכת, אם כי לא בהרבה, כי היא מיועדת להתמודד גם עם מקרים מסובכים יותר - כאמור, לא אכנס לזה כאן).

בואו נכניס עוד סימון: את הסדרה של המספרים שתיארתי אסמן על ידי \( a_{n}=\frac{1}{n} \). כלומר, \( a_{n} \) הוא האיבר ה-\( n \)-י בסדרה. עכשיו, בואו נגדיר סדרה חדשה שהאיבר הכללי שלה הוא \( \frac{1}{a_{n}} \) ונשאל את עצמנו לאן הסדרה הזו שואפת כש-\( n \) שואף לאינסוף. מכיוון שכפי שכבר ראינו, \( \frac{1}{a_{n}}=n \), זה אומר שככל ש-\( n \) נעשה יותר גדול, כך גם \( \frac{1}{a_{n}} \) נעשה יותר גדול. קצת יותר פורמלית, לכל \( M \) ממשי, \( \frac{1}{a_{n}}>M \) החל מאיזה שהוא מקום \( n \) בסדרה. על כזו סיטואציה אנחנו אומרים שהסדרה שואפת לאינסוף ומסמנים את זה \( \lim_{n\to\infty}\frac{1}{a_{n}}=\infty \).

מה שקריטי להבהיר כאן הוא שכרגע \( \infty \) הוא בסך הכל סימון. הוא לא מתאר מספר כלשהו. הוא לא מתאר איבר כלשהו. הוא בסך הכל מתאר את ההתנהגות “לכל \( M \) ממשי, \( \frac{1}{a_{n}} \) גדול מ-\( M \) החל ממקום \( n \) כלשהו”. הניסוח המאוד פתלתל הזה הוא בדיוק מה שהמתמטיקאים של המאה ה-19 חתרו אליו; המטרה הייתה בדיוק להעיף את האינסוף המוזר הזה מהחדו”א היפה שלהם, כי כשהאינסוף הזה השתתף בדברים בתור איבר מן השורה הוא באמת עשה צרות.

מה שהצגתי כאן היה דוגמא, אבל הוא נכון באופן כללי. אני רוצה לחדד את זה טיפה על ידי הצגת משפט אפילו עוד יותר כללי. אם \( a_{n},b_{n}>0 \) הן שתי סדרות שונות של מספרים חיוביים ואנחנו בונים את הסדרה \( \frac{a_{n}}{b_{n}} \) ורוצים לדעת מהו \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}} \), אז הנה שתי סיטואציות חשובות:

אם \( \lim_{n\to\infty}a_{n}=A \) וגם \( \lim_{n\to\infty}b_{n}=B \) כך ש-\( A,B \) מספרים ממשיים ששניהם שונים מאפס, אז \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=\frac{A}{B} \)
אם \( \lim_{n\to\infty}a_{n}=A \) וגם \( \lim_{n\to\infty}b_{n}=0 \) כך ש-\( A>0 \) מספר ממשי חיובי, \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=\infty \)

תוצאה מס’ 1 היא כלל שימושי ביותר בחשבונות שמערבים גבולות - הוא מראה שבדרך כלל, אפשר “להחליף את הסדר” בין פעולת החילוק והפעולה של לקיחת גבול של סדרה. אפשר קודם לחלק את הסדרות ואז לקחת את הגבול שלהן, או קודם לקחת את הגבול ואז לחלק את הגבולות, והתוצאה תהיה זהה. זה חשוב לעניין שלנו כי אם אנחנו באים לעשות משהו שמזכיר הגדרה של חילוק באפס, אז בהקשר של החדו”א אנחנו מסוגלים לומר “אוקיי, אנחנו לא יודעים לחלק באפס, אבל כן מעניין אותנו איך מתנהגת הפעולה שבנסיבות שבהן לא מערבים חלוקה באפס היא שקולה לחלוקה רגילה אם אנחנו שוברים את הנסיבות הללו וכן מחלקים באפס.” הנה אנלוגיה לא קשורה בעליל. יש לי בבית סכין שף וסכין משוננת קטנה ופושטית. למרבה הבושה אני רגיל לחתוך ירקות עם הסכין הפושטית, ובדרך כלל כשאני משתמש בסכין השף במקומה אני מגיע לאותה תוצאה בדיוק. אבל אם יגיע אלי פתאום נאמר אבטיח, אני לא בטוח שאצליח לחתוך אותו בכלל עם הסכין הפושטית, אז מעניין אותי לראות מה סכין השף תשיג - זה יהיה עולם חדש ושונה שעם הסכין הפושטית אני לא נחשף אליו - אבל בעצם, אני חושב לעצמי, זה בערך אותו דבר שהייתי מקבל עם הסכין הפושטית אלמלא המגבלות הטכניות הטיפשיות שלה.

אז תוצאה מס’ 2 היא מה שקורה כשאני חותך את האבטיח עם סכין שף. כשאני מחלק סדרה ששואפת למשהו חיובי בסדרה של מספרים חיוביים ששואפת לאפס, אני מקבל שאיפה לאינסוף. זה מוביל לתפיסה הדי פופולרית שלחלק משהו באפס מחזיר אינסוף, וזו תפיסה לא רעה: אם אני אראה מישהו כותב \( \frac{1}{0}=\infty \) אני לא אתפלץ. אבל צריך להבין שזו גם תפיסה שגויה כי היא פשטנית מדי. מ-2 שכתבתי למעלה אי אפשר עדיין להסיק “לחלק משהו באפס נותן אינסוף”. פשוט כי יש הרבה סיטואציות שלא נכללות ב-1-2 האלו שלמעלה.

שימו לב שהנחתי קודם (כמעט באופן מובלע, שלא תשימו לב) ש-\( a_{n},b_{n}>0 \), כלומר שתי הסדרות הללו הן של מספרים חיוביים. אבל מה קורה אם למשל ה-\( a_{n} \) יכולים להיות שליליים? בכזו סיטואציה \( A \) יכול להיות שלילי. למשל, בואו נסתכל על הסדרה \( a_{n}=-1 \) - סדרה קבועה שמחזירה תמיד 1. ניקח את הסדרה \( b_{n}=\frac{1}{n} \) שראינו קודם, אז במקרה הזה \( \frac{a_{n}}{b_{n}}=-n \) והדבר הזה לא הולך וגדל ככל ש-\( n \) גדל, אלא ההפך - הולך וקטן. אבל לא קטן במובן של “מתקרב לאפס” אלא במובן של “נהיה מספר שלילי עם ערך מוחלט ענקי”. פורמלית, לכל \( M \) (כולל \( M \) שלילי), החל ממקום בסדרה מתקיים \( \frac{a_{n}}{b_{n}}<M \). על כזה דבר אומרים שיש לנו שאיפה למינוס אינסוף, \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}}=-\infty \). זה מה שקורה אם \( b_{n}>0 \) היא עדיין סדרה חיובית ו-\( a_{n} \) היא סדרה כלשהי כך ש-\( \lim_{n\to\infty}a_{n}=A \) ו-\( A<0 \).

הצרות רק מתחילות. מה קורה אם \( a_{n} \) היא כן סדרה חיובית, נאמר אפילו \( a_{n}=1 \), אבל דווקא אברי \( b_{n} \) הם כולם שליליים, למשל \( b_{n}=-\frac{1}{n} \)? גם במקרה כזה הגבול יצא \( -\infty \). אבל אם גם אברי \( b_{n} \) שליליים כולם וגם \( \lim_{n\to\infty}a_{n}=A \) כך ש-\( A<0 \) אז הגבול יהיה דווקא \( \infty \). כלומר, אי אפשר סתם להגיד על כל משהו חלקי אפס שהוא אינסוף - זה תלוי גם בשאלה האם ה”משהו” הוא חיובי או שלילי, אבל עוד יותר מכך - הוא תלוי בשאלה האם ה”אפס” שבמכנה הוא חיובי או שלילי, כלומר האם הסדרה ששואפת לאפס היא חיובית או שלילית. כשאנחנו רואים רק ביטוי כמו \( \frac{1}{0} \) אין בו, מן הסתם, שום מידע על סדרה בדיונית כלשהי ששואפת לאפס במכנה שלו. יש רק 0. לכן הביטוי \( \frac{1}{0} \) הוא לא מוגדר היטב גם אם מאמצים את הגישה של החדו”א.

שימו לב שבכל מה שתיארתי עד כה היה מקרה אחד שהתרחקתי ממנו כמו מאש - המקרה \( \frac{0}{0} \). אצלי הגבול \( A \) של המונה תמיד היה שונה מאפס, ובכוונה. כי אם \( \lim_{n\to\infty}a_{n}=A=0 \) הסיטואציה משתגעת סופית ופשוט אי אפשר לדעת מה יקרה. הנה ניסוח פורמלי:

אם \( \lim_{n\to\infty}a_{n}=\lim_{n\to\infty}b_{n}=0 \) אז \( \lim_{n\to\infty}\frac{a_{n}}{b_{n}} \) יכול להיות בלתי מוגדר, או \( \infty \), או \( -\infty \), או \( r \) לכל מספר ממשי \( r\in\mathbb{R} \).

זה אפילו ממש קל להראות דוגמאות לכל הדברים הללו:

אם \( a_{n}=\frac{r}{n} \) וגם \( b_{n}=\frac{1}{n} \) אז \( \frac{a_{n}}{b_{n}}=r \) וזו סדרה ששואפת ל-\( r \).
אם \( a_{n}=\frac{1}{n} \) וגם \( b_{n}=\frac{1}{n^{2}} \) אז \( \frac{a_{n}}{b_{n}}=n \) וזו סדרה ששואפת ל-\( \infty \).
אם \( a_{n}=-\frac{1}{n} \) וגם \( b_{n}=\frac{1}{n^{2}} \) אז \( \frac{a_{n}}{b_{n}}=-n \) וזו סדרה ששואפת ל-\( -\infty \).
אם \( a_{n}=\frac{\left(-1\right)^{n}}{n} \) וגם \( b_{n}=\frac{1}{n} \) אז \( \frac{a_{n}}{b_{n}}=\left(-1\right)^{n} \) וזו סדרה שאין לה גבול (הסדרה \( 1,-1,1,-1,\ldots \))

זה יפה, כי זו בעצם חזרה על מה שראינו בתחילת הדיון: משהו כמו \( \frac{1}{0} \) מציב לנו בעיה כי אין לנו מספר מתאים לתאר אותו; אבל משהו כמו \( \frac{0}{0} \) מציב לנו בעיה כי יש לנו יותר מדי מספרים שלכאורה יכולים לתאר אותו.

מה שיש למחשבים לומר בעניין

הזכרתי קודם את ה-USS Yorktown שנתקעה אחרי שהמחשב שלה חילק באפס וקרס. האם זה באמת מה שמחשבים אמורים לעשות כשמחלקים באפס? לקרוס? יש לזה שתי תשובות: אחת היא “כן” והשניה היא “לא”. זה פחות תלוי בשאלה מה היחס שלכם לחלוקה באפס ויותר מה היחס שלכם לתכנות ולמערכות תוכנה.

בגדול, כשתוכנית מחשב כלשהי נתקלת בבעיה, יש שלושה דברים שהיא יכולה לעשות. היא יכולה להתעלם מהבעיה ולהמשיך הלאה כאילו כלום לא קרה; היא יכולה להזהיר מהבעיה ולהמשיך הלאה כאילו כלום לא קרה; והיא יכולה לקרוס. השם הטכני לקריסה כזו הוא “חריגה”, Exception. כשתוכנית מחשב זורקת חריגה, היא בעצם מפסיקה את הריצה הנוכחית שלה ובתקווה גם נותנת הסבר למה שהתרחש.

המוסכמה ברוב שפות התכנות היא שאם מבצעים פעולה של חלוקה באפס, זה גורר מייד חריגה שמקריסה את התוכנית. זה גם מה שקרה אצל ה-USS Yorktown. אפשר לומר, ובצדק, שמחשב של ספינת מלחמה הוא מערכת קריטית, ומערכת קריטית לא אמורה לקרוס אפילו אם קורים בה דברים חריגים. אבל זה תלוי, כמובן, בשאלה מה בדיוק היה הקוד שבו התרחשה החלוקה באפס. כי מה היה קורה אם היינו מתעלמים מהבעיה? אם התוכנית מחלקת שני ערכים ושמה את התוצאה במשתנה, ואחר כך ממשיכה לעשות דברים על פי הערך של המשתנה, אז אם חילקנו באפס פשוט אין לנו שום ערך הגיוני שאמור להיכנס למשתנה. אז אם נתעלם מהבעיה והתוכנית פשוט תמשיך לרוץ, היא תרוץ עם ערך מספרי שהוא ג’יבריש. זה לא כזה נורא אם כל מה שעושים עם המספר הזה, למשל, הוא לתזמן צפירה שגרתית בצהריים; זו זוועת עולם אם מה שעושים עם המספר הזה הוא לכוון תותח בשביל ירי אימונים, ואם ישתמשו בתוצאה הג’יברישית של החלוקה זה עלול לגרום לתותח להתפוצץ ולהטביע את הספינה - אסון חמור בהרבה מאשר התקעות של כמה שעות בלי מחשב. ואיך הקוד יודע אם החלוקה באפס מתרחשת בנקודה שבה צריך לקרוס או בנקודה שבה סבבה להמשיך כרגיל? הקוד לא יכול לדעת.

מה שיש בפועל בשפות תכנות מודרניות הוא מנגנון שמאפשר לתפוס חריגות. אם אנחנו מבצעים פעולת חלוקה ורוצים להתאושש מהסיטואציה שבה חילקנו באפס, אנחנו מצהירים במפורש “כאן עלולה להיות חלוקה באפס, ובמקרה שבו יש חלוקה באפס אל תקרוס אלא תעשה כך-וכך” (המנגנון הטכני קצת יותר מתוחכם אבל נעזוב את זה). כלומר, אנחנו עוברים משיקול הדעת של הקוד עצמו לשיקול הדעת של המתכנתת. אני מנחש שהבעיה במקרה של USS Yorktown לא הייתה קריטית והיה אפשר להתאושש ממנה בקלות יחסית, כך שהבעיה היא הנדסת התוכנה הגרועה של המערכות של הספינה - לא עצם החלוקה באפס. באופן כללי, חלוקה באפס היא בעיה זניחה יחסית במערכות תוכנה; רוב הזמן הן קורסות מסיבות אחרות.

אבל לפעמים אנחנו באמת לא רוצים לקרוס כשמחלקים באפס, וגם לא לתפוס את החריגה - אנחנו רוצים פשוט לאפשר חלוקה באפס ולהתמודד עם התוצאות. זה קורה, למשל, בספרייה כמו Numpy של פייתון שמיועדת לחישובים נומריים. בספרייה כמו זו אנחנו עשויים למצוא את עצמנו מבצעים חישובים עם כמות עצומה של נתונים בבת אחת, למשל (שוב, תיאור קצת פשטני) לקחת שתי סדרות \( a_{n},b_{n} \) שמיוצגות כל אחת על ידי רשימה בגודל 100,000 איברים, ולחשב את הרשימה שאבריה הם \( \frac{a_{n}}{b_{n}} \). בכזו סיטואציה ממש לא היינו רוצים לקרוס באמצע החישוב, אפילו לא אם אנחנו תופסים את החריגה; אנחנו רוצים שכל החישוב יסתיים, ואם היו לנו מקרי חלוקה באפס באמצע, שיהיה, פשוט נחזיר תוצאה מתאימה. כאן “תוצאה מתאימה” מתקבלת מכך ש-Numpy מרחיב את טווח הערכים שיכולים להתקבל - לא רק מספרים ממשיים אלא גם \( \infty \) (שנכתב בתור inf), גם \( -\infty \) (שנכתב בתור -inf) ועוד ערך אחד, שבא לומר “אוקיי יש כאן בעיה” שנקרא NaN, קיצור של Not a Number.

בואו נראה איך זה קורה בפועל ברמת הקוד. הנה קוד פייתון פשוט מאוד שאפשר להריץ בפני עצמו ומחלק באפס:

1/0

התוצאה של הרצת הקוד הזה נותנת

ZeroDivisionError: division by zero 

כלומר, כאן פייתון זרקה חריגה עם השם מאוד ספציפי ZeroDivisionError וההודעה “division by zero” שמסבירה מה קרה. זו הגישה של השפה עצמה לחלוקה באפס. אבל Numpy היא לא חלק מהשפה - היא ספרייה, כלומר תוכנה גדולה שנבנתה בשפה הזו (ובסיוע שפות נוספות) ועם יותר שליטה על “מה שקורה בפנים”. אני הולך להדגים מה Numpy עושה על ידי זה שאייצר שתי רשימות באורך 3: אחת של \( 1,-1,0 \) והשניה של \( 0,0,0 \), ואחלק אותן איבר-איבר, כמו בדוגמאות ה-\( \frac{a_{n}}{b_{n}} \) שלי. זה הקוד:

import numpy as np
a = np.array([1,-1,0])
b = np.array([0,0,0]) 
a/b

התוצאה של הקוד הזה תיראה כך:

array([ inf, -inf,  nan])

כלומר, כמו שאמרתי קודם - החלוקה \( \frac{1}{0} \) נתנה \( \infty \), החלוקה \( \frac{-1}{0} \) נתנה \( -\infty \) והחלוקה \( \frac{0}{0} \) נתנה NaN. כל הערכים הללו הם לא המצאה של Numpy; הם מוגדרים בסטנדרט שנקרא IEEE 754 שעוסק בייצוג של מספרים ממשיים בשפות תכנות באמצעות שיטת הייצוג שנקראת “נקודה צפה”.

מה אפשר לעשות עם הערכים הללו? ראשית, אפשר כמובן לבדוק אם משתנה שווה אליהם או לא - זו דרך שלנו לבדוק אם חישוב כלשהו נכשל או לא. אבל מעבר לכך, בגלל שאנחנו לא רוצים לקרוס (מהסיבה שתיארתי קודם) אנחנו גם מאפשרים לבצע חשבון איתם, תוך השלמה עם המחיר שתיארתי בתחילת הפוסט של שבירת כללי החשבון הרגילים. למשל, אם מבצעים פעולת חשבון כלשהי שמערבת את NaN (חיבור, חיסור, כפל, חילוק, העלאה בחזקה, הוצאת שורש, סינוס, כל דבר) התוצאה תהיה פשוט NaN. הוא “בולע” הכל. זו הדרך של פייתון לסמן למשתמש “החישוב כלל מידע שהוא ג’יבריש אז עכשיו כל תוצאת החישוב היא ג’יבריש”. אפילו אם אנחנו מחברים ומחסרים את המשתנה שמכיל את ה-NaN ולכן לכאורה הוא בכלל לא היה מעורב בחישוב - עדיין החישוב יחזיר NaN, כי המטרה פה היא ללכת על בטוח.

לגבי \( \infty \) כבר מתגלה גמישות רבה יותר, ותוצאות של פעולות חשבון מוגדרות בצורה שנראית לנו הגיונית:

אם \( a \) הוא מספר ממשי כלשהו אז \( \infty+a=\infty \) וגם \( \infty-a=\infty \)
אם \( a>0 \) הוא מספר ממשי חיובי כלשהו, אז \( a\cdot\infty=\infty \).
אם \( a<0 \) הוא מספר ממשי שלילי כלשהו, אז \( a\cdot\infty=-\infty \).
\( \infty+\infty=\infty\cdot\infty=\infty \)

כל הדברים הללו הגיוניים כי הם תואמים את חוקי הגבולות שראינו קודם. לעומת זאת, \( 0\cdot\infty \) או \( \infty-\infty \) הם NaN, בדיוק בגלל אותה בעיה לפיה יכולות להיות “יותר מדי תוצאות”. כלומר, כאן אנחנו מוותרים על הדרישה שהיא לכאורה הכי בסיסית, לפיה אם \( \frac{a}{b}=c \) אז \( a=bc \); זה פשוט לא קורה עבור \( \frac{1}{0}=\infty \) כי \( 0\cdot\infty \) הוא לא מוגדר. בהרבה סיטואציות זה גם לא מפריע לנו, כי מה שמעניין אותנו במספרים הללו הוא לא הזווית האלגברית אלא הזווית החדו”אית, אבל זה באמת תלוי סיטואציה. יש מקרים שבהם עדיף להתייחס ל-\( \infty \) הזה בתור עוד סוג של NaN וחסל. מה שברור הוא שמרגע שהשתרבב לנו \( \infty \) לחישוב, זהו - התוצאה של החישוב כבר לא תחזור להיות מספרים ממשיים.

ולסיום קצת חשיבה מרחבית

עד עכשיו אמרתי שמספר שהוא התוצאה של חילוק באפס הוא בעייתי מאוד כשאנחנו באים לעשות אלגברה, כלומר מנסים לחקור מבנה שמורכב מאיברים שמצייתים לחוקי חשבון פשוטים יחסית. ואמרתי שהוא יחסית מועיל כשאנחנו באים לדבר על גבולות, אבל בעיקר בתור איזו שהיא דרך מקוצרת לדבר על מושג מורכב יותר. ואמרתי שהוא משהו מועיל למדי גם במחשבים, בסיטואציות שבהן אנחנו לא רוצים לשבור את הכלים על כל חלוקה באפס. אני רוצה לסיים את הפוסט עם הגישה הכי אופטימית שלי - מקום שבו \( \frac{1}{0}=\infty \) הוא שוויון מתבקש, ברור ולא חריג בכלל בנוף, אלא משהו שמשחק מאוד יפה עם כל מה שמסביב. המקום הזה נקרא הספירה של רימן והוא מושג בסיסי יחסית עבור מי שמכירים אנליזה מרוכבת, מה שאני בוודאי לא הולך להניח על הקוראים של הפוסט, אז היכונו להסברים עם הרבה נפנופי ידיים ואפשר לקרוא את הפירוט הטכני בפוסט שלי כאן.

לפני שנתחיל לדבר על מספרים מרוכבים, שהם כידוע די מושמצים בעצמם בלי שום סיבה מוצדקת, בואו נדבר על מספרים ממשיים. כשאומרים “מספר ממשי” חושבים בדרך כלל על מה שנקרא ציר המספרים שהוא מין קו כזה עם 0 במרכז, המספרים החיוביים בצד ימין והשליליים בצד שמאל ואנחנו קוראים בשם “מספר ממשי” לכל מה שנמצא עליו (השאלה מה בעצם נמצא עליו היא לא פשוטה כמו שזה נשמע, אבל זה סיפור לפעם אחרת). אנחנו בדרך כלל חושבים על הקו הזה כאילו הוא ממשיך עד אינסוף לשני הכיוונים, ובמתמטית אוהבים לתאר אותו בתור הקבוצה \( \left(-\infty,\infty\right) \) - אוסף כל המספרים \( x \) שמקיימים \( -\infty<x<\infty \).

עכשיו אני רוצה שנדמיין משהו כי אין לי תקציב לסרטוני וידאו. נדמיין את ציר המספרים. אנחנו לא רואים את כולו, רק את המספרים מ-\( -10 \) עד \( 10 \). ואז אנחנו מתחילים לעשות זום אאוט. ואנחנו רואים את כל המספרים מ-\( -100 \) עד \( 100 \), ואז \( -1000 \) עד \( 1000 \) ועוד ועוד ועוד - ואז פתאום זה נגמר. סיימנו. אנחנו רואים את הקצוות של ציר המספרים. הקצה השמאלי הוא \( -\infty \) והימני הוא \( \infty \). זה כמובן לא תרחיש מציאותי כל כך כי ציר המספרים אמור להתמשך עד אינסוף לכל כיוון, אבל בואו נניח שאיכשהו עשינו זום אאוט לכל האינסוף הזה.

עכשיו אפשר לחשוב על \( \infty \) ועל \( -\infty \) בתור נקודות קונקרטיות, כאלו שנמצאות בקצה ציר המספרים. הן הפכו לאובייקט גאומטרי. אבל מה, יש כאן בעיה קטנה - כשאני אומר “גאומטריה” אני חושב על סיטואציה שבה אני יכול למדוד מרחקים בין דברים (זה ליטרלי מה ש”גאומטריה” אומר - מדידת הקרקע) אבל אי אפשר למדוד מרחק מנקודה כלשהי עד אינסוף, הרי המרחק הזה הוא אינסוף. אם אני מצייר את הסיטואציה כאילו האינסוף הוא קצה של קטע שנמצא במרחק סופי מהנקודות שבו, איבדתי את הגאומטריה. נשארו לי רק התכונות הגאומטריות של המרחב שהן “גמישות” - לא תלויות במרחקים הקונקרטיים אלא הן משהו שנשאר גם כשאני “מכווץ” או “מותח” את המרחב. התחום שמתעסק בתכונות כאלו נקרא טופולוגיה.

מבחינה טופולוגית, ציר המספרים המורחב הזה, שמסומן \( \left[-\infty,\infty\right] \) (הסוגריים המרובעים אומרים שנקודות הקצה של הקטע שייכות אליו, להבדיל מ-\( \left(-\infty,\infty\right) \)) לא שונה מהותית מאשר הקטע \( \left[-1,1\right] \), למשל. דבר אחד שכן צריך לעשות, וקצת גולש לפירוט טכני שאתם יכולים לדלג עליו, הוא להבהיר מי הקבוצות הפתוחות בציר המספרים המורחב הזה, כי בטופולוגיה מושג הבסיס שעליו אפשר לבנות מגדלים שלמים הוא מושג הקבוצה הפתוחה. בציר המספרים הרגיל \( \left(-\infty,\infty\right) \), “קבוצה פתוחה” היא כל קטע פתוח מהצורה \( \left(a,b\right) \) או איחוד כלשהו של קטעים כאלו (על זה אומרים שהקטעים \( \left(a,b\right) \) הם בסיס לטופולוגיה של ציר המספרים). בישר המורחב אנחנו מוסיפים את כל הקטעים מהצורה \( [-\infty,a) \) ו-\( (b,\infty] \) (פורמלית זו דוגמא למשהו שנקרא טופולוגיית סדר; זה לא חשוב מה זה בדיוק אומר אבל הנקודה היא שזה מושג סטנדרטי, לא משהו שהומצא אד-הוק לצורך הדוגמא הזו).

דבר אחד שאפשר לעשות עם קבוצות פתוחות הוא להגדיר גבולות בצורה שלא נזקקת לדיבור על אי שוויונים ומרחקים. את ההגדרה ה”קלאסית” של גבול לא נתתי כאן, אבל הנה הגדרה טופולוגית: \( \lim_{n\to\infty}a_{n}=A \) אם לכל קבוצה פתוחה שמכילה את \( A \), קיים מקום בסדרה שהחל ממנו כל ה-\( a_{n} \)-ים שייכים לקבוצה הפתוחה. מה שנחמד בהגדרה הזו היא שעם ההגדרה ה”מורחבת” של הטופולוגיה שהצגתי, המושג של שאיפה לאינסוף או למינוס אינסוף הוא בסך הכל גבול “רגיל”, על פי אותה הגדרה, ולא כמו שקורה בחדו”א שם מתייחסים למקרים הללו בתור מקרים מיוחדים שזוכים לניסוח מיוחד.

עכשיו בואו נעבור לדבר על מספרים מרוכבים. המספרים המרוכבים לא ניתנים להצגה בתור קו - צריך לחשוב עליהם בתור מישור דו ממדי. מישור כזה נמשך עד לאינסוף לכל הכיוונים, אז על פניו נראה שאי אפשר לעשות בו את אותו תרגיל ולהוסיף נקודות אינסוף כי נצטרך להוסיף יותר מדי. אבל למעשה, אפשר לעשות תעלול פשוט מאוד - להוסיף רק נקודה אחת של אינסוף. אפשר לדמיין את זה ככה: במקום לחשוב על המישור המרוכב כאינסופי, לעשות זום אאוט גם כאן ולחשוב עליו בתור מטפחת בד. תעטפו כדור בתוך המטפחת, מה יקרה? כל הקצוות של המטפחת יתרכזו בנקודה אחת: קחו את הנקודה הזו, קחו חוט ומחט ו”תתפרו” את הכל ביחד והופס, קיבלתם יריעת בד עם צורה של פני השטח של כדור - מה שנקרא ספירה, ועם נקודה חדשה שנוצרה במקום שבו תפרתם את הכל - זו נקודת ה”אינסוף”. הקבוצה הזו, \( \mathbb{C}\cup\left\{ \infty\right\} \) עם הגאומטריה הכדורית הזו נקראת הספירה של רימן.

אני לא אכנס לפרטים מפורטים יותר על הבניה הזו, כי בשביל זה יש את הפוסט הייעודי שלי, אבל שתי הנקודות שצריך להבהיר הן ראשית כל שגם זה בסך הכל תעלול מקובל בטופולוגיה, שנקרא קומפקטיפיקציה עם נקודה אחת; ושנית, שבמקרה הזה אנחנו לא מאבדים את כל הגאומטריה - יש דרך “לתרגם” מרחקים במישור המרוכב למרחקים על הספירה עד רמה כלשהי. אבל אני לא ארחיב על זה פה.

איך כל זה קשור לחלוקה באפס? ובכן, אם יש לנו במרחב שלנו את הנקודה \( \infty \), אנחנו נהיים הרבה יותר פתוחים להגדרה של \( \frac{1}{0}=\infty \). זו עדיין לא הגדרה שיכולה לעבוד מבחינה אלגברית, כלומר לא הולך להתקיים \( 1=0\cdot\infty \). אז בשביל מה זה כן טוב? ובכן, למשל כדי לדבר על העתקות מביוס. העתקת מביוס היא פונקציה מרוכבת מהצורה \( f\left(z\right)=\frac{az+b}{cz+d} \). אלו פונקציות שימושיות בצורה יוצאת מן הכלל, אבל בשביל שהשימושיות הזו תבוא לידי ביטוי, נוח לנו לעבוד איתן במרחב שבו הן “נחמדות”, למשל מוגדרות בכל מקום. אז למשל עבור העתקת המביוס \( f\left(z\right)=\frac{1}{z} \) (כאן \( a=d=0 \) ו-\( b=c=1 \)) אנחנו רוצים שהיא תהיה מוגדרת גם ב-\( z=0 \), ולכן במישור המרוכב המורחב אפשר להגדיר \( f\left(z\right)=\infty \). בגלל ש-\( \infty \) היא פשוט נקודה כמו כל נקודה אחרת (כי ספירה היא סימטרית לגמרי, אז אפשר לחשוב על כל הנקודות כזהות) אנחנו מקבלים מזה מעין אחידות של כל העתקות המביוס, במקום שנצטרך להתחיל לפצל לכל מני מקרים וסוגים. אז זו בהחלט דוגמא לסיטואציה שבה משתלם להגדיר \( \frac{1}{0}=\infty \) למרות האובדן של המשמעות האלגברית של שוויון כזה.

אז לסיכום - חילוק באפס הוא לא טעות. יכולה להיות לו משמעות. אבל כדאי מאוד להבין גם למה הוא “אסור” וגם למה הוא “מותר”, כי כמו תמיד במתמטיקה, הכל מגיע עם סט ניואנסים משל עצמו.