מהפיכת השפה הטכנולוגית

מאמרים אחרונים

יש שפות שהן אינן ניטרליות מגדרית (gender neutral) כמו למשל השפות עברית וערבית בהן במבט שטחי על הטקסט ניתן מיד לדעת האם הכותב הוא זכר או נקבה. למשל, כאשר אישה כותבת "אני הולכת" ברור לגמרי שמדובר באישה. אבל באנגלית שהיא כן gender neutral לא תמיד ניתן לדעת את מין הכותב מהתבוננות בטקסט בלבד. הזכרנו כבר בפוסט קודם איך הספר "אל תיגע בזמיר" מסופר מנקודת מבטה של סקאוט, שבמהלך הספר מתפתחת דמותה מדמות של "טום בוי" הלבושה ומתנהגת כבן לנערה הלובשת שמלות ומגלה את נשיותה. ואיך בקריאה בשפה האנגלית המגדר של סקאוט עלום ומתגלה מאוחר בספר תוך כדי גילוי הנשיות של הדמות ואיך לא ניתן לעשות זאת בשפות כגון עברית וערבית.

מחקר של פרופ' משה קופל מאוניברסיטת בר אילן בדק אלפי קטעי טקסט באנגלית תוך שימוש בשיטת למידת מכונה מתחום הבינה המלאכותית, הלוקחת המון תופעות הרלוונטיות למחקר, במקרה זה המחקר בחן אלפי טקסטים שנכתבו על ידי גברים והרבה טקסטים שנכתבו על ידי נשים בשפה האנגלית, והמחשב מצא תבניות החוזרות על עצמן בהבדלים סיסטמתיים בין הכתיבה של נשים לכתיבה של גברים. לאחר שלב לימוד המכונה, המחקר בדק את יכולתה של מערכת לומדת זו לסווג טקסטים חדשים ככאלה שנכתבו על ידי גבר או על ידי אישה.

אולי היה נדמה לאדם הממוצע ששכיחות המילה "אני" תהיה נפוצה יותר בטקסטים שנכתבו על ידי גברים כפרספציה לכך שהגבר אולי מחזיק מעצמו יותר את מנשים. אז מסתבר שהמחקר מצא ממצאים די הפוכים.

המילה "אני" כמו כל הכינויים (me, I, she) מצויות בשימוש יותר אצל נשים מאשר אצל גברים. וזה נמצא כאחד הסימנים המובהקים בכתיבה נשית. מילים נוספות בהם מרבות נשים להשתמש הם no, not, for, with. מילים בשכיחות גבוהה אצל גברים הם the, those, these, that.

מחקר זה קשור לדיסציפלינה במדעי המחשב והוא מחקר כמותי במהותו שהראה יכולת זיהוי בין גברים ונשים לפי טקסט בלבד בדיוק של כ-80%. המחקר אפילו זיהה מקרים בהם גבר מנסה לכתוב בכוונה בסגנון נשי. המאפיינים הללו מנותחים אוטומטית ישירות מתוכנת המחשב ללא התערבות אנושית. במאמר שנכתב על בסיס תוצאות המחקר המחברים, הוסיפו החוקרים צד ספקולטיבי, שאולי מתבקש, בניסיון להסביר מדוע נשים משתמשות יותר I, me, you, he, she וגברים יותר ב-the, these, those, that. ההסבר שהובא היה שנשים מגלות עניין בעבודה ואינטראקציה עם בני אדם ודברים חיים, בעוד שהגברים מגלים יותר עניין בעבודה עם עצמים דוממים ותהליכים פיזיים בדומה ל-People versus Things של סוזן פינקר. פרסום המאמר נדחה מג'ורנל מדעי מסוים בשל החלק הספקולטיבי במאמר שאינו תקין פוליטית. המאמר תוקן על ידי הסרת הקטעים הספקולטיביים והשארת הנתונים הכמותיים המתמטיים בלבד ואכן פורסם.

תוכנת מחקר זו שמנתחת מאפיינים של טקסט באנגלית יכולה אף לזהות במקרים רבים את שפת האם של הכותב לפי שגיאות טיפוסיות של דוברי שפות אחרות וכן לזהות אם טקסטים מסוימים נכתבו על ידי אדם אחד או מספר אנשים. התוכנה גם מסוגלת לנתח טקסט ולזהות אם הוא חיובי או שלילי ואם הדמויות או המוצרים המתוארים בטקסט מתוארים באופן אוהד או שלא.

כשהחוקרים נשאלו אם הם מסוגלים לנתח טקסט תנכי לבדוק אם הוא כתוב בסגנון נשי או גברי הם אמרו שהיכולת לזהות כתיבה גברית או נשית מוגבלת לטקסטים של המאה העשרים באנגלית, שם יש רפרנס השוואתי ברור לטקסטים שנכתבו על ידי גברים או נשים ואילו לגבי התנך לא קיים מידע השוואתי שכזה. אבל האלגוריתם כן מסוגל לנתח סגנון כתיבה ולחלק טקסט לפי הסגנונות השונים, ואת זה כן בדקו על התנך ואכן הגיעו לממצאים מעניינים.

כל אחד מאיתנו תוך שימוש בסירי או ב-hello google או כלי תרגום אוטומטיים למיניהם עושה שימוש בכלי בלשנות חישובית. תחום הבלשנות החישובית מתפתח מאוד בשנים האחרונות ומפגין יכולות מרשימות ומעסיק את ענקיות הטכנולוגיה ומוסדות אקדמיים רבים, והפוטנציאל העסקי כמובן הוא עצום.

מחשבים אינם "מבינים" שפה כבני אדם ועל מנת ללמד אותם שפה טבעית שהיא מורכבת ונרחבת יש להקנות למחשב כלים לנתח ולעבד את השפה. זה כולל כלי לימוד מכונה מורכבים הכוללים שיטות סטטיסטיות ואלגוריתמי rule base מגוונים.

האתגר בעיבוד שפות טבעיות הוא עצום בגלל ששפה טבעית עשירה, מגוונת, משתנה כל הזמן ורבת משמעות. פעמים שבני אדם בעצמם מתקשים להבין את הנאמר בגלל חוסר בהקשר או בהיכרות ז'רגון מסוים של הדובר.

אתגר נוסף בעיבוד שפה טבעית הוא שרוב המידע הקיים בעולם הוא בפורמט שאינו ידידותי למחשב. פורמט הקרוי unstructured, בשפה אנושית טבעית, בניגוד למידע המצוי בצורה טבלאית במאגרי נתונים. כדי לעבד תוכן שהוא מטבעו unstructured לטובת אלגוריתמי ביג דטה יש צורך לבצע פורמליזציה של המידע. וכאן מגיעים למונחים כגון text mining או text analytics שהם גזירת מידע בעל משמעות מתוך טקסט בשפה טבעית. החלק הקרוי Natural Language Processing או בקיצור NLP מתייחס לדיסציפלינה במדעי המחשב ובינה מלאכותית לעיבוד שפה טבעית. אם מפשטים זאת אז ניתן לומר שהחלק של ה-text mining עוסק בחילוץ הקלט לטובת ניתוחי ה-NLP המוצאים שלל תבניות כמותיות בתוך הטקסט שחולץ.

אחת האפליקציות של ה-NLP קרויה Sentiment Analysis הקרויה גם opinion mining ותפקידה לזהות ולחלץ ולכמת מידע אודות המצב הנפשי הסובייקטיבי של הדובר או כותב הטקסט. אפליקציה זו נפוצה בניתוח משוב לקוחות או בעולם הרשתות החברתיות לצורך אפיון המשתמשים ולספק להם מידע לפי מצבם הנפשי.

אפליקציות נפוצות נוספות בתחום ה-NLP הם Chatbots ו-זיהוי קול בשימוש מערכות כגון סירי, google assistance ומערכות שמע מתקדמות אחרות. כמובן שאפליקציות כגון תרגום מכונה וכן מערכות התאמת פרסומות ללקוחות מבוססים על טכנולוגית NLP שהולכות ומתפתחות עם השנים.

NLP מחולק לשני חלקים עיקריים: החלק המנתח והמבין (understanding) שתפקידו להפיק מבני נתונים פורמליים בשפת מחשב שממפה את כל מה שניתן למפות, ולחלק העסוק בבניה (generation), ליצירת טקסט בשפה טבעית על בסיס מבני הנתונים הפורמליים הקיימים במערכת הלומדת.

גם בתחום כלים התומכים בתרגום אנושי קיימת התפתחות דרמטית בתחום ה-Translation Memory המאפשר לעשות שימוש בטקסט החוזר על עצמו שתורגם על ידי מתרגמים אנושיים. השכלולים האחרונים הם בתחום היכולת לתקן אוטומטית טקסטים באופן סטטיסטי גם אם התאמתו לטקסט קודם אינה מלאה, היכולת להצביע על קונפליקטים וחוסר הדירות בטקסט מתורגם, היכולת "לנחש" את המיקום הנכון של התגים בתרגום המהווים את הפורמט הוויזואלי של הטקסט כגון טקסט מודגש, טקסט המהווה קישור וכדו'. חברות תרגום נעזרות בטכנולוגיה רבה לייעול תהליך התרגום ולשיפור הקונסיסטנטיות והמקצועיות של הטקסט המתורגם. מהפיכת הטכנולוגיה בעיבוד שפה גם אם עדיין לא החליפה לגמרי את הצורך במתרגם אנושי, היא בהחלט מספקת כלים חדשים ומעניינים לשיפור תהליך התרגום.