הערכת איכות של תרגום מכונה באמצעות שיטה רב ממדית לניתוח שגיאות (MQM): הנגשת מידע במצבי חירום

שנה
2023
תואר
MA
סטודנט/ית
יוליה לויט
תקציר

בעשור האחרון הפך תרגום מכונה לכלי נגיש ונוח לשימוש בעבור מיליארדי בני אדם בעולם. יחד עם יעילותו הלא מוטלת בספק בתוצר המסופק על ידי תרגום מכונה קיימים גם ליקויים מסוימים הנובעים מהבדלי שפות וממגבלות הטכנולוגיה. בכל הנוגע לתרגום מכונה, הדעה הרווחת בתחום גורסת כי תוצריהן של מערכות תרגום מכונה עדיין זקוקים לעריכה בידי מתרגמים ועורכים אנושיים (Post-Editing). מטרת המחקר העיקרית במסגרת עבודה זו הייתה לבחון את יעילותו של תרגום מכונה – באמצעות האפליקציה הנפוצה ביותר שלו, Google Translate – בהפקת תרגום סביר ומובן של טקסטים העוסקים במצבי חירום. התמקדתי בטקסטים שהבנתם חיונית לביטחונם האישי ולשרידותם של הקוראים במצבים קשים דוגמת מגפות או מלחמות תוך שאני עושה שימוש בשיטות להערכת איכות הנשענות על זיהוי וסיווג שגיאות.

הספרות המחקרית העוסקת בזיהוי ובסיווג שגיאות בפלט של תרגום מכונה מתמקדת בהערכת איכות התוצרים של מערכות תרגום מכונה, בסימון הסוגים השכיחים ביותר של טעויות, הן לאחר תרגום מכונה והן בשלב השני, אחרי העריכה האנושית, וכן בהגדרת כיווני פעולה לשיפור מערכות אלה ולצמצום כמות השגיאות וסוגיהן בפלטי תרגום מכונה (Comparin and Mendes, 2017). לצורך כך נעשו מאמצים לפיתוח שיטות שונות להערכת איכות התרגום, הן בתרגום מכונה והן בתרגום אנושי. ישנן שיטות אוטומטיות המבוססות בעיקר על ההשוואה בין פלט תרגום מכונה לבין טקסט מקביל שתורגם בידי מתרגם אנושי ועל חישוב רמת הדמיון ביניהם, וכן קיימות שיטות הערכה אנושית, שבמסגרתן מתבצעת הערכה לפי קטגוריות הסיווג וחומרת השגיאות שבפלט. במחקר זה השתמשתי בשיטת הערכה אנושית שהיא שיטה רב ממדית לניתוח שגיאות הנקראת שיטת ה-MQM. לפי שיטה זו, כל טעות בפלט תרגום מכונה מסווגת לפי מספר קטגוריות. יתרה מכך, עורך הפלט מעריך את חומרת הטעות לפי השפעתה על תקינות ומובנות הטקסט. גובה הקנס (penalty) על כל טעות מוגדר לפי סיווג חומרתה. כלומר כל קנס כזה מובא בחשבון בחישוב איכות התרגום, הבאה לידי ביטוי בציון המתקבל לפי הנוסחה של שיטת ה-MQM (Lommel, 2013). חישוב הציונים לפי שיטת ה-MQM סייע לי להסיק מסקנות בנוגע לאיכות פלטי תרגום המכונה בשני הטקסטים, הכוללים מידע חיוני בנושאי בריאות וביטחון, בשני צמדי השפות.

בשנים האחרונות מתפתחת מגמה מחקרית חדשה המבקשת לחקור תרגום מכונה במצבי חירום דוגמת קליטת פליטים מאזורי לחימה, אסונות טבע, מגפות, הגירה המונית וכדומה. ב-2011, פורסם דו"ח Disaster Relief 2.0, אשר קרא לחוקרים לבחון את תפקודה של הטכנולוגיה בעיתות משבר (Cadwell et al., 2019). תרגום מכונה מעורר עניין מיוחד בהקשר של מצבי חירום, כיוון שהוא אמצעי קל ונגיש, המאפשר תקשורת בין דוברי שפות שונות. זאת הסיבה לכך שכרגע מתהווה תחום מחקר נפרד בחקר תרגום המכונה, העוסק במצבים כאלה – תרגום מכונה למצבי חירום או משבר (Crisis MT/Emergency MT). יש להדגיש כי תרגום מהיר וסביר במצבי חירום שונים עשוי להוות תנאי הכרחי לשמירה על בריאותם של בני האדם אשר נקלעו למצב כזה ואף להצילם מפציעה או ממוות. עבודה זו מבקשת לתרום לתחום המחקר המתפתח בנושא זה.

במרכז המחקר שלי עומדות שלוש שפות – אנגלית כשפת המקור ושתי שפות היעד, עברית ורוסית. בכך נוסף למחקר עוד ממד: היותה של השפה הנחקרת שפה עתירת משאבים (high-resource language) או שפה דלת-משאבים (low-resource language). שפות עתירות משאבים מאופיינות במאגרים עצומים של מידע ברשת. הכמות הכבירה של טקסטים בשפות עתירות משאבים מאפשרת פיתוח מערכת ייחודית לכל שפה כזו, כשיסודות הפיתוח מושתתים על מערכות המבוססות על למידת מכונה (machine-learning based systems). בניגוד לזאת, מאגרי המידע והנתונים בשפות דלות משאבים מצומצמים יותר וישנן אף שפות ללא טקסטים ברשת כלל. וזו הסיבה לכך שקיים מחסור במידע ובנתונים הנדרשים לפיתוח מערכות שיתאימו למבניהן הייחודים של שפות כאלה. מטבע הדברים, שפות דלות משאבים הן בעיקר שפות שמספר דובריהן מצומצם ושפות בעלות מעמד חברתי-פוליטי נמוך. במחקר שלי השפות האנגלית והרוסית הן שפות עתירות משאבים עם מספר גדול מאוד של דוברים ואילו השפה העברית – שפה לאומית של מדינה עם פחות מ-10 מיליון תושבים – היא שפה דלת משאבים באופן יחסי.

המחקר הנוכחי מבקש להעריך את איכות תרגום המכונה במצבי חירום, בשני צמדי השפות: אנגלית-עברית ואנגלית-רוסית. לצורך הערכת איכות זו נלקחו שני טקסטים באנגלית – אחד בנושא ההנחיות של ארגון הבריאות העולמי בעת מגפת הקורונה והשני בנושא זכויות הפליטים מאוקראינה במדינות האיחוד האירופי. הטקסטים תורגמו באמצעות המערכת של Google Translate לעברית ולרוסית, ופלטי תרגום המכונה נשלחו ל-25 מתרגמים מקצועיים – משתתפי המחקר בשני צמדי השפות. משתתפי המחקר קיבלו הסבר מפורט על אודות המחקר וכללי העריכה וסיווג השגיאות באמצעות שיטת ה-MQM והונחו למלא את השאלון המקוון.

על סמך עבודתם של המשתתפים, הסקתי מסקנות לגבי איכות תרגום המכונה בצמדי השפות שנחקרו, לגבי שכיחותם של סוגים מסוימים של שגיאות בתרגום מכונה בצמדי שפות אלה, לגבי יעילות השיטה לניתוח ולסיווג שגיאות MQM ולגבי השפעתו של ניסיון המתרגם על הערכתו את איכות תרגום המכונה. אף שהמסקנות שהתקבלו אינן גורפות, ואין בהן כדי לקבוע עובדות חד-משמעיות לגבי הקורלציות שהודגמו במחקר, אני מאמינה שהן מצביעות על מגמות מעניינות אשר עשויות לשמש בסיס טוב למחקר עתידי בנושא. כמו כן נבדקו קורלציות בין ניסיון המתרגם לבין משך ביצוע המשימה (עריכת פלטי תרגום המכונה וסיווג השגיאות בהם), ונבחנו ממצאים שלפיהם דווקא בצמד השפות אנגלית-רוסית, שבו העריכו משתתפי המחקר את איכותו של תרגום המכונה כאיכות טובה יותר, השקיעו המשתתפים יותר זמן בביצוע המשימה. נבדקה גם רמת ההתאמה בין הערכת האיכות הכללית של תרגום המכונה בידי משתתפי המחקר לבין הציונים שחושבו לפי שיטת ה-MQM, המבוססים על כמות העריכות שביצעו המשתתפים ועל סיווג השגיאות לפי חומרתן. בשאלון המקוון נשאלו משתתפי המחקר על אודות המלצותיהם בדבר השימוש בתרגום מכונה במצבי חירום, והממצאים אשר התקבלו הושוו להערכת האיכות של פלטי תרגום המכונה בתוך כל צמד שפות וביניהן.

המסקנות העיקריות שהוסקו במחקר זה הן:

  •      האיכות הכללית של תרגום המכונה בצמד השפות אנגלית-רוסית הייתה טובה יותר בהשוואה לאיכות הכללית של תרגום המכונה בצמד השפות אנגלית-עברית. מסקנה זו מסתמכת על מספר קטן יותר של טעויות שתוקנו, לרבות טעויות משמעותיות וקריטיות, על ציוני MQM גבוהים יותר בצמד השפות אנגלית-רוסית ועל התרשמותם האישית של משתתפי המחקר.
  •      זוהתה הסכמה מסוימת בין משתתפי המחקר בנוגע לרמת האיכות המספקת של תרגום המכונה והשימושיות של תרגום המכונה בצמדי השפות הרלוונטיים במצבי חירום.
  •   רוב משתתפי המחקר הדגישו את יעילותה של שיטת ה-MQM לצורך הערכת האיכות של תרגום מכונה.
  •   ערכי השוֹנוּת הגבוהים במספר העריכות של פלטי תרגום המכונה, וכתוצאה מכך גם בציונים שהוענקו להם לפי שיטת ה-MQM (במיוחד בצמד השפות אנגלית-עברית), המחישו את הסובייקטיביות הרבה של המשתתפים בבחירת הקטגוריות של השגיאות ובסיווג השגיאות לפי חומרתן.
  •   חרף האיכות הכללית הטובה יותר של תרגום המכונה בצמד השפות אנגלית-רוסית, משך ביצוע משימת העריכה וסיווג השגיאות בטקסט אחד בצמד זה היה ארוך יותר באופן משמעותי לעומת משך ביצוע המשימה בצמד השפות אנגלית-עברית. ייתכן שהסבר אפשרי לתופעה הלא צפויה הזו טמון בעובדה שכל משתתפי המחקר בצמד השפות אנגלית-רוסית נולדו בברה"מ לשעבר וחונכו במערכת החינוך הסובייטית השואפת לקפדנות יתר.

תאריך עדכון אחרון : 13/01/2024