اجتياز حدود الجملة عبر الترجمة الآليه الإحصائية

ترجمة بتصرف لمقال: Crossing sentence boundaries in statistical machine translation

ترجمة: مرام ناصر

تترجم نظم الترجمة الالية الإحصائية المستندة على معيار الجملة جملة واحدة في كل مرة متجاهلة تمامًا ارتباطات الخطاب والسياق الاوسع للوثيقة.

ونتيجة لذلك، غالبا ما يُساء ترجمة الكلمات ذات المعاني المتعددة عندما تكون غامضة في السياق المحلي.  وتقلل هذه الأخطاء في الترجمة من جودتها مما يضعف تماسك النص.

وتتناول البحوث بشأن إدراك الخطاب المسائل المتعلقة بمستوى الوثائق لتحسين الترجمة وضمان الحفاظ على سمات الخطاب مثل الترابط في الترجمة.
كمثال على ذلك، فإن الكلمة الإنجليزية (وجه) كثيرًا ما تترجم إلى الألمانية ” جيتسيشت.
ولكن عندما نتكلم عن رياضة تسلق الجبال، قد تشير كلمة وجه أيضا إلى جانب أو جزء من الجبل-على سبيل المثال، الوجه الشمالي لجبل ايفرست أو ” يشتمل هذا الجانب على العديد من الشقوق” – ويجب ان تترجم إلى الألمانية ” واند”. لذلك، تحتاج الترجمة الآليه إلى النظر في السياق من أجل تحديد صيغة الترجمة الصحيحة.

لقد سيطر على الترجمة الآليه الإحصائية النماذج القائمة على الجملة في العقد الماضي والعديد من الأدوات المتاحة اختياريا مثل موسى أو يشوع وتوفير طريقة سريعة للحصول على أحدث أنظمة الترجمة.
ومع ذلك، فإن هذا النهج يتبعها قيود معروفة فيما يتعلق بأداء هذه النظم: النماذج القائمة على الجملة تحتاج إلى افتراضات استقلالية قوية لأنها تترجم كل جملة بشكل مستقل، ولا تضعها في اعتبارها الا السياق المحلي أثناء الترجمة. مما يجعل من الصعب صياغة ارتباطات عبر الجمل والذي يمكن أن يؤدي إلى فقدان المعلومات الهامة وأحيانا ترجمة خاطئة.

وتركز البحوث المتعلقة بمعرفة الخطاب للترجمة الاليه عموما على مشاكل محددو متعلقة بالارتباطات على مستوى الوثيقة مثل التماسك النحوي واللغوي.
على سبيل المثال، الكلمة الألمانية متعددة الاستخدام ” Absatz” يمكن ان تترجم إلى الإنجليزية ” كعب الحذاء وفقرة وتخفيض. وفى عبارة مثل” hoher Absatz” قد يكون سواء الترجمة كعب الحذاء أو تخفيض مناسباُ، ويتوقف ذلك على السياق.

وستساعد المعلومات حول كيفية ترجمة هذه الكلمة في الجمل السابقة، أو حول المجال العام للوثيقة، نظام الترجمة الآلية على جعل الاختيار صحيح.
وعموما، فإن الكلمات التي تحتوي على ترجمات محتملة متعددة تمثل تحديا، خاصة إذا كانت الترجمة الصحيحة في سياق معين لا تعكس المعنى الأكثر شيوعًا للكلمة.
ويمكن ملاحظة حالة خاصة لهذه العلاقة بالكلمات التي يتم إدخالها كجزء من المركب الأسمي وتحافظ على هذا المعنى في النص بأكمله، حتى لو كانت تظهر بنفسها.

ضع في الاعتبار مثال الترجمة التالي للكلمة الألمانية Typ:

الألمانية: ” Der ektomorphe Körpertyp
neigt zur Schlankheit. Dieser
Typ muss viel Krafttraining machen” .

الترجمة الالية: نوع الجسم يميل إلى ان يكون نحيلا، يجب على هذا الرجل القيام بالكثير من تدريبات القوة” .

نلاحظ أن ترجمة الفقرة الثانية صحيحة من الناحية النحوية ولكنها لا تنقل معنى الجملة الألمانية حيث أن كلمة ” Typ ” تشير إلى (نوع الجسم) في الجملة السابقة وبالتالي فإن الترجمة الصحيحة ستكون نوع وليس رجل.

وتساعد نظم الترجمة الآليه الإحصائية لمعالجة الخطاب عبر حدود الجملة والمعلومات أن كلمة ” Typ” في الفقرة الثانية التي تشير إلى Körpertyp على إزالة الغموض عن كلمة Typ وترجمتها بشكل صحيح. ونفترض أن typ في Körpertyp يجب أن تكون نفس الترجمة كمرجع مشترك أن كجزء من المجمع.
بما أن الاسم الرئيسي المشار إليه وحده قد لا ينتج الترجمة المرغوبة، فنحن نستفيد من المركب

ولاحظ أن المركبات هي نتيجة لعدة كلمة مقدمة عدد أقل من متغيرات الترجمة عن الكلمات المتكونة من جزء واحد وبالتالي المساعدة على الحد من الغموض.  ويمكن ان تترجم كلمة ” Körpertyp” إلى نوع الجسم وليس جسم الرجل.

بالنسبة لتجاربنا فإننا نقوم باستخدام نظام موسى للترجمة على مستوى الجملة.

ولأجل القيام بترجمة صحيحة عبر حدود الجملة فإننا نقوم باستخدام طريقتين مختلفتين وهما: توصيل الترجمة الصحيحة للنظام قبل الترجمة أو التنقيح اللاحق.

وباستخدام الطريقة الأولى فإننا نقوم بترجمة كل جملة على حدا وذلك يحدث سواء قمنا بإخفاء أو تخزين ترجمة الدماغ لتراكيب الجمل— على سبيل المثال، الكتابة داخل النمط البنيوي—
نظام الترجمة على استخدام الترجمة المخبأة ذات الصلة لكل مرجع مشترك إلي مركب وللقيام بذلك فإننا نستخدم لغة الترميز الموسعة للصيغ البديعية المدمجة تماما مع برنامج موسى والتي تُتيح لنا إدخال الترجمة المُفضلة وذلك بالتنافس مع نماذج الترجمة الأخرى المُرشحة دون إحداث تغيير في النموذج.

وهذه الطريقة تُحسن صحة ترجمة هذه الكلمات المترادفة من عند الترجمة من الألمانية إلى الفرنسية. 86.7% إلى 80,1%، وعلى غرار ذلك نجد طريقة التنقيح اللاحق:

حيث نقوم بالقيام بخطوة التخزين المؤقت، لكن بدلًا من أن نقوم بدمج ترجمة معينة بنظام الترجمة فإننا نقوم بطريقة تلقائية بتعديل نِتاج الترجمة الآلية وذلك باستبدال جميع الكلمات المترادفة بترجمتهم المُخزنة.

هناك مزايا وعيوب لكلًا من طريقة الدمج والتنقيح اللاحق. أثناء عملية الترجمة يتم الجمع بين عدة مكونات أو نماذج لتوفير أفضل ترجمة. كلٌ من هذه النماذج له وظيفة مختلفة تتعلق بالترجمة وإعادة ترتيب الكلمات وإتقان النتائج.

إن التنقيح اللاحق لهو نهج واضح المعالم للحصول على الترجمة المطلوبة، ولكن لم يتم إدراجه مسبقًا في عملية الترجمة. ونتيجة لذلك، فإن النماذج الأخرى المدمجة في نظام الترجمة لا يمكن أن تسهم في التحقق مما إذا كانت الترجمة الجديدة تؤثر على النسق اللفظي أو إتقان النتائج. باستخدام لغة الترميز الموسعة للصيغ البديعية التي يقدمها نظام موسى داخل نهج التوصيل فيمكن حينئذٍ لنتيجة الترجمة الاستفادة من النماذج الأخرى.

ومع ذلك، فإن ذلك ليس الأمثل حيث أن الترجمة المُخبأة تتنافس مع الترجمات الأخرى المُرشحة دون نتائج محتملة مناسبة. ويمكن تنفيذ الحل الأمثل الذي يستفيد من النماذج الأخرى باستخدام نظام ترجمة دوسنت على مستوى الوثائق بجامعة أوبسالا من قبل كريستيان هاردمير والذي يوفر سهولة ومرونة أكبر في نمذجة تبعيات الحديث.

عند كل خطوة من خطوات عملية الترجمة يقوم نظام دوسنت بتوفير ترجمة كاملة للمستند كله، كما أنه يقبل أي ترجمة جديدة للمستند عندما يكون الجمع بين جميع نتائج النموذج أعلى من نتيجة الترجمة السابقة.

وللقيام بدمج الحل الخاص بنا بنظام دوسنت قمنا بتنفيذ نموذج جديد يُعطي نتائج أعلى عندما تكون الترجمة الأساسية لتركيب ما ومرادفاته اللغوية هي نفسها.

وبمفهوم أكثر شمولية فإننا نسعى إلى تحسين الاتساق اللغوي عند ترجمة جميع الكلمات الغامضة وليس فقط أجزاء من التراكيب.  وبشكل عام، فإنه إذا كانت للكلمة الخاصة باللغة الأصلية المعينة خيارات ترجميه مختلفة فإنه يمكننا غالبا استنتاج المعنى المقصود عن طريق كلمات معينة داخل السياق نُطلق عليها “الكلمات المُحفِزة”.  ويُمكن لهذه الكلمات، ولكن ليس شرطًا، أن تكون في نفس الجملة وأن يتم إخراجها من الجانب الأصلي والمستهدف على السواء. على سبيل المثال، على جانب فالكلمات الألمانية في الأصل: المقطع أو آلة مورف، شكل الجسم، الكتلة العضلية والكلمات الإنجليزية في المقابل هي : إكتوموراف، عمليات الأيض وشكل الجسم والتي تقوم بتحفيز ترجمة نمط اللغة الإنجليزية إلى كلمة شاب في اللغة الألمانية، وعلى الجانب الأخر الكلمات الألمانية مثل شاب صغير، ودود أو فرقة موسيقية تفتح النطاق في اللغة الإنجليزية لوضع كلمة شاب. وهكذا، فإننا نقوم بتحديد الكلمات المفتاحية المحفزة في الجمل المحيطة بأنها تقوم بفتح المجال أو إيضاحه لوضع ترجمة ولإزالة غموض كلمة  باستخدام مثل هذه الكلمات المفتاحية المحفزة فإننا نحتاج أن نجدهم أولاً.

ولهذا الغرض فإننا نقوم بالنظر إلى التغيرات الحاصلة لتوزيع الترجمة عندما تظهر كلمة محفزة معينة مرشحة داخل السياق الوارد فيه الكلمة الغامضة.
على سبيل المثال، عندما تظهر كلمة آلة المورف أو مقطع داخل السياق لكلمة شاب بالألمانية فإن الترجمة لكلمة مثل “نوع” تُصبح ذات احتمالية أعلى بالنسبة لتوزيع الترجمة، بينما لو لم تكن كلمة “مقطع أو آلة المورف” موجودة فإن كلمة “شاب صغير” ستُصبح ذات النسبة الأعلى في الترجمة.

وباستخدام هذه الطريقة فإننا نقوم باستخراج الكلمات المفتاحية أو المحفزة لجميع الكلمات الغامضة من مجموعة موازية ضخمة.

أثناء الترجمة، فإننا نقوم بالتحقق من ما إذا كانت جميع الكلمات المفتاحية المحفزة المكتشفة موجودة في الجمل المحيطة ويمكن بالتالي أن نخلص إلى الترجمة المُرجحة.
ومن ثَم فإننا نقوم بدمج الترجمة الصحيحة للكلمة داخل نظام الترجمة أو نقوم بخطوة التنقيح اللاحق بنفس الطريقة الموصوفة أعلاه للوصول إلى الترجمة المطلوبة.
مجال أخر من البحث في الخطابات للترجمة الآلية هو الضمائر حيث أن أكثر الضمائر الشخصية البارزة في اللغة الإنجليزية he و she و it لغير العاقل”، وفي اللغة الألمانية “er-sie-es “هذه الضمائر أو الكلمات من أصعب الكلمات من حيث الترجمة حيث يتم تحديد شكل الضمير في كثير من اللغات عن طريق الجنس أو عدد ما سبقه—للاسم الذي ترمز إليه.
وبالتالي، فإنه من أجل الحصول على الترجمة الصحيحة فيجب على النظام حينئذٍ أن يعرف جنس وعدد الكلمة التي تُشير إليه الكلمة الواردة.
على سبيل المثال، يواجه نظام الترجمة الآلية بناءً على العبارة القياسية مشاكل عند ترجمة المقتطف التالي من مقال يتحدث عن رئيسة كوريا الجنوبية بارك جين هاي عند الترجمة من الإسبانية إلى الإنجليزية: اللغة الأسبانية:
“Para muchos surcoreanos, la elección de Park como candidata es segura. Si gana, será la consecuencia de su seriedad y tenacidad, no de su herencia política.”

الترجمة البشرية: ” بالنسبة لكثير من الكوريين الجنوبيين، فإن بارك الآن على وشك الخسارة في أن يتم انتخابها، وإذا فازت فذلك سيكون بسبب جديتها ومثابرتها وليس بسبب تراثها السياسي”

الترجمة الآلية بدون حل المرجع المشترك:

” بالنسبة لكثير من الكوريين الجنوبيين فإن إنتخاب بارك في الانتخابات مضمون، وإذا تم هذا فسيكون بسبب جديتها ومثابرتها وليس بسبب تراثها السياسي”.

الترجمة الآلية بوجود المرجع المشترك:

“بالنسبة لكثير من الكوريين الجنوبيين فإن إنتخاب بارك كمرشحة مضمون، وإذا فازت فسيكون بسبب جديتها ومثابرتها وليس بسبب تراثها السياسي”.
أولاً وقبل كل شيء فإن اللغة الإسبانية لا تستخدم الضمائر الشخصية سوى للتأكيد أما ما سوى ذلك فإنها تحذفهم كما هو الحال في الجملة الثانية “si gana”إذا فاز(ت)–

يبلغ جهاز الترجمة الآلية من الذكاء ما يكفي لترجمة الضمائر ولكن في حالة عدم وجود أي معلومات لديه عن الفاعل الفعلي فإنه يقوم بإدخال الضمير المعروف”it” بشكل أكبر بدلا من هي.

بالإضافة إلى ذلك، فإن ضمير الملكية الإسباني”su” غير محدد للجنس، بينما تستخدم الإنجليزية أشكال مختلفة تبعا لنوع الجنس وعدد المُلاك.  وحيث أن جهاز الترجمة الآلية يجهل المالك الفعلي فتبعاً لذلك سيقوم بالترجمة خطأ حيث سيقوم بترجمة “su” ك (له) بدلاً من( لها).

بالنسبة لبحثنا فإننا نقوم باستخدام نظام حل المرجع المشترك بالنسبة للنص الأصلي باللغة الإسبانية ونقوم بشرح ضمائر الملكية بخصائصها البنيوية ذات الصلة.

بالإضافة إلى ذلك، فإننا نقوم بإدراج العناصر النائبة للضمائر التي تشير إلى الجنس وعدد الفاعل. يمكن القيام بذلك قبيل الترجمة باللغة الإنجليزية لكونها اللغة الهدف حيث أن التفريق بين الجنسين أمر مختص بالبشر ومن الأفضل والأكثر آمنًا الافتراض بأن جنسهم النحوي لا يتغير عند الترجمة.

وبالنسبة للغات التي تستخدم الجنس النحوي لجميع الأسماء فإن المشكلة أكثر تعقيدًا حيث أنه للوصول إلى الترجمة الصحيحة فإننا لسنا فقط بحاجة معرفة ما سبق الضمير المُعطى بل أيضًا لنوع ترجمة جنس هذا الذي سبق الضمير والذي من الممكن أن يكون مختلفا عن النوع الذي كان لدى الاسم في اللغة المصدر.

وكما بينّا، فإن أنظمة الترجمة تستفيد من التبعيات الخطابية لتحسين خيارات الترجمة. ومع ذلك، فقد ركزت الترجمة الآلية بشكل كبير على الترجمة على مستوى الجملة في العقد السابق، وينبغي علينا أن نمضي قدمًا في أنظمة الترجمة الآلية التي تأخذ في الاعتبار المعرفة الخطابية وذلك لتتفوق على جودة الترجمة.

المصدر:

All Articles

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *