Cross-lingual Language Model Pretraining ۲۰۱۹
مختصر: دو تا روش جدید برای مدلهای زبانی متقاطعزبانی(! Cross Lingual رو چه باید ترجمه کرد؟) که یکی بر مبنای دادهٔ تکزبانه هست و یکی دیگه مبتنی بر دادهٔ با نظارت موازیطور
مقدمه
گفتن که ما
- یک روش برای نمایش متقاطعزبانی رو معرفی کردیم که از یک مدل متقاطعزبان استفاده میکنه و دو تا روش آموزش تکزبانی رو بررسی کردیم.
- یک روش جدید با نظرات توسط دادههای موازی رو معرفی کردیم
- مدلهای ما خیلی خوبی از sotaهای قبلی بهتر عمل میکنن علیالخصوص در کلاسبندی و ترجمه
- نشون دادیم که مدلهای متقاطعزبانی میتونن بهبود موثری روی perplexity زبانهایی که منابع محدود دارن بشوند
- کدامون رو هم در اختیار همگان قرار دادیم باشد که توشهٔ آخرتمان شود 😊
بخش کارهای قبلی:
حوصلم نمیاد بنویسم 😐
بخش مدلهای زبانی متقاطعزبانی (Cross lingual language models):
در این بخش objectiveهاشون رو معرفی کردن که از قضا دو موردشون فقط دادهٔ تکزبانی براش کافیه انگار ولی آخری نیاز به دادهٔ موازی داره.
اول اینکه گفتن برای پردازش همهٔ زبانها از یک مجموعهٔ لغات مشترک که از روش byte pair encoding بوده استفاده کردند و انگار این BPE رو با الحاق به هم تعداد تصادفی متنهای تکزبانهای که داشتند ایجاد کردند. برای انتخاب نمونههای تصادفیشون هم از توزیع و احتمال استفاده کردن و یک نسبت و تناسبی بین زبانهای با منابع بالا و زبانهای با منابع محدود و کم قرار دادند و گفتن طوری این توزیع انتخاب شده که زبانهایی که منابعشون محدود و کم هست در سطح کاراکتر split نشه.
بعدش گفتن که یک Causal Language Modeling ارائه میکنیم که متشکل هست از مدلهای زبانی transformer که هدفش مدل کردن احتمال یک کلمه با داشتن کلمات قبلی در جمله یا همومن فرمول $P(w_t|w_1\cdots,w_{t-1},\Theta)$ است (تتا چیبود؟) بوده است. اما تکنیک ترنسفورمرها برای مدل کردنی که یاد شد ظاهرا برای حالت متقاطعزبانی فایدهای نداره (تکنیکشون این بوده که وضعیتهای پنهان قبلی رو به بچ فعلی رد میکردند) و گفتن که ما کلمات اول هر بچ رو همینطوری رها میکنیم. (راستش خیلی شیرفهم نشدم که چه کردند. جملهٔ انگلیسیاش اینه: However, this technique does not scale to the cross-lingual setting, so we just leave the first words in each batch without context for simplicity)
بعدش گفتن که از روش Mask Language Modeling استفاده کردن و به صورت تصادفی ۱۵درصد دادههایی که BPE شده بودند رو با [MASK] حدود ۸۰درصد اوقات جایگزین کردند (ده درصد اوقات هم با یک توکن تصادفی عوض کردند و ۱۰ درصد اوقات هم دست بهش نزدند). بعد گفتن روش MLM ما فرقش با اونی که باز اول ارائهاش کرده این هست که ما از stream متنها استفاده میکنیم (که سر ۲۵۶ توکن میشکونیمشان). برای اینکه عدم توازن بین توکنهای نایاب و متداول رو هم در نظر گرفته باشیم از خروجیهای متداول subsample کردیم که مبتنی بر روشی با توجه به توزیع چندزبانه بوده انگار.
بعدش گفتن که یک Translation Language Modeling ارائه کردیم (دو تا مورد قبلی یعنی CLM و MLM بدون نظارت بوده) که با نظارت هست. این TLM ما objectiveاش توسعهٔ MLM هست که بجای یک stream از متنهای تگزبانه یک الحاق موازی از جملات رو داریم. در نهایت هم در زبان مبدا و مقصد اومدن به صورت تصادقی یک سری از لغات رو mask کردن. برای پیشبینی یک لغت mask شده هم (انگلیسی رو مثال زدند) گفتن که یا میشه به ترجمهاش (فرانسوی بوده) توجه کرد (که مدل رو تشویق میکنه که نمایش انگلیسی رو به نمایش فرانسوی الاین بکنه) یا اینکه از همون کلمات اطراف انگلیسی استفاده کرد. تهش هم گفتن برای اینکه الاینمنتمون تسهیل بشه محلهای جملات هدف رو بازتنظیم کردیم.
در انتها گفتن که ما مدلهای زبانی رو یا با CLM یا با MLM و یا با MLM در ترکیب با TLM در نظر گرفتیم. برای CLM و MLM هم ۶۴تا stream از جملات پیوستهٔ ۲۵۶توکنی در نظر گرفتن. وقتی هم که TLM رو با MLM ترکیب کردن بین objectiveها رو جابجا کردن و از زوجهای زبانی با روش مشابه(؟) نمونه گرفتن.
بخش Cross-lingual Language model pretraining
گفتن که ما مدل XLM خودمون رو روی یک سری بنچمارک کلاسبندی finetune کردیم و از دادههای XNLI برای ارزیابی روششون استفاده کردند. یعنی اومدن یک لایه کلاسبندی روی اولین وضعیت پنهان ترنسفور گذاشتند و همهٔ پارامتر رو fine tune کردن و ظرفیت مدل رو برای ۱۵تا زبان بررسی نمودن.
همچنین یک ترجمهٔ ماشینی بدون نظارت باتوجه به معماری encoder-decoder با مدلشون تست کردند (نفهمیدم فیالواقع که چه کردند فرآیند یک چیزی تحت عنوان UNMT که نمیدونم چیه رو روش روش bootstrap بکار بردند)
و بعدش هم یک ترجمهٔ ماشینی با نظارت رو روی مدلشون انجام دادند.
یک ادعایی هم توی قسمت بعدی کردند که معقوله که هرچی برای یک زبان با منابع کم یک زبان با منابع بالا که بهش شبیهتر هست رو داشته باشیم مدلمون رو زبان با منابع کم بهتر عمل میکنه.
در ادامه به چیزهایی اشاره کردن که نمیدونم چی هستند و باید بروم یاد بگیرم یک چیزی تحت عنوان MUSE و unsupervised cross-lingual word embeddings
بخش بعدیاش هم training Detail بود که قدری از حوصلهٔ من خارج میشد و میشه به خود مقاله رجوع کرد برای جزئیاتش.
توی قسمت نتایج کلاسبندی دو مدل MLM و ترکیب MLM+TLM رو در نظر گرفتن که توضیحاتشون بالا گفته شد. به نظر میرسه که مدل ترکیبی نتایج یه کم بهتری داشته .اما در ترجمهٔ ماشینی بدون نظارت با initialization تصادفی، MLM و CLM امتحان کردن (برای زبان مبدا فکر کنم و مقصد). بعدش هم برای مدل بانظارت رو نتایجشون رو گفتن و در نهایت اثر اضافه کردن زبان در perplexity زبانهای با منابع محدود (اینا زبان نپالی رو در نظر گرفتن) بررسی کردند. و آخر آخرش نتایج Unsupervised cross-lingual word embedding رو هم گفتن که از روشهای قبلی بهتر بودند.
- ۰۲/۰۵/۲۹