یه قُلُپْ

مزه مزه کردن چیزهایی که در ظاهر نوشیدنی نیستند!

یه قُلُپْ

مزه مزه کردن چیزهایی که در ظاهر نوشیدنی نیستند!

Cross-lingual Language Model Pretraining ۲۰۱۹

يكشنبه, ۲۹ مرداد ۱۴۰۲، ۰۴:۵۲ ب.ظ

مختصر: دو تا روش جدید برای مدل‌های زبانی متقاطع‌زبانی(! Cross Lingual رو چه باید ترجمه کرد؟) که یکی بر مبنای دادهٔ تک‌زبانه هست و یکی دیگه مبتنی بر دادهٔ با نظارت موازی‌طور

مقدمه

گفتن که ما

  • یک روش برای نمایش متقاطع‌زبانی رو معرفی کردیم که از یک مدل متقاطع‌زبان استفاده می‌کنه و دو تا روش آموزش تک‌زبانی رو بررسی کردیم.
  • یک روش جدید با نظرات توسط داده‌های موازی رو معرفی کردیم
  •  مدل‌های ما خیلی خوبی از sotaهای قبلی بهتر عمل می‌کنن علی‌الخصوص در کلاس‌بندی و ترجمه
  • نشون دادیم که مدل‌های متقاطع‌زبانی می‌تونن بهبود موثری روی perplexity‌ زبان‌هایی که منابع محدود دارن بشوند
  • کدامون رو هم در اختیار همگان قرار دادیم باشد که توشهٔ آخرت‌مان شود 😊

بخش کارهای قبلی:

حوصلم نمیاد بنویسم 😐

بخش مدل‌های زبانی متقاطع‌زبانی (Cross lingual language models):

در این بخش objectiveهاشون رو معرفی کردن که از قضا دو موردشون فقط دادهٔ تک‌زبانی براش کافیه انگار ولی آخری نیاز به دادهٔ موازی داره.

اول اینکه گفتن برای پردازش همهٔ زبان‌ها از یک مجموعهٔ لغات مشترک که از روش byte pair encoding بوده استفاده کردند و انگار این BPE رو با الحاق به هم تعداد تصادفی متن‌های تک‌زبانه‌ای که داشتند ایجاد کردند. برای انتخاب نمونه‌های تصادفی‌شون هم از توزیع و احتمال استفاده کردن و یک نسبت و تناسبی بین زبان‌های با منابع بالا و زبان‌های با منابع محدود و کم قرار دادند و گفتن طوری این توزیع انتخاب شده که زبان‌هایی که منابع‌شون محدود و کم هست در سطح کاراکتر split نشه.

بعدش گفتن که یک Causal Language Modeling ارائه می‌کنیم که متشکل هست از مدل‌های زبانی transformer که هدفش مدل کردن احتمال یک کلمه با داشتن کلمات قبلی در جمله یا همومن فرمول $P(w_t|w_1\cdots,w_{t-1},\Theta)$ است (تتا چی‌بود؟) بوده است. اما تکنیک ترنسفورمرها برای مدل کردنی که یاد شد ظاهرا برای حالت متقاطع‌زبانی فایده‌ای نداره (تکنیک‌شون این بوده که وضعیت‌های پنهان قبلی رو به بچ فعلی رد می‌کردند) و گفتن که ما کلمات اول هر بچ رو همین‌طوری رها می‌کنیم. (راستش خیلی شیرفهم نشدم که چه کردند. جملهٔ انگلیسی‌اش اینه: However, this technique does not scale to the cross-lingual setting, so we just leave the first words in each batch without context for simplicity)

بعدش گفتن که از روش Mask Language Modeling استفاده کردن و به صورت تصادفی ۱۵درصد داده‌هایی که BPE شده بودند رو با [MASK] حدود ۸۰درصد اوقات جایگزین کردند (ده درصد اوقات هم با یک توکن تصادفی عوض کردند و ۱۰ درصد اوقات هم دست بهش نزدند). بعد گفتن روش MLM ما فرقش با اونی که باز اول ارائه‌اش کرده این هست که ما از stream متن‌ها استفاده می‌کنیم (که سر ۲۵۶ توکن می‌شکونیم‌شان). برای اینکه عدم توازن بین توکن‌های نایاب و متداول رو هم در نظر گرفته باشیم از خروجی‌های متداول subsample کردیم که مبتنی بر روشی با توجه به توزیع چندزبانه بوده انگار.

بعدش گفتن که یک Translation Language Modeling ارائه کردیم (دو تا مورد قبلی یعنی CLM و MLM بدون نظارت بوده) که با نظارت هست. این TLM ما objectiveاش توسعهٔ MLM هست که بجای یک stream از متن‌های تگ‌زبانه یک الحاق موازی از جملات رو داریم. در نهایت هم در زبان مبدا و مقصد اومدن به صورت تصادقی یک سری از لغات رو mask کردن. برای پیش‌بینی یک لغت mask شده هم (انگلیسی رو مثال زدند) گفتن که یا میشه به ترجمه‌اش (فرانسوی بوده) توجه کرد (که مدل رو تشویق می‌کنه که نمایش انگلیسی رو به نمایش فرانسوی الاین بکنه) یا اینکه  از همون کلمات اطراف انگلیسی استفاده کرد. تهش هم گفتن برای اینکه الاینمنت‌مون تسهیل بشه محل‌های جملات هدف رو بازتنظیم کردیم.

در انتها گفتن که ما مدل‌های زبانی رو یا با CLM یا با MLM و یا با MLM  در ترکیب با TLM در نظر گرفتیم. برای CLM و MLM هم ۶۴تا stream از جملات پیوستهٔ ۲۵۶توکنی در نظر گرفتن. وقتی هم که TLM رو با MLM ترکیب کردن بین objectiveها رو جابجا کردن و از زوج‌های زبانی با روش‌ مشابه(؟) نمونه گرفتن.

بخش Cross-lingual Language model pretraining

گفتن که ما مدل XLM خودمون رو روی یک سری بنچ‌مارک کلاس‌بندی finetune‌ کردیم و از داده‌های XNLI برای ارزیابی روش‌شون استفاده کردند. یعنی اومدن یک لایه کلاس‌بندی روی اولین وضعیت‌ پنهان ترنسفور گذاشتند و همهٔ پارامتر رو fine tune کردن و ظرفیت مدل رو برای ۱۵تا زبان بررسی نمودن.

همچنین یک ترجمهٔ ماشینی بدون نظارت باتوجه به معماری encoder-decoder با مدل‌شون تست کردند (نفهمیدم فی‌الواقع که چه کردند فرآیند یک چیزی تحت عنوان UNMT که نمی‌دونم چیه رو روش روش bootstrap بکار بردند)

و بعدش هم یک ترجمهٔ ماشینی با نظارت رو روی مدل‌شون انجام دادند.

یک ادعایی هم توی قسمت بعدی کردند که معقوله که هرچی برای یک زبان با منابع کم یک زبان با منابع بالا که بهش شبیه‌تر هست رو داشته باشیم مدل‌مون رو زبان با منابع کم بهتر عمل می‌کنه.

در ادامه به چیزهایی اشاره کردن که نمی‌دونم چی هستند و باید بروم یاد بگیرم یک چیزی تحت عنوان MUSE و unsupervised cross-lingual word embeddings

بخش بعدی‌اش هم training Detail بود که  قدری از حوصلهٔ من خارج می‌شد و میشه به خود مقاله رجوع کرد برای جزئیاتش.

 

توی قسمت نتایج کلاس‌بندی دو مدل MLM و ترکیب MLM+TLM رو در نظر گرفتن که توضیحات‌شون بالا گفته شد. به نظر می‌رسه که مدل ترکیبی نتایج یه کم بهتری داشته .اما در ترجمهٔ ماشینی بدون نظارت با initialization‌ تصادفی، MLM و CLM امتحان کردن (برای زبان مبدا فکر کنم و مقصد). بعدش هم برای مدل بانظارت رو نتایج‌شون رو گفتن و در نهایت اثر اضافه کردن زبان در perplexity زبان‌های با منابع محدود (اینا زبان نپالی رو در نظر گرفتن) بررسی کردند. و آخر آخرش نتایج Unsupervised cross-lingual word embedding رو هم گفتن که از روش‌های قبلی بهتر بودند.

  • د د

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
تجدید کد امنیتی