Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv'23 #1534

Open
AkihikoWatanabe opened this issue Nov 20, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Nov 20, 2024

URL

Authors

  • Biao Zhang
  • Barry Haddow
  • Alexandra Birch

Abstract

  • Research on prompting has shown excellent performance with little or even no supervised training across many tasks. However, prompting for machine translation is still under-explored in the literature. We fill this gap by offering a systematic study on prompting strategies for translation, examining various factors for prompt template and demonstration example selection. We further explore the use of monolingual data and the feasibility of cross-lingual, cross-domain, and sentence-to-document transfer learning in prompting. Extensive experiments with GLM-130B (Zeng et al., 2022) as the testbed show that 1) the number and the quality of prompt examples matter, where using suboptimal examples degenerates translation; 2) several features of prompt examples, such as semantic similarity, show significant Spearman correlation with their prompting performance; yet, none of the correlations are strong enough; 3) using pseudo parallel prompt examples constructed from monolingual data via zero-shot prompting could improve translation; and 4) improved performance is achievable by transferring knowledge from prompt examples selected in other settings. We finally provide an analysis on the model outputs and discuss several problems that prompting still suffers from.

Translation (by gpt-4o-mini)

  • プロンプティングに関する研究は、多くのタスクにおいてほとんどまたは全く監視されたトレーニングなしで優れたパフォーマンスを示しています。しかし、機械翻訳におけるプロンプティングは、文献の中でまだ十分に探求されていません。このギャップを埋めるために、翻訳のためのプロンプティング戦略に関する体系的な研究を提供し、プロンプトテンプレートやデモンストレーション例の選択に関するさまざまな要因を検討します。さらに、単言語データの使用や、クロスリンガル、クロスドメイン、文から文書への転移学習の実現可能性についても探ります。GLM-130B(Zeng et al., 2022)をテストベッドとして用いた広範な実験により、1) プロンプト例の数と質が重要であり、最適でない例を使用すると翻訳が劣化すること、2) プロンプト例のいくつかの特徴(意味的類似性など)がそのプロンプティングパフォーマンスと有意なスピアマン相関を示すが、いずれの相関も十分に強くないこと、3) ゼロショットプロンプティングを通じて単言語データから構築された擬似平行プロンプト例を使用することで翻訳が改善される可能性があること、4) 他の設定で選択されたプロンプト例からの知識を転送することでパフォーマンスの向上が達成可能であることを示しました。最後に、モデルの出力に関する分析を提供し、プロンプティングが依然として直面しているいくつかの問題について議論します。

Summary (by gpt-4o-mini)

  • 機械翻訳におけるプロンプティングの研究を体系的に行い、プロンプトテンプレートやデモ例の選択に影響を与える要因を検討。GLM-130Bを用いた実験により、プロンプト例の数と質が翻訳に重要であること、意味的類似性などの特徴がパフォーマンスと相関するが強くないこと、単言語データからの擬似平行プロンプト例が翻訳を改善する可能性があること、他の設定からの知識転送がパフォーマンス向上に寄与することを示した。プロンプティングの課題についても議論。
@AkihikoWatanabe AkihikoWatanabe changed the title a Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv'23 Nov 20, 2024
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Nov 20, 2024

zero-shotでMTを行うときに、改行の有無や、少しのpromptingの違いでCOMETスコアが大幅に変わることを示している。
モデルはGLM-130BをINT4で量子化したモデルで実験している。
興味深いが、この知見を一般化して全てのLLMに適用できるか?と言われると、そうはならない気がする。他のモデルで検証したら傾向はおそらく変わるであろう(という意味でおそらく論文のタイトルにもCase Studyと記述されているのかなあ)。

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant