論文紹介:Improve smt quality with automatically extracted paraphrase rules

19
Wei He, Hua Wu, Haifeng Wang, Ting Liu In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp.979–987, 2012. プレゼンテーション:野口真人 Improve SMT Quality with Automatically Extracted Paraphrase Rules 1

Transcript of 論文紹介:Improve smt quality with automatically extracted paraphrase rules

Page 1: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

W e i H e , H u a W u , H a i f e n g W a n g , T i n g L i u I n P r o c e e d i n g s o f t h e 5 0 t h A n n u a l M e e t i n g

o f t h e A s s o c i a t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s , p p . 9 7 9 – 9 8 7 , 2 0 1 2 .

プレゼンテーション:野口真人

Improve SMT Quality with Automatically Extracted

Paraphrase Rules 1

Page 2: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

Improve SMT Quality with Automatically Extracted Paraphrase Rules

2

� どのような問題を解いたのか ¡  SMTの品質を向上させる

� どうやって解いたのか ¡ パラレルコーパスの原言語と,目的言語を原言語に翻訳したものを比較することで言い換え規則を生成

¡ それを入力文に適用することで機械翻訳しやすい文章を生成する

� どのような結果を達成したか ¡ 評価尺度BLEUで,oral groupにおいて1.6〜3.6ポイント, news

groupにおいて0.5〜1ポイントの改善

Page 3: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

The translation quality of the SMT system 3

�  SMTの改良には2つのアプローチ ¡ 入力文を機械翻訳に好都合(MT-favored)な表現にする (今回の手法)

¡ 翻訳モデルがさらに多様な表現をカバーできるようにする

� 言い換えでSMTを改善する際の問題点 ¡ 先行研究では文を単語か句のレベルでのみ書き換え ¡ 文全体の構造を考えた言い換えはなされてない

� 今回の手法では,文の構造を考えた言い換え規則を   自動で獲得できる(革新的な手法)

Page 4: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

Forward-Translation vs. Back-Translation 4

�  Forward-Translation(FT) ¡ パラレルコーパスの原言語を目的言語に翻訳

�  Back-Translation(BT) ¡ パラレルコーパスの目的言語をいったん原言語に翻訳し,それを 目的言語に翻訳する

Initial Parallel Text

1st Round Translation

2nd Round Translation

Source Language

Target Language

S0

T0

S1

T1 T2

Forward- Translation

Back- Translation

Page 5: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

FTとBTの比較 5

� T0とFTで得られたT1の類似度,T0とBTで得られたT2の類似度をそれぞれBLEUで算出し比較

� T2のほうが高いスコアを達成(Sun 2010) ¡ 1回目の翻訳で並び替えに失敗→2回目の翻訳が良くなる ¡ 機械翻訳で生成されるテキスト→機械翻訳しやすい

�  S0をそのまま翻訳するより,いったんS1のような    MT-favoredな表現にしたほうが良いはず!

Page 6: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

MT-favoredな表現への言い換え 6

� パラレルコーパスからとS1を作成し, S0との比較により自動でMT-favoredな表現への言い換え規則を抜き出す

� 翻訳したい文書に言い換え規則を適用することで, MT-favoredな表現へ言い換える

S0 S1

Parallel Text

Paraphrase Rules

翻訳したい文書

MT-favoredな文書

より良い 翻訳結果

S0 T0 文の構造を考えた 言い換えが可能!

文ごとに比較

S0 S0 S1 S1

Page 7: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

言い換え対の抽出 7

� パラレルコーパスのアライメントされた文ごとにT1とT2を作り, T0との類似度をそれぞれ求める ¡  BLEUで算出 ¡  T1<T2の場合, S0とS1を文の言い換え対として選択

� 文の言い換え対S0とS1の単語アライメントをとる ¡  T0とS0の単語アライメントをGIZA++でとる ¡  T0をS1に翻訳する際にその情報を使う

Page 8: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

単語アライメントのクリーニング 8

� GIZA++でのアライメントや翻訳でのエラーが存在 ¡ フィルターをかける 1.  S0とS1で同じ単語がアライメントされている場合,他のアライメントを除去

2.  ストップワードがストップワード以外にアライメントされている場合,そのアライメントを除去

我 很 感 兴趣 那 个 蓝色 手提包 。

我 对 那 只 蓝色 手提包 有 兴趣 。

我 很 感 兴趣 那 个 蓝色 手提包 。

我 对 那 只 蓝色 手提包 有 兴趣 。 S0

S1

Page 9: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

言い換え規則

言い換え規則の抽出 9

� 単語アライメントされた文の言い換え対から言い換え規則を抜き出す

� ある規則が別の規則を含む場合,言い換え規則を書き換える

我 很 感 兴趣 那 个 蓝色 手提包 。

我 对 那 只 蓝色 手提包 有 兴趣 。 PP1 = “那 只 蓝色 手提包              ||| 那 个 蓝色 手提包”

PP2 = “对 那 只 蓝色 手提包 有 兴趣      ||| 很 感 兴趣 那 个 蓝色 手提包”

PP2 = “X1 有 兴趣 ||| 很 感 兴趣 X1”

Page 10: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

入力文の言い換え 10

� 入力文に言い換え規則を適用する ¡ そのまま置き換えるだけでは深刻なエラーが発生するおそれがある

� 句の言い換えを先に行う ¡ その際,入力文の単語ラティスを生成して行う ¡ できた単語ラティスに適用できる句の言い換えを追加する

Page 11: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

単語ラティスにおける句の言い換え 11

Page 12: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

実験 12

�  oral groupとnews groupの2つのドメインに分けて実験を行った ¡  oral groupでは,両方向の翻訳を行う ¡  news groupでは,中国語から英語への翻訳のみを行う

�  Mosesをbaselineとして品質評価をBLEU・TERで行う

�  oral groupの訓練データは表1,開発・テストデータは表2の通り

�  news groupの訓練データは表3,開発・テストデータは表4の通り

Page 13: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

データ詳細−1 13

Corpus #Sen. pairs #Ch.

words #En words

BETC 19,972 174k 190k PIVOT 20,000 162k 196k HIT 80,868 788k 850k CLDC 190,447 1,167k 1,898k Tanaka 149,207 - 1,375k

Corpus #Sen. #Ref.

develop

CSTAR03 test set 506 16 IWSLT06 dev set 489 7

test

IWSLT04 test set 500 16 IWSLT05 test set 506 16 IWSLT06 test set 500 7 IWSLT07 test set 489 6

表1:oralの訓練データ

表2:oralの開発・テストデータ

Page 14: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

データ詳細−2 14

Corpus #Sen. #Ref.

develop NIST 2002 878 10 NIST 2005 1,082 4

test

NIST 2004 1,788 5 NIST 2006 1,664 4 NIST 2008 1,357 4

表4:newsの開発・テストデータ

Corpus #Sen. pairs #Ch.

words #En words

Sinorama and FBIS corpora (LDC2005T10&LDC2003E14)

319,694 7.9M 9.2M

表3:newsの訓練データ

Page 15: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

実験結果−1 15

�  抽出した言い換え規則の数 ¡  oral group:中国語912,625個・英語1,116,375個 ¡  news group:中国語2,877,960個

� 評価は以下の表4と,次ページの表5,6の通り

BLEU TER nist 04 nist 06 nist 08 nist 04 nist 06 nist 08

baseline 0.2795 0.2389 0.1933 0.6554 0.6515 0.6652 para. improved 0.2891 0.2485 0.1978 0.6451 0.6407 0.6582

表4:news group(中国語→英語)の評価

Page 16: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

実験結果−2 16

BLEU TER

iwslt 04 iwslt 05 iwslt 06 iwslt 07 iwslt 04 iwslt 05 iwslt 06 iwslt 07 baseline 0.5353 0.5887 0.2765 0.3977 0.3279 0.2874 0.5559 0.4390

para. improved 0.5712 0.6107 0.2924 0.4193 0.3055 0.2722 0.5374 0.4217

IWSLT 2005 BLEU TER

baseline 0.4644 0.4164 para. improved 0.4853 0.3883

表5:oral group(中国語→英語)の評価

表6:oral group(英語→中国語)の評価

Page 17: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

discussion 17

�  中-英翻訳で言い換え規則に影響された翻訳結果の詳細を分析した ¡  アノテータが84の文を評価(IWSLT 2007 Chinese-English test set) ¡  結果60の文(71.4%)が正解(意味が同じ),24(28.6%)の文が不正解 ¡  そのうち36の文の翻訳結果が改善されていた

�  改善されていた文章はどのような種類の言い換えがなされていたかをさらに分析:以下のように分類 1.  並べ替え 2.  語の置き換え 3.  省略語の補完 4.  余剰な表現の削除

Page 18: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

分析結果 18

Cate. Num Original Sentence/Translation Paraphrased Sentence/Translation (1) 11

香烟/cigarette 可以/can 免税/duty-free 带 /take 多少/how much 支/N/A ? what a cigarette can i take duty-free ?

多少/how much 香烟/cigarettes 可以/can 免税 /duty-free 带/take 支/N/A ? how many cigarettes can i take duty-free one ?

(2) 18 你/you 有/have 多久/how long 的/N/A 教学/teaching 经验/experience ? you have how long teaching experience ?

你/you 有/have 多少/how much 教学/teaching 经验/experience ? how much teaching experience you have ?

(3) 10 需要/need 押金/deposit 吗/N/A ? you need a deposit ? 你/you 需要/need 押金/deposit 吗/N/A ? do you need a deposit ?

(4) 4 戒指/ring 掉/fall 进/into 洗脸池/washbasin 里/in 了/N/A 。 ring off into the washbasin is in .

戒指/ring 掉/fall 进/into 洗脸池/washbasin 了 /N/A 。 ring off into the washbasin .

� 以下のような結果

�  (2)以外の言い換えは先行研究ではできなかった ¡ この手法では文での言い換え構造を考えることができる

Page 19: 論文紹介:Improve smt quality with automatically extracted paraphrase rules

結論 19

�  翻訳したい文をMT-favoredな表現に言い換えることで翻訳の結果が改善されることがわかった

�  言い換え規則は,パラレルコーパスの原言語と,目的言語を原言語に翻訳したものを比較することで得られることができた

�  この手法では,パラレルコーパスがあれば文の構造を考えた言い換え規則を自動で生成することができるとわかった