Pattern Lattice を使った ヒトの...

10
Pattern Lattice った (ヒト ) モデル * NICT けい グループ 大学/NICT Modified on 03/15, 01/15, 16, 17/2009; Created on 01/12/2009 1 はじめに §2 を,§2.3 し,§3 題を する. 2 パターンの理論の必要性 2.1 言語の創造性を再考する N. Chomsky [2] し,そ ,多く れらた つか テーゼ 一つに,(1) 言語の創造性のテーゼある: (1) a. ヒト いた/ んだこ しい いた/ んだ に,それを きる. b. ヒト いた/ んだこ しい せる. Chomsky (1) するために 案した している.だが,(1) する 1) に, だろうか? して り,(2) にあるよう する り, じくらい あるモデルを えるこ ( ) : (2) () 2) a. ヒト (=) よう 大に して いる. b. い多く があれ せる 3) * NLP15 る. かった している. 1) いが,(1a) (1b) に扱うこ い. ,これら があ る.ヒトが (1a) いが,ヒト あり,ヒ トが (1b) あるか うか る. 2) [28] されたい. 3) これ / によって こる するにヒト したこ をす (して) しているが,そ 態にある ( 「覚える 易し, し」 (easy to store, hard to recall/retrieve) いう )(2) する り,(1a) よう ベース えるこ きる こみがある: (3) a. ヒト いたこ e いた/ んだ に,それを きる e いが,それ に一 する (つまり e に「 た」) e 0 1 , e 0 2 ,..., e 0 n () 覚えていて,e を,e 0 1 , e 0 2 ,..., e 0 n わせて している. b. ヒト いた/ んだこ い, しい e せる e き意 を,e 0 1 , e 0 2 , ..., e 0 n m 0 1 , m 0 2 ,..., m 0 n わせて き,それに うように e 0 1 , e 0 2 ,..., e 0 n きるから ある. (3a) ([4] よう みに らず),暗 いている ある. / ベース ( ) (example-based (machine) transla- tion: EB(M)T) [8, 15] ベース ( ) (memory-based (machine) translation: MB(M)T) [16] いう されている いずれ われている.だが,(3b) (3a) されてい い.こ ある. じこ する こう : あるが, をふり 90 モデルから うモデルがありえる いうこ ある. しを してモデル する いが,こ [13, §6.5] されているし, モデル して [19] EMILE する. 1

Transcript of Pattern Lattice を使った ヒトの...

Page 1: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

Pattern Latticeを使った (ヒトの)言語知識と処理のモデル化∗

黒田航NICT けいはんな研究所言語基盤グループ

長谷部陽一郎同志社大学/NICT

Modified on 03/15, 01/15, 16, 17/2009; Created on 01/12/2009

1 はじめに

§2 で研究背景と基礎理論を,§2.3 で実装の一例を解説し,§3で理論的問題を議論する.

2 パターンの理論の必要性

2.1 言語の創造性を再考するN. Chomsky が生成文法の枠組み [2] の中で提唱し,その後,多くの研究者に受け入れらた幾つかのテーゼの一つに,(1) の言語の創造性のテーゼがある:

(1) a. ヒトは自分が聞いた/読んだことのない新しい表現を聞いた/読んだ時に,それを理解できる.

b. ヒトは自分が聞いた/読んだことのない新しい表現を作り出せる.

Chomsky は (1) を説明するために生成文法を考案したと主張している.だが,(1) を説明する1)のに,本当に生成文法は必要だろうか? 少なくともヒトの記憶に関して別の見方を取り,(2) にあるような仮説を想定する限り,生成文法と同じくらい信憑性のあるモデルを考えることは (理論的には) 難しくない:

(2) 極端 (に豊か)な記憶の仮説2)

a. ヒトは思い出せない (=意識の中に呼び出せない) ような記憶を膨大に蓄積している.

b. 意識的に思い出せない多くの記憶も,適当な刺激があれば思い出せる3).

∗ この論文は同一著者の NLP15での発表論文の増補版である.主に字数制限で書けなかった部分を追加している.

1) 本稿では追求しないが,(1a)と (1b)は同列に扱うことはできない.実際,これらの間には驚くべき非対称性がある.ヒトが (1a) の意味で創造的なのは妥当な想定かも知れないが,ヒトの産出は実際にはかなり保守的であり,ヒトが (1b)の意味で創造的であるかどうかは疑問が残る.

2) 詳細は [28]を参照されたい.3) これは,思い出し/想起が抑制の解除によって起こるとい

要するにヒトは経験したことをすべて (暗黙知として)記憶しているが,そのほとんどが思い出せない状態にある (経験の内容は「覚えるは易し,思い出すは難し」(easy to store, hard to recall/retrieve)という奇妙な特性をもつ).

(2) を想定する限り,(1a) の問題は,次のような記憶ベースの言語の知識系と処理系を考えることで解決できる見こみがある:

(3) a. ヒトは自分が聞いたことのない表現 eを聞いた/読んだ時に,それを理解できるのは,eと同一ではないが,それと部分的に一致する (つまり eに「似た」)表現の集合 e′1, e′2, . . . , e′n を (その自覚はないが)覚えていて,eの意味を,e′1, e′2, . . . ,e′n の意味を組み合わせて構築している.

b. ヒトは今までに自分が聞いた/読んだことのない,新しい表現 eを作り出せるのは,e で言うべき意味を,e′1, e′2, . . . , e′nの意味 m′

1, m′2, . . . , m′

nを組み合わせて構成でき,それに見合うように e′1, e′2, . . . ,e′n を統合できるからである.

(3a) は ([4] のような枠組みに限らず),今の言語処理が明示的,暗示的に置いている想定である.例えば機械翻訳の分野で用例/事例ベースの (機械) 翻訳 (example-based (machine) transla-tion: EB(M)T) [8, 15] や記憶ベースの (機械) 翻訳 (memory-based (machine) translation: MB(M)T)[16]という形で実装されている処理系はいずれもこの想定の下で行われている.だが,(3b) は (3a) ほど一般的には了解されていない.この非対称性は奇妙である.同じことを別の視点で記述するとこうなる: 現在の言語処理の主流は事例基盤であるが,過去をふり返ると,90 年代に文法基盤モデルから事例基盤モ

うモデルがありえるということである.思い出しを抑制の解除としてモデル化するのは一般的ではないが,この可能性は [13, §6.5]でも示唆されているし,計算モデルとして [19]の EMILEも存在する.

1

Page 2: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

デルの移行があったことがわかる.それまでの言語処理では文法基盤の研究が主流だった (アナロジー翻訳 [15, 16] はその嚆矢である).その理由は二つある: 消極面では規則基盤の処理の限界が見え,積極面では大規模コーパスが利用可能になり,統計的手法が分野を席捲した.だが,言語処理を産出 (production)時の処理と受領 (reception)時の処理に分けた時,うまく行っているのは後者のみである.実際,統計処理と互換性のある事例基盤の言語産出のモデルは,今の時点で明確なモデルとしては存在していない.本発表の狙いは事例集合の Pattern Lattice (PL*) の理論によってこの空隙を埋めることにある4).

(3b) でも (3a) でも本質的な条件は,効率の良い類似例の検索である.これを可能にするのは何か?—これが PL*を使って示そうとすることである.

2.2 事例と事例集合のパターンのラティス§2.2.1 で事例の定項の変項化という操作を定義し,その定義の下に §2.2.3 で単一事例 e のパターンラティス PL(e) を定義する.その定義を,続く§2.2.5で事例集合を扱えるように一般化する.

2.2.1 事例の定項の変項化の定義事例 eを適切に T (e) = [t1, t2, . . . , tn]に分割するモデルが与えられているとする (この理論が満足すべき条件については §3.1.2 で後述する).この仮定の下で,T の適当な定項 tiを変項 X で置換する操作を tiの X による変項化と定義し,この操作の産物をeから派生したパターン (patterns derived from e)と定義する.例えば e =「彼は歌って踊った」の分割は (適当な分割のモデル M の下では) T (M,e) = [彼,は,歌っ,て,踊っ,た]であり,5番目の部分「踊っ」を X で変項化したものは「彼は歌って X た」というパターンである.変項 X のタイプに制約を設けるかどうかは独立の問題とする.

2.2.2 言語情報の内部表現に関する想定知覚された言語情報は内部表現 (mental represen-

tations)に変換され,処理・維持される必要がある.内部表現は,言語学や言語処理では言語表現の解析(parses)と同一視されるのが通例であるが,私たちはモデル化の出発点として,解析が (再利用の可能性を最大にするために)次の特徴をもつべきである

4) もう一つの動機は第一著者が協力者と一緒に進めている複層意味フレーム分析 (MSFA) を使った意味タグづけ[32] で,状況の記述と優先して対応づけるべき超語彙パターンをなるべく効率良く見つけたいという希望である.これは非線型表現のデータベース化 [23]の効率化とも関係する.

と考える:5)

(4) a. 最小限の事前知識で盲目的に/機械的に実行可能 (intelligence-free);

b. 再 分 析 (=解 析 の や り 直 し) 不 要(reanalysis-free).

私たちは §2.2.1 で定義したパターンがこれらの条件を満足する内部表現であると考える.

2.2.3 単一事例 eのパターンラティス PL(e)§2.2.1の変項化の定義の下で,事例 eのパターンラティス PL(e)を次のように定義する:

(5) a. e の分割の結果を T (e) = [t1, t2, . . . , tk]とする.T (e) の要素を再帰的に単一の変項で変項化し,得られたパターンのべき集合を P(e)とする.

b. 次の is-a 関係の下での P(e) の半順序集合を eのパターンラティス PL(e)と定義する.

c. pi, p j ∈ P(e) であるパターン pi の n 番目の要素 pi[n]とパターン p j の n番目の要素 p j[n]との関係で,i) pi[n] = p j[n]であるか,ii) p j[n]が変項ならば,[pi is-ap j]である.

PL(e) の頂点 (top) は k 個の変項のみからなるパターンで,PL(e)の底 (bottom)は k個の定項のみからなる事例 = eである.豊かな事例記憶の想定の下では,パターンは事例集合へのインデックスになっていればよい.別の言い方をするとパターンはスキーマとして事例とは独立に自律的な内容をもっている必要はない (その内容は常に事例集合の値の期待値として与えられる).

2.2.4 パターンのランクと PL(e) の部分集合への

分割パターン p に含まれる定項の数を p のランクと定義する.例えば p = [彼,は, X ,て, X ,た] (i.e., [彼,は, V1,て, V2,た] is-a p)のランクは 4である.ランクは定項の数で PL(e) を部分集合に分割する.一般に eが k 個の部分に分割される時,PL(e)の Rank 0 は k 個の変項のみからなるパターンX X · · ·X (= top) のみをもつ集合,Rank k は { e (=bottom)}である.

5) 句構造はこれらの条件 (特に (i)の条件)を満足しない.例えば句構造解析では [A B C]をパースするのに [A [B C]]と [[A B] C]の曖昧性を解消する必要があるが,パターンを使った表現では [A B C]は [A B C]のままであり,問題の曖昧性は「解消」の必要がない.

2

Page 3: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

2.2.5 事例集合のパターンラティス PL*PL(e) は一つの事例 e のパターンラティスである.PL(e)は eと分割数が同じ事例と互換性があるが,異なる分割数の PLとは互換性がない.この点は次の仕方で異なる長さのパターンを統合することで解決できる:

(6) 変項の再帰的単純化:6) 任意の連続した l 個の変項列 X と連続した l − 1 個の変項列 X ′

について,[X ′ is-a X]が成立する.

事例集合 E = { e1, e2, . . . , en }のパターンラティス PL(E)を参照の便宜のため,PL*で表わす7).

2.3 PL*の試験的実装: Pattern Lattice Builder§2 の PL*の定義に基づいて PL* の処理システム Pattern Lattice Builder (PLB) を試作的に実装し,http://www.kotonoba.net/rubyfca/pattern で公開した.i) 一行に一事例 (要素分割はスペース挿入で指定)で N 行までの入力を受けつけ,PL*を可視化する (上記のWebサーバー上での N の上限は 30個だが,ローカルインストールでは自由に変更できる).その際,

(7) a. ii) 指定した事例に寄与する is-a リンクを色づけする;

b. iii) 同一ランク内でパターンのもつ事例数の zスコアを求め,それを色温度に変換した (これにより,生産的=データの説明力の高いパターンをそうでないパターンから区別できる)8)

の機能をもたせた.図 1 に {彼, は, 歌っ, た; 彼,は, 踊っ, た; 彼, は, 歌っ, て, 踊っ, た; 彼, は, 踊っ,て, 歌っ, た } を与えた時の PLB の出力例を示す.Rank 3では [彼は た]の生産性がもっとも高く,それに続くのが [ 彼 歌っ た] と [ 彼 踊っ た] であることがわかる.

2.4 PL*上の統語処理と意味処理ランクが kの実例 eは,ランクが k−1の (超)語彙的パターン p1, p2, . . . , pk の重ね合わせ (=素性の論理和)である.従って,eは p1, p2, . . . , pk から非排他的に意味的,音韻的資源を継承する.これは eの意味処理の際に,ランクが低い超語彙的パターンの方がランクの相対的に高い (超) 語彙的パターン

6) PLB の実装では l 個の変項を一つの変項に置換するという簡略形で実装している.

7) なお,PL*の底は事例ではない.8) ここで zスコアを利用するという案は出口雅也からの示唆による.色温度への変換に使用したのは http://www.

graphviz.org.doc/info/colors.html の rdbu9color scheme (区間の幅は 0.5z).

よりも実例に「近く」,その分だけ影響が強いことを意味している (§3.2.3 で例を示す構文効果の原因はこれだと考えられる).残念ながら,本稿では PL*上での意味処理の詳細に立ち入る十分な余裕はない.興味がある方は [30]を参照されたい.しかし,本稿の範囲内でお必要最低限のことは言及しておきたい.

2.4.1 超語彙的単位の状況喚起の記述私たちが PL*を使った記述したいと考えたのは超語彙的単位 (superlexical units)による状況喚起の効果である.MSFA を使った意味タグづけの仕事[33, 32]などから,次の特徴が一般に成立することがわかっている [31]:.

(8) 言語の単位 (e.g.,形態素,語,句,文,連文)が状況を喚起する力は (ある程度の大きさまでは)その大きさに比例する (従って,状況の喚起力は形態素より語の方が強く,語よりも句の方が強く,句よりも文の方が強い).

これは次のことを含意する:

(9) どんなに精緻なものであっても,語の意味記述を積み重ねて行くだけでは,十分な文の意味記述には到達できない可能性がある.

PL*はこの「経験的な問題」をもっとも直接的な形で解決するために考案された.PL*上での意味処理には次の特徴がある:

(10) 一般に,事例 eの意味の記述にランクが iの(超) 語彙的パターンの意味が必要になるのは,ランクが i + 1 の超語彙的パターンによる記述が不充分である場合に限る.

別の言い方をすると,超語彙的単位の意味記述が十分であれば,語彙的単位の意味記述は不要だと言うことであり,これが [17] の言う Idiom Principleや [18] の言う言語表現の定型性 (formulaicness) の基盤である9).

2.4.2 PL*が暗黙に表わしているものここで注意が必要なのは次の点である:

(11) a. ランク k の超語彙的パターンの意味は,(全部で k 個ある)のランク k−1の超語彙的パターンの意味で十分に表現されているとは限らない (従って,超語彙的

9) Idiom Principle や定型性は記述的一般化=経験則であり,それが成立するメカニズムは不問になっていることに注意されたい.言語の知識が PL*で記述されるようなものであるということが,これらが成立する条件を特定している.

3

Page 4: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

図 1 Rank 0, Rank 1, . . . , Rank 6のパターンの個数は,おのおの 1, 6, 22, 38, 31, 12, 2 (合計 112)である

4

Page 5: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

パターンの意味は語の意味には還元できない).

b. PL*は事例 eの意味計算 (と音韻計算)の際の資源の利用の優先順位を表わしている: PL*のノードはランクが低いほど (つまり事例寄りであるほど)貢献度が高く,ランクが高いほど (つまり語彙的であるほど)貢献度が低い.

§3.2.3で (11a)の例を見る.

(11)は PL*の理論の帰結であると同時に,それは言語の認知科学が PL*の理論を必要とした理由でもある.

2.4.3 PL*は何を表わしているか(11)の前提として,私たちは PL*がオンラインの解析結果であるのではなく,それがヒトの言語の知識それ自体であると考える.私たちが提案する PL基盤の言語の知識のモデルは,文法は可能な限り小さく,辞書/事例記憶の役割が可能な限り大きいようなモデルである10).

2.4.4 PL*基盤の処理はヒトの脳の中ではどうや

って実現されているか?この点に関して,次のように問うことは無意味ではないだろう: 一人の個人の全言語的知識を記述するような大規模な PL*を実装するにはどんなシステムが必要か?

PL*基盤の処理システムは高度な並列性を必要とし,検索トリックがないとうまくゆかない.この点で,普通の計算機上で,ヒトの言語知識全体を表現するような大規模な PL*の効果的な実装は非常に困難であることを私たちは進んで認める.だが,それは大規模な PL*の実装が不可能だということではない.少なくともそれはヒトの脳によっては実現されていると考える必要がある11).ヒトが行なっている驚くべき効率の記憶検索を十分にうまく説明するモデルなら,それが可能になるはずである.幸い,非常に魅力的なヒトの想起の計算モデルが [19] によって提案されている.彼の提案する EMILEモデルは PL*の実装の最良の候補であるように思う.

2.4.5 PMAとの関係今となってみると,第一著者が提案した Pattern

Matching Analysis (PMA) [9, 10] は PL(e) の Rank

10) もう一点,スキーマ (schemas) の役割も可能な限り小さい.実際,このモデル化ではスキーマには事例集合の効果的なインデクスとして機能する以上のことは要求されていない.別の言い方をすると,スキーマは生成的な装置ではない.

11) 次の点は進んで認めるべきである: ヒトの長期記憶には限界がなく,多くの記憶が抑制によって想起を妨げられているだけである [13, 19].

1のパターンの組合わせで事例 eの統語構造を記述するものであったことがわかる.それは統語構造を記述するのに十分だが,構文効果を説明するのには十分ではないことがわかる12).構文効果の説明は Rankが低い =定項の数の多い超語彙的パターンからの意味継承が,Rankの高い =定項の少ないパターンからの意味継承に優先するという条件がある場合にのみ成立する.そういう意味では,PMAは Pattern Latticeの理論に吸収されていると言って良い.

3 議論

PL には実装に拠らない不利点と利点とがある.これらについておのおの論じる.

3.1 PL*基盤の記述の不利点

3.1.1 分割数の増大と組合わせ爆発Pattern Lattice を使った最大の難点は,おそらく

(A) 組合わせ爆発に起因する記憶と処理の非効率性,並びに (B)規模の拡大可能性 (scalability)の問題である.

PL(e)のノード数は,eが n個の分割をもつ場合,2n である.PL∗ の複雑性 C は,e ごとの分割の数k,分割の異なり数 l で決まるが,l より kに依存する度合いが強い.分割数が大きくなると組合わせ爆発が起こる.事例の分割数 kに計算論的な上限があるという事実は,言語処理の観点から見る限り難点でしかないが,言語の認知科学の観点から見ると,逆に重要な含意をもつ.

3.1.2 処理範囲の最適化今のところ十分な根拠を示すことはできないが,組合わせ爆発に関連して一つ,興味深いと思われる点がある:

(12) 特に e の分割数と PL(e) の複雑性の対応には,(分割数が 7を境にして) (相転移に似た)質的変化がある.

分割数 kは多ければ良いというわけではなく,課題に応じて最適値が決まるようである.経験的には,単文の項構造を記述するのに十分な被覆率を確保するには 7 個 (=[3, 1, 3]) の分割が必要で,頻度は低い少し複雑な場合を取り入れるためには 9 個(=[4, 1, 4]) の分割が必要になるという感じである.具体的に言うと,PL(e)を構成する全パターンのうち,意味をもつという直観が容易に得られるパターンの比率 r を考えると,文節数が 7 個を超えると,

12) これは [31]で指摘した.

5

Page 6: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

r が急に低くなるように思える13).これは依存関係の候補を見つけるための窓が,標的の左 (=過去)に−3 個 (か −4 個),右 (=未来) に +3 個 (か +4 個)ぐらいのスパンにあるということである.この観察は今のところ主観的なものにすぎないが,将来的には 7個を境に本当にそのような変化があるのかを検証したい.

3.1.3 分割の最適化と処理の複層化分割数/計算の複雑性の自然な上限が存在するならば,それは言語単位の時間的幅/処理の深さに応じて,最適な分割が,異なったレベルに幾つか併存することが理論的に必然化するとも考えられる.例えば (M) 語の内部構造=形態論での分割の最適化,(S)文の内部構造=狭義の統語論での分割の最適化,(D) 話の内部構造=広義の統語論での分割の最適化は別のものであり,かつ,おのおのが言語の処理レベルに対応していると考えられる14).分割単位の恣意性は,PL*の理論の弱点というより,処理の複層化された分割の複数の最適化を保証する利点であると考えるべき可能性が残される15).

3.1.4 段階を踏んだパターンの獲得組合わせ爆発は機械上の言語処理で問題になるばかりでなく,言語獲得においても深刻な問題となる.だが,別の見方をすると,言語獲得の際に子供がどうやって組合わせ爆発を問題を回避しているかという形で,言語獲得の謎を解明する契機になる可能性もある.語彙的パターン (=R1 のパターン) とランクの低い超語彙的パターン (e.g., R2, R3) は,分割数の影響を強く受けず,それらは分割数が大きい場合でも流用可能であることに注意されたい.これから,子供はランクの低い語彙的,超語彙的パターンを先に獲得し,それをランクの高い,複雑な事例に流用するという戦略を取っている可能性が考えられる.こ

13) この数に不思議な数 7 [14] との関係を読み取るのは,必ずしも牽強付会とは言えないだろう.

14) 扱う現象のタイプによって,形態素規模の分割が妥当な場合,語句規模の分割が妥当な場合,文=節規模の分割が妥当な場合があるということは言語学では経験的に知られている (それはしばしば言語理論のモジュール化の正当化の理由になる).だが,この理由は自明ではない (普遍文法 (UG) をもち出し,それが元から幾つかのモジュール群 (e.g.,形態論モジュール,統語論モジュール,談話モジュール)に分れていると言ったたところで,それは何の説明でもない).

15) 日本語に関して言うと,M, S, Dレベルでの助詞の機能分化がありそうだ:「∼と」「∼て」「∼で」「∼た」「∼だ」は述語間の共起関係 (Dレベル)を,「∼が」「∼を」などは述語内の要素間の共起関係 (Sレベル)を,「∼な」「∼の」(と「∼に」)は,句内の要素間の共起関係 (Mレベル)をエンコードしているようだ.

れは規模の拡大可能性を保証する「最初は少なく(starting small)」 [5, 3] の原理に従っていると考えられる.以上の理由から,PL*では分割単位の認定の問題を,eの分割数 k の決定の問題から意図的に独立させない.

3.2 PL*基盤の記述の利点PL の利点は (以上の不利点と引換えにではあるが)少なくとも (13)に示した,互いに関連しあった利点をもつ:

(13) a. ヒトの言語処理の記述と説明において,言語学的理論 (aka先入観)の干渉を最小限にできる (少なくとも句構造は不要であり,極端なことを言うと品詞ラベルも不要).

b. 構文効果 [6, 7, 34, 20]に代表される超語彙的パターン/非線型表現 [23, 22] の意味貢献を非アドホックに,体系的に記述可能

3.2.1 言語処理での「文法」の役割の最小化PL*基盤の処理システムでは,「文法」の役割は極小化されている.極論すると,PL*基盤の処理システムは「辞書」だけで動いていると言っても良い(明らかに句構造はない).そればかりか,品詞ラベルすら無用化されている (少なくとも変項の実現値は意味的に制約されるので,品詞の上での制約は(あっても困らないが) 必要不可欠ではない).しかし,記述に必要な般化は十分に起こっており,効果的な選択制限の記述すら可能である.実際,この特徴の派生的な効果として,池原ら

[23, 22]が進めてきたパターン翻訳で非線型パターンを自動的に発見することが可能である16).

3.2.2 PL*基盤の記述は「バカバカしい」か?言語学者の中には,PL*を使った言語の知識の記述を「バカバカしい」と感じる人が少なくないということは想定内である.彼らがそう思う理由はわからないわけではないが,これはモデル化の出発点と目標地点の違いである.私たちはヒトの言語の知識=文法をモデル化する際に,それをヒトの言語の処理から独立させないという条件を設けた (文法を記述するとしても,計算機上での実装可能性が保証されていない記述は幾らでも可能だからである).文法的知識の最小限化はその設定の自然な帰結であり,それが一部の研究者にとって「バカバカしく」見えるのは理解に難くない.それは「有意義な一般化を表現していない」ように見える.だが,PL*基

16) Pattern Latticeの理論化の動機の一つはこれであった.

6

Page 7: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

盤のモデルが有意義な一般化を表現しているかどうかは,言語学者の直観的評価に基づいて決まることでなく,ヒトの言語処理上の妥当性に基づいて決まることである.この際に私たちが強く意識するのは,文法が何であるかに関する先入観を排するべきであるという点である.私たちが提案したモデルが,その最大の内在的困難である規模の拡大可能性を満足し,かつ記述的に妥当な理論的予測を行なうならば,どんなにバカバカしく見えようと,それは妥当なモデルとして評価されるべきである.

3.2.3 構文効果の説明の実例李 [34]は (14)の用法でニ格名詞句を認可するのは「消え (る)」の語彙的な意味ではないと論じている:17)

(14) a. 患者が診察室に消えたb. テールランプが (暗)闇に消えたc. エルフの船が光の中に消え . . .d. ヒュウガが地割れに消えた

構文上の意味は [N1が N2に V]というパターンに帰着できるわけではない.(15)は移動の意味はもたない:

(15) a. 彼が知人に会ったb. 子供が親に似ている (のは当然だ)

李の結論は,構文上の意味の担い手は抽象的なパターン [N1 が N2 に V] ではなく,[[Human] が[Location ∨ Space]に V]のような,N1, N2の意味クラスに言及するもう少し具体的なパターンだというものである.意味クラスは (i) 事例集合を通じて (分布類似度の高いクラスとして)獲得される,(ii)意味クラスは(有限集合に限って言うと)値の集合で表現できるという二点を考えると,PLは明示的に [N1が N2にV]のような「格パターン」の Nの意味クラスに言及してはないが,それが表わすのと同じタイプの一般化を表現できる.そればかりでなく,PL ベースの記述では,パターン間の階層的関係を明示的,かつ体系的に記述できるという利点がある.実際,次のことが PL*の定義から予測され,事実は予測の通りだと思われる:

(16) パターンを構成する変項は,ランクが高いほど (e.g., R=1, 2) 潜在的意味クラスとの対応が弱く,ランクが低いほど意味クラスとの対応が良い.

17) 同じ「消え」という動詞が使われているが,語義は同一ではない.語義は「消滅し」や「消失し」との交替条件と相関している.

(17) 構文「効果」は (16) の想定の下で作用する超語彙的パターンの変項の補完の産物である18).

3.3 [Xが Yに V]の PL*の一部図 2に (18)の PL*を示す:

(18) a. 彼が部屋に消えたb. 彼が部屋に入ったc. 彼が部屋に入って消えた

(18)の文は超語彙的パターン 5-2 [彼が部屋にた] (とその親である 4-1 [彼が部屋に ])を共有している点に注意されたい.(18a) の解釈が (18b) と(18c) の解釈に関連づけられるための十分条件を記述している.

4 終わりに

4.1 課題と将来への展望PLB にデータベースをもたせ,超語彙的パターンのデータベース化を行いたい.これにより十分な被覆率をもった超語彙的パターン/非線型表現=構文のデータベースが得られる可能性が現実的なものとなる.

4.2 幾つかの応用可能性19)

可能性を思いついただけで実装されてないが,PL*には幾つかの応用があるように思う.

4.2.1 対訳アラインメントの高精度化対訳関係にある (e, e′)の PL*を構築し,PL(e)と

PL(e′) との間で対訳関係が取れるパターンの集合を特定する.この対応づけは統計翻訳で使われているフレーズテーブルの対案 (か少なくとも改良案)になる.今のところは人手でやるしかないかも知れないが,この作業を半自動化できれば機械翻訳の精度は向上するように思う.自動獲得されたフレーズテーブルは,言語学者の観点から見るとまだまだ精度が低いように思うし,取り出される単位が恣意的であるように見える.

4.2.2 コーパス事例の単純化新聞コーパスであれ,他の分野のコーパスであれ,多くの場合に実例は複雑すぎる.実例をそのま

18) 例えば,図 1の 5-2 [彼は歌って た]の空所に [踊っ]を補完するのは,日本人を母語にする話者には特に難しいことではない (が,十分な事例記憶をもたない非母語話者には難しい可能性がある).このような種の補完が暗黙に起っていることで構文効果が生じると説明すれば,具体的な語に言及しない抽象的構文 (e.g., [N1が N2に V])が移動の意味をもっている/エンコードしているという (過剰般化に繋がる)想定はしなくて済む.

19) 2009/01/17に追加.

7

Page 8: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

図 2 (18)の PL*: 色温度が高いものが同一ランク内で相対的に説明力のあるパターン8

Page 9: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

ま言語資源として使うには,幾つかの点で効率が悪い.実際,単語規模のデータベースと実例のデータベースの中間レベルには,句のデータベースなどがあってよいはずである (換言表現のデータベース[21, 35, 36] などは,この規模の言語資源として意図されているのだと思う).それとは別の方向性として,既製のコーパスの事例がすべて単文化されたもの,謂わば「単純化コーパス」があれば便利だと考えている人は少なくないと思う.もちろん,これを実現するための技術困難はそれなりにある (苦労の割には見返りが少ないので NLP 関係者はこの仕事に誰も手をつけていないのだと思う).

PL*は常に,複文を重文を単純化したパターンが含まれる.それらを高精度と他の有用性の低いパターンから区別できれば,単純化コーパスを (半)自動的に構築できる (ただし,これには分割の多いPL*が効率的に扱えるようになっていないといけないので,ここには「卵が先か,鶏が先か」という悪循環があるかも知れない).

4.3 言語の創造性は「豊かな事例記憶」の随伴事象本発表で私たちは (3) の記憶ベースの言語知識のモデル化として事例集合の Pattern Lattice (PL*)を提案した20).PLは事例基盤の言語処理で有用なデータ構造に基礎を与えるだけでなく,理論言語学で用法基盤アプローチ (Usage-based Approach) と呼ばれる枠組み [1]にも理論的基礎を提供すると考えられる.最後に用法基盤/事例基盤モデルは次の重要な含意をもつことを指摘して本論文を終えることにしたい:

(19) (3) で特徴づけた記憶ベースの言語知識と処理のモデル化が正しいならば,

a. 言語の創造性は豊かな記憶の産物の随伴事象である;

b. 表層形に関するスキーマ的知識 (e.g., コロケーション) が深層にあると想定される概念構造と同じ位か,あるいはそれよりも重要である.

(19b) の重要な帰結の一つはいわゆる概念メタファー (Conceptual Metaphor) [11, 12, 24, 25] は支持者から期待されているほど体系的でも,事実に対する説明力もないということだが,この論文では詳細には立ち入らない.関心のある読者は [26, 29, 27]に当られたい.

20) 第一著者が開発した Pattern Matching Analysis (PMA) [9,10, 31]は,記憶ベースの記述モデルの具現化の一つとして構想された.

参考文献

[1] M. Barlow and S. Kemmer, editors. 2000. CSLI Pub-lications, 2000.

[2] N. Chomsky. Aspects of the Theory of Syntax. MITPress, Cambridge, MA, 1965.

[3] C. M. Conway, M. R. Ellefson, and M. H. Chris-tiansen. When less is less and when less is more:Starting small with staged input. In Proceedings of the25th Annual Conference of the Cognitive Science So-ciety, pp. 270–275. Mahwah, NJ: Lawrence Erlbaum,2003.

[4] W. Daelemans and A. van den Bosch. Memory-basedNatural Language Processing. Cambridge UnversityPress, Cambridge, UK, 2005.

[5] J. L. Elman. Learning and development in neural net-works: The importance of starting small. Cognition,Vol. 48, No. 1, pp. 71–99, 1993.

[6] A. D. Goldberg. Constructions: A ConstructionGrammar Approach to Argument Structure. Univer-sity of Chicago Press, Chicago, IL, 1995.

[7] A. E. Goldberg. Constructions at Work. New York:Oxford, 2006.

[8] J. Hutchins. Example-based machine translation:A review and commentary. Machine Translation,Vol. 19, pp. 197–211, 2005.

[9] K. Kuroda. Foundations of PATTERN MATCHING

ANALYSIS: A New Method Proposed for the Cogni-tively Realistic Description of Natural Language Syn-tax. PhD thesis, Kyoto University, Japan, 2000.

[10] K. Kuroda. Presenting the PATTERN MATCHING

ANALYSIS, a framework proposed for the realistic de-scription of natural language syntax. Journal of En-glish Linguistic Society, Vol. 17, pp. 71–80, 2001.

[11] G. Lakoff and M. Johnson. Metaphors We Live By.University of Chicago Press, 1980. [邦訳:『レトリックと人生』 (渡部昇一ほか訳).大修館.].

[12] G. Lakoff and M. Johnson. The Philosophy in theFlesh. Basic Books, 1999.

[13] J. L. McGaugh. 記憶と情動の脳科学: 「忘れにくい記憶」の作られかた (B1514). 講談社, 2006. Transla-tion of Memory and Emotion: The Making of LastingMemories, Columbia University Press, 2003.

[14] George A. Miller. The magical number seven, plus orminus two. The Psychological Review, Vol. 63, No. 2,pp. 81–97, 1956.

[15] S. Sato. A mimd implementation of example-basedtranslation on cm. In RWC Technical Report, TR-9401, pp. 35–36, 1994. [citeseer.ist.psu.edu/sato94mimd.html.

[16] S. Sato and M. Nagao. Toward memory-based trans-lation. In Proceedings of COLING-90, Helsinki, Fin-

9

Page 10: Pattern Lattice を使った ヒトの 言語知識と処理のモデル化clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/kuroda-hasebe... · 2011-04-02 · Pattern Lattice を使った(ヒトの)

land, pp. 247–252, 1990.[17] J. M. Sinclair. Corpus, Concordance, Collocation.

Oxford University Press, 1991.[18] A. Wray. Formulaic Language and the Lexicon. Cam-

bridge University Press, Cambridge/New York, 2002.[19] 月元敬. 抑制に基づく記憶検索理論の構成. 風間書

房, 2008.[20] 中本敬子, 李在鎬, 黒田航. 日本語の語順選好は動詞

に還元できない文レベルの意味と相関する: 心理実験に基づく日本語の構文研究への提案. 認知科学,Vol. 13, pp. 334–352, 2006. 「文理解」特集号.

[21] 乾健太郎, 藤田篤. 言い換え技術に関する研究動向.自然言語処理, Vol. 11, No. 5, pp. 151–198, 2004. 招待論文.

[22] 池原悟, 阿部さつき, 竹内奈央, 徳久雅人, 村上仁一.意味的等価変換方式のための重文複文の統語的意味

的分類体系について. 情報処理学会研究報告, Vol.2006-NL-176, pp. 1–8, 2006.

[23] 池原悟, 徳久雅人, 村上仁一, 佐良木昌, 池田尚志,宮崎正弘. 非線形な重文複文の表現に対する文型パターン辞書の開発. 情報処理学会研究報告, Vol.NL-170, No. 25, pp. 157–164, 2005.

[24] 鍋島弘治郎. 領域を結ぶのは何か: メタファー理論における価値的類似性と構造的類似性. 日本認知言語学会論文集第 3 巻, pp. 12–22. 日本認知言語学会(JCLA), 2003.

[25] 鍋島弘治郎. 黒田の疑問に答える: 認知言語学からの回答. 日本語学, Vol. 26, No. 3, pp. 54–71, 2007.

[26] 黒田航. 概念メタファーの体系性,生産性はどの程度か? 日本語学, Vol. 24, No. 6, pp. 38–57, 2005.

[27] 黒田航. メタファー理解の状況基盤モデルの基本的な主張: 概念メタファー理論との比較を通じた解題. http://clsl.hi.h.kyoto-u.ac.jp/

˜kkuroda/papers/smmc-in-a-nutshell.

pdf, 2007.[28] 黒田航. 徹底した用法基盤主義の下での文法

獲得: 「極端に豊かな事例記憶」の仮説で描く新しい筋書き. 月刊言語, Vol. 36, No. 11,pp. 24–34, 2007. 原典版: http://clsl.hi.

h.kyoto-u.ac.jp/˜kkuroda/papers/

la-with-rich-memory-full%.pdf.[29] 黒 田 航. 鍋 島 氏 か ら の 反 論 に 対 す

る 幾 つ か の 異 論. http://clsl.

hi.h.kyoto-u.ac.jp/˜kkuroda/

papers/reply-to-nabeshima-07-ab%

ridged-v1-sc.pdf, 2007.[30] 黒田航. なぜ超語彙的パターンが語彙的パター

ンよりも重要なのか?: 構文「効果」の記述のための基礎理論の提示. http://clsl.hi.

h.kyoto-u.ac.jp/˜kkuroda/papers/

constructions-as-bias-so%urces.pdf,2008.

[31] 黒田航, 中本敬子. 文彩を生じさせる (語の) 意

味の相互作用の実体は何か?: MSFA と PMAを使った語彙的意味記述と超語彙的意味記

述の統合. In Proceedings of the 24th AnnualMeeting of the Japanese Cognitive Science Soci-ety (JCSS), pp. 424–429, 2007. [URL: http:

//clsl.hi.h.kyoto-u.ac.jp/˜kkuroda/

papers/msfa-meets-metaphor-jcss%

24-submitted.pdf].[32] 黒田航,李在鎬,渋谷良方,井佐原均. 複層意味フレー

ム分析 (の簡略版) を使った意味役割タグづけの現状: タグづけデータから派生する言語資源の紹介を中心に. 言語処理学会 14 回大会発表論文集, pp.ab–cd, 2008.

[33] 黒田航,李在鎬,渋谷良方,河原大輔,井佐原均. 自動獲得された大規模格フレーム辞書の精度向上を見込

んだ人手評価. 言語処理学会第 13回年次大会発表論文集, pp. 1054–1057, 2007.

[34] 李在鎬. 他動詞のゆらぎ現象に対する「構文」的アプローチ. 言語科学論集, Vol. 7, pp. 1–20, 2001.

[35] 藤田篤,乾健太郎. クラス指向事例収集による言い換えコーパスの構築. 自然言語処理, Vol. 13, No. 3, pp.133–150, 2006.

[36] 藤田篤,降幡建太郎,乾健太郎,松本裕治. 語彙概念構造に基づく言い換え生成 — 機能動詞構文の言い換

えを例題に. 情報処理学会論文誌, Vol. 47, No. 6, pp.1963–1975, 2006.

10