ジョージ・A・ミラー、リチャード・ベックウィズ、クリスティアン・フェルバウム
デレク・グロス、キャサリン・ミラー
(1993年8月改訂)
WordNet は、人間の語彙記憶に関する現在の心理言語理論に触発されて設計されたオンライン語彙参照システムです。英語の名詞、動詞、形容詞は同義語セットに編成され、それぞれが 1 つの基礎となる語彙概念を表します。さまざまな関係が同義語セットをリンクします。
語彙情報を整理するための標準的なアルファベット順の手順では、綴りの似ている単語がまとめられ、類似または関連する意味を持つ単語がリスト内に無計画に散在します。残念ながら、これに代わる明らかな方法はなく、辞書編集者がこれまでの内容を記録したり、読者が探している単語を見つけたりするための他の簡単な方法もありません。しかし、この解決策に対してよく反対されるのは、アルファベット順のリストから項目を見つけるのは面倒で時間がかかるということです。辞書を引きたいと思っても、情報を見つけると仕事が中断され、思考回路が中断されてしまうため、わざわざ辞書を引かないことに決めている人も少なくありません。
しかし、このコンピューターの時代には、その不満に対する答えがあります。オンライン辞書、つまり強力なコンピューターで使用できる語彙データベースに頼る明白な理由の 1 つは、コンピューターがそのようなアルファベット順の文字列を人間よりもはるかに速く検索できることです。対象の単語が選択されるかキーボードに入力されるとすぐに、辞書エントリが利用可能になります。さらに、辞書はコンピュータが読み取ったテープから印刷されるため、それらのテープを適切な種類の語彙データベースに変換するのは比較的簡単です。従来の辞書をオンラインに置くことは、古いものと新しいものをシンプルかつ自然に融合させたもののように思えます。
しかし、ひとたびコンピュータが辞書ユーザーのサービスに参加すると、これらの強力なマシンをただの高速ページめくりとして使用するのは著しく非効率であることがすぐに明らかになります。課題は、それらをさらにどのように活用するかを考えることです。 WordNet は、従来の辞書編集情報と最新の高速計算をより効果的に組み合わせる提案です。
これとそれに付随する 4 つの論文は、1990 年時点の WordNet の状態に関する詳細なレポートです。不必要な繰り返しを減らすために、論文は連続して読めるように書かれています。
心理語彙学
マレー5のオックスフォード英語辞典(1928 年) は「歴史的原則に基づいて」編纂されており、単語の使用や意味の優先順位の問題を解決する上でのOEDの価値を疑う人はいません。しかし、 OED は歴史的 (通時的) 証拠に焦点を当てることで、他の標準的な辞書と同様に、語彙知識の共時的組織化に関する疑問を無視しました。
その欠落を修復する方法を想像できるようになりました。 20世紀には、言語能力の認知基盤に関係する学際的な研究分野である心理言語学が登場しました。言語学者と心理言語学者はどちらも、言語知識一般、特に語彙知識の現代的(共時的)構造を決定する要因をかなり深く調査してきました。MlllerandJohnson-Laird (1976) は、言語の語彙要素に関係する研究は心理語彙学と呼ばれるべきであると提案しました。
ここ数十年で言語理論が進化するにつれて、言語学者は、言語メッセージの日常的な生成と理解において音韻論、統語論、語彙の各要素が連携して機能するために辞書に含まれなければならない情報についてますます明確になり、それらの提案は心理言語学者の仕事。今世紀初頭の単語連想研究に始まり、過去 20 年間の高度な実験課題に至るまで、心理言語学者は、辞書編集に活用できる心の辞書の多くの共時的特性を発見してきました。
1985 年、プリンストン大学の心理学者と言語学者のグループは、これらの調査によって示唆された方針に沿って語彙データベースの開発に着手しました (Miller、1985)。当初のアイデアは、単にアルファベット順ではなく、概念的に辞書を検索する際に使用する補助を提供することであり、従来型のオンライン辞書と組み合わせて使用する予定でした。しかし、作業が進むにつれて、独自の原則と目標をより野心的に策定することが求められました。その結果が WordNet です。 WordNet は心理言語研究の結果に基づいて仮説を具体化するため、心理言語原理に基づいた辞書であると言えます。
主要な心理言語理論をこのプロジェクトにどのように活用すべきかは、必ずしも明らかではありませんでした。残念なことに、心理語彙学にとって興味深い研究のほとんどは、英語辞書の比較的小さなサンプルを扱っており、多くの場合、他の品詞を犠牲にして名詞に集中しています。興味深い仮説が提案され、それを説明する 50 語または 100 語が検討され、辞書の残りの部分への拡張が読者の演習として残されることがよくあります。 WordNet を開発する動機の 1 つは、そのような仮説を一般的な語彙の全範囲に公開することでした。 WordNet には現在、約 90,100 の単語の意味または同義語のセットに分類された約 95,600 の異なる語形 (51,500 の単純な単語と 44,100 のコロケーション) が含まれており、最も堅牢な仮説のみが生き残っています。
WordNet と標準辞書の最も明らかな違いは、WordNet では辞書が名詞、動詞、形容詞、副詞、機能語の 5 つのカテゴリに分類されていることです。実際、WordNet には名詞、動詞、形容詞、副詞のみが含まれています。1 比較的少数の英語の機能語セットは、おそらく言語の構文要素の一部として個別に保存されているという仮定に基づいて省略されています(失語症患者の発話の観察によって裏付けられています: Garrett、1982)。統語論的カテゴリーは主観的な組織化において異なるという認識は、単語の関連性の研究から初めて現れました。たとえば、フィレンバウムとジョーンズ (1965) は、英語で次のように尋ねました。
-3 -話す被験者は、さまざまな構文カテゴリーから引き出された非常によく知られた単語に応じて、最初に思いついた単語を答えることができます。様態応答カテゴリはプローブ単語のカテゴリと同じでした。名詞プローブは 79% の確率で名詞応答を引き出し、形容詞は 65% の確率で形容詞を引き出し、動詞は 43% の確率で動詞を引き出しました。文法的な音声では、話者がさまざまな単語の構文上の特権を (少なくとも暗黙的に) 知っている必要があるため、そのような情報が容易に入手できることは驚くべきことではありません。しかし、それがどのように学習されるかは、むしろパズルのようなものです。接続された談話では、隣接する単語が同じ構文カテゴリーに属することはまれであるため、フィレンバウムとジョーンズのデータは連続性による関連として説明できません。
WordNet にこの構文上の分類を課す代償として、従来の辞書では避けられるある程度の冗長性が生じます。たとえば、back のような単語は複数のカテゴリに含まれることになります。しかし、利点は、これらの構文カテゴリの意味論的構成における基本的な違いが明確に確認でき、体系的に利用できることです。この論文に続く論文から明らかになるように、名詞は語彙記憶内で話題の階層として組織され、動詞はさまざまな含意関係によって組織され、形容詞と副詞は N 次元の超空間として組織されます。これらの語彙構造はそれぞれ、経験を分類するさまざまな方法を反映しています。すべての構文カテゴリーに単一の組織原則を課そうとする試みは、語彙知識の心理的複雑さをひどく誤って伝えることになります。
しかし、WordNet の最も野心的な特徴は、単語の形式ではなく単語の意味の観点から語彙情報を整理しようとする試みです。その観点において、
WordNet は辞書というよりシソーラスに似ており、実際、Rodale の 5 年改訂版The Synonym F- ^~nde^ (1978 年) と Robert L. Chapman の5年改訂版 Roget’s International Thesaurus (1977) には、次のような特徴があります。 WordNet をまとめるのに役立つツールです。しかし、それらの優れた作品はどちらも印刷された形式には適していません。アルファベットのシソーラスの問題は、エントリが冗長であることです。単語Wxと単語Wyが同義語である場合、そのペアを 2 回入力する必要があります。1 回目はWxでアルファベット化され、再度 Wy でアルファベット化されます。話題のシソーラスの問題は、最初にアルファベット順のリストで、次に適切なシソーラスで再度検索する必要があるため、ユーザーの検索時間が 2 倍になることです。もちろん、これらはまさにコンピューターが迅速かつ効率的に実行できる種類の機械的雑用です。
ただし、WordNet は単なるオンライン シソーラスではありません。 WordNet でさらに何が試みられているかを理解するには、その基本設計を理解する必要があります (Miller および Felbaum、1991)。
語彙マトリックス
語彙意味論は、単語が語彙化された概念と構文上の役割を果たす発話との間の従来の関連付けであるという認識から始まります。
「単語」のこの定義は、研究に対して少なくとも 3 つのクラスの問題を引き起こします。まず、これらの語彙的関連付けにはどのような種類の発話が含まれるのでしょうか?第二に、言葉が表現できる語彙化された概念の性質と構成は何でしょうか?第三に、さまざまな単語は構文上どのような役割を果たしますか?これらの質問のいずれかを無視して 1 つだけを検討することは不可能ですが、ここでは 2 番目のクラスに重点を置きます。
-4 問題、英語辞書の意味構造を扱う問題。
「単語55」という単語は、発話とそれに関連する概念の両方を指すのに一般的に使用されるため、この語彙の関連性に関する議論は用語上の混乱を招きやすいです。したがって、曖昧さを減らすために、ここでは「単語形式55 は物理的な発話または碑文を指すために使用され、単語の意味55は形式を使用して表現できる語彙化された概念を指すために使用されます。 」したがって、語彙意味論の出発点は、形式と意味の間のマッピングであると言えます (Miller, 1986)。保守的な初期の仮定は、単語の構文上のカテゴリが異なれば、マッピングの種類も異なる可能性があるということです。
表 1 は、単に語彙行列の概念を具体的にするために提供されています。 Word 形式は、列の見出しとしてリストされると想定されています。単語の意味を行の見出しとして使用します。行列のセルのエントリは、その列の形式を (適切なコンテキストで) その行の意味を表現するために使用できることを意味します。したがって、エントリEi,iは、単語の意味Miを表現するために語形Fiを使用できることを意味します。同じ列に 2 つのエントリがある場合、単語の形式は多義的になります。同じ行に 2 つのエントリがある場合、その 2 つの単語形式は (コンテキストに応じて) 同義語になります。
表1
語彙マトリックスの概念を説明します。
Fi と F: は同義語です。 F: 多義的です
言葉意味 | 単語の形式F i F 2 F 3 。 。 。Fn |
ミ | E 1,1 E 1,2 |
M2 | E2,2 |
M3 | E 3,3 |
M | E |
-LVAm |
形式と意味の間のマッピングは多対多です。いくつかの形式はいくつかの異なる意味を持ち、いくつかの意味はいくつかの異なる形式で表現できます。
辞書編集の 2 つの困難な問題、多義性と同義語は、このマッピングの補完的な側面とみなすことができます。つまり、多義性と同義語は、心の語彙の中の情報にアクセスする過程で生じる問題です。ある形式を認識する聞き手または読者は、その多義性に対処しなければなりません。意味を表現したいと望む話し手や書き手は、同義語のどちらを使うかを決定しなければなりません。
括弧付きのコメントとして、心理言語学者は言語処理に関する仮説を箱と矢印の図で表すことが多いことに注意する必要があります。この表記法では、字句行列は、両方向に矢印がその間を通る 2 つのボックスで表すことができます。 1 つのボックスには「Word Meaning」というラベルが付けられ、もう 1 つのボックスには「Word Form5」というラベルが付けられます。矢印は、言語使用者が意味から始めて、それを表現するための適切な形式を探すことも、形式から始めて、
-5-適切な意味を検索します。このボックスと矢印の表現は、意味:意味の関係 ([単語の意味] ボックス内) と単語:単語の関係 ([単語の形式] ボックス内) の違いを明確にします。 WordNet は、当初の構想では、語彙化された概念間の意味関係のパターンのみを考慮していました。つまり、それは単語の意味ボックスの理論になるはずでした。しかし、作業が進むにつれて、Word Form ボックス内の語彙関係を無視できないことがますます明らかになりました。現在、WordNet は意味関係と語彙関係を区別しています。依然として意味間の意味論的な関係に重点が置かれていますが、単語間の関係も含まれます。
ボックスと矢印の表現は、これら 2 種類の関係の違いを考慮していますが、意味と形式の間の多対多のマッピングの複雑な詳細が無視されるという欠点があり、多義性と同義語の相互関係が隠蔽されるだけでなく、しかし、WordNet で意味を表現するために使用される主要な手段もわかりにくくなります。そのため、WordNet のこの説明は、箱と矢印の図ではなく、語彙行列の観点から紹介されています。
WordNet では単語の意味はどのように表現されますか?語彙行列をシミュレートするには、形式と意味の両方をコンピュータで表現する何らかの方法が必要です。碑文は形式に対してかなり満足のいく解決策を提供できますが、意味をどのように表現すべきかは、語彙意味論の理論にとって重要な問題となります。適切な心理理論が欠けているため、辞書編纂者が開発した手法は暫定的な解決策を提供できます。定義は、言語使用者の心の中で意味が果たすのと同じ役割をシミュレーションで果たすことができます。
語彙化された概念が語彙意味論の理論における定義によってどのように表現されるかは、理論が構築的であることを意図しているのか、それとも単に微分的なものであるかによって異なります。構築的な理論では、表現には、(人間または機械による) 概念の正確な構築をサポートするのに十分な情報が含まれている必要があります。構成的な理論の要件は簡単には満たされず、ほとんどの標準辞書にある定義がそれらの要件を満たしていないと考える理由があります (Gross、Kegl、Gildea、および Miller、1989; Miller and Gildea、1987)。一方、微分理論では、理論家がそれらを区別できるようにする任意の記号で意味を表すことができます。微分理論の要件はより控えめですが、目的のマッピングを構築するには十分です。定義を読む人がすでに概念を理解していて、それを識別するだけでよい場合は、多くの場合、同義語 (またはそれに近い同義語) で十分です。換言すれば、表1のM1を意味する単語は、それを表現するために使用できる単語の形式を単にリストすることによって表すことができる:{F]、F2、. 。 。 }。 (ここと後では、中括弧 ‘{ 5と ‘}, 5 で、語彙化された概念の定義の識別として機能する同義語のセットを囲みます。) たとえば、 boa^<dが材木または木材のいずれかを意味できることを知っている人は、何らかの目的のために集められた人々のグループは、プランクや委員会以上の助けを借りずに、意図された感覚を選び出すことができるでしょう。同義語セット{board, plank)と{board, Committee}は、boa^dのこれら 2 つの意味の明確な指定子として機能します。
これらの同義語セット (synsets) は、その概念が何であるかを説明しません。それらは単に概念が存在することを意味するだけです。英語ができる人はすでに習得しているものとみなされます
-6 -概念を認識し、構文にリストされている単語からそれらを認識することが期待されています。
したがって、語彙行列は、書き言葉と構文間のマッピングによって理論的な目的で表すことができます。英語には同義語が豊富にあるため、区別する目的には synsets で十分なことがよくあります。ただし、適切な同義語が利用できない場合もあります。その場合は、多義性を短い用語で解決できます。たとえば、{board, (a person 5 s Meals, provided for gold)} は、この「board」の意味を区別するのに役立ちます。他の人から。これは、単一のメンバーを持つ synset とみなすことができます。グロスは、その用語にまだ精通していない人が新しい語彙概念を構築する際に使用することを目的としたものではなく、心の語彙に保存されている情報にアクセスするために使用されるものではないという点で同義語とは異なります。英語を知っていると想定されている WordNet のユーザーが、この意味を混同される可能性のある他の意味と区別できるようになれば、その目的は達成されます。
もちろん、同義語は語形間の語彙関係ですが、WordNet では同義語に中心的な役割が割り当てられているため、中括弧 ‘{ 5と ‘} 5で囲まれた同義語によって関連する単語間で表記上の区別が行われます。およびその他の語彙関係は角括弧 ‘[ 5および ‘] 5で囲まれます。意味関係はポインタによって示されます。
WordNet は意味関係によって構成されています。意味関係は意味間の関係であり、意味はシンセットによって表現できるため、意味関係をシンセット間のポインタとして考えるのは自然です。意味関係が相互に作用するのが意味関係の特徴です。つまり、意味{x, x\…}と意味{y, y f , …の間に意味関係 R がある場合、。 .} の場合、 {y,y\の間に関係 R /も存在します。 。 .}および {x, x / , …}。この議論の目的上、意味関係の名前は二重の役割を果たすことになります。つまり、意味 {x, X,…}と{y, y〜…} の間の関係を R と呼ぶと、 R は、それらの統語集合に属する個々の語形間の関係を指定するためにも使用されます。意味間の関係と形式間の関係について別々の用語を導入する方が論理的にはすっきりするかもしれませんが、非常に多くの新しい専門用語が導入されるとさらに大きな混乱が生じる可能性があります。
次の例は、WordNet の作成に使用されるリレーションの種類を示しています (すべてではありません)。
同義語
これまで述べてきたことから、WordNet にとって最も重要な関係は意味の類似性であることは明らかです。なぜなら、語形間の関係を判断できる能力は、語彙マトリックスで意味を表現するための前提条件であるからです。ある定義 (通常はライプニッツによるもの) によれば、一方を他方に置換しても、置換が行われた文の真理値が決して変わらない場合、2 つの式は同義です。この定義によると、真の同義語は、たとえ存在するとしてもまれです。この定義の弱体化バージョンでは、文脈に関連した同義語が作成されます。C で一方を他方に置換しても一致しない場合、2 つの式は言語的コンテキスト C では同義になります。真理値を変更します。たとえば、 板を板に置き換えても、大工仕事の文脈では真理値が変わることはほとんどありませんが、板の他の文脈ではその置き換えがまったく不適切である場合があります。
置換可能性の観点から同義語を定義するには、WordNet を名詞、動詞、形容詞、副詞に分割する必要があることに注意してください。つまり、概念がシンセットで表され、同義語が交換可能である必要がある場合、異なる構文カテゴリにある単語は交換可能ではないため、同義語になることはできません (シンセットを形成できません)。名詞は名目的な概念を表現し、動詞は言葉による概念を表現し、修飾語はそれらの概念を修飾する方法を提供します。言い換えれば、単語の意味を表すためにシンセットを使用することは、名詞、動詞、および修飾語が意味記憶内で独立して編成されているという心理言語学的証拠と一致します。さらに別の分割を支持する議論がなされるかもしれません。同じ構文カテゴリ内のいくつかの単語 (特に動詞) は、非常によく似た概念を表現しますが、文を非文法的にすることなく交換することはできません。
真理値の観点からの同義語の定義は、同義語を別個の問題にしているようです。つまり、2 つの単語が同義語であるかそうでないかのどちらかです。しかし、一部の哲学者が主張し、ほとんどの心理学者が代替案を考慮せずに受け入れているように、同義語は意味の類似性を段階的に評価できる連続体の一端として考えるのが最善です。おそらく、意味的に似ている単語は、意味的に似ていない単語よりも多くの文脈で交換される可能性があります。しかし、ここで重要な点は、語彙意味論の理論は真理関数的な意味概念に依存しないということです。意味的な類似性があれば十分です。この関係は対称であると仮定すると便利です。つまり、x がy に類似している場合、yもx に同様に類似しています。
意味の類似性の段階性はどこにでもありますが、形容詞と副詞の意味の構成を理解するために最も重要です。
対義語
もう 1 つのよく知られた関係は反意語ですが、これを定義するのは驚くほど難しいことがわかります。単語 x の反意語はnot-xである場合もありますが、常にそうとは限りません。たとえば、「裕福」 と「貧しい」は対義語ですが、「裕福ではない」ということは、その人が貧しいに違いないという意味ではありません。多くの人は自分は裕福でも貧乏でもないと考えています。単純な対称関係のように見える対義語は、実際には非常に複雑ですが、英語話者は対義語を見たときにそれを認識するのにほとんど困難がありません。
反意語は、単語の形式間の語彙的な関係であり、単語の意味間の意味論的な関係ではありません。たとえば、{r^se、昇る)と{fall、descend)の意味は概念的に反対である可能性がありますが、反意語ではありません。[上昇/下降] は対義語であり、 [上昇/下降]も同様ですが、 上昇と 下降、または上昇と下降が対義語であるかどうかを尋ねられると、ほとんどの人は躊躇し、思慮深い表情を浮かべます。このような事実は、語形間の意味論的関係と語意味間の意味論的関係を区別する必要性を明らかにする。反意語は、WordNet の形容詞と副詞の中心となる編成原則を提供します。反意語が単語間の意味論的な関係であるという事実から生じる複雑さについては、その文脈で議論するのが適切です。
仮名
語形間の語彙関係である同義語と反意語とは異なり、下位語/上位語は単語の意味間の意味論的な関係です。たとえば、{ma^ple}は{tree}の下位語であり、{tree}は {plant} の下位語です。 。下位名/上位名 (従属/上位、サブセット/スーパーセット、またはISA関係などさまざまに呼ばれます) に多くの注意が払われてきました。英語の母語話者が次のようなフレームから構成される文を受け入れる場合、構文{x, x / , …} で表される概念は、構文{y,y\…}で表される概念の下位語であると言われます。x はオフです)
やあ。この関係は、{x, X,…}にその上位語へのポインタを含め、{y,y f ,…}にその下位語へのポインタを含めることによって表すことができます。
下位語は推移的かつ非対称的であり (Lyons、1977、vol.1)、通常は上位が 1 つであるため、下位語がその上位の下にあると言われる階層的な意味構造が生成されます。このような階層表現は、情報検索システムの構築に広く使用されており、継承システムと呼ばれています (Touretzky、1986)。下位名は、より一般的な概念のすべての機能を継承し、その上位概念と区別する少なくとも 1 つの機能を追加します。その上位者のその他の下位名。たとえば、カエデはその上位の樹木の特徴を受け継いでいますが、木の硬さ、葉の形、シロップとしての樹液の使用などによって他の樹木とは区別されます。この条約は、カエデの中心的な組織原則を提供します。 WordNet の名詞。
メロニミー
同義語、反意語、下位語はよく知られた関係です。それらは辞書全体に広く適用されており、人々はそれらを理解するために言語学の特別な訓練を必要としません。これらの利点を共有する別の関係、つまり意味論的関係は、部分と全体 (またはHASA ) 関係であり、語彙意味論者にはメロニミー/ホロニミーとして知られています。シンセット {x, x / , .で表される概念。 。 .} は、英語の母語話者がAy に x が (一部として)またはAn x が一部であるなどのフレームから構成される文を受け入れる場合、synset{y, y’ …} によって表される概念のメロニムです。メロニム関係は推移的 (条件付き) で非対称的 (Cruse, 1986) であり、部分階層の構築に使用できます (メロニムには多数のホロニムが含まれる可能性があるため、いくつかの留保があります)。全体の一部という概念は全体の概念の一部である可能性があると仮定されますが、この仮定の意味についてはここで説明するよりもさらに議論する価値があることが認識されています。
これらおよび他の同様の関係は、精神的な語彙を整理するのに役立ちます。これらは、WordNet では、括弧で囲まれたグループ、または 1 つの synset から別の synset へのポインター (ラベル付きの円弧) によって表現できます。これらの関係は、複雑なネットワークを形成する関連性を表します。単語がそのネットワークのどこに位置するかを知ることは、単語の意味を知る上で重要です。ただし、これらの関係を抽象的に議論することは有益ではありません。なぜなら、これらの関係は、さまざまな構文カテゴリに関連付けられた語彙知識を整理する際にさまざまな役割を果たすからです。
形態学的関係
語彙関係の重要なクラスは、単語形式間の形態学的関係です。当初、関心は意味論的な関係に限定されていました。 WordNet に形態素関係を組み込む計画はありませんでした。しかし、研究が進むにつれて、WordNet が誰かにとって実用的なものとなるためには、屈折形態学に対処する必要があることがますます明らかになりました。たとえば、誰かがコンピュータのカーソルを単語ツリー上に置き、情報の要求をクリックした場合、WordNet はその単語がデータベースにないという応答を返すべきではありません。複数の接尾辞を取り除き、データベース内に確かに存在するツリーを検索するプログラムが必要でした。この必要性により、屈折形態を扱うプログラムの開発が行われました。
英語の屈折形態論は比較的単純ですが、これに対処するコンピューター プログラムを作成することは、予想よりも複雑な作業であることが判明しました。もちろん、動詞には 4 つの形式があり、不規則動詞がたくさんあるため、大きな問題になります。しかし、ソフトウェアはすでに作成されており、現在は語彙データベースとユーザーの間のインターフェイスの一部として利用可能です。この開発の過程で、派生形態学を扱うプログラムが WordNet の価値を大幅に高めることが明らかになりましたが、より野心的なプロジェクトはまだ着手されていません。
この紹介に続く 3 つの論文では、屈折形態学から生じる語彙関係についてはほとんど述べていません。これは、これらの関係が中央データベースではなく WordNet へのインターフェイスに組み込まれているためです。