WordNet の紹介: オンライン語彙データベース

ジョージ・A・ミラー、リチャード・ベックウィズ、クリスティアン・フェルバウム
デレク・グロス、キャサリン・ミラー

(1993年8月改訂)

WordNet は、人間の語彙記憶に関する現在の心理言語理論に触発されて設計されたオンライン語彙参照システムです。英語の名詞、動詞、形容詞は同義語セットに編成され、それぞれが 1 つの基礎となる語彙概念を表します。さまざまな関係が同義語セットをリンクします。

語彙情報を整理するための標準的なアルファベット順の手順では、綴りの似ている単語がまとめられ、類似または関連する意味を持つ単語がリスト内に無計画に散在します。残念ながら、これに代わる明らかな方法はなく、辞書編集者がこれまでの内容を記録したり、読者が探している単語を見つけたりするための他の簡単な方法もありません。しかし、この解決策に対してよく反対されるのは、アルファベット順のリストから項目を見つけるのは面倒で時間がかかるということです。辞書を引きたいと思っても、情報を見つけると仕事が中断され、思考回路が中断されてしまうため、わざわざ辞書を引かないことに決めている人も少なくありません。

しかし、このコンピューターの時代には、その不満に対する答えがあります。オンライン辞書、つまり強力なコンピューターで使用できる語彙データベースに頼る明白な理由の 1 つは、コンピューターがそのようなアルファベット順の文字列を人間よりもはるかに速く検索できることです。対象の単語が選択されるかキーボードに入力されるとすぐに、辞書エントリが利用可能になります。さらに、辞書はコンピュータが読み取ったテープから印刷されるため、それらのテープを適切な種類の語彙データベースに変換するのは比較的簡単です。従来の辞書をオンラインに置くことは、古いものと新しいものをシンプルかつ自然に融合させたもののように思えます。

しかし、ひとたびコンピュータが辞書ユーザーのサービスに参加すると、これらの強力なマシンをただの高速ページめくりとして使用するのは著しく非効率であることがすぐに明らかになります。課題は、それらをさらにどのように活用するかを考えることです。 WordNet は、従来の辞書編集情報と最新の高速計算をより効果的に組み合わせる提案です。

これとそれに付随する 4 つの論文は、1990 年時点の WordNet の状態に関する詳細なレポートです。不必要な繰り返しを減らすために、論文は連続して読めるように書かれています。

心理語彙学

マレー5オックスフォード英語辞典(1928 年) は「歴史的原則に基づいて」編纂されており単語の使用や意味の優先順位の問題を解決する上でのOEDの価値を疑う人はいません。しかし、 OED は歴史的 (通時的) 証拠に焦点を当てることで、他の標準的な辞書と同様に、語彙知識の共時的組織化に関する疑問を無視しました。

その欠落を修復する方法を想像できるようになりました。 20世紀には、言語能力の認知基盤に関係する学際的な研究分野である心理言語学が登場しました。言語学者と心理言語学者はどちらも、言語知識一般、特に語彙知識の現代的(共時的)構造を決定する要因をかなり深く調査してきました。MlllerandJohnson-Laird (1976) は、言語の語彙要素に関係する研究は心理語彙学と呼ばれるべきであると提案しました。

ここ数十年で言語理論が進化するにつれて、言語学者は、言語メッセージの日常的な生成と理解において音韻論、統語論、語彙の各要素が連携して機能するために辞書に含まれなければならない情報についてますます明確になり、それらの提案は心理言語学者の仕事。今世紀初頭の単語連想研究に始まり、過去 20 年間の高度な実験課題に至るまで、心理言語学者は、辞書編集に活用できる心の辞書の多くの共時的特性を発見してきました。

1985 年、プリンストン大学の心理学者と言語学者のグループは、これらの調査によって示唆された方針に沿って語彙データベースの開発に着手しました (Miller、1985)。当初のアイデアは、単にアルファベット順ではなく、概念的に辞書を検索する際に使用する補助を提供することであり、従来型のオンライン辞書と組み合わせて使用​​する予定でした。しかし、作業が進むにつれて、独自の原則と目標をより野心的に策定することが求められました。その結果が WordNet です。 WordNet は心理言語研究の結果に基づいて仮説を具体化するため、心理言語原理に基づいた辞書であると言えます。

主要な心理言語理論をこのプロジェクトにどのように活用すべきかは、必ずしも明らかではありませんでした。残念なことに、心理語彙学にとって興味深い研究のほとんどは、英語辞書の比較的小さなサンプルを扱っており、多くの場合、他の品詞を犠牲にして名詞に集中しています。興味深い仮説が提案され、それを説明する 50 語または 100 語が検討され、辞書の残りの部分への拡張が読者の演習として残されることがよくあります。 WordNet を開発する動機の 1 つは、そのような仮説を一般的な語彙の全範囲に公開することでした。 WordNet には現在、約 90,100 の単語の意味または同義語のセットに分類された約 95,600 の異なる語形 (51,500 の単純な単語と 44,100 のコロケーション) が含まれており、最も堅牢な仮説のみが生き残っています。

WordNet と標準辞書の最も明らかな違いは、WordNet では辞書が名詞、動詞、形容詞、副詞、機能語の 5 つのカテゴリに分類されていることです。実際、WordNet には名詞、動詞、形容詞、副詞のみが含まれています。1 比較的少数の英語の機能語セットは、おそらく言語の構文要素の一部として個別に保存されているという仮定に基づいて省略されています(失語症患者の発話の観察によって裏付けられています: Garrett、1982)。統語論的カテゴリーは主観的な組織化において異なるという認識は、単語の関連性の研究から初めて現れました。たとえば、フィレンバウムとジョーンズ (1965) は、英語で次のように尋ねました。

-3 -話す被験者は、さまざまな構文カテゴリーから引き出された非常によく知られた単語に応じて、最初に思いついた単語を答えることができます。様態応答カテゴリはプローブ単語のカテゴリと同じでした。名詞プローブは 79% の確率で名詞応答を引き出し、形容詞は 65% の確率で形容詞を引き出し、動詞は 43% の確率で動詞を引き出しました。文法的な音声では、話者がさまざまな単語の構文上の特権を (少なくとも暗黙的に) 知っている必要があるため、そのような情報が容易に入手できることは驚くべきことではありません。しかし、それがどのように学習されるかは、むしろパズルのようなものです。接続された談話では、隣接する単語が同じ構文カテゴリーに属することはまれであるため、フィレンバウムとジョーンズのデータ​​は連続性による関連として説明できません。

WordNet にこの構文上の分類を課す代償として、従来の辞書では避けられるある程度の冗長性が生じます。たとえば、back のような単語は複数のカテゴリに含まれることになります。しかし、利点は、これらの構文カテゴリの意味論的構成における基本的な違いが明確に確認でき、体系的に利用できることです。この論文に続く論文から明らかになるように、名詞は語彙記憶内で話題の階層として組織され、動詞はさまざまな含意関係によって組織され、形容詞と副詞は N 次元の超空間として組織されます。これらの語彙構造はそれぞれ、経験を分類するさまざまな方法を反映しています。すべての構文カテゴリーに単一の組織原則を課そうとする試みは、語彙知識の心理的複雑さをひどく誤って伝えることになります。

しかし、WordNet の最も野心的な特徴は、単語の形式ではなく単語の意味の観点から語彙情報を整理しようとする試みです。その観点において、

WordNet は辞書というよりシソーラスに似ており、実際、Rodale の 5 年改訂版The Synonym F- ^~nde^ (1978 年) と Robert L. Chapman の5年改訂版 Roget’s International Thesaurus (1977) には、次のような特徴があります。 WordNet をまとめるのに役立つツールです。しかし、それらの優れた作品はどちらも印刷された形式には適していません。アルファベットのシソーラスの問題は、エントリが冗長であることです。単語Wxと単語Wyが同義語である場合、そのペアを 2 回入力する必要があります。1 回目はWxでアルファベット化され、再度 Wy でアルファベット化されます話題のシソーラスの問題は、最初にアルファベット順のリストで、次に適切なシソーラスで再度検索する必要があるため、ユーザーの検索時間が 2 倍になることです。もちろん、これらはまさにコンピューターが迅速かつ効率的に実行できる種類の機械的雑用です。

ただし、WordNet は単なるオンライン シソーラスではありません。 WordNet でさらに何が試みられているかを理解するには、その基本設計を理解する必要があります (Miller および Felbaum、1991)。

語彙マトリックス

語彙意味論は、単語が語彙化された概念と構文上の役割を果たす発話との間の従来の関連付けであるという認識から始まります。

「単語」のこの定義は、研究に対して少なくとも 3 つのクラスの問題を引き起こします。まず、これらの語彙的関連付けにはどのような種類の発話が含まれるのでしょうか?第二に、言葉が表現できる語彙化された概念の性質と構成は何でしょうか?第三に、さまざまな単語は構文上どのような役割を果たしますか?これらの質問のいずれかを無視して 1 つだけを検討することは不可能ですが、ここでは 2 番目のクラスに重点を置きます。

-4 問題、英語辞書の意味構造を扱う問題。

「単語55」という単語は、発話とそれに関連する概念の両方を指すのに一般的に使用されるため、この語彙の関連性に関する議論は用語上の混乱を招きやすいです。したがって、曖昧さを減らすために、ここでは「単語形式55 は物理的な発話または碑文を指すために使用され、単語の意味55は形式を使用して表現できる語彙化された概念を指すために使用されます。 」したがって、語彙意味論の出発点は、形式と意味の間のマッピングであると言えます (Miller, 1986)。保守的な初期の仮定は、単語の構文上のカテゴリが異なれば、マッピングの種類も異なる可能性があるということです。

表 1 は、単に語彙行列の概念を具体的にするために提供されています。 Word 形式は、列の見出しとしてリストされると想定されています。単語の意味を行の見出しとして使用します。行列のセルのエントリは、その列の形式を (適切なコンテキストで) その行の意味を表現するために使用できることを意味します。したがって、エントリEi,iは、単語の意味Miを表現するために語形Fiを使用できることを意味します。同じ列に 2 つのエントリがある場合、単語の形式は多義的になります。同じ行に 2 つのエントリがある場合、その 2 つの単語形式は (コンテキストに応じて) 同義語になります。

表1

語彙マトリックスの概念を説明します。

Fi と F: は同義語です。 F: 多義的です

言葉意味単語の形式F i     F 2     F 3 。 。 。Fn
E 1,1 E 1,2
M2E2,2
M3E 3,3
ME
-LVAm

形式と意味の間のマッピングは多対多です。いくつかの形式はいくつかの異なる意味を持ち、いくつかの意味はいくつかの異なる形式で表現できます。

辞書編集の 2 つの困難な問題、多義性と同義語は、このマッピングの補完的な側面とみなすことができます。つまり、多義性と同義語は、心の語彙の中の情報にアクセスする過程で生じる問題です。ある形式を認識する聞き手または読者は、その多義性に対処しなければなりません。意味を表現したいと望む話し手や書き手は、同義語のどちらを使うかを決定しなければなりません。

括弧付きのコメントとして、心理言語学者は言語処理に関する仮説を箱と矢印の図で表すことが多いことに注意する必要があります。この表記法では、字句行列は、両方向に矢印がその間を通る 2 つのボックスで表すことができます。 1 つのボックスには「Word Meaning」というラベルが付けられ、もう 1 つのボックスには「Word Form5」というラベルが付けられます。矢印は、言語使用者が意味から始めて、それを表現するための適切な形式を探すことも、形式から始めて、

-5-適切な意味を検索します。このボックスと矢印の表現は、意味:意味の関係 ([単語の意味] ボックス内) と単語:単語の関係 ([単語の形式] ボックス内) の違いを明確にします。 WordNet は、当初の構想では、語彙化された概念間の意味関係のパターンのみを考慮していました。つまり、それは単語の意味ボックスの理論になるはずでした。しかし、作業が進むにつれて、Word Form ボックス内の語彙関係を無視できないことがますます明らかになりました。現在、WordNet は意味関係と語彙関係を区別しています。依然として意味間の意味論的な関係に重点が置かれていますが、単語間の関係も含まれます。

ボックスと矢印の表現は、これら 2 種類の関係の違いを考慮していますが、意味と形式の間の多対多のマッピングの複雑な詳細が無視されるという欠点があり、多義性と同義語の相互関係が隠蔽されるだけでなく、しかし、WordNet で意味を表現するために使用される主要な手段もわかりにくくなります。そのため、WordNet のこの説明は、箱と矢印の図ではなく、語彙行列の観点から紹介されています。

WordNet では単語の意味はどのように表現されますか?語彙行列をシミュレートするには、形式と意味の両方をコンピュータで表現する何らかの方法が必要です。碑文は形式に対してかなり満足のいく解決策を提供できますが、意味をどのように表現すべきかは、語彙意味論の理論にとって重要な問題となります。適切な心理理論が欠けているため、辞書編纂者が開発した手法は暫定的な解決策を提供できます。定義は、言語使用者の心の中で意味が果たすのと同じ役割をシミュレーションで果たすことができます。

語彙化された概念が語彙意味論の理論における定義によってどのように表現されるかは、理論が構築的であることを意図しているのか、それとも単に微分的なものであるかによって異なります。構築的な理論では、表現には、(人間または機械による) 概念の正確な構築をサポートするのに十分な情報が含まれている必要があります。構成的な理論の要件は簡単には満たされず、ほとんどの標準辞書にある定義がそれらの要件を満たしていないと考える理由があります (Gross、Kegl、Gildea、および Miller、1989; Miller and Gildea、1987)。一方、微分理論では、理論家がそれらを区別できるようにする任意の記号で意味を表すことができます。微分理論の要件はより控えめですが、目的のマッピングを構築するには十分です。定義を読む人がすでに概念を理解していて、それを識別するだけでよい場合は、多くの場合、同義語 (またはそれに近い同義語) で十分です。換言すれば、表1のMを意味する単語は、それを表現するために使用できる単語の形式を単にリストすることによって表すことができる:{F]、F2、. 。 。 }。 (ここと後では、中括弧 ‘{ 5と ‘}, 5 で、語彙化された概念の定義の識別として機能する同義語のセットを囲みます。) たとえば、 boa^<dが材木または木材のいずれかを意味できることを知っている人は、何らかの目的のために集められた人々のグループは、プランクや委員会以上の助けを借りずに、意図された感覚を選び出すことができるでしょう同義語セット{board, plank){board, Committee}は、boa^dのこれら 2 つの意味の明確な指定子として機能します。

これらの同義語セット (synsets) は、その概念が何であるかを説明しません。それらは単に概念が存在することを意味するだけです。英語ができる人はすでに習得しているものとみなされます

-6 -概念を認識し、構文にリストされている単語からそれらを認識することが期待されています。

したがって、語彙行列は、書き言葉と構文間のマッピングによって理論的な目的で表すことができます。英語には同義語が豊富にあるため、区別する目的には synsets で十分なことがよくあります。ただし、適切な同義語が利用できない場合もあります。その場合は、多義性を短い用語で解決できます。たとえば、{board, (a person 5 s Meals, provided for gold)} は、この「board」の意味を区別するのに役立ちます。他の人から。これは、単一のメンバーを持つ synset とみなすことができます。グロスは、その用語にまだ精通していない人が新しい語彙概念を構築する際に使用することを目的としたものではなく、心の語彙に保存されている情報にアクセスするために使用されるものではないという点で同義語とは異なります。英語を知っていると想定されている WordNet のユーザーが、この意味を混同される可能性のある他の意味と区別できるようになれば、その目的は達成されます。

もちろん、同義語は語形間の語彙関係ですが、WordNet では同義語に中心的な役割が割り当てられているため、中括弧 ‘{ 5と ‘} 5で囲まれた同義語によって関連する単語間で表記上の区別が行われます。およびその他の語彙関係は角括弧 ‘[ 5および ‘] 5で囲まれます。意味関係はポインタによって示されます。

WordNet は意味関係によって構成されています。意味関係は意味間の関係であり、意味はシンセットによって表現できるため、意味関係をシンセット間のポインタとして考えるのは自然です。意味関係が相互に作用するのが意味関係の特徴です。つまり、意味{x, x\…}と意味{y, y f , …の間に意味関係 R がある場合、。 .} の場合、 {y,y\の間に関係 R /も存在します。 。 .}および {x, x / , …}。この議論の目的上、意味関係の名前は二重の役割を果たすことになります。つまり、意味 {x, X,…}{y,  y〜…} の間の関係を R と呼ぶと、 R は、それらの統語集合に属する個々の語形間の関係を指定するためにも使用されます。意味間の関係と形式間の関係について別々の用語を導入する方が論理的にはすっきりするかもしれませんが、非常に多くの新しい専門用語が導入されるとさらに大きな混乱が生じる可能性があります。

次の例は、WordNet の作成に使用されるリレーションの種類を示しています (すべてではありません)。

同義語

これまで述べてきたことから、WordNet にとって最も重要な関係は意味の類似性であることは明らかです。なぜなら、語形間の関係を判断できる能力は、語彙マトリックスで意味を表現するための前提条件であるからです。ある定義 (通常はライプニッツによるもの) によれば、一方を他方に置換しても、置換が行われた文の真理値が決して変わらない場合、2 つの式は同義です。この定義によると、真の同義語は、たとえ存在するとしてもまれです。この定義の弱体化バージョンでは、文脈に関連した同義語が作成されます。C で一方を他方に置換しても一致しない場合、2 つの式は言語的コンテキスト C では同義になります。真理値を変更します。たとえば、 板をに置き換えても、大工仕事の文脈では真理値が変わることはほとんどありませんが、の他の文脈ではその置き換えがまったく不適切である場合があります。

置換可能性の観点から同義語を定義するには、WordNet を名詞、動詞、形容詞、副詞に分割する必要があることに注意してください。つまり、概念がシンセットで表され、同義語が交換可能である必要がある場合、異なる構文カテゴリにある単語は交換可能ではないため、同義語になることはできません (シンセットを形成できません)。名詞は名目的な概念を表現し、動詞は言葉による概念を表現し、修飾語はそれらの概念を修飾する方法を提供します。言い換えれば、単語の意味を表すためにシンセットを使用することは、名詞、動詞、および修飾語が意味記憶内で独立して編成されているという心理言語学的証拠と一致します。さらに別の分割を支持する議論がなされるかもしれません。同じ構文カテゴリ内のいくつかの単語 (特に動詞) は、非常によく似た概念を表現しますが、文を非文法的にすることなく交換することはできません。

真理値の観点からの同義語の定義は、同義語を別個の問題にしているようです。つまり、2 つの単語が同義語であるかそうでないかのどちらかです。しかし、一部の哲学者が主張し、ほとんどの心理学者が代替案を考慮せずに受け入れているように、同義語は意味の類似性を段階的に評価できる連続体の一端として考えるのが最善です。おそらく、意味的に似ている単語は、意味的に似ていない単語よりも多くの文脈で交換される可能性があります。しかし、ここで重要な点は、語彙意味論の理論は真理関数的な意味概念に依存しないということです。意味的な類似性があれば十分です。この関係は対称であると仮定すると便利です。つまり、x がy に類似している場合、yもx に同様に類似しています。

意味の類似性の段階性はどこにでもありますが、形容詞と副詞の意味の構成を理解するために最も重要です。

対義語

もう 1 つのよく知られた関係は反意語ですが、これを定義するのは驚くほど難しいことがわかります。単語 x の反意語はnot-xである場合もありますが、常にそうとは限りません。たとえば、「裕福」 「貧しい」は対義語ですが、「裕福ではない」ということは、その人が貧しいに違いないという意味ではありません。多くの人は自分は裕福でも貧乏でもないと考えています。単純な対称関係のように見える対義語は、実際には非常に複雑ですが、英語話者は対義語を見たときにそれを認識するのにほとんど困難がありません。

反意語は、単語の形式間の語彙的な関係であり、単語の意味間の意味論的な関係ではありません。たとえば、{r^se、昇る){fall、descend)の意味は概念的に反対である可能性がありますが、反意語ではありません。[上昇/下降] は対義語であり、 [上昇/下降]も同様ですが、 上昇と 下降、または上昇下降が対義語であるかどうかを尋ねられると、ほとんどの人は躊躇し、思慮深い表情を浮かべます。このような事実は、語形間の意味論的関係と語意味間の意味論的関係を区別する必要性を明らかにする。反意語は、WordNet の形容詞と副詞の中心となる編成原則を提供します。反意語が単語間の意味論的な関係であるという事実から生じる複雑さについては、その文脈で議論するのが適切です。

仮名

語形間の語彙関係である同義語と反意語とは異なり、下位語/上位語は単語の意味間の意味論的な関係です。たとえば、{ma^ple}は{tree}の下位語であり、{tree}は {plant} の下位語です。 。下位名/上位名 (従属/上位、サブセット/スーパーセット、またはISA関係などさまざまに呼ばれます) に多くの注意が払われてきました。英語の母語話者が次のようなフレームから構成される文を受け入れる場合、構文{x, / , …} で表される概念は、構文{y,y\…}で表される概念の下位語であると言われます。x はオフです)

やあ。この関係は、{x, X,…}にその上位語へのポインタを含め、{y,y f ,…}にその下位語へのポインタを含めることによって表すことができます。

下位語は推移的かつ非対称的であり (Lyons、1977、vol.1)、通常は上位が 1 つであるため、下位語がその上位の下にあると言われる階層的な意味構造が生成されます。このような階層表現は、情報検索システムの構築に広く使用されており、継承システムと呼ばれています (Touretzky、1986)。下位名は、より一般的な概念のすべての機能を継承し、その上位概念と区別する少なくとも 1 つの機能を追加します。その上位者のその他の下位名。たとえば、カエデはその上位の樹木の特徴を受け継いでいますが、木の硬さ、葉の形、シロップとしての樹液の使用などによって他の樹木とは区別されます。この条約は、カエデの中心的な組織原則を提供します。 WordNet の名詞。

メロニミー

同義語、反意語、下位語はよく知られた関係です。それらは辞書全体に広く適用されており、人々はそれらを理解するために言語学の特別な訓練を必要としません。これらの利点を共有する別の関係、つまり意味論的関係は、部分と全体 (またはHASA ) 関係であり、語彙意味論者にはメロニミー/ホロニミーとして知られています。シンセット {x, x / , .で表される概念。 。 .} は、英語の母語話者がAy に x が (一部として)またはAn x が一部であるなどのフレームから構成される文を受け入れる場合、synset{y, y’ …} によって表される概念のメロニムですメロニム関係は推移的 (条件付き) で非対称的 (Cruse, 1986) であり、部分階層の構築に使用できます (メロニムには多数のホロニムが含まれる可能性があるため、いくつかの留保があります)。全体の一部という概念は全体の概念の一部である可能性があると仮定されますが、この仮定の意味についてはここで説明するよりもさらに議論する価値があることが認識されています。

これらおよび他の同様の関係は、精神的な語彙を整理するのに役立ちます。これらは、WordNet では、括弧で囲まれたグループ、または 1 つの synset から別の synset へのポインター (ラベル付きの円弧) によって表現できます。これらの関係は、複雑なネットワークを形成する関連性を表します。単語がそのネットワークのどこに位置するかを知ることは、単語の意味を知る上で重要です。ただし、これらの関係を抽象的に議論することは有益ではありません。なぜなら、これらの関係は、さまざまな構文カテゴリに関連付けられた語彙知識を整理する際にさまざまな役割を果たすからです。

形態学的関係

語彙関係の重要なクラスは、単語形式間の形態学的関係です。当初、関心は意味論的な関係に限定されていました。 WordNet に形態素関係を組み込む計画はありませんでした。しかし、研究が進むにつれて、WordNet が誰かにとって実用的なものとなるためには、屈折形態学に対処する必要があることがますます明らかになりました。たとえば、誰かがコンピュータのカーソルを単語ツリー上に置き、情報の要求をクリックした場合、WordNet はその単語がデータベースにないという応答を返すべきではありません。複数の接尾辞を取り除き、データベース内に確かに存在するツリーを検索するプログラムが必要でした。この必要性により、屈折形態を扱うプログラムの開発が行われました。

英語の屈折形態論は比較的単純ですが、これに対処するコンピューター プログラムを作成することは、予想よりも複雑な作業であることが判明しました。もちろん、動詞には 4 つの形式があり、不規則動詞がたくさんあるため、大きな問題になります。しかし、ソフトウェアはすでに作成されており、現在は語彙データベースとユーザーの間のインターフェイスの一部として利用可能です。この開発の過程で、派生形態学を扱うプログラムが WordNet の価値を大幅に高めることが明らかになりましたが、より野心的なプロジェクトはまだ着手されていません。

この紹介に続く 3 つの論文では、屈折形態学から生じる語彙関係についてはほとんど述べていません。これは、これらの関係が中央データベースではなく WordNet へのインターフェイスに組み込まれているためです。

Posted in 未分類 | Leave a comment

2025年あけましておめでとうございます

皆様、あけましておめでとうございます。

セマンティックウェブ・ダイアリー2のブログを見る限りでは、昨年度は情けない年のように見えますが、実はそうでもなくて、個人的には新しい知見が得られた実りのある年でした。

これまでは製造業におけるオントロジーの発展が全然見られないと嘆くことが多かったのですが、昨年度は発展の萌芽が見られる年に成りました。

皆様、データ・スペースあるいはデータ空間という言葉は聞いたことがあるでしょうか?データ・スペースという新しい言葉も、Copilotでは認知されるようになりました。以下は「データ・スペースとは何ですか?」の質問に返ってきたCopilot回答です。

データ・スペース (Data Spaces) は、特定の領域や目的のために収集、保存、共有、および分析されるデータの集まりを指します。データのシルエッタを共有し、相互運用性を確保するために、標準的なプロトコルとガイドラインが使用されることが多いです。データ・スペースは、異なる組織やシステム間でのデータの交換を容易にし、効率的で安全なデータの利用を可能にします。

例えば、製造業では、サプライチェーン全体に渡ってデータを共有するためにデータ・スペースが使用されることがあります。これにより、在庫管理、品質管理、顧客サービスの向上などが実現します。健康医療分野では、病院や研究機関が患者データや研究データを共有することで、治療法の改善や新しい医薬品の開発が進むことが期待されます。

具体的には何かの分野に関するデータ・スペースに興味がありますか?例えば、IoT、医療、製造業など。

「データのシルエッタとは何のことですか?」と聞いたら、今度はこんな回答になりました。

おっと、ごめんね、「データのシルエッタ」というのはちょっと紛らわしかったかな。ここで言いたかったのはデータの「シェアリング」や「共通基盤」のことなんだ。データ・スペースでは、異なる組織やシステム間でデータを共有するための標準的なプロトコルとガイドラインが重要だからね。こんなのがイメージしやすいかな?

もし他に知りたいことがあれば、何でも質問してね! 😊

調子を変えて、気を利かせたつもりかもしれませんが、AIの専門家はそんなことではまだまだ騙されません。ただおいおいそこまでするのか、とは思いますね。

しかし、内容そのものは正しいですね。「異なる組織やシステム間でのデータの交換を容易」にするためには、「異なる組織やシステム間でデータを共有するための標準的なプロトコルとガイドラインが重要」というのはその通りですからね。

実はデータ・スペースの国際標準を作ろうというドイツ主導の動きがあって、昨年度はロボット革命・産業IoTイニシアティブ協議会(RRI)を事務局としてデータ・スペースの国際標準のための国内委員会が組織されました。

「データの相互運用性」とくに「意味的相互運用性」を確保するにはオントロジーは必須ですから弊社オントロノミー合同会社としてもここで変な標準化がされても困ると考え、私、小出誠二もこれに参加することにしました。幸いなことに、希望が通り、ISO/IEC Smart Manufacturing adG8 国内委員に採用いただけました。

オントロノミーのブログ記事にあるように、色々情報は入ってきますが自分自身の貢献はまだ何もなく、それはこれからと言わざるを得ませんが、これから少しずつでも日本の製造業が諸外国に負けないよう、製造業オントロジーについて貢献していきたいと思っているところです。

今年もよろしくお願いいたします。

Posted in 製造業 | Tagged | Leave a comment

WordNet 5 papers

WordNet は英語の電子化辞書だが、1985年には形がはっきりとしてきて(It crystallized) 、これまで長年開発がすすめられてきた。その歴史的経緯はMITプレスからの黄色本の序文や Introduction に詳しいが、本の出版以前には(本の出版は1998年)、1990年に International Journal of Lexicography に掲載された五つの論文が WordNet を知るためためのまとまった資料であった。

WordNetの詳しい紹介を目的に、(無理を承知で)上記 5papers の日本語訳を、Copilotに頼んだが、その結果が以下のとおりである。

WordNetの紹介:オンライン語彙データベース

設計のインスピレーション
WordNetは、人間の語彙記憶の心理言語学的理論に触発されたオンライン語彙参照システムです。名詞、動詞、形容詞は、一つの基本的な語彙概念を表す同義語セットに組織されています。

従来の辞書との違い
標準的なアルファベット順の辞書は、同じ綴りの単語をまとめ、類似または関連する意味の単語をリスト全体に散らばせます。WordNetは、コンピューターがアルファベットリストを人よりも速く検索できるため、オンライン辞書を提案しています。

WordNetの目的
WordNetは、伝統的な辞書情報と現代の高速計算をより効果的に組み合わせることを目指しています。1990年時点のWordNetの状態に関する詳細な報告が含まれています。

心理語彙学

心理言語学の出現
20世紀は心理言語学の出現を見ました。これは、言語能力の認知的基盤に関する研究に関心を持つ学際的な研究分野です。心理言語学者は、辞書学に利用できる精神語彙の多くの同時代の(共時的な)特性を発見しました。

WordNetの開発
1985年、プリンストン大学の心理学者と言語学者のグループは、これらの調査に示唆された線に沿って語彙データベースを開発し始めました。当初のアイデアは、単にアルファベット順に辞書を概念的に検索するための支援を提供することでした。

WordNetの基本設計

語彙マトリックス
語彙意味論は、語彙化された概念とそれを表す発話の間の慣習的な関連から始まります。この定義により、単語の異なる意味と形式の間のマッピングが語彙意味論の出発点となります。

意味の表現
定義は、言語ユーザーが既に習得している概念を識別するために使用されます。WordNetは、意味の間の意味関係によって組織されています。意味関係は、同義語セット間のポインターとして考えられます。

Semantic Memory and WordNet

階層的組織
英語の一般名詞は意味記憶に階層的に組織されているが、ジェネリック情報が継承されるか冗長に格納されるかは未解決の問題である。
WordNetの基礎: WordNetは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。

意味コンポーネント
名詞を階層的に整理する一つの方法は、すべての名詞を単一の階層に含めることであるが、実際にはこれは抽象的な概念であり、人々が適切な単語で表現することに同意するか疑わしい。

ユニークビギナー
WordNetでは、25のユニークビギナーを選択し、それぞれが別々の階層の始まりとなる。これらは異なる概念的・語彙的領域をカバーしている。

WordNetでは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。名詞は階層的に整理されており、ユニークビギナーと呼ばれる一連の意味コンポーネントによって分割される。これらのユニークビギナーは、それぞれが別々の階層の始まりとなり、異なる概念的・語彙的領域をカバーしている。また、WordNetの名詞は、技術的なレベルを含む最大10レベルの階層になることが多い。基本レベルと呼ばれる中間レベルには、区別する特徴が多く付けられている。名詞の概念は、その区別する特徴によって詳細が与えられる。例えば、カナリアは小さくて色鮮やかで歌い飛ぶ鳥であり、鳥からくちばしや羽などの特徴を受け継いでいる。属性、部分、機能という異なる種類の区別する特徴を適切に関連付ける必要がある。属性は形容詞、部分は名詞、機能は動詞によって与えられる。WordNetはこれらの情報を、名詞と形容詞、名詞と動詞の間のポインターによって表現することを目指しているが、現時点ではこれらのポインターは実装されていない。代わりに、多義語の異なる意味を識別するために、簡潔な説明を含む同義語セットが使用されている。

したがって、主要なメンバーである「long」は、未マークの用語です。二次メンバーである「short」はマークされており、特別な状況を除いて測定フレーズを取りません。未マークのメンバーである「long」は、属性の名前、すなわち「LENGTH」にその名前を貸しています。 測定フレーズは多くの属性には適さないが、マークされた性質はほぼすべての直接反対語のペアを特徴づける一般的な現象である。ほぼすべての場合、反対語のペアの一方のメンバーは主要であり、より慣用的で、より頻繁に使用され、より目立たない、または属性の名前に形態的に関連しています。主要な用語は属性のデフォルト値であり、反対の情報がない場合に想定される値です。マークされた性質はWordNetでコード化されていません。マークされたペアのメンバーは明らかであるため、明示的な指標は必要ないと考えられています。ただし、属性の名前(この場合は「LENGTH」)とその属性の値を表すすべての形容詞(この場合は「long」、「short」、「lengthy」など)は、WordNetでポインターによってリンクされています。いくつかのケース(例えば「wet/dry」、「easy/difficult」)では、どちらの用語を主要と見なすべきか議論の余地がありますが、大多数のペアではマーカーは否定接頭辞の形で形態的に明示されています:「un+pleasant」、「in+decent」、「im+patient」、「il+legal」、「ir+resolute」などです。

多義性と選択性の好み
JustesonとKatz(1993)は、多義的な形容詞の異なる意味が特定の名詞(または多義的な名詞の特定の意味)と頻繁に共起することを発見しました。例えば、「not young」という意味の「old」は、しばしば「man」という名詞を修飾し、「not new」という意味の「old」は、「house」という名詞を修飾することが多いとされています。JustesonとKatzは、したがって名詞の文脈が多義的な形容詞を曖昧さを解消するのにしばしば役立つと指摘しています。

MurphyとAndrew(1993)によって提案された代替の見解は、形容詞は一義的だが、それらは異なる拡張を持っており、形容詞が修飾する名詞の意味と組み合わせて適切な意味を話者が計算すると主張しています。MurphyとAndrewはさらに、形容詞の反対語が属性の関係ではなく、2つの単語形式間の関係であるという主張に反対しています。これは、freshという形容詞がshirtやbreadを修飾するかによって話者が異なる反対語を生成するという事実に基づいています。WordNetは、これらの事実がfreshのような形容詞の多義性を指し示しているという立場を取っており、この見解はJustesonとKatz(1993)によっても採用されており、異なる反対語が多義的な形容詞を曖昧さを解消するのに役立つと指摘しています。

形容詞は修飾する名詞について選択的です。一般的なルールは、名詞が表す参照物が形容詞によって表現される属性を持っていない場合、その形容詞-名詞の組み合わせは比喩的または慣用的な解釈を必要とするというものです。たとえば、建物や人はHEIGHTという属性を持っているので、tall buildingやtall personというフレーズが成立しますが、streetsやstoriesはHEIGHTという属性を持っていないので、tall streetやtall storyというフレーズは文字通りの解釈を許しません。1また、名詞が関連する属性を欠いている場合、反対語の関係は成立しません。short storyとtall story、またはshort orderとtall orderを比較してください。2したがって、形容詞が適用範囲において広範囲に変化すると言われるのは、名詞の意味に関するコメントであると言えます。評価を表す形容詞(good/bad、desirable/undesirable)はほぼすべての名詞を修飾することができます。活動(active/passive、fast/slow)や能力(strong/weak、brave/cowardly)を表す形容詞も適用範囲が広いです(cf. Osgood, Suci, and Tannenbaum, 1957)。他の形容詞は、頭部名詞の範囲に厳密に制限されています(mown/unmown; dehiscent/indehiscent)。

形容詞の意味的貢献は、それらが修飾する頭部名詞に二次的であり、依存しています。Edward Sapir(1944)は、多くの形容詞が異なる名詞を修飾するときに異なる意味を持つということを明示的に指摘した最初の言語学者のようです。したがって、tallは建物に対しては一定の高さの範囲を、木に対しては別の範囲を、そして人に対してはさらに別の範囲を示します。building、tree、personという各名詞の意味の一部は、HEIGHT属性の期待される値の範囲であると考えられます。Tallは、頭部名詞によって示される種類の対象の期待される高さに対して相対的に解釈されます。tall personは、人として背が高い人です。

したがって、名詞概念にはその属性の単なるリストだけでなく、通常、それらの属性の期待される値に関する情報が含まれていると想定されます。たとえば、建物と人の両方がHEIGHT属性を持っていますが、建物の期待される高さは人のそれよりもはるかに大きいです。形容詞は単にそれらの値をデフォルト値の上または下に変更するだけです。tall buildingという形容詞-名詞の組み合わせの指示は、tallなものと建物の2つの独立したセットの交差ではあり得ません。なぜなら、そ

動詞と名詞の関係性

動詞の分解不可能性
動詞は名詞のように分解できない。動詞の「部分」は名詞のそれとは異なり、明確な参照対象を持たない。
動詞間の関係性:動詞間の関係は時間的な関連に基づく。一方の活動が他方の活動の一部である場合、それは時間的実現の一部または段階である。

活動の分解

スクリプトとしての表現
一部の活動はスクリプトとして精神的に表現される。これらは英語では「レキシカライズ」されていない。
動詞ペアの関係性:例えば、「ride」と「drive」の関係では、どちらの活動も他方の明確な部分ではないが、関連性がある。

動詞の包含関係

時間的包含
動詞ペア間の時間的包含関係が存在する。例えば、「snore」と「sleep」のように、一方が他方を包含する。

動詞の上位下位関係

名詞との違い
動詞間の上位下位関係は名詞とは異なり、「to amble is a kind of to walk」という文は不自然である。
動詞の「トロポニミー」:動詞の「トロポニミー」は、特定の方法で動作することを表す。例えば、「To V1 is to V2 in some particular manner」という形式で表される。

動詞の包含と関連性

トロポニミーと包含
トロポニミーは包含関係の特別なケースであり、常に時間的に共存する。
包含とトロポニミーの関係:包含関係だけでなく、トロポニミー関係も持つ動詞ペアは、時間的に共存する必要がある。

動詞の分類

動詞の分類困難性
動詞は名詞のように簡単に木構造に分類できない。動詞の分類はより浅く、広がりがある。

動詞の反対関係:

反対関係の重要性
動詞間の反対関係は心理的に重要であり、言語学習において反意語を一緒に学ぶことが有効であるとされる。

動詞の因果関係

因果関係の特徴
因果関係は動詞間の特定の関係であり、一方が他方の結果となる。例えば、「show」と「see」のペアのように、因果関係を持つ動詞ペアは通常、異なる主語を持つ。

認知動詞は、コミュニケーション動詞と大きく重なり合っており、1つの動詞が、例えば推論や判断の精神活動と、その推論や判断を表現する行為の両方を指すことがあります。

創造動詞
約250のシノセットに組織された創造動詞は、意味的にも構文的にも動機付けられたいくつかのサブグループに分かれていますが、創造の方法を指す上位語は語彙化されていません:精神的行為による創造(発明、構想など)、芸術的手段による創造(彫刻、照明、印刷)、原材料からの創造(織る、縫う、焼く)。これらの動詞の多くは他動詞として現れ、直接目的語が創造物を指しますが、自動詞として現れると、もはや必ずしも創造の意味を持たず、何らかの材料の操作を指すだけになります(「彼は縫った」と「彼はシャツを縫った」を比較してください)。

運動動詞
500以上のシノセットにグループ化された運動動詞は、{動く、動作をする}と{動く、旅をする}の2つの根から派生しています。最初の意味は、MillerとJohnson-Laird(1976年、p.529)が「場所内の動き」と呼び、Pinkerが「含まれた」動きと呼ぶものです(1989年);2つ目は、走るや這うなどの移動の概念です。動くという動詞の両方の意味には、他動詞の原因的意味もあります(ただし、すべてのトロポニムに当てはまるわけではありません)。

感情または心理動詞
これらの動詞は、主語が生きた体験者で、目的語(ある場合)が源であるもの(恐れる、逃す、崇拝する、愛する、軽蔑する)と、目的語が生きた体験者で、主語が源であるもの(楽しませる、魅了する、励ます、怒らせる)の2つの文法的に異なるクラスに分かれています。どちらの場合も、源は生きているものでも無生物でもかまいません。源が生きている場合、意図的に感情を引き起こしているエージェントであるか、感情の無意図的な源であるかの区別があります。この区別は、「先生が子供たちを怖がらせた」という曖昧さによって示されます。無生物はもちろん常に無意図的な源です:「骸骨/フクロウの鳴き声が子供たちを怖がらせた」。ほとんどの動詞は、Johnson-LairdとOatley(1989年)が名詞に対して行った分析に沿って構造化されており、5つの基本的な感情(幸福、悲しみ、恐怖、怒り、嫌悪)とその部下が仮定されており、これらの名詞のほとんどには対応する動詞があります。トロポニムによってリンクされているだけでなく、いくつかの感情は反対関係に入っています(愛-憎しみ、希望-絶望)。

スクロールバー
データがウィンドウの境界を超える場合、水平および垂直のスクロールバーが使用されます。

出力内容
序数の意味番号(リスト内の位置を示す)に続いて、検索文字列が含まれるシンセットの行、そして検索結果が続きます。

検索結果のマーカー
各検索結果の行はマーカーと要求された情報を含むシンセットで始まります。
検索の適用範囲:検索が検索文字列のすべての感覚に適用されない場合、検索結果は「tableの5つの感覚のうち2つ」のような文字列で始まります。

これは、ユーザーがMicrosoft Edgeブラウザで開いているウェブページの一部であるパート6の内容の日本語訳です。全体の要約ではなく、特定の部分の翻訳を提供しました。他の部分も翻訳が必要であれば、お知らせください。

5papersのCopilotによる訳

これは 5papers の pdf をEdgeで表示した状態でCopilotに「要約せずに」と指示して翻訳実行させたものだが、「要約せずに」と指示したのにもかかわらず、最後の部分にあるように、全訳とはならなかった。理由は不明である。

Copilotではなく、5papers をいったん html に変換し、 Google chrome に表示し、それを日本語に変換すると、もう少しよいようである。このあと続いて、Google chrome を下訳に用いて人手で修正をした結果を順次公開する。

Posted in 自然言語処理 | Tagged | Leave a comment

あけましておめでとうございます

本ブログ記事(セマンティックウェブ・ダイアリ)では毎年新年の初めに、ご挨拶代わりの記事を載せるのを習わしとしていました。この習わしをSWD2でも引き継ぐことにしました。このページはその第一号になります。

昨年は何といっても、ChatGPTで世の中はてんやわんやの大騒ぎの年でした。我々のような、オントロジーや知識グラフの関係者は、ディープラーニングや言語処理研究者とは異なって、直接の影響はそれほど受けないのですが、それでもこの新しい技術とどう付き合っていけばよいのかという点ではやはり色々悩ましいことでした。

この間の国内外の関連研究会や学会で分かってきたことですが、平気でうそを言うChatGPTの欠点を克服して、ディープラーニングに共通の課題である「説明可能なAI」を実現するためには、やはり知識グラフしかないよねというのが、知識グラフ関係者の共通のコンセンサスになりつつあるということです。言い換えれば、知識グラフ+大規模言語モデルの融合をどのようにしたらよいのかが、当面のチャレンジングな課題として、明確になってきました。

そんなところに、いくつかある知識グラフのベンダーの一つである米国Franz社が KnowledgeGraph + LLM Solution と銘打って、AllegroGpaphの新バージョンを出して来たのです。国内で今までAllegroGpaphを使ってきたのは、弊社オントロノミーと大阪電気通信大の古崎先生のところぐらいしかなく、個人的にはいままでディープラーニングに触るのを避けてきたわけですが、これではそんなことも言っておれなくなって、関係者の力もお借りしながら、少しチャレンジしてみようかと思っているところです。

弊社ホームページではオントロジー初心者向けに(旧)AllegroGpaphインストール方法の紹介などを始めたところでしたが、新バージョンの出現を受けてこちらも改めて仕切り直しということになりました

旧セマンティックウェブ・ダイアリの記事も、新たな装いでおいおいこのセマンティックウェブ・ダイアリ2に引っ越しするつもりですが、オントロノミー・ホームページとこのセマンティックウェブ・ダイアリ2との記事の振り分けにも注意しながら進めてまいりますので、今後とも皆様よろしくお願いいたします。

Posted in 知識グラフ, 自然言語処理 | Tagged , , | Leave a comment

セマンティックウェブ・ダイアリー2

セマンティックウェブ・ダイアリーというのは、2008年12月より2023年8月まで続いた「小出誠二の個人的な業務日誌」を副題とした livedoor のブログなのですが、これをパソコンから見るのはまだしも、スマホやタブレットからアクセスすると宣伝が挿入されてとても見にくい。それで嫌気がさしてもう livedoor を止めて、自身のサイト、オントロノミー合同会社の一角に(サブドメインを作って)引っ越しすることにしました。

livedoor も、元はといえば AOL にあったセマンティックwebダイアリーを、AOLからGMOティーカップ・コミュニケーションに引き継がれた際に、下品なページ構成に嫌気がさして移ったものでしたが、これで3回目のブログサイトということになります。さすがに今度は自分のドメインですから、もう二度と同じようなことはないでしょう。

livedoor ブログの内容も今では古くなってしまったものも多々ありますから、単にコピーで引っ越すのではなく、タイトルの重複を恐れずに、内容を最新のものに更新しながら、引き継いでいきたいと思います。時間はかかると思いますが、よろしくお願いいたします。

Posted in 未分類 | Leave a comment