WordNet 5 papers

WordNet は英語の電子化辞書だが、1985年には形がはっきりとしてきて(It crystallized) 、これまで長年開発がすすめられてきた。その歴史的経緯はMITプレスからの黄色本の序文や Introduction に詳しいが、本の出版以前には(本の出版は1998年)、1990年に International Journal of Lexicography に掲載された五つの論文が WordNet を知るためためのまとまった資料であった。

WordNetの詳しい紹介を目的に、(無理を承知で)上記 5papers の日本語訳を、Copilotに頼んだが、その結果が以下のとおりである。

WordNetの紹介:オンライン語彙データベース

設計のインスピレーション
WordNetは、人間の語彙記憶の心理言語学的理論に触発されたオンライン語彙参照システムです。名詞、動詞、形容詞は、一つの基本的な語彙概念を表す同義語セットに組織されています。

従来の辞書との違い
標準的なアルファベット順の辞書は、同じ綴りの単語をまとめ、類似または関連する意味の単語をリスト全体に散らばせます。WordNetは、コンピューターがアルファベットリストを人よりも速く検索できるため、オンライン辞書を提案しています。

WordNetの目的
WordNetは、伝統的な辞書情報と現代の高速計算をより効果的に組み合わせることを目指しています。1990年時点のWordNetの状態に関する詳細な報告が含まれています。

心理語彙学

心理言語学の出現
20世紀は心理言語学の出現を見ました。これは、言語能力の認知的基盤に関する研究に関心を持つ学際的な研究分野です。心理言語学者は、辞書学に利用できる精神語彙の多くの同時代の(共時的な)特性を発見しました。

WordNetの開発
1985年、プリンストン大学の心理学者と言語学者のグループは、これらの調査に示唆された線に沿って語彙データベースを開発し始めました。当初のアイデアは、単にアルファベット順に辞書を概念的に検索するための支援を提供することでした。

WordNetの基本設計

語彙マトリックス
語彙意味論は、語彙化された概念とそれを表す発話の間の慣習的な関連から始まります。この定義により、単語の異なる意味と形式の間のマッピングが語彙意味論の出発点となります。

意味の表現
定義は、言語ユーザーが既に習得している概念を識別するために使用されます。WordNetは、意味の間の意味関係によって組織されています。意味関係は、同義語セット間のポインターとして考えられます。

Semantic Memory and WordNet

階層的組織
英語の一般名詞は意味記憶に階層的に組織されているが、ジェネリック情報が継承されるか冗長に格納されるかは未解決の問題である。
WordNetの基礎: WordNetは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。

意味コンポーネント
名詞を階層的に整理する一つの方法は、すべての名詞を単一の階層に含めることであるが、実際にはこれは抽象的な概念であり、人々が適切な単語で表現することに同意するか疑わしい。

ユニークビギナー
WordNetでは、25のユニークビギナーを選択し、それぞれが別々の階層の始まりとなる。これらは異なる概念的・語彙的領域をカバーしている。

WordNetでは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。名詞は階層的に整理されており、ユニークビギナーと呼ばれる一連の意味コンポーネントによって分割される。これらのユニークビギナーは、それぞれが別々の階層の始まりとなり、異なる概念的・語彙的領域をカバーしている。また、WordNetの名詞は、技術的なレベルを含む最大10レベルの階層になることが多い。基本レベルと呼ばれる中間レベルには、区別する特徴が多く付けられている。名詞の概念は、その区別する特徴によって詳細が与えられる。例えば、カナリアは小さくて色鮮やかで歌い飛ぶ鳥であり、鳥からくちばしや羽などの特徴を受け継いでいる。属性、部分、機能という異なる種類の区別する特徴を適切に関連付ける必要がある。属性は形容詞、部分は名詞、機能は動詞によって与えられる。WordNetはこれらの情報を、名詞と形容詞、名詞と動詞の間のポインターによって表現することを目指しているが、現時点ではこれらのポインターは実装されていない。代わりに、多義語の異なる意味を識別するために、簡潔な説明を含む同義語セットが使用されている。

したがって、主要なメンバーである「long」は、未マークの用語です。二次メンバーである「short」はマークされており、特別な状況を除いて測定フレーズを取りません。未マークのメンバーである「long」は、属性の名前、すなわち「LENGTH」にその名前を貸しています。 測定フレーズは多くの属性には適さないが、マークされた性質はほぼすべての直接反対語のペアを特徴づける一般的な現象である。ほぼすべての場合、反対語のペアの一方のメンバーは主要であり、より慣用的で、より頻繁に使用され、より目立たない、または属性の名前に形態的に関連しています。主要な用語は属性のデフォルト値であり、反対の情報がない場合に想定される値です。マークされた性質はWordNetでコード化されていません。マークされたペアのメンバーは明らかであるため、明示的な指標は必要ないと考えられています。ただし、属性の名前(この場合は「LENGTH」)とその属性の値を表すすべての形容詞(この場合は「long」、「short」、「lengthy」など)は、WordNetでポインターによってリンクされています。いくつかのケース(例えば「wet/dry」、「easy/difficult」)では、どちらの用語を主要と見なすべきか議論の余地がありますが、大多数のペアではマーカーは否定接頭辞の形で形態的に明示されています:「un+pleasant」、「in+decent」、「im+patient」、「il+legal」、「ir+resolute」などです。

多義性と選択性の好み
JustesonとKatz(1993)は、多義的な形容詞の異なる意味が特定の名詞(または多義的な名詞の特定の意味)と頻繁に共起することを発見しました。例えば、「not young」という意味の「old」は、しばしば「man」という名詞を修飾し、「not new」という意味の「old」は、「house」という名詞を修飾することが多いとされています。JustesonとKatzは、したがって名詞の文脈が多義的な形容詞を曖昧さを解消するのにしばしば役立つと指摘しています。

MurphyとAndrew(1993)によって提案された代替の見解は、形容詞は一義的だが、それらは異なる拡張を持っており、形容詞が修飾する名詞の意味と組み合わせて適切な意味を話者が計算すると主張しています。MurphyとAndrewはさらに、形容詞の反対語が属性の関係ではなく、2つの単語形式間の関係であるという主張に反対しています。これは、freshという形容詞がshirtやbreadを修飾するかによって話者が異なる反対語を生成するという事実に基づいています。WordNetは、これらの事実がfreshのような形容詞の多義性を指し示しているという立場を取っており、この見解はJustesonとKatz(1993)によっても採用されており、異なる反対語が多義的な形容詞を曖昧さを解消するのに役立つと指摘しています。

形容詞は修飾する名詞について選択的です。一般的なルールは、名詞が表す参照物が形容詞によって表現される属性を持っていない場合、その形容詞-名詞の組み合わせは比喩的または慣用的な解釈を必要とするというものです。たとえば、建物や人はHEIGHTという属性を持っているので、tall buildingやtall personというフレーズが成立しますが、streetsやstoriesはHEIGHTという属性を持っていないので、tall streetやtall storyというフレーズは文字通りの解釈を許しません。1また、名詞が関連する属性を欠いている場合、反対語の関係は成立しません。short storyとtall story、またはshort orderとtall orderを比較してください。2したがって、形容詞が適用範囲において広範囲に変化すると言われるのは、名詞の意味に関するコメントであると言えます。評価を表す形容詞(good/bad、desirable/undesirable)はほぼすべての名詞を修飾することができます。活動(active/passive、fast/slow)や能力(strong/weak、brave/cowardly)を表す形容詞も適用範囲が広いです(cf. Osgood, Suci, and Tannenbaum, 1957)。他の形容詞は、頭部名詞の範囲に厳密に制限されています(mown/unmown; dehiscent/indehiscent)。

形容詞の意味的貢献は、それらが修飾する頭部名詞に二次的であり、依存しています。Edward Sapir(1944)は、多くの形容詞が異なる名詞を修飾するときに異なる意味を持つということを明示的に指摘した最初の言語学者のようです。したがって、tallは建物に対しては一定の高さの範囲を、木に対しては別の範囲を、そして人に対してはさらに別の範囲を示します。building、tree、personという各名詞の意味の一部は、HEIGHT属性の期待される値の範囲であると考えられます。Tallは、頭部名詞によって示される種類の対象の期待される高さに対して相対的に解釈されます。tall personは、人として背が高い人です。

したがって、名詞概念にはその属性の単なるリストだけでなく、通常、それらの属性の期待される値に関する情報が含まれていると想定されます。たとえば、建物と人の両方がHEIGHT属性を持っていますが、建物の期待される高さは人のそれよりもはるかに大きいです。形容詞は単にそれらの値をデフォルト値の上または下に変更するだけです。tall buildingという形容詞-名詞の組み合わせの指示は、tallなものと建物の2つの独立したセットの交差ではあり得ません。なぜなら、そ

動詞と名詞の関係性

動詞の分解不可能性
動詞は名詞のように分解できない。動詞の「部分」は名詞のそれとは異なり、明確な参照対象を持たない。
動詞間の関係性:動詞間の関係は時間的な関連に基づく。一方の活動が他方の活動の一部である場合、それは時間的実現の一部または段階である。

活動の分解

スクリプトとしての表現
一部の活動はスクリプトとして精神的に表現される。これらは英語では「レキシカライズ」されていない。
動詞ペアの関係性:例えば、「ride」と「drive」の関係では、どちらの活動も他方の明確な部分ではないが、関連性がある。

動詞の包含関係

時間的包含
動詞ペア間の時間的包含関係が存在する。例えば、「snore」と「sleep」のように、一方が他方を包含する。

動詞の上位下位関係

名詞との違い
動詞間の上位下位関係は名詞とは異なり、「to amble is a kind of to walk」という文は不自然である。
動詞の「トロポニミー」:動詞の「トロポニミー」は、特定の方法で動作することを表す。例えば、「To V1 is to V2 in some particular manner」という形式で表される。

動詞の包含と関連性

トロポニミーと包含
トロポニミーは包含関係の特別なケースであり、常に時間的に共存する。
包含とトロポニミーの関係:包含関係だけでなく、トロポニミー関係も持つ動詞ペアは、時間的に共存する必要がある。

動詞の分類

動詞の分類困難性
動詞は名詞のように簡単に木構造に分類できない。動詞の分類はより浅く、広がりがある。

動詞の反対関係:

反対関係の重要性
動詞間の反対関係は心理的に重要であり、言語学習において反意語を一緒に学ぶことが有効であるとされる。

動詞の因果関係

因果関係の特徴
因果関係は動詞間の特定の関係であり、一方が他方の結果となる。例えば、「show」と「see」のペアのように、因果関係を持つ動詞ペアは通常、異なる主語を持つ。

認知動詞は、コミュニケーション動詞と大きく重なり合っており、1つの動詞が、例えば推論や判断の精神活動と、その推論や判断を表現する行為の両方を指すことがあります。

創造動詞
約250のシノセットに組織された創造動詞は、意味的にも構文的にも動機付けられたいくつかのサブグループに分かれていますが、創造の方法を指す上位語は語彙化されていません:精神的行為による創造(発明、構想など)、芸術的手段による創造(彫刻、照明、印刷)、原材料からの創造(織る、縫う、焼く)。これらの動詞の多くは他動詞として現れ、直接目的語が創造物を指しますが、自動詞として現れると、もはや必ずしも創造の意味を持たず、何らかの材料の操作を指すだけになります(「彼は縫った」と「彼はシャツを縫った」を比較してください)。

運動動詞
500以上のシノセットにグループ化された運動動詞は、{動く、動作をする}と{動く、旅をする}の2つの根から派生しています。最初の意味は、MillerとJohnson-Laird(1976年、p.529)が「場所内の動き」と呼び、Pinkerが「含まれた」動きと呼ぶものです(1989年);2つ目は、走るや這うなどの移動の概念です。動くという動詞の両方の意味には、他動詞の原因的意味もあります(ただし、すべてのトロポニムに当てはまるわけではありません)。

感情または心理動詞
これらの動詞は、主語が生きた体験者で、目的語(ある場合)が源であるもの(恐れる、逃す、崇拝する、愛する、軽蔑する)と、目的語が生きた体験者で、主語が源であるもの(楽しませる、魅了する、励ます、怒らせる)の2つの文法的に異なるクラスに分かれています。どちらの場合も、源は生きているものでも無生物でもかまいません。源が生きている場合、意図的に感情を引き起こしているエージェントであるか、感情の無意図的な源であるかの区別があります。この区別は、「先生が子供たちを怖がらせた」という曖昧さによって示されます。無生物はもちろん常に無意図的な源です:「骸骨/フクロウの鳴き声が子供たちを怖がらせた」。ほとんどの動詞は、Johnson-LairdとOatley(1989年)が名詞に対して行った分析に沿って構造化されており、5つの基本的な感情(幸福、悲しみ、恐怖、怒り、嫌悪)とその部下が仮定されており、これらの名詞のほとんどには対応する動詞があります。トロポニムによってリンクされているだけでなく、いくつかの感情は反対関係に入っています(愛-憎しみ、希望-絶望)。

スクロールバー
データがウィンドウの境界を超える場合、水平および垂直のスクロールバーが使用されます。

出力内容
序数の意味番号(リスト内の位置を示す)に続いて、検索文字列が含まれるシンセットの行、そして検索結果が続きます。

検索結果のマーカー
各検索結果の行はマーカーと要求された情報を含むシンセットで始まります。
検索の適用範囲:検索が検索文字列のすべての感覚に適用されない場合、検索結果は「tableの5つの感覚のうち2つ」のような文字列で始まります。

これは、ユーザーがMicrosoft Edgeブラウザで開いているウェブページの一部であるパート6の内容の日本語訳です。全体の要約ではなく、特定の部分の翻訳を提供しました。他の部分も翻訳が必要であれば、お知らせください。

5papersのCopilotによる訳

これは 5papers の pdf をEdgeで表示した状態でCopilotに「要約せずに」と指示して翻訳実行させたものだが、「要約せずに」と指示したのにもかかわらず、最後の部分にあるように、全訳とはならなかった。理由は不明である。

Copilotではなく、5papers をいったん html に変換し、 Google chrome に表示し、それを日本語に変換すると、もう少しよいようである。このあと続いて、Google chrome を下訳に用いて人手で修正をした結果を順次公開する。

Posted in 自然言語処理 | Tagged | Leave a comment

あけましておめでとうございます

本ブログ記事(セマンティックウェブ・ダイアリ)では毎年新年の初めに、ご挨拶代わりの記事を載せるのを習わしとしていました。この習わしをSWD2でも引き継ぐことにしました。このページはその第一号になります。

昨年は何といっても、ChatGPTで世の中はてんやわんやの大騒ぎの年でした。我々のような、オントロジーや知識グラフの関係者は、ディープラーニングや言語処理研究者とは異なって、直接の影響はそれほど受けないのですが、それでもこの新しい技術とどう付き合っていけばよいのかという点ではやはり色々悩ましいことでした。

この間の国内外の関連研究会や学会で分かってきたことですが、平気でうそを言うChatGPTの欠点を克服して、ディープラーニングに共通の課題である「説明可能なAI」を実現するためには、やはり知識グラフしかないよねというのが、知識グラフ関係者の共通のコンセンサスになりつつあるということです。言い換えれば、知識グラフ+大規模言語モデルの融合をどのようにしたらよいのかが、当面のチャレンジングな課題として、明確になってきました。

そんなところに、いくつかある知識グラフのベンダーの一つである米国Franz社が KnowledgeGraph + LLM Solution と銘打って、AllegroGpaphの新バージョンを出して来たのです。国内で今までAllegroGpaphを使ってきたのは、弊社オントロノミーと大阪電気通信大の古崎先生のところぐらいしかなく、個人的にはいままでディープラーニングに触るのを避けてきたわけですが、これではそんなことも言っておれなくなって、関係者の力もお借りしながら、少しチャレンジしてみようかと思っているところです。

弊社ホームページではオントロジー初心者向けに(旧)AllegroGpaphインストール方法の紹介などを始めたところでしたが、新バージョンの出現を受けてこちらも改めて仕切り直しということになりました

旧セマンティックウェブ・ダイアリの記事も、新たな装いでおいおいこのセマンティックウェブ・ダイアリ2に引っ越しするつもりですが、オントロノミー・ホームページとこのセマンティックウェブ・ダイアリ2との記事の振り分けにも注意しながら進めてまいりますので、今後とも皆様よろしくお願いいたします。

Posted in 知識グラフ, 自然言語処理 | Tagged , , | Leave a comment

セマンティックウェブ・ダイアリー2

セマンティックウェブ・ダイアリーというのは、2008年12月より2023年8月まで続いた「小出誠二の個人的な業務日誌」を副題とした livedoor のブログなのですが、これをパソコンから見るのはまだしも、スマホやタブレットからアクセスすると宣伝が挿入されてとても見にくい。それで嫌気がさしてもう livedoor を止めて、自身のサイト、オントロノミー合同会社の一角に(サブドメインを作って)引っ越しすることにしました。

livedoor も、元はといえば AOL にあったセマンティックwebダイアリーを、AOLからGMOティーカップ・コミュニケーションに引き継がれた際に、下品なページ構成に嫌気がさして移ったものでしたが、これで3回目のブログサイトということになります。さすがに今度は自分のドメインですから、もう二度と同じようなことはないでしょう。

livedoor ブログの内容も今では古くなってしまったものも多々ありますから、単にコピーで引っ越すのではなく、タイトルの重複を恐れずに、内容を最新のものに更新しながら、引き継いでいきたいと思います。時間はかかると思いますが、よろしくお願いいたします。

Posted in 未分類 | Leave a comment