最近のコメント
No comments to show.
Category Archives: 自然言語処理
WordNet 5 papers
WordNet は英語の電子化辞書だが、1985年には形がはっきりとしてきて(It crystallized) 、これまで長年開発がすすめられてきた。その歴史的経緯はMITプレスからの黄色本の序文や Introduction に詳しいが、本の出版以前には(本の出版は1998年)、1990年に International Journal of Lexicography に掲載された五つの論文が WordNet を知るためためのまとまった資料であった。 WordNetの詳しい紹介を目的に、(無理を承知で)上記 5papers の日本語訳を、Copilotに頼んだが、その結果が以下のとおりである。 WordNetの紹介:オンライン語彙データベース 設計のインスピレーションWordNetは、人間の語彙記憶の心理言語学的理論に触発されたオンライン語彙参照システムです。名詞、動詞、形容詞は、一つの基本的な語彙概念を表す同義語セットに組織されています。 従来の辞書との違い標準的なアルファベット順の辞書は、同じ綴りの単語をまとめ、類似または関連する意味の単語をリスト全体に散らばせます。WordNetは、コンピューターがアルファベットリストを人よりも速く検索できるため、オンライン辞書を提案しています。 WordNetの目的WordNetは、伝統的な辞書情報と現代の高速計算をより効果的に組み合わせることを目指しています。1990年時点のWordNetの状態に関する詳細な報告が含まれています。 心理語彙学 心理言語学の出現 20世紀は心理言語学の出現を見ました。これは、言語能力の認知的基盤に関する研究に関心を持つ学際的な研究分野です。心理言語学者は、辞書学に利用できる精神語彙の多くの同時代の(共時的な)特性を発見しました。 WordNetの開発 1985年、プリンストン大学の心理学者と言語学者のグループは、これらの調査に示唆された線に沿って語彙データベースを開発し始めました。当初のアイデアは、単にアルファベット順に辞書を概念的に検索するための支援を提供することでした。 WordNetの基本設計 語彙マトリックス語彙意味論は、語彙化された概念とそれを表す発話の間の慣習的な関連から始まります。この定義により、単語の異なる意味と形式の間のマッピングが語彙意味論の出発点となります。 意味の表現定義は、言語ユーザーが既に習得している概念を識別するために使用されます。WordNetは、意味の間の意味関係によって組織されています。意味関係は、同義語セット間のポインターとして考えられます。 Semantic Memory and WordNet 階層的組織英語の一般名詞は意味記憶に階層的に組織されているが、ジェネリック情報が継承されるか冗長に格納されるかは未解決の問題である。WordNetの基礎: WordNetは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。 意味コンポーネント名詞を階層的に整理する一つの方法は、すべての名詞を単一の階層に含めることであるが、実際にはこれは抽象的な概念であり、人々が適切な単語で表現することに同意するか疑わしい。 ユニークビギナー WordNetでは、25のユニークビギナーを選択し、それぞれが別々の階層の始まりとなる。これらは異なる概念的・語彙的領域をカバーしている。 WordNetでは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。名詞は階層的に整理されており、ユニークビギナーと呼ばれる一連の意味コンポーネントによって分割される。これらのユニークビギナーは、それぞれが別々の階層の始まりとなり、異なる概念的・語彙的領域をカバーしている。また、WordNetの名詞は、技術的なレベルを含む最大10レベルの階層になることが多い。基本レベルと呼ばれる中間レベルには、区別する特徴が多く付けられている。名詞の概念は、その区別する特徴によって詳細が与えられる。例えば、カナリアは小さくて色鮮やかで歌い飛ぶ鳥であり、鳥からくちばしや羽などの特徴を受け継いでいる。属性、部分、機能という異なる種類の区別する特徴を適切に関連付ける必要がある。属性は形容詞、部分は名詞、機能は動詞によって与えられる。WordNetはこれらの情報を、名詞と形容詞、名詞と動詞の間のポインターによって表現することを目指しているが、現時点ではこれらのポインターは実装されていない。代わりに、多義語の異なる意味を識別するために、簡潔な説明を含む同義語セットが使用されている。 したがって、主要なメンバーである「long」は、未マークの用語です。二次メンバーである「short」はマークされており、特別な状況を除いて測定フレーズを取りません。未マークのメンバーである「long」は、属性の名前、すなわち「LENGTH」にその名前を貸しています。 測定フレーズは多くの属性には適さないが、マークされた性質はほぼすべての直接反対語のペアを特徴づける一般的な現象である。ほぼすべての場合、反対語のペアの一方のメンバーは主要であり、より慣用的で、より頻繁に使用され、より目立たない、または属性の名前に形態的に関連しています。主要な用語は属性のデフォルト値であり、反対の情報がない場合に想定される値です。マークされた性質はWordNetでコード化されていません。マークされたペアのメンバーは明らかであるため、明示的な指標は必要ないと考えられています。ただし、属性の名前(この場合は「LENGTH」)とその属性の値を表すすべての形容詞(この場合は「long」、「short」、「lengthy」など)は、WordNetでポインターによってリンクされています。いくつかのケース(例えば「wet/dry」、「easy/difficult」)では、どちらの用語を主要と見なすべきか議論の余地がありますが、大多数のペアではマーカーは否定接頭辞の形で形態的に明示されています:「un+pleasant」、「in+decent」、「im+patient」、「il+legal」、「ir+resolute」などです。 … Continue reading
あけましておめでとうございます
本ブログ記事(セマンティックウェブ・ダイアリ)では毎年新年の初めに、ご挨拶代わりの記事を載せるのを習わしとしていました。この習わしをSWD2でも引き継ぐことにしました。このページはその第一号になります。 昨年は何といっても、ChatGPTで世の中はてんやわんやの大騒ぎの年でした。我々のような、オントロジーや知識グラフの関係者は、ディープラーニングや言語処理研究者とは異なって、直接の影響はそれほど受けないのですが、それでもこの新しい技術とどう付き合っていけばよいのかという点ではやはり色々悩ましいことでした。 この間の国内外の関連研究会や学会で分かってきたことですが、平気でうそを言うChatGPTの欠点を克服して、ディープラーニングに共通の課題である「説明可能なAI」を実現するためには、やはり知識グラフしかないよねというのが、知識グラフ関係者の共通のコンセンサスになりつつあるということです。言い換えれば、知識グラフ+大規模言語モデルの融合をどのようにしたらよいのかが、当面のチャレンジングな課題として、明確になってきました。 そんなところに、いくつかある知識グラフのベンダーの一つである米国Franz社が KnowledgeGraph + LLM Solution と銘打って、AllegroGpaphの新バージョンを出して来たのです。国内で今までAllegroGpaphを使ってきたのは、弊社オントロノミーと大阪電気通信大の古崎先生のところぐらいしかなく、個人的にはいままでディープラーニングに触るのを避けてきたわけですが、これではそんなことも言っておれなくなって、関係者の力もお借りしながら、少しチャレンジしてみようかと思っているところです。 弊社ホームページではオントロジー初心者向けに(旧)AllegroGpaphインストール方法の紹介などを始めたところでしたが、新バージョンの出現を受けてこちらも改めて仕切り直しということになりました。 旧セマンティックウェブ・ダイアリの記事も、新たな装いでおいおいこのセマンティックウェブ・ダイアリ2に引っ越しするつもりですが、オントロノミー・ホームページとこのセマンティックウェブ・ダイアリ2との記事の振り分けにも注意しながら進めてまいりますので、今後とも皆様よろしくお願いいたします。