Tag Archives: WordNet Copilot

WordNet 5 papers

WordNet は英語の電子化辞書だが、1985年には形がはっきりとしてきて(It crystallized) 、これまで長年開発がすすめられてきた。その歴史的経緯はMITプレスからの黄色本の序文や Introduction に詳しいが、本の出版以前には(本の出版は1998年)、1990年に International Journal of Lexicography に掲載された五つの論文が WordNet を知るためためのまとまった資料であった。 WordNetの詳しい紹介を目的に、(無理を承知で)上記 5papers の日本語訳を、Copilotに頼んだが、その結果が以下のとおりである。 WordNetの紹介:オンライン語彙データベース 設計のインスピレーションWordNetは、人間の語彙記憶の心理言語学的理論に触発されたオンライン語彙参照システムです。名詞、動詞、形容詞は、一つの基本的な語彙概念を表す同義語セットに組織されています。 従来の辞書との違い標準的なアルファベット順の辞書は、同じ綴りの単語をまとめ、類似または関連する意味の単語をリスト全体に散らばせます。WordNetは、コンピューターがアルファベットリストを人よりも速く検索できるため、オンライン辞書を提案しています。 WordNetの目的WordNetは、伝統的な辞書情報と現代の高速計算をより効果的に組み合わせることを目指しています。1990年時点のWordNetの状態に関する詳細な報告が含まれています。 心理語彙学 心理言語学の出現 20世紀は心理言語学の出現を見ました。これは、言語能力の認知的基盤に関する研究に関心を持つ学際的な研究分野です。心理言語学者は、辞書学に利用できる精神語彙の多くの同時代の(共時的な)特性を発見しました。 WordNetの開発 1985年、プリンストン大学の心理学者と言語学者のグループは、これらの調査に示唆された線に沿って語彙データベースを開発し始めました。当初のアイデアは、単にアルファベット順に辞書を概念的に検索するための支援を提供することでした。 WordNetの基本設計 語彙マトリックス語彙意味論は、語彙化された概念とそれを表す発話の間の慣習的な関連から始まります。この定義により、単語の異なる意味と形式の間のマッピングが語彙意味論の出発点となります。 意味の表現定義は、言語ユーザーが既に習得している概念を識別するために使用されます。WordNetは、意味の間の意味関係によって組織されています。意味関係は、同義語セット間のポインターとして考えられます。 Semantic Memory and WordNet 階層的組織英語の一般名詞は意味記憶に階層的に組織されているが、ジェネリック情報が継承されるか冗長に格納されるかは未解決の問題である。WordNetの基礎: WordNetは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。 意味コンポーネント名詞を階層的に整理する一つの方法は、すべての名詞を単一の階層に含めることであるが、実際にはこれは抽象的な概念であり、人々が適切な単語で表現することに同意するか疑わしい。 ユニークビギナー WordNetでは、25のユニークビギナーを選択し、それぞれが別々の階層の始まりとなる。これらは異なる概念的・語彙的領域をカバーしている。 WordNetでは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。名詞は階層的に整理されており、ユニークビギナーと呼ばれる一連の意味コンポーネントによって分割される。これらのユニークビギナーは、それぞれが別々の階層の始まりとなり、異なる概念的・語彙的領域をカバーしている。また、WordNetの名詞は、技術的なレベルを含む最大10レベルの階層になることが多い。基本レベルと呼ばれる中間レベルには、区別する特徴が多く付けられている。名詞の概念は、その区別する特徴によって詳細が与えられる。例えば、カナリアは小さくて色鮮やかで歌い飛ぶ鳥であり、鳥からくちばしや羽などの特徴を受け継いでいる。属性、部分、機能という異なる種類の区別する特徴を適切に関連付ける必要がある。属性は形容詞、部分は名詞、機能は動詞によって与えられる。WordNetはこれらの情報を、名詞と形容詞、名詞と動詞の間のポインターによって表現することを目指しているが、現時点ではこれらのポインターは実装されていない。代わりに、多義語の異なる意味を識別するために、簡潔な説明を含む同義語セットが使用されている。 したがって、主要なメンバーである「long」は、未マークの用語です。二次メンバーである「short」はマークされており、特別な状況を除いて測定フレーズを取りません。未マークのメンバーである「long」は、属性の名前、すなわち「LENGTH」にその名前を貸しています。 測定フレーズは多くの属性には適さないが、マークされた性質はほぼすべての直接反対語のペアを特徴づける一般的な現象である。ほぼすべての場合、反対語のペアの一方のメンバーは主要であり、より慣用的で、より頻繁に使用され、より目立たない、または属性の名前に形態的に関連しています。主要な用語は属性のデフォルト値であり、反対の情報がない場合に想定される値です。マークされた性質はWordNetでコード化されていません。マークされたペアのメンバーは明らかであるため、明示的な指標は必要ないと考えられています。ただし、属性の名前(この場合は「LENGTH」)とその属性の値を表すすべての形容詞(この場合は「long」、「short」、「lengthy」など)は、WordNetでポインターによってリンクされています。いくつかのケース(例えば「wet/dry」、「easy/difficult」)では、どちらの用語を主要と見なすべきか議論の余地がありますが、大多数のペアではマーカーは否定接頭辞の形で形態的に明示されています:「un+pleasant」、「in+decent」、「im+patient」、「il+legal」、「ir+resolute」などです。 … Continue reading

Posted in 自然言語処理 | Tagged | Leave a comment