Author Archives: wpmaster

 WordNet の紹介: オンライン語彙データベース

ジョージ・A・ミラー、リチャード・ベックウィズ、クリスティアン・フェルバウムデレク・グロス、キャサリン・ミラー (1993年8月改訂) WordNet は、人間の語彙記憶に関する現在の心理言語理論に触発されて設計されたオンライン語彙参照システムです。英語の名詞、動詞、形容詞は同義語セットに編成され、それぞれが 1 つの基礎となる語彙概念を表します。さまざまな関係が同義語セットをリンクします。 語彙情報を整理するための標準的なアルファベット順の手順では、綴りの似ている単語がまとめられ、類似または関連する意味を持つ単語がリスト内に無計画に散在します。残念ながら、これに代わる明らかな方法はなく、辞書編集者がこれまでの内容を記録したり、読者が探している単語を見つけたりするための他の簡単な方法もありません。しかし、この解決策に対してよく反対されるのは、アルファベット順のリストから項目を見つけるのは面倒で時間がかかるということです。辞書を引きたいと思っても、情報を見つけると仕事が中断され、思考回路が中断されてしまうため、わざわざ辞書を引かないことに決めている人も少なくありません。 しかし、このコンピューターの時代には、その不満に対する答えがあります。オンライン辞書、つまり強力なコンピューターで使用できる語彙データベースに頼る明白な理由の 1 つは、コンピューターがそのようなアルファベット順の文字列を人間よりもはるかに速く検索できることです。対象の単語が選択されるかキーボードに入力されるとすぐに、辞書エントリが利用可能になります。さらに、辞書はコンピュータが読み取ったテープから印刷されるため、それらのテープを適切な種類の語彙データベースに変換するのは比較的簡単です。従来の辞書をオンラインに置くことは、古いものと新しいものをシンプルかつ自然に融合させたもののように思えます。 しかし、ひとたびコンピュータが辞書ユーザーのサービスに参加すると、これらの強力なマシンをただの高速ページめくりとして使用するのは著しく非効率であることがすぐに明らかになります。課題は、それらをさらにどのように活用するかを考えることです。 WordNet は、従来の辞書編集情報と最新の高速計算をより効果的に組み合わせる提案です。 これとそれに付随する 4 つの論文は、1990 年時点の WordNet の状態に関する詳細なレポートです。不必要な繰り返しを減らすために、論文は連続して読めるように書かれています。 心理語彙学 マレー5のオックスフォード英語辞典(1928 年) は「歴史的原則に基づいて」編纂されており、単語の使用や意味の優先順位の問題を解決する上でのOEDの価値を疑う人はいません。しかし、 OED は歴史的 (通時的) 証拠に焦点を当てることで、他の標準的な辞書と同様に、語彙知識の共時的組織化に関する疑問を無視しました。 その欠落を修復する方法を想像できるようになりました。 20世紀には、言語能力の認知基盤に関係する学際的な研究分野である心理言語学が登場しました。言語学者と心理言語学者はどちらも、言語知識一般、特に語彙知識の現代的(共時的)構造を決定する要因をかなり深く調査してきました。MlllerandJohnson-Laird (1976) は、言語の語彙要素に関係する研究は心理語彙学と呼ばれるべきであると提案しました。 ここ数十年で言語理論が進化するにつれて、言語学者は、言語メッセージの日常的な生成と理解において音韻論、統語論、語彙の各要素が連携して機能するために辞書に含まれなければならない情報についてますます明確になり、それらの提案は心理言語学者の仕事。今世紀初頭の単語連想研究に始まり、過去 20 年間の高度な実験課題に至るまで、心理言語学者は、辞書編集に活用できる心の辞書の多くの共時的特性を発見してきました。 1985 年、プリンストン大学の心理学者と言語学者のグループは、これらの調査によって示唆された方針に沿って語彙データベースの開発に着手しました (Miller、1985)。当初のアイデアは、単にアルファベット順ではなく、概念的に辞書を検索する際に使用する補助を提供することであり、従来型のオンライン辞書と組み合わせて使用​​する予定でした。しかし、作業が進むにつれて、独自の原則と目標をより野心的に策定することが求められました。その結果が WordNet です。 WordNet は心理言語研究の結果に基づいて仮説を具体化するため、心理言語原理に基づいた辞書であると言えます。 … Continue reading

Posted in 未分類 | Leave a comment

2025年あけましておめでとうございます

皆様、あけましておめでとうございます。 セマンティックウェブ・ダイアリー2のブログを見る限りでは、昨年度は情けない年のように見えますが、実はそうでもなくて、個人的には新しい知見が得られた実りのある年でした。 これまでは製造業におけるオントロジーの発展が全然見られないと嘆くことが多かったのですが、昨年度は発展の萌芽が見られる年に成りました。 皆様、データ・スペースあるいはデータ空間という言葉は聞いたことがあるでしょうか?データ・スペースという新しい言葉も、Copilotでは認知されるようになりました。以下は「データ・スペースとは何ですか?」の質問に返ってきたCopilot回答です。 データ・スペース (Data Spaces) は、特定の領域や目的のために収集、保存、共有、および分析されるデータの集まりを指します。データのシルエッタを共有し、相互運用性を確保するために、標準的なプロトコルとガイドラインが使用されることが多いです。データ・スペースは、異なる組織やシステム間でのデータの交換を容易にし、効率的で安全なデータの利用を可能にします。 例えば、製造業では、サプライチェーン全体に渡ってデータを共有するためにデータ・スペースが使用されることがあります。これにより、在庫管理、品質管理、顧客サービスの向上などが実現します。健康医療分野では、病院や研究機関が患者データや研究データを共有することで、治療法の改善や新しい医薬品の開発が進むことが期待されます。 具体的には何かの分野に関するデータ・スペースに興味がありますか?例えば、IoT、医療、製造業など。 「データのシルエッタとは何のことですか?」と聞いたら、今度はこんな回答になりました。 おっと、ごめんね、「データのシルエッタ」というのはちょっと紛らわしかったかな。ここで言いたかったのはデータの「シェアリング」や「共通基盤」のことなんだ。データ・スペースでは、異なる組織やシステム間でデータを共有するための標準的なプロトコルとガイドラインが重要だからね。こんなのがイメージしやすいかな? もし他に知りたいことがあれば、何でも質問してね! 😊 調子を変えて、気を利かせたつもりかもしれませんが、AIの専門家はそんなことではまだまだ騙されません。ただおいおいそこまでするのか、とは思いますね。 しかし、内容そのものは正しいですね。「異なる組織やシステム間でのデータの交換を容易」にするためには、「異なる組織やシステム間でデータを共有するための標準的なプロトコルとガイドラインが重要」というのはその通りですからね。 実はデータ・スペースの国際標準を作ろうというドイツ主導の動きがあって、昨年度はロボット革命・産業IoTイニシアティブ協議会(RRI)を事務局としてデータ・スペースの国際標準のための国内委員会が組織されました。 「データの相互運用性」とくに「意味的相互運用性」を確保するにはオントロジーは必須ですから弊社オントロノミー合同会社としてもここで変な標準化がされても困ると考え、私、小出誠二もこれに参加することにしました。幸いなことに、希望が通り、ISO/IEC Smart Manufacturing adG8 国内委員に採用いただけました。 オントロノミーのブログ記事にあるように、色々情報は入ってきますが自分自身の貢献はまだ何もなく、それはこれからと言わざるを得ませんが、これから少しずつでも日本の製造業が諸外国に負けないよう、製造業オントロジーについて貢献していきたいと思っているところです。 今年もよろしくお願いいたします。

Posted in 製造業 | Tagged | Leave a comment

WordNet 5 papers

WordNet は英語の電子化辞書だが、1985年には形がはっきりとしてきて(It crystallized) 、これまで長年開発がすすめられてきた。その歴史的経緯はMITプレスからの黄色本の序文や Introduction に詳しいが、本の出版以前には(本の出版は1998年)、1990年に International Journal of Lexicography に掲載された五つの論文が WordNet を知るためためのまとまった資料であった。 WordNetの詳しい紹介を目的に、(無理を承知で)上記 5papers の日本語訳を、Copilotに頼んだが、その結果が以下のとおりである。 WordNetの紹介:オンライン語彙データベース 設計のインスピレーションWordNetは、人間の語彙記憶の心理言語学的理論に触発されたオンライン語彙参照システムです。名詞、動詞、形容詞は、一つの基本的な語彙概念を表す同義語セットに組織されています。 従来の辞書との違い標準的なアルファベット順の辞書は、同じ綴りの単語をまとめ、類似または関連する意味の単語をリスト全体に散らばせます。WordNetは、コンピューターがアルファベットリストを人よりも速く検索できるため、オンライン辞書を提案しています。 WordNetの目的WordNetは、伝統的な辞書情報と現代の高速計算をより効果的に組み合わせることを目指しています。1990年時点のWordNetの状態に関する詳細な報告が含まれています。 心理語彙学 心理言語学の出現 20世紀は心理言語学の出現を見ました。これは、言語能力の認知的基盤に関する研究に関心を持つ学際的な研究分野です。心理言語学者は、辞書学に利用できる精神語彙の多くの同時代の(共時的な)特性を発見しました。 WordNetの開発 1985年、プリンストン大学の心理学者と言語学者のグループは、これらの調査に示唆された線に沿って語彙データベースを開発し始めました。当初のアイデアは、単にアルファベット順に辞書を概念的に検索するための支援を提供することでした。 WordNetの基本設計 語彙マトリックス語彙意味論は、語彙化された概念とそれを表す発話の間の慣習的な関連から始まります。この定義により、単語の異なる意味と形式の間のマッピングが語彙意味論の出発点となります。 意味の表現定義は、言語ユーザーが既に習得している概念を識別するために使用されます。WordNetは、意味の間の意味関係によって組織されています。意味関係は、同義語セット間のポインターとして考えられます。 Semantic Memory and WordNet 階層的組織英語の一般名詞は意味記憶に階層的に組織されているが、ジェネリック情報が継承されるか冗長に格納されるかは未解決の問題である。WordNetの基礎: WordNetは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。 意味コンポーネント名詞を階層的に整理する一つの方法は、すべての名詞を単一の階層に含めることであるが、実際にはこれは抽象的な概念であり、人々が適切な単語で表現することに同意するか疑わしい。 ユニークビギナー WordNetでは、25のユニークビギナーを選択し、それぞれが別々の階層の始まりとなる。これらは異なる概念的・語彙的領域をカバーしている。 WordNetでは、反応時間が意味距離ではなく語用論的距離を示しているという仮説に基づいている。名詞は階層的に整理されており、ユニークビギナーと呼ばれる一連の意味コンポーネントによって分割される。これらのユニークビギナーは、それぞれが別々の階層の始まりとなり、異なる概念的・語彙的領域をカバーしている。また、WordNetの名詞は、技術的なレベルを含む最大10レベルの階層になることが多い。基本レベルと呼ばれる中間レベルには、区別する特徴が多く付けられている。名詞の概念は、その区別する特徴によって詳細が与えられる。例えば、カナリアは小さくて色鮮やかで歌い飛ぶ鳥であり、鳥からくちばしや羽などの特徴を受け継いでいる。属性、部分、機能という異なる種類の区別する特徴を適切に関連付ける必要がある。属性は形容詞、部分は名詞、機能は動詞によって与えられる。WordNetはこれらの情報を、名詞と形容詞、名詞と動詞の間のポインターによって表現することを目指しているが、現時点ではこれらのポインターは実装されていない。代わりに、多義語の異なる意味を識別するために、簡潔な説明を含む同義語セットが使用されている。 したがって、主要なメンバーである「long」は、未マークの用語です。二次メンバーである「short」はマークされており、特別な状況を除いて測定フレーズを取りません。未マークのメンバーである「long」は、属性の名前、すなわち「LENGTH」にその名前を貸しています。 測定フレーズは多くの属性には適さないが、マークされた性質はほぼすべての直接反対語のペアを特徴づける一般的な現象である。ほぼすべての場合、反対語のペアの一方のメンバーは主要であり、より慣用的で、より頻繁に使用され、より目立たない、または属性の名前に形態的に関連しています。主要な用語は属性のデフォルト値であり、反対の情報がない場合に想定される値です。マークされた性質はWordNetでコード化されていません。マークされたペアのメンバーは明らかであるため、明示的な指標は必要ないと考えられています。ただし、属性の名前(この場合は「LENGTH」)とその属性の値を表すすべての形容詞(この場合は「long」、「short」、「lengthy」など)は、WordNetでポインターによってリンクされています。いくつかのケース(例えば「wet/dry」、「easy/difficult」)では、どちらの用語を主要と見なすべきか議論の余地がありますが、大多数のペアではマーカーは否定接頭辞の形で形態的に明示されています:「un+pleasant」、「in+decent」、「im+patient」、「il+legal」、「ir+resolute」などです。 … Continue reading

Posted in 自然言語処理 | Tagged | Leave a comment

あけましておめでとうございます

本ブログ記事(セマンティックウェブ・ダイアリ)では毎年新年の初めに、ご挨拶代わりの記事を載せるのを習わしとしていました。この習わしをSWD2でも引き継ぐことにしました。このページはその第一号になります。 昨年は何といっても、ChatGPTで世の中はてんやわんやの大騒ぎの年でした。我々のような、オントロジーや知識グラフの関係者は、ディープラーニングや言語処理研究者とは異なって、直接の影響はそれほど受けないのですが、それでもこの新しい技術とどう付き合っていけばよいのかという点ではやはり色々悩ましいことでした。 この間の国内外の関連研究会や学会で分かってきたことですが、平気でうそを言うChatGPTの欠点を克服して、ディープラーニングに共通の課題である「説明可能なAI」を実現するためには、やはり知識グラフしかないよねというのが、知識グラフ関係者の共通のコンセンサスになりつつあるということです。言い換えれば、知識グラフ+大規模言語モデルの融合をどのようにしたらよいのかが、当面のチャレンジングな課題として、明確になってきました。 そんなところに、いくつかある知識グラフのベンダーの一つである米国Franz社が KnowledgeGraph + LLM Solution と銘打って、AllegroGpaphの新バージョンを出して来たのです。国内で今までAllegroGpaphを使ってきたのは、弊社オントロノミーと大阪電気通信大の古崎先生のところぐらいしかなく、個人的にはいままでディープラーニングに触るのを避けてきたわけですが、これではそんなことも言っておれなくなって、関係者の力もお借りしながら、少しチャレンジしてみようかと思っているところです。 弊社ホームページではオントロジー初心者向けに(旧)AllegroGpaphインストール方法の紹介などを始めたところでしたが、新バージョンの出現を受けてこちらも改めて仕切り直しということになりました。 旧セマンティックウェブ・ダイアリの記事も、新たな装いでおいおいこのセマンティックウェブ・ダイアリ2に引っ越しするつもりですが、オントロノミー・ホームページとこのセマンティックウェブ・ダイアリ2との記事の振り分けにも注意しながら進めてまいりますので、今後とも皆様よろしくお願いいたします。

Posted in 知識グラフ, 自然言語処理 | Tagged , , | Leave a comment

セマンティックウェブ・ダイアリー2

セマンティックウェブ・ダイアリーというのは、2008年12月より2023年8月まで続いた「小出誠二の個人的な業務日誌」を副題とした livedoor のブログなのですが、これをパソコンから見るのはまだしも、スマホやタブレットからアクセスすると宣伝が挿入されてとても見にくい。それで嫌気がさしてもう livedoor を止めて、自身のサイト、オントロノミー合同会社の一角に(サブドメインを作って)引っ越しすることにしました。 livedoor も、元はといえば AOL にあったセマンティックwebダイアリーを、AOLからGMOティーカップ・コミュニケーションに引き継がれた際に、下品なページ構成に嫌気がさして移ったものでしたが、これで3回目のブログサイトということになります。さすがに今度は自分のドメインですから、もう二度と同じようなことはないでしょう。 livedoor ブログの内容も今では古くなってしまったものも多々ありますから、単にコピーで引っ越すのではなく、タイトルの重複を恐れずに、内容を最新のものに更新しながら、引き継いでいきたいと思います。時間はかかると思いますが、よろしくお願いいたします。

Posted in 未分類 | Leave a comment