読者です 読者をやめる 読者になる 読者になる

卒論から対話システムの話へのメモ

Dialogue System AI Philosophy

 某学会のポスター発表の原稿を作ろうと内容を考えている。ベースとしては卒論の議論をもとにして対話システムへの適用を考えたいのだけど、検討しなければならないことが多いということがわかってきた。ざっくりと指針を書き出してみる。
 記号はそれに対応する事態を持つという構図から、事態から記号を作るのが生産者、記号から事態へと翻訳をするのが消費者ということになる。どちらかができるような機構がありえるのかはよくわからないけど、とにかく対話システムはどちらもできなきゃいけない。生産と消費は、初めは別モジュールとして作ることになりそうだけど、最終的には同一の機構で実現されるべきだと思う。このあたりは言語野や失語症についての勉強が要りそう。
 まず「何かを表象する」という行為ができなきゃいけないけど、表象することは知覚や想起することに等しい。問題は単純な知覚情報以外の抽象概念あたりだけど、たとえば三角形っていったいどうやって想起するかというと何らかの視覚像だったりするので、やっぱりだいたいが知覚情報(感情や無意識みたいな領域も含められるべきなので、どうやってデータ化するかがポイント、やっぱり脳の構造をもう少し知ってないと駄目だ)に依存してそう。ということでまず記憶としての表象を作る機構を作る。たとえば画像データを目的論的な抽出でパターン化して保存できないといけない。これらは優先度を持たせたインデックスで管理して取り出すことができるようにする必要がありそうだけど、データの保存のされ方は長期記憶や短期記憶に依存するのでこれも脳科学を参照する。
 などなど、表象するということを実現するだけでも人間の脳をそっくり持ってくる必要が出てきてしまうのだけど、そんなのは到底無理な話なので、この部分を簡略化する方法が提示されなければならないということがわかる。でも何かを表象することができない機構に記号の翻訳はできないので(本当か?)、簡略化しつつもそれっぽく働いてくれなきゃいけない。でも、記号から記号への翻訳という観点に立つならば、結局は事態というよりも記号だし、無理に表象というやりかたをさせなくても記号からデータの写像関数を作るだけで十分じゃないだろうか。おそらくポイントは、その対話システムが認識できる範囲を前提としてあげることで、「表象できるものとできないもの」を区別してあげることだと思う。アニメ見ながら「このキャラかわいいよね」とコンソールに投げたとしても、対話システムちゃんはアニメを見ていないので反応できるわけがない。ユーザーとシステムが共有できる事象なんてだいたいインターネット上で取得できる情報やシステムが動作しているコンピュータの情報に限られる。だからこれらを結びつけることができさえすれば意外と何とかなるのかもしれない。カメラとか搭載し始めると一気に難易度が上がるけど。
 ということでまず決める必要があるのは、そのシステムが取得する情報の範囲と、私たちがそのシステムに期待する役割、ということになるっぽい。でもって、入力された言語記号とシステムが取得できる情報を結びつけるような機構がそれ。だから単純に言えば、「システムが情報をメモリにのっけること」と「人間が何かを知覚したり考えたりして脳状態をある状態にすること」が同じように「表象すること」だということにすればよさそう。彼らにとっての認識は入力情報をメモリに乗っけて処理を待つ段階だとか、適当にコンピュータ機能主義みたいな構図で落とし込んで……って書いていくうちに、これじゃあ既存の研究と同じことをやるだけじゃないのかと疑問を抱いた。やっぱりコネクショニズム的にニューラルネットワークやらなきゃいけないとか言い始めることになってしまって、それもまた遠い話になる。必要なのは還元しすぎないこと、適度に抽象化すること。でも適度に抽象化すると粗さが残ってしまうので、チューリングテスト的なことはできない。うーんうーん。
 そもそも対話システム作ってもやらせたいことがない。人間とおしゃべりするのが楽しいのであって、人間以外と喋ってもどうしようもないだけだし、コンシェルジュ的な扱いで使うのなら適当にプログラム組んでできることとできないことの限界を定めてあげればよさそうな。目的がないと組みにくいけど、適用する環境に合わせた形に自在にできるような感じにすればいいのではないかしら、つまりは原型を作るという意味で。何でもかんでも情報を突っ込んでインデックス作って言語記号と対応関係を作ったり理解してくれたりするような感じかしら。
 話が整理できない。区切りをつくらねーとね。
 めも:行為遂行的な発話はどのような固有機能を持つか:事態の生成、知識の共有