あなたのテキストは計量可能である。これはあなたのテキストの文字数を数えられるという単純な事実を意味しない。幾ら何でも、そんな当たり前のことから書き出したりしない。私が言いたいのは、あなたのテキストはコンピューターの計算対象になっているということだ。これは悲しくもあり、喜ばしくもある。
私はこれまで電子的なテキストを取り巻く状況をディストピア的に語ってきた。タイトルを並べればわかる。あなたのテキストは人間が読むようなものではない、グッド・ルーザーになるための準備はできているか、文脈の中で私達は無力である、不都合な真実、それも無名で卓抜な表現をするあなたにとってだけ、悪いやつほどよくググる……どれもひどく悲観的なタイトルだ。もしあなたが書かれていることを真に受ける人間だったとしたら、おそらくもう書くことをやめてしまっているだろう。
しかし、私も人の親だ。いつまでも悲観的なことばかりを書いてもいられない。前回予告した通り、私はインターネットというこの電子空間におけるバラ色の未来について語ろうと思う。いや、バラ色というのは言い過ぎかもしれない。なんの色もない無色透明の、それゆえになにがしかの希望をいだけるような、ほの明るい未来についてだ。
私たちが知らなかったこと
もう1年前だが、「自然言語処理の最新手法”word2vec”で艦これ加賀さんから乳を引いてみる」という記事がIT界隈を賑わせたことがある。およそ文学とIT技術の両方に興味があり、これに反応しなかった人間はいないだろう。かいつまんで説明するとこういうことだ。
- word2vecとは、自然言語処理の分野で注目株の技術である
- word2vecはテキストを解析し、そこに登場する言葉の意味を計算可能なものにする
- 具体的にいうと、KingからManを引いてWomanを足すとQueenになり、TokyoからJapanを引いてFranceを足すとParisになる
- ためしにこの技術を流行中のブラウザゲーム艦隊これくしょん(以下、艦これ)に対して適用してみた
- 艦これで巨乳キャラとして名高い加賀からおっぱいを引いたらどの艦娘が出てくるのか?
この結果は元記事を当たっていただくとして、いくつか前提となる知識について説明しよう。
まず、word2vecは対象となるテキスト(以下、資料体と呼ぶ)に登場するすべての単語の関係性を200次元のベクトル(ちなみに4次元ベクトルはこうなる)に落とし込むのだが、座標空間に配置することによって、意味的に近いものは近い場所に位置することになる。この結果、単語同士のベクトルの差、つまり計算によって導き出される値が単語の関係性を表しているため、King – Manという計算を行うと、関係性を示す差分(まさに、 誰かを王たらしめるもの)が抽出できる。これにWomanを足すとQueenを導き出せるというわけだ。
では、これがなんの役に立つのか? それはまだわからない。すごいものを作ったが、何に使ったらいいかわからない
とフォン・ノイマンだかアラン・チューリングだかが言ったように、まだよくわからないのだ。しかし、自然言語処理という困難な分野にいままでとは違ったアプローチが可能になりそうだということで、世界中の研究者達が注目しているのである。
退会したユーザー ゲスト | 2015-04-24 12:43
退会したユーザーのコメントは表示されません。
※管理者と投稿者には表示されます。
高橋文樹 編集長 | 2015-04-28 13:07
ありがとうございます。破滅派連載を整理したものをいつか出したいと思います!