そうはいっても女神は優しい

メタメタな時代の曖昧な私の文学(第16話)

高橋文樹

エセー

6,365文字

あなたのテキストはコンピューターによって計算される。あなたは怒るだろうか。だが、彼女は機械仕掛けの女神でもある。彼女は敵ではない。それどころか、あなたがこれまで出会いもしなかった読者をあなたに届けてくれる女神なのだ。

あなたのテキストは計量可能である。これはあなたのテキストの文字数を数えられるという単純な事実を意味しない。幾ら何でも、そんな当たり前のことから書き出したりしない。私が言いたいのは、あなたのテキストはコンピューターの計算対象になっているということだ。これは悲しくもあり、喜ばしくもある。

私はこれまで電子的なテキストを取り巻く状況をディストピア的に語ってきた。タイトルを並べればわかる。あなたのテキストは人間が読むようなものではないグッド・ルーザーになるための準備はできているか文脈の中で私達は無力である不都合な真実、それも無名で卓抜な表現をするあなたにとってだけ悪いやつほどよくググる……どれもひどく悲観的なタイトルだ。もしあなたが書かれていることを真に受ける人間だったとしたら、おそらくもう書くことをやめてしまっているだろう。

しかし、私も人の親だ。いつまでも悲観的なことばかりを書いてもいられない。前回予告した通り、私はインターネットというこの電子空間におけるバラ色の未来について語ろうと思う。いや、バラ色というのは言い過ぎかもしれない。なんの色もない無色透明の、それゆえになにがしかの希望をいだけるような、ほの明るい未来についてだ。

私たちが知らなかったこと

もう1年前だが、「自然言語処理の最新手法”word2vec”で艦これ加賀さんから乳を引いてみる」という記事がIT界隈を賑わせたことがある。およそ文学とIT技術の両方に興味があり、これに反応しなかった人間はいないだろう。かいつまんで説明するとこういうことだ。

  1. word2vecとは、自然言語処理の分野で注目株の技術である
  2. word2vecはテキストを解析し、そこに登場する言葉の意味を計算可能なものにする
  3. 具体的にいうと、KingからManを引いてWomanを足すとQueenになり、TokyoからJapanを引いてFranceを足すとParisになる
  4. ためしにこの技術を流行中のブラウザゲーム艦隊これくしょん(以下、艦これ)に対して適用してみた
  5. 艦これで巨乳キャラとして名高い加賀からおっぱいを引いたらどの艦娘が出てくるのか?

この結果は元記事を当たっていただくとして、いくつか前提となる知識について説明しよう。

まず、word2vecは対象となるテキスト(以下、資料体コーパスと呼ぶ)に登場するすべての単語の関係性を200次元のベクトル(ちなみに4次元ベクトルはこうなる)に落とし込むのだが、座標空間に配置することによって、意味的に近いものは近い場所に位置することになる。この結果、単語同士のベクトルの差、つまり計算によって導き出される値が単語の関係性を表しているため、King – Manという計算を行うと、関係性を示す差分(まさに、 誰かを王たらしめるもの)が抽出できる。これにWomanを足すとQueenを導き出せるというわけだ。

では、これがなんの役に立つのか? それはまだわからない。すごいものを作ったが、何に使ったらいいかわからないとフォン・ノイマンだかアラン・チューリングだかが言ったように、まだよくわからないのだ。しかし、自然言語処理という困難な分野にいままでとは違ったアプローチが可能になりそうだということで、世界中の研究者達が注目しているのである。

word2vecのようなやり方で単語の「意味」を捉えようとするアプローチは「分散型」と呼ばれる。なにが「分散」しているのか? それは、演算対象である。演算対象? それは次の段落で説明しよう。

自然言語処理のように数学的に言語を捉えようとする世界では、単語の「意味」というのはそれ自体で存在しない。あくまで他の単語と一緒であること、つまり、なんらかの文脈に配置されることで意味を持つことになる。いうなれば、ある単語の意味とは、他の単語との関係性から導き出される演算結果なのだ。あなたが素朴実在論を信じる中世スコラ学徒のような人であれば、ここで一つ普遍戦争でも行わなければならないだろうが、言葉の「意味」がある種の循環性を持っていることをあなたは知っているはずだ。辞書を読めばわかる。どの単語も他の単語を使わずして説明されていない。

となると、単語の意味を捉えようとするプログラムは、一つの単語を取り扱うわけにはいかなくなる。「しとしと」は「雨」とセットで使われるだろうし、「貞淑な」のが常に「妻」であり、「夫」ではないことはなにがしかの意味を示しているだろう。

こうした「意味」の問題に取り組むとき、コンピューターの計算負荷は等比級数的に上がっていく。たとえば、私がこの連載で書いている平均字数は4,000〜6,000文字だが、単語の平均文字数が3だとすると、少なくとも1,200〜2,000語は使われているはずだ。この単語リストにはダブりがあるはずなのだが、自然言語の文書では単語のダブりはそれほど多くならない。たとえば、ここまでの時点で2,000字弱のこの文章も、mecabという形態素解析器で調べてみると、重複のない単語ベースで300種類ある。こうした自然言語の特徴はスパースと呼ばれるのだが、たかだか300単語の短い文章でも、計算機はその組み合わせを最低2語までと見積もって 300 × 299 = 89,700 通りも試さなくてはならない。これが新聞の朝刊一部となったらどれぐらい増えることだろう。しかも、日本語には係結びという複数単語による特別な関係がありさえする。泣きそな泣きそ、というわけだ。とにかく、ちょっとした文章でもそのパターンをすべて出すようなアプローチ(=分布型アプローチ)はあまり有効でない。

ではどのようにするのか? この時に分散型のアプローチが有効になる。そもそも、単語のすべてのパターンを計算する必要などない。このアプローチには階層的ソフトマックスやらスキップグラムやらの各種方法があるようなのだが、とにかく重要なのは「確率的なアプローチ」を取ることである。完全に網羅するのではなく、幾つかの要素を無視した上で、精度の高いアルゴリズムを採用していく。

その精度とはいったいなんであろうか? 上にあげた艦これの例でもわかるように、それは「もっともらしさ」である。加賀からおっぱいを引いたら誰になるのか? この結果がもっともらしければ我々は「精度が高い」と思うだろうし、そうでなければ「死ねクソが」と思うことだろう。

精度が上がって誰が得をするか

こうした一連の話を聞いて、あなたは「それが私のテキストとなんの関係があるのか」と思うかもしれない。もしあなたが自己評価の低い書き手だったら、機械が自分のテキストよりも素晴らしい文章を書いてしまう日が思ったよりも近いことに絶望するかもしれない。だが、基本的に機械は頼まれもしないのにテキストを綴らないし、あなたが頼めばそれに応えてくれるのだ。

あなたはBuzfeedというアメリカのメディアを知っているだろうか。このサイトはキュレーションサイト、つまりよそのニュースを勝手にまとめるアプリを配信している。私は妻子がいなければキュレーションメディアに携わる人間をかたっぱしから撲殺して回っていただろうというぐらいキュレーションが嫌いなのだが、Buzfeedの試みはなかなか面白い。

Buzfeedは他人のコンテンツをパクっているばかりではなく、最近は独自記事をあげている。驚くべきことに、その記事のタイトルをつけるのは記者ではなく、機械なのである。コンピューターは記者が書いた記事に対して10パターン以上のタイトルをつける。そして、そのタイトルを1億人以上いるユーザーの最初の数%に対してランダムに表示する。同じ記事でも、ある人が見た場合は『高橋、破滅派やめるってよ』と表示され、他の人が見た場合は『株式会社破滅派、資金繰りショート』と表示される。この中でもっともクリック率の高いものが採用され、残りの90%に配信されるというわけだ。この結果、Buzfeedの記事は常に最適化されたタイトルがつけられることになる。Buzfeedの記者たちは自分の記事のタイトルが勝手につけられる状況にはじめは戸惑ったが、いまでは受け入れているようだ。

これが文学作品に適用された場合、どのような効果をもたらすのだろうか。計算機の性能が向上していくということを根拠に楽観的な予測をすれば、もうじきあなたはタイトルについて悩まなくてもよくなる。現在、タイトル付けのうまさによって明らかに得をしている書き手が存在する。それが誰崎誰コーラなのかはともかく、あなたが書いたテキストの内容が素晴らしいのにタイトルがしょぼくて読まれないという状況は、少なくとも軽減されるはずだ。あなたは自作のラベリングに工夫することなく、本来のテキストに立ち返りさえすればよくなる。最適化は機械に任せておけば良いのだ。

洗練されたファインダビリティ

他にもあなたが得をする例を挙げよう。インターネットに存在するデータは日々膨大になっており、私たちはその分量にうんざりしている。それでもいまなお新たなデータがそこに付け加えられていて、面白いコンテンツの見つけやすさ、つまりファインダビリティはまずます重要になっている。ここでも機械たちは私やあなたの役に立ってくれるだろう。

上であげた例は、艦これのキャラクターにword2vecをかけてどうなるかという試みだったのだが、これを別の視点でみると面白い。

評論家の東浩紀は『動物化するポストモダン オタクから見た日本社会』において、デ・ジ・キャラットというキャラクターを例に挙げ、オタク達がデータベースから属性を組み合わせてキャラクターを消費していると指摘している。猫耳、アホ毛、メイド服といった様々な属性のパターンを好き勝手に組み合わせて消費しているというわけだ。この「データベース消費」という概念は、作者の特権性を奪い取るポストモダン的な現状認識として、15年以上前にそれなりの衝撃を持って受け止められたはずだ。

そして、艦これはまさにそのようなデータベース的消費の典型のようなコンテンツである。旧日本軍の戦艦を擬人化したのだから、とりあえず戦艦の候補(マスタ)はたくさんあるわけだ。あとはメガネをかけさせるとか、猫耳をつけさせるとか、オッドアイにするとか、娼婦的
ビッチライク
な紐パンの黒い紐をはみ出させてみるとか、用途不明の青い紐で巻いてみるとか、とにかくいろいろな属性(メタ情報)を持った美少女に仕立て上げる。特に艦これはブラウザゲームという性質上、課金というビジネス的に重要な要素がある。姉妹設定のキャラクターがいて、その片方を持っていればもう片方をほしくなるだろう。艦これには自分の艦娘キャラクターがやられたときに服が破れる演出(大破・中破・小破という損傷度合いによって破れる服の面積が異なる)があるのだが、パワーアップさせたあとの大破演出がよりエロくなっているのなら、改造用の資材にお金をつぎ込むかもしれない。とにかく、運営側が提供するデータベースの組み合わせの妙パターンによって事業の売り上げが変動する。

こうしたデータベース消費志向コンテンツである艦これをword2vecで調理する際、なにがコーパスとして選ばれたのかというと、2ちゃんねるのスレッドログなどである。つまり、艦これを実際にプレイしているユーザー達の発言を分析した結果、それなりに高い精度で意味を解釈することが可能になったということだ。これはword2vecが意味解釈装置として精度が高いということを示すと同時に、私たち(といっても、私は艦これをプレイしたことがない)がデータベースの出力結果をそれなりの再現性をもって享受しているということをも意味する。

私たち人間が運営から提供されるコンテンツを大喜びで消費する猿に成り下がったのか? それとも、運営は少なくともデ・ジ・キャラットが存在した17年前に比べて進化したのか? 私は後者の要因が大きいと思う。

ネットゲームの世界ではユーザー達を喜ばせる仕組みを血眼になって探しており、金が落ちる場所では技術的成長が早い。巨大なデータベースを前にしたときに消費者が抱く感情は「めんどくさい」だ。『選択の科学』という本では30種類近いジャムを並べるよりも、7種類のジャムを陳列した方が全体的な販売量が多いという結論を出している。私たちはすべてのマスタを見比べてその中から最良のものを選びたいと思っていない。重要なのはユーザーに結論を下させること、つまり、売上を増やすことである。金を儲けるために費やされる技術的努力には目を見張るものがある。彼らは私たちが発する複製情報ミームを分析し、より精度の高い分析を行っている。結果的に私たちは求めているものを見つけやすくなる。見つけやすさファインダビリティが増していく状況は、消費者にとっても製作者にとってもよいことなのだ。

これをあなたのテキストに置き換えてみよう。

たとえば、あなたは千葉県千葉市出身で、1979年生まれだとしよう。真夜中、スマッシング・パンプキンズの『1979』という曲を聴きながらビールを飲んでいて、今年36歳になる。干支が3周するほど生きたわけだ。ふと、あなたは泣きそうになる。高校生の時、稲毛海浜公園の海辺で制服の裾をまくりながら海に入った時のことを思い出したからだ。ちょうどいまぐらいの時期だ。水温はまだ低かったが、気にならなかった。離れ離れになってしまった同級生達と海に入りながら、これからの自分達を待ち受けている未来を話し合う。何人かの女子が髪を染め、ルーズソックスを砂浜に放り投げる一方で、一向に垢抜けないまま子供じみたショートカットを揺らしている女子もいる。海水が柔らかく足を濡らす。その感覚の記憶があなたをどうしようもなく泣きたくさせる。あなたはただ、そうした事どもをテキストに収める。

ファインダビリティが洗練された世界で、私はきっとそのテキストを読むだろう。あなたの文章はあまりうまくないかもしれない。それでも私はあなたのテキストを面白いと感じるだろう。事実は小説よりも奇なり。私は1979年生まれの千葉県千葉市出身で、あなたと同じように、それぐらいの年齢の頃に海で友人達と戯れたことがあったからだ。私はきっとそのようにテキストを消費するだろう。あなたはそれを嬉しいと思うはずだ。自分のテキストがそのように受け止められたという事実を。

こうした楽観的な未来がいつ来るかというと、少なくとも今年や来年ではないだろう。文学的テキストに対してそれほど予算が割かれるとは思えない。こうしたテキスト解析の技法は、まずtwitterやFacebookで試され、広告商品の売り上げを上げるために使われるはずだ。ためしにFacebookで広告を出してみるといい。あなたが出そうとする広告がどの地域の何歳の誰を志向しているかが一目瞭然でわかる。広告はインターネットで金を儲けるための数少ない手段の一つなのだ。技術的努力は広告や通販などに使われ、あなたの電子的テキストに目を向けるのはもう少し先だろう。

それでも、機械仕掛けの詩神ミューズはあなたを見捨てたりはしない。いつの日か、もうテキストの意味が機械によって完全に理解可能なものになった頃、彼女はあなたに手を差し伸べるだろう。その手を掴むのか、それとも振りほどいて別の女神を探すのか、それはあなたの好きにしたらいい。

2015年4月22日公開

作品集『メタメタな時代の曖昧な私の文学』第16話 (全21話)

© 2015 高橋文樹

読み終えたらレビューしてください

リストに追加する

リスト機能とは、気になる作品をまとめておける機能です。公開と非公開が選べますので、 短編集として公開したり、お気に入りのリストとしてこっそり楽しむこともできます。


リスト機能を利用するにはログインする必要があります。

あなたの反応

ログインすると、星の数によって冷酷な評価を突きつけることができます。

作品の知性

作品の完成度

作品の構成

作品から得た感情

作品を読んで

作者の印象


5.0 (2件の評価)

破滅チャートとは

この機能は廃止予定です。

タグ

この投稿にはまだ誰もタグをつけていません。ぜひ最初のタグをつけてください!

タグをつける

タグ付け機能は会員限定です。ログインまたは新規登録をしてください。

作者がつけたタグ

テクノロジー

"そうはいっても女神は優しい"へのコメント 2

  • ゲスト | 2015-04-24 12:43

    髙橋様

    『メタメタな時代の曖昧な私の文学』の書籍化をこの20年ずっと待ちわびています。更新をとても楽しみにしていますので、ぜひ書籍化していただけたら嬉しいです。身勝手な意見ですみません。

    • 編集長 | 2015-04-28 13:07

      ありがとうございます。破滅派連載を整理したものをいつか出したいと思います!

      著者
コメントを残してください

コメントをするにはユーザー登録をした上で ログインする必要があります。

作品に戻る