Human Augmentation

より自然な世界に人類を連れて行きたい

人間の拡張

私の研究領域は、ヒューマンコンピュータインタラクションという、人間とコンピュータのあいだを取り持つインターフェイス領域から始まりました。その後2008年ぐらいに人間の拡張にフォーカスをあて、ヒューマンオーグメンテーションと呼び始めました。そして2020年ぐらいになって、AIと人間が一体化した世界を、ヒューマンAIインテグレーションと表現するようになり、今に至っています。

探求の動機

この領域の研究を志したきっかけは明確で、1970年の大阪万博です。小学校2年生でしたが、そこで触ったライトペン、先端の光で画面をピッとタッチすると、赤塚不二夫のニャロメのマンガの絵が出てきて、何て面白いんだろうと感激しました。「僕は絶対こういう仕事をしたい！」って思いました。結局その路線からほぼ1ミリもズレていないです。　

つまり、コンピューターのような、なにか機械があって、そのうえで人間がいると。そのあいだを繋ぐものって絶対必要でしょう。そこでたとえば私が画面をピッて触れたことによって、画面上にマンガが展開できて、まるで自分がマンガを描ける人になったかのような、能力が拡張したような気分になる。これがヒューマンオーグメンテーションに繋がっています。

アトムよりサイボーグ009

同時に、私は鉄腕アトム、サイボーグ009の世代でした。個人的にはアトムよりサイボーグ009の方が少し不良っぽくてカッコいい感じがして好きでした。アトムはいい子ちゃんで、完全な人工知能ロボットです。それもよいのですが、人間である009たちは、サイボーグ化手術で身体に様々なガジェットを備えたり、スピードや時間感覚を変えたり、まるで超能力が備わったかのように身体が強化されていても、心はちゃんと人間なんです。このあたりが当時SF小説などで扱っていたテーマと繋がり、興味をそそられていました。

人間と機械のあいだをやりとりしたい

これらのマンガやSFからの影響と、万博で出会った当時としては非常に先端的なインタラクティブシステムへの興味から、コンピューターのプログラムを勉強したいと思うようになりました。それでも当初は、プログラムが何かをわかっていないような状態で、NHKコンピューター講座を見ながら、とりあえず方眼紙に鉛筆でFORTRANのプログラムを書いたりしていました。自分のマイコンなどはない時代なので、書いても動かせないのですが、中学校ぐらいまでこれが続きました。この頃からそういう、人間と機械を仲立ちするようなところにすごく魅了されていたと記憶しています

過去が不自然に見えるようなものを作りたい

ユーザーインターフェースの研究成果の中で大きかったのは、いわゆるマルチタッチといわれる技術です。今みなさんはタブレットやスマートフォンを複数の指で操作しますよね、あれは私が発明した技術がひとつの源流になってるのです。人間は元々、現実の世界で複数の指を使います。つまり、現実の世界はマルチタッチなのです。したがって、マウスでひとつだけの矢印を操作してなんでも対応させることが不自然なのです。

マルチタッチは説明なしで子どもでも使えます。このような性質は技術のひとつの理想です。いったんできると誰でもあたりまえのように使いこなすことができます。逆に言えば我々は未完成なインターフェイスを使うと、そこがボトルネックになってしまい、我々自身が元々持っている能力を十分に発揮することができません。

ですから私は、目先の変わった新規性の高いものを作るのではなく、それができてしまったら過去が不自然に見えるようなものを作りたいと思っているのです。最終的には全人類に影響を与えるものを作りたい。実際にマルチタッチは数十億人に使われています。そのためには、なんで今これができてないのだろう？なにが不自然なのだろう？という視点で世の中を観察しています。

より自然な世界に人類を連れていきたい

いまはもうマルチタッチが普及しましたから、画面を指でピンチして広げるということは説明しなくてもできるし、すでに身体の一部みたいになっていますので、今いきなりそれができないスマホが来たら逆に焦りますよね。つまりもう、世界はその方向、自然な世界に移動してしまったというわけなのです。こういう、より自然な世界に人類を連れていきたいというのが、私の世界観です。

オーグメンテーション（人間の拡張）へ

研究成果であるマルチタッチが普及して、自身の仕事としてヒューマンインターフェースの大きな山を越えたと思いました。この先もっと人間の能力を拡張しようとした時に何が起きるかを考えた時に、万博のあのライトペンでマンガを動かした時に感じた、自分の能力が解き放たれたような感覚へフォーカスしたいと考えました。このあたりから私の研究の題目とテーマがオーグメンテーションという、能力の拡張の方向に移っていきました。
このテーマでは「JackIn（ジャックイン）」と呼んでいる、自分の感覚を他人の感覚と繋げて追体験したり、テレプレゼンスで相手先の感覚に乗り移ったりするようなシステムを作りました。

ユーザーインターフェース研究の領域からは少々かけ離れた印象を持つ方もいらっしゃるかもしれませんが、割と自然に発展していった記憶があります。私がここにいて、向こうに誰かがいる。向こうの人に、私が感覚ごと乗り移って説明したり、あるいは向こうにエキスパートの人がいたら、その体験を自分が追体験できる。こういうことは、もうまさに人間の拡張なのではと思っていました。

私が理解していると同時に、 AIも理解している、という状態

さらに最近、5～6年前の2020年ごろから、中核技術はやはりAIかなと感じてきています。それまではオーグメンテーションというと、外骨格のようなメカニカルなものや、カメラのようなデバイスの話だったのです。けれども、それだけではなくて、例えば私が見ているものをAIも同時に見ていて、私が理解しているのと同時にAIも理解しているような状況。もしかすると、私よりもAIの方が起きていることをうまく理解しているかもしれない。こういうこともオーグメンテーションだと考えるようになりました。

AIというと、エージェントのような、独立したロボット、鉄腕アトムみたいなロボットやソフトウェアロボットのようなものが想像しやすいと思います。究極的には自動的に動くAI エージェントのような存在がそれです。しかし、おそらく同時に、サイボーグ009型のAIもあるのではないかと思っています。つまり私たちが自分の心を持ったまま、同居させたAIに情報処理や認識を拡張してもらうという方向です。

AIと人間の融合

それが、ヒューマンAIインテグレーションです。いま具体的に取り組んでいるものとして「サイレントスピーチ」という技術があります。これは、声を出さず、口を動かすだけで、その人の発語していることを推定する技術です。当然その口の動きを推定するところの認識はディープラーニングや深層学習を使うわけですけれども、声を出さずにコンピューターと会話が可能になったりすると、これは喋るという能力を拡張していると言えます。AIとのインタラクションもテキストから会話に以降して、AIとテレパシーで会話をするようになるでしょう。

あるいは発声障害の方、声帯を損傷されてる方が大きな声を出せない、そもそも声を出しにくいというようなときに、口の動きからその声を復元することができれば、その人にとってはAIが声の代わりになってくれるというわけです。

このような形で人間の能力を拡張したり補完したりする場合、AIが非常に重要なパートを担うことになり、これはある意味でAIが自分の身体の一部になっている状態だと言えます。

AIを泳がす

ヒューマンインターフェース研究の流れからすると、いわゆるダイレクトマニピュレーションという直接操作、自分が指を動かしたりマウスを動かしたり、あるいはジェスチャーしたりという、リアルタイムで身体を動かしてコンピューターを制御するというパラダイムが長い間、おそらく50年くらい続いています。これが、これから先はもう少しゆるくなるのではないかと思っています。

究極のインターフェイスはもしかしたら思考するだけとか、サイレントスピーチのようにほとんど体を使わないで以心伝心が可能になるというような世界かもしれません。それでもこれはダイレクトマニュピレーションの延長であろうと思われます。

人間は同時には一つのことしかできないので、それをマニピュレーションの主体として独占することの限界があります。よく、人間中心インタフェースとか自己主体感などと言われるますが、人間中心にこだわると逆に人間を超えられない。その先は、ちょっとこう「AIを泳がす」というような、やや自律性もある、けれども自分の一部でもある、という存在と共存する世界が来ると思っていて、次の非常に大きな研究領域ではないかと思っています。完全にオートノーマスな、自律自動型のロボットではなく、しかし常に自分が操作しているような感覚でもない、少しゆるい感じでコンピューターと人間がつながるようなかたちもあるかなと思っていまして、そのあたりはまだこれからの新しい領域だと思いますが、そういう関係も追求して行きたいと思っています。

何をしたら我々はうれしいのか

この先も、大きく言えば、ある技術の発明以前と以後を比べた時に、以後の方が自然に感じる世界を作りたいと思っています。目先の変化に注目されがちな研究もあるのですが、こっちへ来てしまうと前の世界はとても不自然だったと気づくような、そういう世界観で研究を進めています。そうすると、究極的には、我々は何をしたいのか？　何をしたらうれしいのか？　という部分に問いが戻ってきます。

ですから、たとえば、声を出してしゃべるということは、声が出る人には当たり前の事かもしれませんが、それができない人にとってはものすごくフラストレーションなわけです。つまり声を出すということが大きな目的になり得るわけです。このように、その人にとって何が目的で、どのように達成できるか、という部分を気にして研究を進めています。

永遠の価値について

もうひとつの世界観として、私はソニーCSL – 京都というところにおり、その設立を企画した人間でもあります。今はテクノロジーがどんどん変わるわけです。毎日のように新しいAIの技術が発表されて、どんどん変わっていく。すると一年前のものがもう古くて使えない、という事になりがちです。しかし、人間のやりたいことや基本的な欲望や願望はそれほど変わらないと思うのです。

願望を達成するための技術は進んでいるかもしれないけれども、人の中にある変わらない部分も、やはり大事だと思います。私たちが京都にいる理由は、こういった変わらない、永続的な価値や永遠の価値のようなものに、文化や伝統芸能を通して触れることができる部分にあります。とてもすごい勢いで変わっていく技術を研究しながらも、何百年も続く価値とはどういうものなのかを、同じひとりの人間が考えるということに取り組んでみたいという思いがあります。

これが、おそらく一方に偏ってしまうと、今の世界では人間としてとてもにアンバランスになってしまうのではないかと思うのです。新しい技術だけを追い求める人間は、追い求めるだけで、何のためにやっているのかわからなくなってしまうのではないでしょうか。何のためにやっているのか？根底にはやはり変わらない価値があると思っています。

変わらないことと、速く変化していくものが、相補的に支え合う世界

そういう伝統的なものや文化と非常に先端的なものは、両立できると思っています。これは研究を進める上での非常に大きな問題意識でありビジョンだと思っていまして、ゆえにソニーCSL – 京都では茶の湯や西陣織のような伝統的な事柄とAIを結びつけるようなこともにも取り組んでいます。それは、変わらないことと、速く変化していくものが、相補的に支え合えると思っているからです。このあたりが、単に新しい技術だけを追い求めるだけの研究とは一味違うと思い、京都の研究拠点で活動しています。

人間はスケールリミットでもあり　最も貴重なリソースでもある

技術がどんどん進化していくのは当然で、おそらく全ての領域で起きるでしょう。コンピュータサイエンス以外の領域でももちろんそうです。ただそのようなときでも、単純にゆったりした気分になりたいとか、おいしいものを食べたいというような本能に近いところは、動物としての人間の願いなので、それほど変わらないのではないかと思います。

そこが変わるときは、もしかするともうホモサピエンスを捨てる時なのかもしれません。完全に超人類となり、思考がコンピュータの中にアップロードされて、もう肉体はないというようなときには、また違うのかもしれません。しかし今の我々には一応、この肉体、リアルな人間の身体というものがあって、そこがスケールリミットでもあり、最も貴重なリソースだと考えています。

「私は特にそれで幸せになりません」

単純に効率の話をすると、もう人間がいない方がいいという領域がどんどん出てくると思います。ですから人間中心的なヒューマンインターフェースという言葉が当てはまらなくなる場面も多くなるでしょう。
一方でそれぞれの人が生きている自分というものは、その人だけのものです。その人の時間やその人の感覚、多分そこが最終的に帰着する価値なのです。つまりそれなしに勝手に何かが効率的に起きても、「それは私には関係ない話であって、私は特にそれで幸せになりません」、ということになります。

リミテッドリソースな自分だけれども、その自分が何を幸せだと感じるか、何を豊かに感じられるかというところが、多分あらゆる研究や技術の最終的なモチベーションになるのだと思います。この二つは非常に深く繋がっていて、何をするかという目的からすると、やはり最終的には自分という人間の価値や豊かさに帰着しないものは多分あまり意味がないと思います。私は私で、自分として存在している。私は心地良くなりたい、というような根源的な欲求は、自分が貴重だと思ってるからですよね。そのように考えると、最終的なゴールとして、永遠性のある価値、というのはあるのではないかと思っています。

メソッドは変わるけども　パーパスは変わらない

お茶を習うにしても、お茶室に行くのもあるし、サイバースペースで学ぶのもあるし、AIに教えてもらうのもある。そういった形で手段はどんどん進化するのですが、例えばお茶を習いたいですとか、ピアノが上手になりたいですみたいな、根源的なモチベーションそのものはあまり変わらないと思っています。

そう捉えると、メソッドは変わるけども、パーパスは変わらない、とも言えます。

何が豊かなのかという思いも、時代によって変わりうるでしょう。しかし、我々が何を望むかということの変化は、何ができるかという技術の変化に比べると、やはりゆっくりしてるのではないかと思います。

未来に向けて

テクノロジーはどんどん変わっていくので、たとえば千利休が今の時代に来たら、最初は面食らうかもしれないけれども、ああ、でもやはり大事なことは変わってないねと言うのではないでしょうか。数百年ぐらいでは、実は大切なことはそれほど変わらない気がしています。しかし、そのためのメソッドは、ものすごい勢いで変わる。むしろ、「その変化できるところを止めてしまう方が良くない」。

私は両立が可能だと思っています。変えたほうがいいものはどんどん変えて、変えられない、変えないほうがいいものは変えない。この両方は同じ人間の中で共存していた方がよいと考えています。なにが変わらない方がいいか、なにを変えた方がいいかというのは、私自身がどんどんチャレンジして、つなぐことをくりかえして、確かめて、証明していきたいと考えています。

※当記事は2025年3月12日にソニーCSL－京都にて行ったインタビューをもとに再構成したものです。
暦本純一（話者）
福田桂（聞き手）