子供たちとおばあちゃんがiPadで会話型アバターと交流している様子

ビジョン

2024年9月22日

御社のスタートアップは何についてですか?これはどの創業者にも間違えられない質問です。 それでも私はここにいます。創業から3年、数え切れないほどのピボットを経て、この質問を思い巡らせています。

susuROBOを始めたとき、会話型インタラクションへの道のりで見つけた最大の課題は、自然言語理解、生成、そしてダイアログ管理でした。 それ以来、このきれいなモジュール形式のNLPの見方はLLMによって一変しました。

LLMの普及以来、会話型AIにおける進歩のペースは加速し、最大の課題のリストは週ごとに変わることがあります。 これほど速く進む目標を持つ中で、私たちは北極星の常に心に留めるべき目標が必要です。 このビジョンは具体的な製品でもなく、予測可能なタイムラインで達成できるものでもありません。 ビジョンは、製品やビジネスの開発ルートの多くの分岐点で正しい選択をするための指針となります。

我々のビジョンは、ユーザーインターフェースの進化を通じて、すべての人がAIにアクセスし、その恩恵を受けられるようにすることです。

なぜUIがAIにとって重要なのでしょうか?一般的に、技術と効果的にやり取りするためには、ユーザーはその技術についてのメンタルモデルを持っている必要があります。 UIが優れているほど、そのメンタルモデルを構築するために必要な労力が少なくなります。

テキストを介してLLMとやり取りする際、LLMがどのように機能するかについての適切なメンタルモデルを持っていることで、 ユーザーはより良い応答を得るために自分の入力を工夫できます。これをプロンプトエンジニアリングと呼ぶことで、その複雑さが強調され、 より決意の薄い人々が挑戦することを躊躇してしまいます。

AIと声で会話することは、ユーザーが心に留めておくべきメンタルモデルにさらにいくつかの層を追加します:

  • 途中で割り込んだり、話し続けたりしてもいいのか?
  • どのくらい待てば応答が返ってくるのか?
  • 誤解があった場合、どう言葉遣いや発音、スピードなどを調整すればよいのか?

プロンプトエンジニアリングと同様に、AIと声で会話する専門家もいます(運転中にSiriを使ってメールを処理するSiriの達人を見たことがありますか?)。 残念ながら、ほとんどの人はそうではありません。実際、私たちの研究によれば、特に若者や高齢者にとっては困難です。 ちなみに、これらのグループは音声インタラクションの恩恵を最も受ける可能性があるユーザー層でもあります。 彼らにとってテキスト入力がさらに実用的でない場合があるからです。

人間はフィラー語(「えーっと」や「うーん」など)や非言語的、ノンバーバル(うなずきや目線など)行動を使ってこれらの問題を解決します。 これらの能力の一部を会話型AIシステムに再現することが、アクセシビリティを向上させ、受け入れを広げ、より多くの人がAI革命の恩恵を受けると考えるのは不自然ではありません。

次回の投稿では、これらの問題をどのように解決するのかについて詳しく掘り下げていきます。 会話を始めましょう!