susuROBOのブログ: 先進的なUIを通じたAIへのアクセス

2025-09-04

リアルタイムモデル vs 従来型パイプライン

リアルタイム音声-音声モデルは、VAD→STT→LLM→TTSパイプラインを置き換える準備ができているのでしょうか？コンテキストウィンドウが大きくなり、モデルが意図を読み取る能力が向上するにつれ、ユーザーは「バイブインタラクション」へとシフトしています。ゲーム物理エンジンと会話AIの類似性を探り、両者に必要なガードレールとフロー制御について考察します。

続きを読む →

2024-10-05

OpenAIのRealtime API

最近のブログ執筆は、ほぼリアルタイムで行う必要があります。数日間でもコンテンツを寝かせると、すぐに時代遅れになるリスクがあります。前回の投稿では、AIインターフェースの使いやすさに対する障害、たとえば中断や遅延についてお話ししました。2週間も経たないうちに、 OpenAIがこれらの問題に直接対応するリアルタイムAPIをリリースしました。ここで、私の初見の感想をお伝えします。

続きを読む →

最初の投稿

2024-09-22

ビジョン

御社のスタートアップは何についてですか？これはどの創業者にも間違えられない質問です。それでも私はここにいます。創業から3年、数え切れないほどのピボットを経て、この質問を思い巡らせています。

続きを読む →