こんにちは。ALL STAR SAAS FUNDのシニアパートナー・湊雅之です。
シリーズ「AI探求ラボ Vol.1」では、バーティカルAIエージェント分野のスタートアップを、海外の投資実績から取り上げました。今回は切り口を変えて「マルチモーダルAI」を活用したAIエージェントを中心に、海外のスタートアップ動向を調べてみました。
マルチモーダルAIとは、テキスト、音声・画像・動画といったメディア、センサー情報など、異なる形式のインプットを同時に処理し、それらを組み合わせてより高度な判断やアウトプットを可能にするAIを指します。
ALL STAR SAAS FUNDの支援先にも、音声AIを活用したソリューションを提供するIVRyや、介護領域で動画解析見守りソリューションを提供するVoxelaなど、マルチモーダルAIを活用したSaaSスタートアップが増えてきました。
そこで今回も、マルチモーダルAIエージェントについて、そもそもどういった領域・企業に注目が集まっているのかを見ていきたいと思います。海外スタートアップのタイプ、資金調達状況・ステージを題材に考察してみましょう。
なぜ、マルチモーダルAIが注目されるのか?
考察の前に、マルチモーダルAIがビジネスにもたらしている価値について踏まえておきます。
まず、マルチモーダルAIの扱うデータは「非構造データ(Unstructured data)」と言われるもので、IT専門調査会社のIDCによる調査資料『未開拓の価値:非構造化データについてあらゆる経営幹部が理解すべきこと』によると、企業が持つ情報のなんと90%は、電子ファイル、文書、PDF、ビデオ、画像などの非構造化データと記されています。
従来、SaaSが提供するソリューションの多くは構造データを対象とするものが多く、これまで非構造データのビジネスでの活用には大きなハードルがありました。ところが、生成AIの出現・進化により、非構造データを活用できるようになったことから、この領域は非常に注目されるようになったのです。
また、人間がビジネスで判断するためにはテキスト以外の五感を使うことは当然ですし、電話対応などの音声や画像が業務の成果物になることも多いものです。多様な非構造データをAIが扱えることで、支援できる業務の幅が増えるのはイメージが付きやすいと思います。
どのようなマルチモーダルAIエージェントがあるのか?
それでは、海外のマルチモーダルAIエージェントは、どういったビジネスの領域で盛んなのでしょうか。
今回は、海外の記事(Insight Partners、Bessemer Venture Partners、AIM Research、DATAFOREST)ならびにChatGPTでピックアップされたスタートアップ45社を調査。
ビジネス向けにマルチモーダルAIを謳うスタートアップを、音声、動画・画像、3D、ロボットの4領域で分類しました。なお、CLIP、GPT-4、Whisper、DALLE-Eなどの汎用マルチモーダルAIは除外しています。
マルチモーダルAIエージェントを提供するスタートアップを、ホリゾンタルとバーティカル(業界特化)で分けたマップが以下です。前回同様に「コパイロットか、エージェントか」は議論の余地がありますが参考になるはずです。

音声領域
音声はマルチモーダルAIエージェントの中で、最もスタートアップの数が多く、盛り上がっていることがわかります。特に多いのが、Sanas、LeenaAIのようにエンタープライズの複数の部門(カスタマーサービス、営業など)向けに、SAPなどの既存システムと連携して受電・架電に自動対応する「エンプラ向けAI電話」の分野です。
次いで多いのは、Eleven LabsやHume AIといった、音声AI技術に強く、さまざまな音声AIソリューションを提供する開発者向けツールを提供する分野です。社内にエンジニアを抱えるエンタープライズや、SaaSなどのソフトウェア開発企業も顧客対象になります。
バーティカルはホリゾンタルに比べて数は少ないですが、コールセンター向けのRetell AI、医師と患者の会話から文書作成を自動化するAbridge、歯科医院の電話アポ自動化のarini、住宅ローンの申し込み対応のMarr Labsなど、尖った戦い方をするプレイヤーが出てきています。ただ、Abridgeを除き、ホリゾンタルより資金調達額も少なく、設立年数・ステージも浅めのスタートアップが多い状況です。
音声AIエージェントのユースケースは、カスタマーサービス対応やセールス対応が主で、前回のバーティカルAIエージェントの調査と同じ印象を持ちます。
動画・画像領域
動画・画像AIエージェントは、自然言語処理や取り込んだ画像をもとに、AIが「アバター」を作成して会話したり、動画として出力してくれるようなサービスが成長中です。顧客向けのマーケティング、カスタマーサポート、社内向けトレーニングといったユースケースの活用が進んでいます。代表的なスタートアップとしてはSynthesia、HeyGenが挙がります。加えて、動画に特化した検索や分析を行えるTwelveLabsは調達額も大きめでユニークなポジションを確立しています。
バーティカルは数は多くないですが、ユニークなマルチモーダルAIエージェントも出てきています。たとえば、画像AIとLLMを組み合わせて、PDFなどの請求書から重要な情報を自動抽出、ERPに自動入力して税関申告書を自動作成する物流業界向けのRaft。映画制作の現場向けに、セリフや演技の動画修正や俳優の口の動きに合わせた自然な字幕作成を自動化するFlawless AIが特徴的です。
ここであえて動画・画像領域で、汎用的なAIエージェントらしいものとして挙げておきたいのがAdeptです。Adeptは、日々使用されるウェブツール上で手動かつ反復的な作業を自動化するために、画面上の要素認識(視覚)と言語理解を統合したマルチモーダルAIエージェントです。
3D領域
3Dは動画・画像領域に近いですが、3Dという特性上、ユースケースはバーティカルに偏っています。主には、ゲーム業界向けにキャラクターを作成するinworld、ゲームの3D空間でリアルタイムAIエンジンを活用できるゲーム開発者向けツール、建設業界向けに建設予定地の情報から建物の3D図面とコスト評価を自動化するSnaptrudeなどがあります。
異色を放つのが、スタンフォード大学のAI研究者で、「AIのゴッドマザー」と呼ばれるFei-Fei Li氏が設立したWorld Labsです。World Labsは設立わずか4ヶ月でユニコーン企業になったことでも有名ですが、彼らが狙っているのはゲームに留まりません。アーティストや映画製作者など幅広い業界向けに、インタラクティブな3D空間を生成できるマルチモーダルなAIツール開発を計画しています。
全体として、3DもAIエージェントというより、ツール色が強い印象があります。
AIロボット領域
AIエージェントで、ロボットというと「おや?」と思われる方もいるかもしれませんが、フィジカルな作業の代替、そして多様なデータで判断・実行を行うマルチモーダルAIとの相性の良さから取り上げました。
この領域のスタートアップとしては、主にヒューマノイド(人型)ロボットの開発とAIをセットで開発するFigure AI、ロボット専用のAIを開発するPhysical Intelligenceなどが挙げられます。また、汎用型のヒューマノイドロボットの他に、倉庫や工場のような物理作業の反復が多いユースケースに特化したスタートアップも出てきています。
全モーダル対応も登場
多くのマルチモーダルAIエージェントは、音声とテキスト、動画とテキストなど特定のデータタイプによるものが多いですが、音声、動画、画像などデータタイプによらずカスタマイズしたAIエージェントを構築できるAIもこれから増えてくると想定されます。その先駆け的な存在として、Reka AIがあげられます。
どの分野のマルチモーダルAIエージェントがホットなのか?
では、これまで挙げてきた音声、動画・画像、3D、ロボットの4領域について、スタートアップへの資金調達、並びに成熟度をステージで見てみましょう。
下図の通り、動画・画像、3D、ロボットはプレイヤーが少ない一方で、比較的調達額は大きく、シリーズA以降のスタートアップが多い領域です。

また、音声に比べると開発投資が大きいためかシード・シリーズAでも資金調達額が高まる傾向にあります。特にロボットは、投資が大きいハードウェア開発とAI開発の両方が必要なため、アーリーステージでも$100M(150億円)以上を調達しているスタートアップが特に多い分野です。
一方で、音声系のマルチモーダルAIエージェントはスタートアップの数も多く、資金調達額もシード・シリーズAでもSaaSとさほど大きく変わらない印象です。音声系のアプリケーションのほうが、より業界・業種・企業の固有のニーズに応えるケースが多く、開発投資も相対的に軽いためだと考えられます。その観点で、音声系は最もSaaSライクなスタートアップが新規参入しやすく、プロダクト開発とGTMのスピードが成否を分けやすいと想定されます。
ご参考までに、この4領域で累計資金調達額の多いスタートアップのトップ3も挙げておきます。

日本でのマルチモーダルAIエージェントの可能性は?
ここからは上記を振り返って、日本でのマルチモーダルAIエージェントの可能性についても考えてみたいと思います。
第一に、音声系のマルチモーダルAIは、最も「AIエージェントっぽい」領域で、海外同様に日本でも大きな可能性を秘めていると思います。カスタマーサポートのようなホリゾンタルもありますし、業種・業界特有の電話や会話を含むワークフローの周りの音声解析・応答を組み合わせた特有のソリューションも出てくる余地は多いです。
また、日本は海外より電話を使う文化が根強く、受電・架電問わず、電話対応を自動化することによって生産性を飛躍的に向上できる可能性があるでしょう。
次に動画・画像、3Dのような領域は、日本から汎用的な動画解析・作成のAIエージェントが生まれるかもしれませんが、AdobeやCanvaのようなデザイン系ツールのように、海外ツールとの闘いになる可能性は高いと思います。その観点では、アメリカの映画産業向けの「Flawless AI」のように、漫画やアニメなどのコンテンツ産業など、日本ならではの強い産業向けが有望となる可能性があります。
また、圧倒的に人手不足に課題がある、物流、介護、警備、製造のような労働集約な業界では、動画や画像を活用することで、これまでSaaSでは提供しきれなかった圧倒的な省人化・無人化を支援する、現場向けソリューションにも期待が持てます。これに関連して、日本ではファックス文化が根強く残る産業での業務フローにおいても、画像系マルチモーダルAIエージェントを構築できる余地もありそうです。
最後に、産業用ロボットが強い日本の特性を考えると、技術・人材面でAIロボットは事業を立ち上げる素地はあると思います。ただ、海外のスタートアップで見られるように、この領域は事業立ち上げに多額の資金が必要になるケースが高いです。したがって、資金供給量が限られる日本では、資金獲得が最も大きなハードルになり、創業チームは資金調達力で試される場面が見越せます。
とはいえ私としては、労働力不足かつアナログな業務が多い日本の労働環境を考えても、これから日本ならではのマルチモーダルAIを活用したスタートアップが数多く出てきて、産業を大きく革新していくことを心から期待しています。