■「今週のSaaSxAIニュース」ピックアップ!

AIプロダクト成功の鍵はAI評価システム(AI Evals)
The Product Compass「Mastering AI Evals: A Complete Guide for PMs」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
Y CombinatorのCEO Garry Tanは「AI評価システム(AI Evals)がAIスタートアップの真の競争優位(Moat)になりつつある」と説いています。この記事では、20年のML経験を持ち、AirbnbやGitHubでLLM研究をリードしてきたエキスパートが、プロダクトマネージャーが考えるべきAI評価システムの重要性について解説しています。
AI Evalsとは何か。それが必要な理由
AI Evalsとは、AIシステムの評価・測定方法のことです。過去LLMプロダクトを作るための多くの成功したアプローチと失敗したアプローチを見てきました。その中で、失敗するAIプロダクトは、堅牢なAI評価システムが作れなかったことが共通しています。一方で、成功するAIプロダクトは、いかに速く反復できるかにかかっており、測定と改善サイクルに時間を費やすことが重要です。
AI Evalsの3つのレベル
レベル1:ユニットテスト
LLMのユニットテストはアサーションです。Data Cleaningや自動再試行(アサーションエラーを使用して軌道修正)などです。重要なのは、これらのアサーションは高速かつ安価に実行されるべきであるということです。主なポイントは以下の通りです。
- 機能とシナリオに分解したテスト
- 低コストで迅速に実行可能
- 100%パス率を目指すべきではない(むしろ危険信号)
レベル2:モデル&人間による評価(デバッグ含む)
レベル1テストの基礎が固まったら、アサーションだけではテストできない他の形式の検証へと進むことができます。人間による評価とモデルによる評価を行うための前提条件は、トレースをログに記録することです。主なポイントは以下の通りです。
- トレース(会話記録)の収集と分析
- 人間によるデータ確認は不可欠
- 最初は「良い/悪い」の二値評価から始める
レベル3:A/Bテスト
最後に、AIプロダクトがユーザーの行動や望ましい結果を促進していることを確認するために、A/Bテストを実施することが重要です。 LLMのA/Bテストは、他のタイプのプロダクトと比較してもそれほど違いはありません。
- 実際のユーザー行動への影響を測定
- 成熟したプロダクトに適している
評価アプローチにはボトムアップが効果的
エラーの種類を特定する際には、「トップダウン」または「ボトムアップ」のアプローチを取ることができます。トップダウンアプローチは、「ハルシネーション」や「トキシティ(毒性)」のような一般的なメトリクスと、タスクに固有のメトリクスから始めます。 便利ではありますが、ドメイン固有の問題を見逃すことがよくあります。より効果的なボトムアップアプローチは、実際のデータを見て行います。それに基づく、メトリクスを算出する方法です。
AI評価システムがもたらす3つの追加価値
高速な反復に加えて、評価システムは微調整とデバッグの能力を解放し、AIプロダクトを次のレベルに引き上げることができます。
- ファインチューニング
プロンプトだけでは解決できない問題に対処 - データ合成とキュレーション
高品質なトレーニングデータを効率的に作成 - デバッグ
問題の特定と修正を迅速に行える
オープンソースAIエージェントフレームワーク徹底比較
Ida Silfverskiöld氏のMedium「Agentic AI: Comparing New Open-Source Frameworks」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
この記事では、CrewAI、AutoGen、Mastraなど様々なAIエージェント構築のためのオープンソースフレームワークを詳細に比較しています。
メジャーなフレームワーク
- CrewAI
非常に高度な抽象化フレームワークで、低レベルの詳細を隠すことで迅速にエージェントシステムを構築できます。 - AutoGen
自律的で非同期的なエージェントのコラボレーションに焦点を当て、エージェントが適切だと思うように協力する自由を持ちます。これにより、テストや研究に適しています。 - LangGraph
グラフベースのアプローチを採用し、ノードを構築してエージェントを介して接続します。他の2つに比べ、ワークフローに対するより厳格なエンジニアリング制御を提供し、エージェントがあまり自律性を持つべきではないという前提で設計されています。ただし、LangGraphは抽象化が過度に複雑で、デバッグが難しいとされています。学習曲線は急ですが、基本を理解すれば使いやすくなるはずです。
新興フレームワーク
- Agno(以前はPhi-Data)
非常に優れた開発者体験を提供することに焦点を当てています。非常にクリーンなドキュメントを持ち、多くの組み込み機能を持つプラグアンドプレイ方式で、迅速に開始できます。 - SmolAgents
最小限のフレームワークで、JSONではなくコードを介してデータをルーティングする「CodingAgent」を導入しています。また、Hugging Faceモデルライブラリへの直接アクセスも提供しています。 - PydanticAI
Pydanticをベースに最小限の抽象化を提供し、透明性の高いフレームワークです。厳格な型安全性と予測可能な検証済み出力が必要な場合に最適で、デバッグが容易です。 - Atomic Agents
個人のエージェントビルダーによって開発され、レゴのように接続するスキーマ駆動のビルディングブロックを使用し、構造と制御に重点を置いています。実際にうまく機能する代替手段の不足に対応して構築されました。 - Mastra
Gatsbyチームが作成したJavaScriptフレームワークで、フロントエンド開発者が自分のエコシステム内でエージェントを簡単に構築できるように設計されています。
起業家のためのAIエージェントフレームワーク選定ガイド
- 技術経験レベルによる選択
経験が少ない場合はCrewAI、Agno、またはMastraが良い選択かもしれません。SmolAgentsも単純なユースケースでは比較的わかりやすいです。一方で、PydanticAI、Atomic Agents、LangGraphはより多くのロジックを自分で書く必要があります。プログラミングが全く初めての場合は、FlowiseやDifyを検討してください。 - 抽象化レベルによる選択
高抽象化(使いやすい):Mastra、CrewAI、Agno
中抽象化(中間レベル):LangGraph
低抽象化(透明性高い):PydanticAI、SmolAgents、Atomic Agents - エージェントの自律性による選択
高い自律性:AutoGen、SmolAgents
低い自律性(より厳格な制御):その他のフレームワーク
起業家のためのAIプロダクトのプライシングガイド
SCALE Venture Partners「How to price AI: The cheat sheet for B2B founders」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
AIプロダクトの3つの基本プライシング+ハイブリッドの型とプライシングモデル選定の論点を整理したScale Venture Partnersによる記事。プライシングモデルは対象とする市場の大きさ(SOM)を規定するため、AIプロダクトの成長性を規定する最重要要素です。AIプロダクトのプライシングのPDCAを回す上で参考になる記事です。
- 使用量/消費ベース
処理量やスループットに基づくプライシング。より多くの操作が完了するほど価値が増加するユースケースに適しています。推奨モデルはプラットフォーム料金+段階的使用料による課金です。 - ユーザー単位/シート単位
従来のSaaS同様のプライシング。個人ユーザーやチームの業務をサポートするAI(Copilot)で、より多くの人が使用するほど価値が増加するユースケースに適しています。推奨モデルは、サブスクリプション+機能階層別プランによる課金です。 - 成果(アウトカム)ベース
特定のビジネス結果の達成に基づくプライシング。より多くの成功した結果ほど価値が増加するユースケースに適しています。推奨モデルはプラットフォーム料金/サブスクリプション+成果ごとの価格設定が適しています。

Cursorの台頭:エンジニアが手放せない$3億ARRのAIツール
Lenny’s Podcast「The rise of Cursor: The $300M ARR AI tool that engineers can’t stop using | Michael Truell」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
Cursor(企業名:AnySphere, Inc)の共同創業者兼CEOであるMichael Truell氏がソフトウェア開発のあり方を変革する、画期的なAI搭載コードエディタの開発について語りました。ローンチからわずか2年でARR(年間経常収益)は$3億に達しています。史上最速クラスで成長したプロダクトの開発裏側とは。以下、キーポイントをご紹介。
- エンジニアリングにおける「How(どうやって)」から「What(何を)」へのシフト
AIの進歩に伴い、エンジニアリングの焦点は具体的な実装方法(How)から、より“ロジックデザインに近いもの”へと変化しています。Michael氏は、エンジニアは「どうやって(How)」構築するかよりも「何(What)」、つまりソフトウェアがどうあるべきかという意図の定義に、より注力するようになるだろうと示唆しています。
これは、人間のアイデアをコンピュータが実行可能な形に「翻訳」する労力が大幅に削減される根本的な変化を意味します。焦点は、正しいアイデアを持ち、その意図を効率的に表現することに移っており、従来の骨の折れるコーディング作業から移行が進んでいます。
- エージェントではなくIDEを構築するという選択
Michael氏はなぜ、モデル開発のみに注力したり、コーディング用のエンドツーエンドAIエージェントを作成するのではなく、IDE(統合開発環境)を構築することを選んだのかを説明しました。彼らのアプローチは、最終的な意思決定の主導権を人間に残すことを重視しています。AIの目覚ましい能力は認めつつも、その限界も認識しており、あくまで人間が「主導権を握るべき」という考えを持っていました。
彼らのプロダクト開発プロセスでは、「ドッグフーディング」(自社製品を自ら使用してテストすること)を行い、自分たちが本当に役立つと感じない限りはリリースしない、という原則を重視しました。
チームは、プログラミングがAIモデルを経由することで根本的に変化すると信じており、既存の環境向けのプラグインを作成するだけでなく、アプリケーション全体の体験をコントロールする必要があると考えています。このアプローチにより、プログラミング自体が変容するにつれて、ユーザーインターフェースを進化させることができます。
- 成功の秘訣:プロダクトファーストの精神
わずか2年で$3億のARRを達成したCursorの成功の秘訣について尋ねられた際、Michael氏は、プロダクトの品質と継続的な改善への徹底的な集中を挙げました。他の課題(セールスやマーケティングなど)は後回しにし、ほぼ完全に、自分たち自身とユーザーが愛するプロダクトを作ることに集中した、とも。このプロダクトファーストのアプローチとは、創業チームが初期スタートアップにありがちな営業活動などに時間を割くのではなく、ツールの改善そのものに注力したことを意味します。
この戦略は単純に聞こえるかもしれませんが、Michael氏は「適切な機能や能力を開発するには、的確な集中と戦略的な優先順位付けが不可欠であり、その実行は容易ではなかった」と強調しています。
- 独自モデルの予期せぬ必要性
Michael氏が学んだ最も直感に反する教訓は、独自AIモデルを開発する必要性でした。当初は、既存の基盤モデルで十分だと考え、独自のモデルを構築することは想定していませんでした。GPT-4のようなモデルを一からトレーニングすることは、莫大なコストがかかり、非効率だと考えていたのです。
しかし、彼らは「Cursorの体験を決定づける『魔法のような瞬間』には、必ず何らかの形で独自モデルが関わっている」ことに気づきました。この認識から、彼らはモデル開発に特化したチームを結成し、基盤モデルと直接競合するのではなく、それを補完できる分野を慎重に選択しました。
彼らのアプローチは、既存モデルが不得意な領域に特化したソリューションを開発し、プロダクト体験を大幅に向上させることを目指しています。
- 将来の市場ダイナミクスと防御可能性
Michael氏は、AI分野には独自の市場力学が働いており、従来の市場参入障壁や持続的な競争優位性の概念が通用しにくいと考えています。顧客のロックイン効果やプロダクトのバンドル販売に頼るのではなく、継続的なイノベーションこそが成功の鍵となります。
彼は現在のAIランドスケープを、1990年代後半の検索エンジンや1970年代から90年代のパーソナルコンピューティングと比較しています。これらは、企業が長期間にわたって研究開発投資から価値を引き出すことができた、非常に大きな可能性を秘めた市場でした。この環境においては、既存企業にとっては「厳しい現実」かもしれませんが、世界全体にとっては「素晴らしいこと」であり、飛躍的なイノベーションが常に起こりうる環境では、市場リーダーは絶えず進歩を推し進める必要があるのです。
Michael氏は、これは、契約による縛りよりも、常に他社より優れていることが求められる消費者向け市場に近いと考えています。
- ソフトウェアエンジニアリング職の未来
AIによるコーディング能力が向上しても、ソフトウェアエンジニアへの需要は減るどころか、むしろ増えるだろうとMichael氏は考えています。彼は、人間が「主導権を握り」、ソフトウェアが何をすべきか、どう機能すべきかという、肝心な意思決定は人間が行い続けると強調しています。
エンジニアはより生産的になり、以前よりもはるかに多くのことを達成できるようになるでしょう。ソフトウェア開発には依然として莫大なコストと多くの人手が必要であり、これまで実現できるソフトウェアは限られていた、というのが基本的な経済の現実です。もしAIによって開発コストが桁違いに下がれば、これまで採算が取れなかった、全く新しいカテゴリーのソフトウェア開発が可能になるでしょう。
彼は、バイオテクノロジー企業で社内ツールを構築していた初期の経験を回想します。そこでは、彼一人の手には負えないほどのカスタムソフトウェア開発の需要がありました。ソフトウェア開発のハードルが下がることで、より多くのアイデアがビジネスとして成り立つようになり、結果として、これらの強力なツールを使いこなせる人間のエンジニアへの需要は、かえって高まるのです。

AIソフトウェアの進化を評価する新指標
Emergence Capitalによる記事 「The Emergence Rate: Our Framework for Measuring AI Evolution」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
この記事では、Emergence Capitalが提唱するAIの進化を測定する新しいフレームワーク「Emergence Rate」を紹介しています。
- AI Emergence Rateとは
- AIソフトウェアが独自データと業務プロセスを活用して継続的に学習・改善する能力を測定するもの。直近20年のスタートアップ企業のソフトウェアは、現在のAIソフトウェアと比較するとアップデートが静的だったのに対し、新時代のAIソフトウェアは継続的に価値を向上させる能力を持っている。
- B2Bソフトウェアはアップデートこそが価値の源泉。AI Emergence Rateは、停滞しているAIソフトウェアスタートアップと、継続的にソリューションを最適化しているスタートアップとを区別する指標である。
- スタートアップと顧客、それぞれにとっての価値
- 高い創発率(自動的に自己改良・改善する能力)を持つスタートアップは、顧客ともに進化する製品を提供し、プレミアム価格を維持し、アーリーアダプターによくある顧客離れを回避することができる。
- 顧客にとって、高い創発率を持つAIソフトウェアは減価償却される従来のソフトウェアとは異なり、時間の経過と共に価値を高める。
- 独自データの価値
- 高い創発率を誇るAIソフトウェアスタートアップは、競合他社がアクセスできない方法で、独自のデータを自社プラットフォームに蓄積する。これにより顧客は、以前のソフトウェアの時代には不可能だった速度で、成功事例の増加というメリットを享受できる。
- AIソフトウェアが、人間が生み出した希少かつ貴重な洞察から学習するにつれて、AIソフトウェアスタートアップの創発率が向上。さらに新しいデータをより適切に処理できるようになる。
- AI ソフトウェア スタートアップの利点は、そのドメインの永続的なアルゴリズムになること、つまりユーザーの活用パターンから継続的に学習し、そのインサイトを好循環で継続的に改善しながら顧客に提供することにある。
.png)
急成長スタートアップが「ファウンダーズオフィス」を持つべき4つの理由
Crunchbase News「4 Reasons Every High-Growth Startup Needs A Founder’s Office」の一部を日本語で紹介したものです。全内容はリンク先をご覧ください。
スタートアップの成長に伴い、経営陣と組織全体をつなぐ「ファウンダーズオフィス」が戦略的機能として重要視されつつあります。実際にStripe、Revolut、Notion、Ramp、Brex、Checkout.com、OpenAIなどのスタートアップがこの仕組みを導入し、スケールアップの課題を乗り越えてきました。
- 創業者の影響力を最大化しつつ、時間を守る
スタートアップは急速に成長するため、創業者が適切に業務を委任しながらビジョンや戦略に集中することが不可欠です。ファウンダーズオフィスは、戦略的な意思決定の場で創業者を支え、重要なミーティングに参加しながら、資金調達、採用、ビジョン策定、顧客との関係強化に時間を割けるようにします。 - スケール可能なインフラを構築する
ファウンダーズオフィスのチームメンバーはカオスの中でも秩序を生み出し、組織を成長させる仕組みを作る能力を持っています。各部門と連携し、業務のボトルネックを特定・解消し、会社のオペレーションがスムーズに進むよう支援します。 - 未来のリーダーを育成する
ファウンダーズオフィスのチームメンバーは企業全体の活動に深く関わるため、将来のリーダーへと成長する絶好の機会を得ます。事業の理解を深めながら、各機能の責任者となる人材を育成する役割も担っています。 - 可視性と責任を向上させる
組織が拡大するにつれて、創業者が個々の業務を把握するのが難しくなります。その中でも、ファウンダーズオフィスは会社の目標達成の進捗を管理し、戦略的なプロジェクトの遂行を支援することで、組織全体のクオリティを向上させます。
上記のように「ファウンダーズオフィス」は、創業者の思考を拡張し、重要な業務を担いながらボトルネックを解消することで、創業者の時間を最も価値のある活動に集中させる役割を果たすため、急成長スタートアップがスピード、明瞭性、集中力を維持するために不可欠な存在となっています。
■ 資金調達ニュース
[海外]
サイバーセキュリティ
- Veza - アイデンティティ・セキュリティのための統合プラットフォーム。評価額$808MのシリーズDで$108Mを調達。投資家はNEA、Atlassian Venturesなど(Yahoo! Finance)
- Minimus - ソフトウェア・サプライチェーンの脆弱性の95%を排除するアプリケーション・セキュリティ。シードで$51Mを調達。投資家はYL Ventures、Mayfieldなど(Silicon ANGLE)
- LayerX - GenAIツール、SaaSアプリ、ブラウザ拡張機能、Web/SaaS経由のデータ漏洩、Web経由の脅威などを包括的に保護するAI搭載ブラウザセキュリティ。シリーズA合計で$37Mを調達。投資家はJump Capital、Glilot Capital Partnersなど(Yahoo! Finance)
バーティカル
- Canopy - 中規模および大規模の会計事務所向けクライアントとの契約、文書管理、ワークフロー、時間および請求書、契約および提案書などのALL-IN-ONE SaaS。シリーズCで$70Mを調達。投資家はViking Global Investors、Ten Coves Capitalなど(Yahoo! Finance)
- Rogo - LLMとファイナンスの深い専門知識を用いたAI投資銀行アナリスト。シリーズBで$50Mを調達。投資家はThrive Capital、JP Morganなど(PYMNTS)
- EdgeRunner AI - 防衛および企業向けのドメイン特化型、エアギャップ型、オンデバイスAIエージェント。シリーズAで$12Mを調達。投資家はMadrona、Four Rivers Venturesなど(Yahoo! Finance)
フィンテック
- Thunes - 130か国、80以上の通貨、デジタル通貨、新興通貨を含む多様な決済システムを相互運用可能にするシームレスなクロスボーダー決済インフラ。シリーズDで$150Mを調達。投資家はApis Partner、Vitruvian Partnersなど(Yahoo! Finance)
- Navro - グローバルな回収、通貨変換、国際的な支払いなどの機能を提供するFintech x SaaS。シリーズBで$41Mを調達。投資家はJump Capital、Bain Capital Venturesなど(Tech.eu)
- Pliant - ドイツ発の企業の支出を合理化するための自動化ツールと物理的および仮想的なクレジットカードを組み合わせたプラットフォーム。シリーズBで$40Mを調達。投資家はIlluminate Financial、Speedinvestなど(Tech.eu)
エンタープライズ
- Persona - 企業がオンラインで顧客を確認するためのIDプラットフォーム。評価額$2BのシリーズDで$200Mを調達。投資家はFounders Fund、Ribbit Capitalなど(PYMNTS)
- Nuvo - 企業間の物理的な商品の購入を容易にするソーシャル・ライクな資材調達プラットフォーム。シリーズAで$34Mを調達。投資家はSequoia Capital、Spark Capitalなど(TechCrunch)
ソフトウェア開発支援
- Cast AI - クラウド費用の削減、Kubernetesアプリケーションのセキュリティ確保、DevOpsの生産性向上を支援するアプリケーション・パフォーマンス・オートメーション(APA)SaaS。シリーズCで$108Mを調達。投資家はG2 Venture Partners、SoftBankなど(TechCrunch)
- Lightrun - AIコーディングで膨大に増加したコードによって発生するバグとなるコードを特定し、デバックするためのオブザバビリティSaaS。シリーズBで$70Mを調達。投資家はAccel、Lightspeedなど(TechCrunch)
リーガルテック
- Supio - 訴訟関連の法律事務所が訴訟前の分析から法廷戦略まで、訴訟ライフサイクル全体を効率化できるAIプラットフォーム。シリーズBで$60Mを調達。投資家はSapphire Ventures、Mayfieldなど(Yahoo! Finance)
ヘルスケア
- Plenful - 医療チームの働き方を変革するAIワークフロー自動化プラットフォーム。シリーズBで$50Mを調達。投資家はArena Holdings、Bessemer Venture Partnersなど(PR Newswire)
AIイネーブルド・サービス
- Cheehoo - AIアニメーションスタジオ。Greycroft、Point72 Venturesなどから$10Mを調達(TechCrunch)
ハードウェア×AI
- P-1 AI - 元エアバスCTOと元DeepMindの研究者が設立した、*物理システムのエンジニアリングAGIスタートアップ。シードで$23Mを調達。投資家はRadical Ventures、Village Globalなど(Yahoo! Finance)
その他
- Nous Research - 基礎的なAIモデルの進歩に焦点を当てたオープンソースのAIラボ。Paradigm、Together AIなどから$65Mを調達(Radical Data Science)
[国内]
- Manabie - 日本および東南アジアを中心に、学習塾、学校法人等に対し、学習管理・コミュニケーション機能、教材・コンテンツ管理機能、請求管理機能等をオールインワンで提供するバーティカルSaaSを展開。シリーズBで総額約33億円を調達。投資家はJIC ベンチャー・グロース・インベストメンツ、三菱UFJキャピタル、ヒューリック、増進会ホールディングスなど(PR Times)
- 10X - スーパーマーケットやドラッグストアのEC化を支えるプロダクトを提供。グローバル・ブレインおよびJICベンチャー・グロース・インベストメンツなどから総額21億円の資金調達を実施(PR Times)
- エキュメノポリス - 対話型診断AIエージェントプラットフォームや言語学習支援AIサービスを展開。プレシリーズAでエクイティ調達と研究開発型融資を合わせて総額7.5億円の資金調達を実施。投資家はBeyond Next Ventures・科学技術振興機構・三菱UFJキャピタル・マニエスグループ・QBキャピタル・静岡キャピタル(PR Times)
- つながりAI - 自治体向け「相談AI」サービス・学校向け「友達AI」サービスを開発。エンジェルラウンドにおいて約6,000万円の資金調達を実施。投資家は有安伸宏氏、松尾豊氏、ANRI、福吉 潤氏(PR Times)
M&A
- Poetics - ナレッジワーク、商談解析AI「JamRoll」を展開するPoetics社の全株式を取得。セールスAIエージェントシリーズの開発を加速。Poetics社CEOの山崎はずむ氏がナレッジワークCAIO(Chief AI Officer)に就任(PR Times)