【Evalとは何なのか】AIプロダクトは「精度」がMoatになる【AI探求ラボ Vol.08】

May 23, 2025

スタートアップがAIプロダクトを競いあう時代で、差別化要因はいったい何でしょうか？

PdM向けニュースレター「TheProductCompass」は「AIではAI Evaluation（AI評価）が大事で、どんなAIプロダクトのイニシアチブにおいても最重要だ」と述べています。同記事ではY CombinatorのGarry Tanも「AI EvaluationがAIスタートアップの真のMoatになっている」とコメント。

AI Evaluationは「Eval」と略され、AIプロダクト界隈でもホットなワード。では、そもそも「Eval」とは何を意味するのか。なぜ「Eval」こそが競争優位の源泉になるのか。今回は、自身もAIプロダクト開発に携わり、AIのEvalを実践している、シンガポールを拠点に在宅ケアプラットフォーム「Homage」でCPOを務める花井梓さんにインタビュー。AIプロダクト開発におけるEvalの重要性と実践方法を聞きました。

「インプット・アウトプットが不確定」というAIプロダクトの特殊性

—— そもそも「Eval」とは何なのでしょうか？

「Eval」の説明に入る前に、AIプロダクトと普通のプロダクトがまったく異なる理由からお話ししたいと思います。

AIプロダクトの大きな特徴は、ユーザーの入力や、その結果として生成されるアウトプットを、事前に完全には定義しにくいことです。たとえば、同じインプットであっても、LLMを通すことで出力が毎回異なる可能性があるため、従来の「決められた入出力をテストする」といったアプローチが通用しにくいのです。さらに、実際の利用シーンでは、ユーザーは多様な入力を行うため、想定外のインプットにも対応できるような品質管理の仕組みが必要になります。

それにより、「作ったプロダクトが本質的にお客さまの事業課題を解決しているのか」や「プロダクションの環境において高い精度を実現できているのか」を客観的に評価し、継続的な改善につなげていく必要があります。その目的で行うのが「AIのEval」です。

AIプロダクトの「精度」こそが真のMoatになる

—— EvalはAIプロダクト全体で、どれくらいの重要度を占めていると考えますか？

OpenAIなどのファウンデーションモデルへのアクセスは誰でも可能ですし、AIプロダクト開発ツールも市場に溢れていますので、プロダクトをつくるハードルは下がっています。だからこそ、これからは<yellow-highlight-half-bold>プロダクトのアウトプットの精度こそが、その会社の競争優位性になる<yellow-highlight-half-bold>と思います。

精度を上げるには、評価をして問題点を見つけ、プロンプトを改善したり、処理メカニズムを良くしたり、複数シナリオに対応したりする必要があります。この精度向上の技術は、ツールですぐに獲得できるものではなく、企業のドメイン知識や顧客理解、技術力の蓄積があって初めて向上します。

つまり、精度こそが「プロダクトのMoat」になるんです。これができれば、その後は精度の高いものをはじめからデザインできるようになって、フィードバックをすぐに反映させられるので、高速で質の高いプロダクトを次々と市場へ投入できるようになります。

Evalをどう実践するか？評価軸設定から自動評価の確立まで

—— 具体的にAIのEvalとは何をするのでしょうか？構成要素も含めて教えてください。

Evalの重要なポイントは、従来のQAや開発完了後のチェックとは異なり、もっと早い段階からはじめるということです。具体的には、プロトタイプがある程度形になり、AIを通じて何らかの出力が得られるようになった時点で、すでにEvalをスタートすべきタイミングと考えられます。

プロダクトの開発と並行して進められるため、早期から品質の検証と改善のループを回すことができます。

最初のステップは「評価基準」の策定です。「そのプロダクトが、どういう状態ならばお客さまに届けられる水準なのか」を定めます。たとえば、Mahesh YadavというAIのプロダクトマネジメントのエキスパートは、3つの観点から評価するフレームワークを提唱しています。「ヘルプフルネス（有用性）」「オネスト（正確性）」「ハームレス（倫理性）」です。AIチャットボットを例にすると、有用性では「質問へFAQに応じた答えを出しているか」、正確性では「事実と異なることを話していないか」、倫理性では「不適切な表現をしていないか」といったことを評価します。

特にエンタープライズプロダクトでは「倫理性」が重要です。不適切な表現になっていないか、出すべきでない個人情報が明かされていないか、不要に競合企業について言及していないかといったマイナス面だけでなく、スコープ外の質問に対して的確な回答を返しているかというプラス面も見ます。想定外のシナリオでもAIが適切に対応できることで、プロダクトの信頼性が決まるからです。あとは上記の軸とは別に、AIプロダクトのコスト、たとえば「1処理あたりのコスト」も評価軸に入れることもありますね。

次のステップは「バイブチェック」です。設定した品質基準に対して、ちゃんとした精度で出力しているのかを、人間の目で評価していくというプロセスです。プロトタイプができたら、10〜20個のシナリオを作成し、インプットを試して人間の目で評価します。これにより評価軸自体の適切さもチェックできますし、大まかな期待値に沿ったアウトプットがでているかを評価します。

その後はEvalツールを使った自動評価に移ります。Evalのツールはたくさん出てきていますが、手頃なもので言うとOpenAIのAPI版も「Eval」ツールを提供しています。用意するのは、インプット・アウトプットのサンプルを100個ほどと、色々な「シナリオ」です。これらを入力すると、事前に設定した評価軸に沿って、どんな精度のプロダクトが出てきているのか、入力したサンプルの何割が閾値に達したのかを評価してくれます。さらに規模が拡大したら、社内にEvalの仕組みを構築して、自動評価を常に走らせる体制を作ります。

そして、いよいよローンチを迎えます。ローンチ時に設定した「ヘルプフルネス、オネスト、ハームレス」から成る評価軸をもとに、それぞれの閾値を設定します。たとえば、ベータテストの時点では「ヘルプフルネスは何パーセントで合格とする」とか、「その後、もう少しスケールの大きなトライアルではより高い閾値にする」とか。そして、本当にプロダクションでエンタープライズのお客さまに販売していくとなったときには「ハームレスを100%に達していなければならない」など、状況に応じた評価軸を設定し、閾値に達成したらローンチしていきます。ローンチ後も継続的にモニタリングし、PDCAをまわして改善を続けましょう。

評価基準と閾値の決め方は、機能的な数値から成功の定義へ

—— 最初の目標値を設定するのは難しそうですが、どのように決めるのでしょうか？

正解はありませんが、大事なのは「このプロダクトが、どんな顧客課題を、どう解決すれば成功と言えるのか」というイメージを具体化することです。この解像度が高まるにつれ、自然と評価の軸も見えてきます。

プロダクトの特性、ユーザーの課題や期待値、市場でのそのプロダクトの位置付け、どのくらいの精度になっていれば競争優位と言えるのか……こうした複数の観点から、評価基準を多角的に設計していきます。

閾値については、最初から完全に決め打ちにせず、イテレーションを重ねながら調整していくことが一般的です。

また、お客さまに対しては、「70%を超えたら良い」といった閾値の数字の話をしてもイメージが湧かないので、「良いか悪いか」「使えるか使えないか」という定性的な視点で評価されることになります。ですので、ローンチに値する到達点を社内のステークホルダーたちと握っておくというのも大事だと思います。

それから、トップマネジメントに対してのアライメントや合意形成にも活用できると思います。「このプロダクトが良いかどうか」は日常の会話では曖昧になりがちですが、たとえば「Evalを設計しました。この7つの軸に沿って、各閾値をクリアすれば『成功』と定義したいと思います」と伝えれば、現場にいない経営陣とも、プロダクトの完成度について建設的に議論ができるようになります。

そういう意味でも、マネジメントの合意形成や会話のツールとしても使えますし、OKRの基準としても展開可能です。たとえば「このプロダクトは、指定した閾値をクリアすれば、OKRとして『達成』とみなします」といった形で、目標設計にも活用できるでしょう。

—— ローンチ後、Evalの評価軸の結果は、PdMが常にモニタリングしているものなのですか？どう運用しているのでしょうか？

Evalの評価軸にも複数のレイヤーがあります。大きくは、エンジニアでモニタリングするべきものと、PdMがモニタリングするべきものに分かれます。

エンジニアが見るべきものは、以下のような点が挙げられます。

1回あたりの出力にかかる処理時間（例：1.5秒以内）
レイテンシー（応答時間）のばらつき
システムエラーの有無
コストが設定金額内に収まっているか

こういった、システムの健全性や運用上の要件に関する指標は、エンジニアチームがダッシュボードで常に監視し、基準を下回る場合はプロダクトの提供を一時停止する判断が必要になることもある重要な要素です。

一方で、PdMが見るべき観点は以下のものがあります。

たとえば、ローンチ時点で99%だった倫理性（ハームレス）のスコアが、数週間後に95%まで落ちている
ユーザー満足度（ヘルプフルネス）が特定のセグメントで低下している
自動評価のスコアは良好だが、ユーザーからのフィードバックとの乖離がある

こうしたプロダクトの「精度」や「信頼性」そのものに関わる評価軸は、PdMが中心となって継続的にチェックし、改善のアクションにつなげる必要があります。ですので、評価項目ごとに「誰がモニタリングするのか」を明確にしたうえで、社内で共通のダッシュボードを用意し、以下のような観点で運用することが一般的です。

最初のフェーズでは毎日1回チェックする体制を整える
安定してきたら週次・月次に切り替え、PDCAをまわす
評価基準を満たさない場合は、どの指標で外れているかを特定し、対応方針を素早く立てる

EvalはPdMの新たな重要業務になりつつある

—— Evalの設計から運用まで、どのような体制になることが多いですか？

PdMがプロダクト要件定義を担当する体制なら、Evalの責任もPdMが持つことが多いです。ただし、すべての評価軸をPdMが単独で定義するのではなく、評価項目ごとに関係者との連携が必要です。たとえば、レイテンシーやエラー率、処理コストといったシステム関連の評価項目については、エンジニアリングチームとの合意形成が不可欠です。このような技術的な基準は、実装可能性や実際のデプロイ環境も踏まえて共同で設定しなくてはなりません。

また、評価の実施方法やツールの選定に関しても、体制はプロダクトのフェーズや性質によって変わります。少量の手動評価やノーコード評価（※OpenAIのEvalツールなど）で済む段階であれば、PdMが直接運用することも可能です。

一方で、数千〜数万件規模の自動評価が必要になる場合は、評価用のシステムやワークフローの構築が必要となり、エンジニアとの協働が前提となります。

さらに、プロダクトの性質によってはビジネスサイドとの連携も重要です。たとえば、チャットボットのようにユースケースや期待値が明確なプロダクトであれば、PdMとエンジニアだけで評価設計が可能です。しかし、市場に前例がない新規性の高いプロダクトの場合は、「どの水準であれば競争優位とみなせるか」といった視点で、営業・CS・経営陣からのインプットが不可欠になることもあります。

—— Evalの学び方やコツはありますか？

米国のソースを中心に情報収集しています。OpenAIやAnthropic、Microsoftは、Evalにかかわらず、プロダクトマネジメントに有用な情報をたくさん発信していますし、そのほか主要なAIプロダクトをローンチしている企業のブログを読んだり、ポッドキャストを聴いたり、AIプロダクトのアドバイザーと話したりして、実践している現場のベストプラクティスを収集しています。たとえば、Microsoftが公開しているEvaluation of Generative AI Applicationsという記事では、GenAIの評価を「静的評価」「人間による評価」「A/Bテスト」など複数の視点で体系的に捉えており、エンタープライズ向けプロダクトでの評価運用を設計するうえで参考になります。

何が大事かが分かれば、具体的なやり方は検索で見つかります。しかし、「評価軸をどう設定するか」「どの閾値が正しいか」は自社プロダクト特有の問題なので、PdMとしての経験と戦略的思考が必要です。実際に手を動かして試行錯誤することが大切でしょう。

AIプロダクト開発の成功はアウトカム志向のEvalから生まれる

—— 最後に、AIプロダクトを作ろうとしている起業家やPdMへのメッセージをお願いします。

現在、多くの方が「どう作るか」に注力していますが、ツールやインフラが整ってきた今、次に問われるのは「どれだけ良いものを作れるか」「本当に課題を解決できているか」というアウトカムの質です。<yellow-highlight-half-bold>PdMは、開発プロセスの中にEvalを組み込むことを“当たり前の工程”として設計すべき段階に来ています<yellow-highlight-half-bold>。AIプロダクトでは、要件定義を固めるよりも先にプロトタイプを動かしてみることが多いため、従来のPdM業務で要件定義に要していた時間の一部を、EvalのようなAI特有の重要な作業にシフトするのも有効だと思います。

最後に、トップマネジメントやCEOの役割についても再認識しておきましょう。経営層の果たすべき責任とは、AIプロダクトを「作ること」ではなく、そのプロダクトが「十分な品質と成果（アウトカム）」を生み出していること。そして、それを達成できるチームをリードすることが求められます。

花井梓 Azusa Hanai （@azh）
Homage Chief Product Officer
日本CPO協会理事
‍慶應義塾大学経済学部、ハーバード経営大学院卒（MBA）。新卒でマッキンゼー・アンド・カンパニー日本支社に入社し、准パートナーを務める。その後2017年から、英国にてアマゾン欧州・アジア生鮮事業のプロダクト・マーケティング責任者を務め海外事業の成長を牽引。2022年にシンガポールへ拠点を移し、Homageにて現職。APACで有数の在宅ケアプラットフォームとしてシンガポール・マレーシア・オーストラリアのプロダクトおよびエンジニアリングの責任者を務める。

（構成＝小林千尋聞き手＝湊雅之編集＝小林千尋、長谷川賢人）

5/23/2025

プロダクト

【Evalとは何なのか】AIプロダクトは「精度」がMoatになる【AI探求ラボ Vol.08】

「インプット・アウトプットが不確定」というAIプロダクトの特殊性

AIプロダクトの「精度」こそが真のMoatになる

Evalをどう実践するか？評価軸設定から自動評価の確立まで

評価基準と閾値の決め方は、機能的な数値から成功の定義へ

EvalはPdMの新たな重要業務になりつつある

AIプロダクト開発の成功はアウトカム志向のEvalから生まれる

関連タグ：

AI

カテゴリーのその他おすすめの記事はこちら

AI起業家に求められる5つのマインドセット【AI探求ラボ Vol.10】

【中国AI市場の現在地】中国大手VC「Legend Capital」Co-CIO・朴焌成に聞く、急成長の「3つの要因」そして日本への示唆

【AIエージェント開発の最前線】Mastra創業者が語る「Train in Python, Ship in TypeScript」の真意【AI探求ラボ Vol.09】

最先端企業の目利き「Lux Capital」Grace Isfordと考える、AIスタートアップが勝つためのMoat

数時間分の作業時間を削減できるケースも！SaaS企業3社の実践者に聞く「AI活用法」

いま注目のAIエージェント開発フレームワークはこれだ！非エンジニアでもわかりやすい「Mastra」超入門【AI探求ラボ Vol.07】

今よく読まれている記事はこちら

【AI時代のPdM実践論】プロダクト開発の常識が変わる境界線！SaaSとAIのプロダクトマネジメントにおける変化と対応策

SaaSxAI Weekly Vol.156（6/2〜6/8のSaaSトピック）：「営業へのインセンティブプランの基本方針」「Anthropic社 Mike Krieger氏が語る：AIがプロダクト開発に与える影響」など

【経営の土台を作る必要性】スタートアップがシリーズA直後に「一人目経営企画」を迎えた、その理由と価値

SaaSxAI Weekly Vol.155（5/26〜6/1のSaaSトピック）：「AIネイティブ企業になるための9つのポイント」「永続する企業を創り出すのは執念 | David Senra氏」など

SaaSxAI Weekly Vol.154（5/19〜5/25のSaaSトピック）：「モチベーションの正しい見つけ方」「ミドルマネジメントをうまく機能させる5大原則」など

SaaSxAI Weekly Vol.153（5/12〜5/18のSaaSトピック）：「Palantirが究極の起業家輩出企業になった理由」「AIのセカンドエフェクトと新たな5つのビジネスチャンス」など

ALL STAR SAAS FAMILY

ALL STAR SAAS FUNDのメールマガジン
「ALL STAR SAAS NEWSLETTER」

メニュー

ALL STAR SAAS FUNDのメールマガジン「ALL STAR SAAS NEWSLETTER」購読登録受付中

【Evalとは何なのか】AIプロダクトは「精度」がMoatになる【AI探求ラボ Vol.08】

「インプット・アウトプットが不確定」というAIプロダクトの特殊性

AIプロダクトの「精度」こそが真のMoatになる

Evalをどう実践するか？評価軸設定から自動評価の確立まで

評価基準と閾値の決め方は、機能的な数値から成功の定義へ

EvalはPdMの新たな重要業務になりつつある

AIプロダクト開発の成功はアウトカム志向のEvalから生まれる

関連タグ：

ALL STAR SAAS FUNDのメルマガ「ALL STAR SAAS NEWSLETTER」に登録しませんか？

AI

カテゴリーのその他おすすめの記事はこちら

AI起業家に求められる5つのマインドセット【AI探求ラボ Vol.10】

【中国AI市場の現在地】中国大手VC「Legend Capital」Co-CIO・朴焌成に聞く、急成長の「3つの要因」そして日本への示唆

【AIエージェント開発の最前線】Mastra創業者が語る「Train in Python, Ship in TypeScript」の真意【AI探求ラボ Vol.09】

最先端企業の目利き「Lux Capital」Grace Isfordと考える、AIスタートアップが勝つためのMoat

数時間分の作業時間を削減できるケースも！SaaS企業3社の実践者に聞く「AI活用法」

いま注目のAIエージェント開発フレームワークはこれだ！非エンジニアでもわかりやすい「Mastra」超入門【AI探求ラボ Vol.07】

今よく読まれている記事はこちら

【AI時代のPdM実践論】プロダクト開発の常識が変わる境界線！SaaSとAIのプロダクトマネジメントにおける変化と対応策

SaaSxAI Weekly Vol.156（6/2〜6/8のSaaSトピック）：「営業へのインセンティブプランの基本方針」「Anthropic社 Mike Krieger氏が語る：AIがプロダクト開発に与える影響」など

【経営の土台を作る必要性】スタートアップがシリーズA直後に「一人目経営企画」を迎えた、その理由と価値

SaaSxAI Weekly Vol.155（5/26〜6/1のSaaSトピック）：「AIネイティブ企業になるための9つのポイント」「永続する企業を創り出すのは執念 | David Senra氏」 など

SaaSxAI Weekly Vol.154（5/19〜5/25のSaaSトピック）：「モチベーションの正しい見つけ方」「ミドルマネジメントをうまく機能させる5大原則」 など

SaaSxAI Weekly Vol.153（5/12〜5/18のSaaSトピック）：「Palantirが究極の起業家輩出企業になった理由」「AIのセカンドエフェクトと新たな5つのビジネスチャンス」 など

ALL STAR SAAS FAMILY

ALL STAR SAAS FUNDのメールマガジン「ALL STAR SAAS NEWSLETTER」

メニュー

SaaSxAI Weekly Vol.155（5/26〜6/1のSaaSトピック）：「AIネイティブ企業になるための9つのポイント」「永続する企業を創り出すのは執念 | David Senra氏」など

SaaSxAI Weekly Vol.154（5/19〜5/25のSaaSトピック）：「モチベーションの正しい見つけ方」「ミドルマネジメントをうまく機能させる5大原則」など

SaaSxAI Weekly Vol.153（5/12〜5/18のSaaSトピック）：「Palantirが究極の起業家輩出企業になった理由」「AIのセカンドエフェクトと新たな5つのビジネスチャンス」など

ALL STAR SAAS FUNDのメールマガジン
「ALL STAR SAAS NEWSLETTER」