スタートアップがAIプロダクトを競いあう時代で、差別化要因はいったい何でしょうか?
PdM向けニュースレター「TheProductCompass」は「AIではAI Evaluation(AI評価)が大事で、どんなAIプロダクトのイニシアチブにおいても最重要だ」と述べています。同記事ではY CombinatorのGarry Tanも「AI EvaluationがAIスタートアップの真のMoatになっている」とコメント。
AI Evaluationは「Eval」と略され、AIプロダクト界隈でもホットなワード。では、そもそも「Eval」とは何を意味するのか。なぜ「Eval」こそが競争優位の源泉になるのか。今回は、自身もAIプロダクト開発に携わり、AIのEvalを実践している、シンガポールを拠点に在宅ケアプラットフォーム「Homage」でCPOを務める花井梓さんにインタビュー。AIプロダクト開発におけるEvalの重要性と実践方法を聞きました。
「インプット・アウトプットが不確定」というAIプロダクトの特殊性
—— そもそも「Eval」とは何なのでしょうか?
「Eval」の説明に入る前に、AIプロダクトと普通のプロダクトがまったく異なる理由からお話ししたいと思います。
AIプロダクトの大きな特徴は、ユーザーの入力や、その結果として生成されるアウトプットを、事前に完全には定義しにくいことです。たとえば、同じインプットであっても、LLMを通すことで出力が毎回異なる可能性があるため、従来の「決められた入出力をテストする」といったアプローチが通用しにくいのです。さらに、実際の利用シーンでは、ユーザーは多様な入力を行うため、想定外のインプットにも対応できるような品質管理の仕組みが必要になります。
それにより、「作ったプロダクトが本質的にお客さまの事業課題を解決しているのか」や「プロダクションの環境において高い精度を実現できているのか」を客観的に評価し、継続的な改善につなげていく必要があります。その目的で行うのが「AIのEval」です。
AIプロダクトの「精度」こそが真のMoatになる
—— EvalはAIプロダクト全体で、どれくらいの重要度を占めていると考えますか?
OpenAIなどのファウンデーションモデルへのアクセスは誰でも可能ですし、AIプロダクト開発ツールも市場に溢れていますので、プロダクトをつくるハードルは下がっています。だからこそ、これからは<yellow-highlight-half-bold>プロダクトのアウトプットの精度こそが、その会社の競争優位性になる<yellow-highlight-half-bold>と思います。
精度を上げるには、評価をして問題点を見つけ、プロンプトを改善したり、処理メカニズムを良くしたり、複数シナリオに対応したりする必要があります。この精度向上の技術は、ツールですぐに獲得できるものではなく、企業のドメイン知識や顧客理解、技術力の蓄積があって初めて向上します。
つまり、精度こそが「プロダクトのMoat」になるんです。これができれば、その後は精度の高いものをはじめからデザインできるようになって、フィードバックをすぐに反映させられるので、高速で質の高いプロダクトを次々と市場へ投入できるようになります。
Evalをどう実践するか?評価軸設定から自動評価の確立まで
—— 具体的にAIのEvalとは何をするのでしょうか?構成要素も含めて教えてください。
Evalの重要なポイントは、従来のQAや開発完了後のチェックとは異なり、もっと早い段階からはじめるということです。具体的には、プロトタイプがある程度形になり、AIを通じて何らかの出力が得られるようになった時点で、すでにEvalをスタートすべきタイミングと考えられます。
プロダクトの開発と並行して進められるため、早期から品質の検証と改善のループを回すことができます。
最初のステップは「評価基準」の策定です。「そのプロダクトが、どういう状態ならばお客さまに届けられる水準なのか」を定めます。たとえば、Mahesh YadavというAIのプロダクトマネジメントのエキスパートは、3つの観点から評価するフレームワークを提唱しています。「ヘルプフルネス(有用性)」「オネスト(正確性)」「ハームレス(倫理性)」です。AIチャットボットを例にすると、有用性では「質問へFAQに応じた答えを出しているか」、正確性では「事実と異なることを話していないか」、倫理性では「不適切な表現をしていないか」といったことを評価します。
特にエンタープライズプロダクトでは「倫理性」が重要です。不適切な表現になっていないか、出すべきでない個人情報が明かされていないか、不要に競合企業について言及していないかといったマイナス面だけでなく、スコープ外の質問に対して的確な回答を返しているかというプラス面も見ます。想定外のシナリオでもAIが適切に対応できることで、プロダクトの信頼性が決まるからです。あとは上記の軸とは別に、AIプロダクトのコスト、たとえば「1処理あたりのコスト」も評価軸に入れることもありますね。
次のステップは「バイブチェック」です。設定した品質基準に対して、ちゃんとした精度で出力しているのかを、人間の目で評価していくというプロセスです。プロトタイプができたら、10〜20個のシナリオを作成し、インプットを試して人間の目で評価します。これにより評価軸自体の適切さもチェックできますし、大まかな期待値に沿ったアウトプットがでているかを評価します。
その後はEvalツールを使った自動評価に移ります。Evalのツールはたくさん出てきていますが、手頃なもので言うとOpenAIのAPI版も「Eval」ツールを提供しています。用意するのは、インプット・アウトプットのサンプルを100個ほどと、色々な「シナリオ」です。これらを入力すると、事前に設定した評価軸に沿って、どんな精度のプロダクトが出てきているのか、入力したサンプルの何割が閾値に達したのかを評価してくれます。さらに規模が拡大したら、社内にEvalの仕組みを構築して、自動評価を常に走らせる体制を作ります。
そして、いよいよローンチを迎えます。ローンチ時に設定した「ヘルプフルネス、オネスト、ハームレス」から成る評価軸をもとに、それぞれの閾値を設定します。たとえば、ベータテストの時点では「ヘルプフルネスは何パーセントで合格とする」とか、「その後、もう少しスケールの大きなトライアルではより高い閾値にする」とか。そして、本当にプロダクションでエンタープライズのお客さまに販売していくとなったときには「ハームレスを100%に達していなければならない」など、状況に応じた評価軸を設定し、閾値に達成したらローンチしていきます。ローンチ後も継続的にモニタリングし、PDCAをまわして改善を続けましょう。
評価基準と閾値の決め方は、機能的な数値から成功の定義へ
—— 最初の目標値を設定するのは難しそうですが、どのように決めるのでしょうか?
正解はありませんが、大事なのは「このプロダクトが、どんな顧客課題を、どう解決すれば成功と言えるのか」というイメージを具体化することです。この解像度が高まるにつれ、自然と評価の軸も見えてきます。
プロダクトの特性、ユーザーの課題や期待値、市場でのそのプロダクトの位置付け、どのくらいの精度になっていれば競争優位と言えるのか……こうした複数の観点から、評価基準を多角的に設計していきます。
閾値については、最初から完全に決め打ちにせず、イテレーションを重ねながら調整していくことが一般的です。
また、お客さまに対しては、「70%を超えたら良い」といった閾値の数字の話をしてもイメージが湧かないので、「良いか悪いか」「使えるか使えないか」という定性的な視点で評価されることになります。ですので、ローンチに値する到達点を社内のステークホルダーたちと握っておくというのも大事だと思います。
それから、トップマネジメントに対してのアライメントや合意形成にも活用できると思います。「このプロダクトが良いかどうか」は日常の会話では曖昧になりがちですが、たとえば「Evalを設計しました。この7つの軸に沿って、各閾値をクリアすれば『成功』と定義したいと思います」と伝えれば、現場にいない経営陣とも、プロダクトの完成度について建設的に議論ができるようになります。
そういう意味でも、マネジメントの合意形成や会話のツールとしても使えますし、OKRの基準としても展開可能です。たとえば「このプロダクトは、指定した閾値をクリアすれば、OKRとして『達成』とみなします」といった形で、目標設計にも活用できるでしょう。
—— ローンチ後、Evalの評価軸の結果は、PdMが常にモニタリングしているものなのですか?どう運用しているのでしょうか?
Evalの評価軸にも複数のレイヤーがあります。大きくは、エンジニアでモニタリングするべきものと、PdMがモニタリングするべきものに分かれます。
エンジニアが見るべきものは、以下のような点が挙げられます。
- 1回あたりの出力にかかる処理時間(例:1.5秒以内)
- レイテンシー(応答時間)のばらつき
- システムエラーの有無
- コストが設定金額内に収まっているか
こういった、システムの健全性や運用上の要件に関する指標は、エンジニアチームがダッシュボードで常に監視し、基準を下回る場合はプロダクトの提供を一時停止する判断が必要になることもある重要な要素です。
一方で、PdMが見るべき観点は以下のものがあります。
- たとえば、ローンチ時点で99%だった倫理性(ハームレス)のスコアが、数週間後に95%まで落ちている
- ユーザー満足度(ヘルプフルネス)が特定のセグメントで低下している
- 自動評価のスコアは良好だが、ユーザーからのフィードバックとの乖離がある
こうしたプロダクトの「精度」や「信頼性」そのものに関わる評価軸は、PdMが中心となって継続的にチェックし、改善のアクションにつなげる必要があります。ですので、評価項目ごとに「誰がモニタリングするのか」を明確にしたうえで、社内で共通のダッシュボードを用意し、以下のような観点で運用することが一般的です。
- 最初のフェーズでは毎日1回チェックする体制を整える
- 安定してきたら週次・月次に切り替え、PDCAをまわす
- 評価基準を満たさない場合は、どの指標で外れているかを特定し、対応方針を素早く立てる
EvalはPdMの新たな重要業務になりつつある
—— Evalの設計から運用まで、どのような体制になることが多いですか?
PdMがプロダクト要件定義を担当する体制なら、Evalの責任もPdMが持つことが多いです。ただし、すべての評価軸をPdMが単独で定義するのではなく、評価項目ごとに関係者との連携が必要です。たとえば、レイテンシーやエラー率、処理コストといったシステム関連の評価項目については、エンジニアリングチームとの合意形成が不可欠です。このような技術的な基準は、実装可能性や実際のデプロイ環境も踏まえて共同で設定しなくてはなりません。
また、評価の実施方法やツールの選定に関しても、体制はプロダクトのフェーズや性質によって変わります。少量の手動評価やノーコード評価(※OpenAIのEvalツールなど)で済む段階であれば、PdMが直接運用することも可能です。
一方で、数千〜数万件規模の自動評価が必要になる場合は、評価用のシステムやワークフローの構築が必要となり、エンジニアとの協働が前提となります。
さらに、プロダクトの性質によってはビジネスサイドとの連携も重要です。たとえば、チャットボットのようにユースケースや期待値が明確なプロダクトであれば、PdMとエンジニアだけで評価設計が可能です。しかし、市場に前例がない新規性の高いプロダクトの場合は、「どの水準であれば競争優位とみなせるか」といった視点で、営業・CS・経営陣からのインプットが不可欠になることもあります。
—— Evalの学び方やコツはありますか?
米国のソースを中心に情報収集しています。OpenAIやAnthropic、Microsoftは、Evalにかかわらず、プロダクトマネジメントに有用な情報をたくさん発信していますし、そのほか主要なAIプロダクトをローンチしている企業のブログを読んだり、ポッドキャストを聴いたり、AIプロダクトのアドバイザーと話したりして、実践している現場のベストプラクティスを収集しています。たとえば、Microsoftが公開しているEvaluation of Generative AI Applicationsという記事では、GenAIの評価を「静的評価」「人間による評価」「A/Bテスト」など複数の視点で体系的に捉えており、エンタープライズ向けプロダクトでの評価運用を設計するうえで参考になります。
何が大事かが分かれば、具体的なやり方は検索で見つかります。しかし、「評価軸をどう設定するか」「どの閾値が正しいか」は自社プロダクト特有の問題なので、PdMとしての経験と戦略的思考が必要です。実際に手を動かして試行錯誤することが大切でしょう。
AIプロダクト開発の成功はアウトカム志向のEvalから生まれる
—— 最後に、AIプロダクトを作ろうとしている起業家やPdMへのメッセージをお願いします。
現在、多くの方が「どう作るか」に注力していますが、ツールやインフラが整ってきた今、次に問われるのは「どれだけ良いものを作れるか」「本当に課題を解決できているか」というアウトカムの質です。<yellow-highlight-half-bold>PdMは、開発プロセスの中にEvalを組み込むことを“当たり前の工程”として設計すべき段階に来ています<yellow-highlight-half-bold>。AIプロダクトでは、要件定義を固めるよりも先にプロトタイプを動かしてみることが多いため、従来のPdM業務で要件定義に要していた時間の一部を、EvalのようなAI特有の重要な作業にシフトするのも有効だと思います。
最後に、トップマネジメントやCEOの役割についても再認識しておきましょう。経営層の果たすべき責任とは、AIプロダクトを「作ること」ではなく、そのプロダクトが「十分な品質と成果(アウトカム)」を生み出していること。そして、それを達成できるチームをリードすることが求められます。