A/Bテストの正しいやり方｜5つの手順と「勝率3割」の活かし方

2026.06.132026.07.06

ページに広告が含まれる場合があります

A/Bテストのやり方そのものは、難しくありません。元のパターンAと変更版のパターンBを同時に出し分けて、数字で比較する──それだけです。

しかし、「正しいやり方」となると、話は別です。実際、多くのテストが、やり方の誤りによって「偶然の差」を「改善の成果」と読み違えて終わっています。

先に結論をお伝えすると、A/Bテストの正しいやり方とは、仮説を一文にし、変更を1か所に絞り、判定基準を「開始前に」決めて、決めた数まで結果を覗かないこと。この順番さえ守れば、統計の数式を覚える必要はありません。

正しいA/Bテストは、次の5つの手順に集約されます。

仮説を立てる
変更は一度に1か所
サンプルサイズを事前に決める
最低2週間、途中で結果を覗かない
事前に決めた基準で判定する

先に、私の立場をお伝えしておきます。

私はGoogleリスティング広告の運用を生業にしており、広告文やランディングページのテストを日常的に回し続けています。その経験から言えるのは、A/Bテストとは突き詰めれば、自分のセンスや思い込みを疑い、判定を市場に委ねる技術だということです。

そしてもうひとつ。世の中のA/Bテスト解説の多くは、潤沢なアクセスを持つ企業サイトを前提に書かれています。

この記事では5つの手順に加えて、教科書どおりのサンプル数が集まらない個人サイト・小規模事業では、どう検証すればいいのかという現実解まで踏み込みます。私自身が、その規模でテストを回してきた当事者だからです。

AIライティングブートキャンプ — 本物の AIライティングを
無料で学んでみませんか？
【無料参加特典】
ビジネス自動化講座（定価169,800円）

A/Bテストとは──「意見」ではなく「行動」で決める検証法
A/Bテストの正しいやり方──5つの手順
アクセスが少ない個人サイトでの現実解──教科書どおりが無理なとき
「手応え」と「判定」はズレる──広告運用の現場で学んだこと
勝率3割で正常──テストは「単発」ではなく「文化」で効く
おわりに──正しいやり方とは、判定を自分の外に置くこと

A/Bテストとは──「意見」ではなく「行動」で決める検証法

A/Bテストとは、WebページやLP、広告文、メールの件名などについて、元のパターン（A）と、変更パターン（B）を、同じ期間・同じ条件でランダムに出し分け、どちらが目標の数値（CVRやクリック率）で優れているかを比較する検証手法です。

本質は、意思決定の根拠を入れ替えることにあります。

「ベテランの勘」「声の大きい人の意見」「自分のセンス」ではなく、実際のユーザーの行動データに決めてもらう。これがA/Bテストの存在意義です。

数年前、「会話をしない」と銘打った美容室がオープンして話題になったことがありました。美容室といえば会話がつきものという常識の逆を行くこのコンセプトに、賛同する顧客の声が3000件以上集まったそうです。

当時、私はこのニュースを見て、メルマガでこう書きました。

「つまり商品なんて、顧客のニーズありきで、売ってみなければ分からない。モニター募集やテスト販売で生の声をもらってブラッシュアップするのが、結局一番早い」

会話こそがサービスだと信じていた業界の「常識」より、静かに髪を切ってほしいという顧客の「行動」のほうが正しかったわけです。

A/Bテストとは、この「売ってみなければ分からない」を、Web上で高速に、低リスクで回すための仕組みにほかなりません。

では、プロが考えた改善案は、どれくらいの確率で「勝つ」のでしょうか。

ハーバード・ビジネス・レビューに掲載された論文によると、実験文化で知られるマイクロソフトでさえ、テストしたアイデアのうち成果指標を改善したのは約3分の1。3分の1は効果がなく、残る3分の1はむしろ数字を悪化させたと報告されています。

BingやGoogleのような検索の最適化が進んだ領域では、成功率は10〜20%まで下がるとも述べられています。

参考：Kohavi, R. & Thomke, S. (2017). “The Surprising Power of Online Experiments” Harvard Business Review／https://hbr.org/2017/09/the-surprising-power-of-online-experiments

つまり、世界最高水準の専門家チームでも、3回に1回しか勝てず、3回に1回はむしろ悪化させているのです。

私はこの数字を、悲観材料ではなく「テストすべき最大の理由」だと捉えています。テストをしなければ、その「3回に1回の改悪」に気づかないまま本番に反映してしまうのですから。

A/Bテストの正しいやり方──5つの手順

ここから、具体的な手順です。どれも難しい作業ではありませんが、順番を守ることに意味があります。

手順①仮説を立てる──「なぜ変えるのか」を一文にする

最初にやるべきは、デザイン案を作ることではなく、仮説を言語化することです。

型はシンプルで、「（データ上の根拠）だから、（変更）すれば、（指標）が改善するはずだ」の一文にします。

たとえば「ファーストビューでの離脱が8割と多い。広告の文言と見出しがズレているからではないか。見出しを広告と揃えれば、直帰率が下がるはずだ」のように書きます。

仮説のないテストは、勝っても負けても「なぜそうなったか」が説明できず、次につながりません。テストの価値は勝敗そのものではなく、仮説が検証されることで貯まっていく「学び」にある──これが大前提です。

手順②変更は一度に1か所・見る指標は1つ

1回のテストで変えるのは、原則1か所だけです。見出しとボタンと画像を同時に変えて数字が動いても、どれが効いたのか永遠にわかりません。

同様に、判定に使う主要指標も1つに絞ります。CVRで判定すると決めたら、途中でクリック率に乗り換えない。指標を後から選び直すと、「どれかの数字は偶然良くなっている」ものを拾ってしまうからです。

あれもこれもと同時に変えたくなるのを、ぐっとこらえて一点に絞る。何を変えるかと同じくらい、何を変えないかを決めることが、信頼できる結果への近道です。

手順③サンプルサイズを「開始前に」決める

正しいA/Bテストと、なんとなくのA/Bテストを分ける最大の分岐点がここです。

テストを始める前に、「何件のデータが集まったら判定するか」を計算して決めておきます。

必要なサンプル数は、無料の計算ツールに次の4つを入力すれば算出できます（具体的なツールは手順⑤のあとにまとめて紹介します）。

【サンプルサイズ計算に使う4要素】

現状のCVR（ベースライン）──いまのコンバージョン率の実測値（例：2%）
検出したい改善幅（MDE）──どれくらいの差が出たら「意味がある」とするか（例：CVR2%→2.4%、相対+20%）
有意水準（α）──偶然の差を「効果あり」と誤判定してしまう確率の上限。通常5%
検出力（1−β）──本当に効果があるとき、それを見逃さずに検出できる確率。通常80%

参考：UIXHERO「A/Bテスト完全ガイド｜統計的に正しい意思決定を行う実験設計」／https://www.uixhero.com/blog/ux-research-ab-testing

用語は難しく見えますが、実務では「ツールに4つの数字を入れて、出てきたサンプル数まで待つ」だけです。

手順④最低2週間続ける──途中で結果を「覗かない」

期間は最低2週間が目安です。1週間未満だと、平日と週末でユーザーの行動が違う「曜日変動」を平準化できません。

そして、ここが人間にとっていちばん難しいところですが、事前に決めたサンプル数に達するまで、途中の結果で判断しないこと。

テストの序盤は数字が大きく揺れるため、「Bが勝ってる！もう終了でいいだろう」と早期終了すると、偶然の差を成果と誤認します。この早すぎる「覗き見（ピーキング）」は、テストを狂わせる誤判定の代表的な原因として知られています。

私自身は、判定する日をあらかじめカレンダーに入れておき、それまでは数字を眺めることはあっても、絶対に手を動かさないと決めています。見ると触りたくなるのが人間なので、「見ても動かさない」をルールにしてしまうのです。

手順⑤事前に決めた基準で判定する──「差がない」も立派な結果

サンプル数に達したら、判定ツールでp値（その差が偶然生じる確率）を確認します。p値が0.05を下回れば「統計的に有意な差あり」として勝者を採用、下回らなければ「差は確認できなかった」として現状を維持します。

なお、p値を数式で手計算する必要はありません。次に紹介する無料ツールに、AとBそれぞれの訪問者数とコンバージョン数を入力すれば、自動で算出・判定してくれます。

大切なのは、有意差が出なかったテストを「失敗」と呼ばないことです。「その変更には、思ったほどの効果がない」とわかったこと自体が学びであり、もっと大胆な変更を試すべきだという次の仮説につながります。

前述のマイクロソフトの数字が示すとおり、差が出ない・負けるテストのほうが多数派なのが普通なのです。

こうした「数字に判断を委ねる」ためには、平均やパーセントの罠に気づける最低限の読み方も必要になります。数字を読む基礎体力については、別の記事でまとめています。

2026.07.07 2026.07.07

データリテラシーが必須スキルになる理由｜AI時代の新しい読み書き

データリテラシーという言葉に、身構えていませんか。統計学、プログラミング、難しい数式──そんなイメージが先に立って、「自分には縁がない」と閉じてしまう人が多いスキルです。でも、結論から言います。 ...

補足：実務で使える無料ツール

手順③のサンプルサイズ計算と、手順⑤の有意差判定は、以下の無料ツールがあれば十分です。私も実務では、この種の計算ツールに数字を入れるだけで済ませています。

【A/Bテストに使える無料ツール】

Evan Miller「Sample Size Calculator」（手順③用）──現状CVR・検出したい改善幅・αと検出力を入れるだけで、必要サンプル数を算出してくれる定番ツール。英語ですが入力欄は4つだけです。
ABTestGuide「A/B-Test Calculator」（手順⑤用）──A/Bそれぞれの訪問者数とコンバージョン数を入れると、p値と検出力を自動計算し、有意かどうかまで判定してくれます。振り分けの偏り（SRM）の警告機能もあり、本格派です。
SurveyMonkey「A/Bテスト有意差計算ツール」（手順⑤用）──日本語で使える有意差計算ツール。英語のツールに抵抗がある方は、まずこちらから始めるのがおすすめです。

いずれもブラウザ上で完結し、登録も不要です。

ツールはあくまで計算の代行役であり、大切なのはここまで述べてきた「入力する数字を、開始前に決めておく」という順番のほうです。

アクセスが少ない個人サイトでの現実解──教科書どおりが無理なとき

ここまでが「教科書」です。そして、ここからが、多くの解説記事が書かない話です。

サンプルサイズを計算してみると、たとえば、CVR2%のページで相対20%の改善を検出するには、AとBでそれぞれ数千〜数万セッションが必要になります。月間数千PVの個人サイトや、1日数十クリックの小規模な広告アカウントでは、1回のテストに何か月もかかる計算になり、現実的ではありません。

「では、小規模ではテストは無理なのか」といえば、そんなことはありません。私が実際にやってきた現実解は、次の4つです。

① 微差を追わない──大きな変更だけをテストする

必要サンプル数は、検出したい差が小さいほど爆発的に増えます。逆に言えば、大きな差が出る変更なら、少ないサンプルでも判定できる。

ボタンの色のような微調整ではなく、見出しの訴求軸そのもの、オファーの内容、ページ構成といった「太い変更」をテストするのです。小規模サイトにとって、微差の最適化はそもそも割に合いません。

② 流入がいちばん集まる場所でテストする

テストは、母数が集まる場所でしか成立しません。アクセスが分散しているなら、いちばん流入の多いページ、いちばん表示回数の多い広告に検証を集中させます。

私がLPよりも先に広告文のテストを勧めるのは、検索広告は表示回数とクリックというデータが比較的早く貯まり、小規模でも検証サイクルを回しやすいからです。

③ 絞って検証してから、広げる

私はリスティング広告で、まず完全一致のキーワードで純粋な反応を確かめ、データが取れてからフレーズ一致へ広げる、という順番を守っています。検証の母数が小さいうちに展開を広げると、ノイズだらけのデータで判断することになるからです。

少ないアクセスを、意図的に「純度の高い一点」へ集めて検証し、確かめてから展開する。急がば回れが、結局いちばん速いのです。

④ それでも母数がなければ、「順番テスト」の限界を知って使う

どうしても同時配信のA/Bテストが組めない場合は、「今月はA、来月はB」と期間を分けて比べる方法もあります。ただしこれは、季節や外部要因の影響を受けるため、厳密な比較にはなりません。参考値にしかならないことを自覚した上で使うなら、何もテストしないよりはずっとましです。

誤差の混ざった数字を「証拠」に昇格させないことだけ、忘れないでください。

「手応え」と「判定」はズレる──広告運用の現場で学んだこと

ここからは、私自身の話です。

私はリスティング広告の現場で、広告文やLPのテストを回し続けてきました。

そこで何度も突きつけられたのは、「これは絶対に勝つ」と自信を持って書いた案が負け、「保険のつもり」で添えた地味な案が勝つという現実です。自分の中の手応えと、市場の判定は、本当にあてにならないほどズレます。

この感覚には、覚えがありました。

私は20代〜30代前半の約10年間、プロボクサーとしてリングに立っていましたが、ボクシングの勝敗は自分の手応えではなく、ジャッジの採点で決まります（KO決着以外は）。「取った」と思ったラウンドが相手に流れていることなど、珍しくもない。自己評価に裁定を下す権利はなく、判定はいつも自分の外側にある──リングで体に刻まれたこの原則は、そのままA/Bテストの原則でもあります。

だから私は、A/Bテストとは「謙虚さを仕組みにしたもの」だと考えています。

「自分のセンスは間違っているかもしれない」と毎回認めるのは、感情的には愉快なことではありません。けれど、その不愉快さを手順として制度化してしまえば、センスの良し悪しに関係なく、誰でも市場に近づいていけます。才能の不足を、仕組みで代替できるのです。

ちなみに、判定基準を「開始前に」固定することにこだわるのには、理由があります。

人間には、自分の信じたい結論を裏付けるデータばかりを集めてしまう「確証バイアス」が標準装備されているからです。テストが始まってから基準を決めようとすると、必ず「勝たせたいパターン」に有利な基準を選んでしまう。基準の事前固定は、自分のバイアスが介入する余地を物理的になくすための工夫です。

この脳の罠については、別の記事で詳しく解説しています。

2026.04.06 2026.07.19

確証バイアスとは｜「常識を疑える自分」ほど騙される脳の罠と5つの対策

先に、いちばん恥ずかしい話からします。ネット起業の初期、私は「稼げる系」の教材を、次から次へと買い漁っていた時期があります。上手なセールスレターを読むたびに、「これだ」と確信する。購入を決...

勝率3割で正常──テストは「単発」ではなく「文化」で効く

最後に、A/Bテストへの向き合い方の話をします。

前述のとおり、マイクロソフトでさえ勝率は約3分の1。つまり、3回に2回は勝てないのが「正常」です。1回のテストの勝敗に一喜一憂する姿勢そのものが、テストには向いていません。

効いてくるのは、回数と継続です。小さな勝ち（数%の改善）を積み重ねると、複利のように効いてきます。CVR2%のLPが、テストのたびに数%ずつ改善して3%になれば、同じ広告費で成果は1.5倍。A/Bテストは一発逆転の魔法ではなく、コツコツ型の資産形成に近い──私はそう捉えています。

正直に打ち明けると、私自身の月ごとの成果も、良い月と悪い月では数十倍の開きが出たことがあります。これだけ振れる世界にいるからこそ、1回の勝ち負けや1か月の数字に心を持っていかれてはいけない、と痛感してきました。

だから私は、比べる相手を「他人の好事例」ではなく「昨日までの自分の数字」に置くようにしています。先月より、先週より、検証が一つでも前に進んでいるか。その積み重ねだけが、長い目で見て成果を押し上げてくれます。

なお、「どこを」テストするかに迷ったら、効果の大きい場所から手をつけるのが定石です。LPならファーストビュー・CTA・入力フォームの3点が最優先になります。

LP改善（LPO）の全体手順は、別の記事で詳しく整理しています。

2026.06.12 2026.07.19

LPOとは｜CVRを上げるランディングページ最適化──数字は訪問者からの「返事」である

私の朝の業務は、LP（ランディングページ）の数字を読むことから始まります。 Googleリスティング広告に記事型のLPを出稿し、その数字と向き合うことを生業にして、もう長くなります。毎朝見ていて、つくづく...

おわりに──正しいやり方とは、判定を自分の外に置くこと

A/Bテストの正しいやり方を一言でまとめるなら、こうなります。

仮説を一文にして、1か所だけ変えて、判定の基準を先に決めて、決めた数まで待つ。

統計の数式を覚える必要はありません。必要なのは、自分の思い込みに判定させない仕組みを、手順として守り抜くことだけです。

そしてサンプル数が足りない小規模の現場なら、微差を捨てて太い変更を、母数の集まる場所で、絞ってから広げる。この現実解で十分に戦えます。

この姿勢は、マーケティングの外でも役に立ちます。

「自分は正しいはずだ」という確信に、小さく検証の機会を与え続ける。うまくいかなければ、感情ではなくデータに従って直す。人生の選択も、案外この繰り返しでできています。

常識や思い込みを疑い、自分の人生を検証しながら描き直してきた過程は、著書（Amazon kindle ランキング 5冠を達成した電子書籍）『あ、常識とかいいんで、とりあえず自由ください。』に綴っています。下記より無料でお読みいただけます。

電子書籍「あ、常識とかいいんで、とりあえず自由ください。」無料プレゼント中！ | セカンドキャリアはネット起業☆元プロボクサーの ReLIFE Lab

また、この記事で紹介した「仮説→検証→修正」のサイクルを、広告運用という実践の場で回しながら収益化する手法が、私が現在進行形で取り組んでいるGoogleリスティングアフィリエイトです。初心者にもわかりやすく解説した『Googleリスティングアフィリエイト大全』を無料公開していますので、検証の技術を磨く実践の場として参考にしてみてください。

Googleリスティングアフィリエイト大全

私自身も現在進行形で取り組んでいるGoogleリスティングアフィリエイトに関して、初心者にもわかりやすく解説した『Googleリスティングアフィリエイト大全』を作成しました。もちろんこれがすべての正解ではあり...

あなたの次の施策も、議論で決める前に、まず小さくテストにかけてみてください。市場の判定は、ときに耳が痛く、いつも正確です。

この記事は役に立ちましたか？

もし参考になりましたら、下のボタンで教えてください。

CVR改善 ABテストデータ分析

山下哲郎

Studio Rough Style（SRS）代表。当サイト管理人＆編集長。 1976年生まれ、熊本県出身、東京都在住。元プロボクサーで、選手引退後に、派遣・アルバイトなど30社以上の現場を渡り歩くフリーター生活を経験後、セカンドキャリとしてネット起業の世界へ。詳細は下記にて。 [clink url="https://studio-rough-style.net/self-introduction/"]