皆さんこんにちは。AmedTech代表の天野です。
実験と統計は研究や開発には欠かせません。大学院やポスドクでの修業はこの2つのため、と言っても過言ではありません。しかしながら、いざ研究や開発を始めると意外に基本的なことが抜けてしまったり、せっかくのツールが十分活用されていなかったり、あるいは誤用されていることがあります。今回はこの2つのつながりを俯瞰してみたいと思います。
実験は何のためにするものでしょうか?それはズバリ仮説の検証のためです。すなわちある仮定を立ててそれが正しいことを証明するために実施する行為(あるいは思考)を実験といいます。しかしながら、そうではない実験も存在します。いわゆる、感触実験と呼ばれるやつです。例えば、ある試薬のpHを調整するために酸を加えなくてはならないのだけれど、どのくらいの量加えたらよいのかわからないので、とりあえず濃い酸を少しずつ加えてみて、pHの変化を観察する、というものです。観察することが目的ですから、観察実験と呼んだりもします。実際にやってみたら、最初の一滴でpHが目標値より小さくなってしまい、薄めた酸で再度実験を繰り返した、などということはよくあります。このように、とりあえず感触をつかんでいって、最終的にどのくらいの濃度の酸をどのくらい加えたら目標許容範囲に到達できるかを知るのがこの実験の目的です。
開発の過程においては仮説を検証する実験をたくさん行い、予想と異なる結果がいっぱい出て、なぜ予想と違ったのかをじっくりと考え、修正し、再度実験を行う、というサイクルをほぼ無限といえるくらいたくさん回します。実は予測と異なる結果が出てきた時こそイノベーションのチャンスなのですが、予算と期間の決まっている企業における商品開発では、まずは目標数値を得ることが優先で、なかなか新しい発見を先へ進めることがかないません。また、開発においては、なぜそうなるのかはわからないけど、あるパラメータを変化させたらほしい値を得ることができた、ということもよくあります。研究機関において論文を書く際にはそれでは全く不十分ですが、「予算と期間の限られている」開発ではそのまま先へ進んでいくこともよくあることです。この考えをもう少し先へ進めたものが実験計画法です。実験計画法では、結果に影響を与えるパラメータを選択し、最小の実験数でこれらのパラメータの最適の組み合わせを見つけ出そうとする手法です。実験計画法ととても良く似ている手法にタグチメソッドがあります。タグチメソッドは田口玄一先生が開発した手法で、評価値にSN比を用いることによって上記のパラメータ設計を進めようとする方法です。このSN比という考え方がタグチメソッドの肝なわけですが、稿を改めてこのあたりは解説していきたいと思います。実験計画法とタグチメソッドの最も大きな違いは、実験計画法はどのパラメータがどのようにして性能に影響を与えているかを解析するには適してますが、どうしたら一番良い性能を得られるかの直接的な答えを与えないのに対し、タグチメソッドではこれとほぼ逆で、なぜそうなるかの説明は難しいが、一番良い性能を与えるパラメータ値を得られる点です。このことから、タグチメソッドはサイエンスではないという方々もいます。このあたりがサイエンスとエンジニアの分岐点なのかもしれません。
統計を取る、といいますが、なぜ統計を取るのでしょうか?一般に、統計を取る、とはある期間にわたる数値の変化を記録する、またはある集団の個々の数値を記録することを言います。この結果から過去の(あるいはその期間・集団内の)変化や規則性を解析し、未来の予測、または推定をしたいために統計を取ります。実はこの、推定をする、ことが統計の重要性であり、かつ統計を難しくしている理由でもあります。
皆さんは期待値という統計(数学)用語をご存知でしょうか?例えば宝くじの期待値とは、1等から空くじまでの配当金と確率の積を取って、これを合計したものです。これは宝くじを1枚買うと、どのくらいの賞金を期待できるのか、という数字です。これはとても分かりやすいですが、統計学では平均を期待値と言い換える場合があります。これはどういうことかといいますと、以下の例で考えてみましょう。
母集団より、\(X=x_i\)という値が観測される確率を\(p_i\)とします。また、\(N\)回の観測において、\(X=x_i\)が観測される回数を\(N_i\)と置くと、期待値\(\mu\)と平均\(\overline{x}\)はそれぞれ次の式で表されます。
$$\mu=\displaystyle \sum_{i=1}^{N}x_ip_i$$
$$\overline{x}=\displaystyle \sum_{i=1}^{N}\frac{x_iN_i}{N}$$
大数の法則から、標本サイズ\(N\)が\(\infty\)まで大きくなるとき、\(p_i=\frac{N_i}{N}\)となります。つまり、標本の数が\(\infty\)のとき、\(\mu=\overline{x}\)が成り立ちます。また、標本の数が\(\infty\)というのは、標本が母集団に一致していることを示しています。よって標本が母集団と一致するとき、期待値と標本平均が等しくなる、ということです。
なんだかわかったような、わからないような説明ですよね。これは統計の大前提に「母集団」と「標本」という考え方があるからです。実験の条件はなるべく同じにして実施することが大前提となりますが、そうはいっても時間も、気温も、湿度も違うでしょうし、細かい点まで考慮すると全く同一の実験条件を得ることは不可能です。一方で、実験においても大数の法則は適用され、実験数が多ければ多いほど真の値に近づいてきます。例えば同じ実験を100人が毎日10回ずつ1年間繰り返して得た結果は、一人が同じ日に2回実施した実験結果より、より真に近いといえます。この多量の実験結果を母集団、その一例として得られた少数の実験結果を標本と呼び、標本は母集団に含まれる、という言い方をします。考えてみれば当然のことなのですが、現場ではつい忘れがちで、「実験結果がXXXだから、これが真実だ!」と思い込んでしまいます。あくまで、その実験ではXXXという結果でしたが、100回繰り返して平均を取った時に同じ結果になるとは限りません。上の例でいうとある確率分布を持つ関数(特定の数字になる確率が関数によって規定されている事象→母集団)の平均値は、この事象を実際に実行した(標本)回数をどんどん増やしていくと、出てきた数値とその数値の出る確率の積を足し合わせたもの(すなわち期待値)と同じくなる、ということです。
このように母集団と標本という前提は統計、特にフィッシャー統計を支配する考え方です。よくばらつきの指標としてStandard Error (SE:標準誤差)を使うか、Standard Deviation (SD:標準偏差)を使うか議論されることがあります。それぞれに使われる条件が異なるのですが、皆さんご存知ですか?詳しくは統計学の教科書を参照していただきたいのですが、簡単に申し上げるとSDは標本データそのもののばらつき、SEは母集団から同じ数の標本データを何回も取り出したときその平均がどのくらいばらつくかを表したものです(\(SE=\frac{SD}{\sqrt{n}}\) \(n\):標本数)。従いまして、SEは必ずSDより小さく、かつ標本数が大きくなるとSEは小さくなります。
フィッシャー統計のほかに最近特に注目を浴びているベイズ統計という手法があります。ベイズ統計では事前確率と事後確率、という考え方をし、ある事象が起こるたびに発生確率をアップデートすることができます。このため、基本的に母集団や標本といった考えはなく、発生した事実をもとに常にアップデートをすることで事象の確率を求めます。この手法はコンピューターとの相性がとても良いため、ベイズの理論そのものは18世紀にできたにもかかわらず、それよりずっと後発のフィッシャー、ネイマン、ピアソンといった統計学者(彼らの手法を推計統計学と呼ぶことがあります)によって抑圧された歴史があり、長い間不遇をかこっていましたが、最近になって急速に復活してきています。実はベイズ統計では少ないデータ数でもとりあえずの確率を導き出すことが可能であるため、軍事や医療の分野でも使われ始め、さらに上記のアップデートができる点からスパムメールの検出や人工知能・機械学習といった分野でも使われています。
ちょっと話は飛びますが、製品を実現化するにあたり研究開発と設計開発という2つの大きな過程があります。研究開発はある特定の技術をより使いやすくしたり、それまでに知られていなかった事実を掘り起こしたりする作業です。一方で設計開発とはある特定の機能を持つ製品を、その機能を満足するように仕上げていくことです。体外診断薬でも、医療機器でもこの2つの過程が存在します。特に後者の設計開発ではその厳格性が求められ、実験計画書、実験報告書の作成が求められ、結果によって計画内容を勝手に変えることはできません。一方で前者の研究開発では開発のゴールが明確でないこともあり、まずは特徴を捉えるための感触実験が大多数を占めることもあり、実験内容に設計開発ほどの厳格性は求められません。体外診断薬や医療機器では、製品の持つ仕様や機能が本当にその通りであるのかを示さなくてはならないので、まず研究開発過程で仕様や機能を絞り込み、設計開発の過程でそれが本当であることを証明する実験を実施します。
したがって研究開発過程の初期段階で行われる実験ではあまり推定や検定といった統計手法が用いられることは少なく、ほとんどがデータの分布や特徴を解析する手法が主体です。ところが研究開発が進み、使用する要素(試薬や部品など)が絞られてくると、各要素の分量、pH、強度、プロセス時間、温度などといったパラメータの最適値を探る作業が続きます。このあたりが統計解析がもっとも使われる領域です。実験計画法やタグチメソッドを縦横無尽に使いこなせれば、製品となった時の機能の安定性や、製造時における出荷の安定性をぐっと引き上げることができます。一方で、この過程を安易に考えると、製品となった時に大きなしっぺ返しを食らうことになります。最終段階の設計開発の段階になりますと、ほぼ出来レースの実験となりますから、統計解析の出番はあまりありません。
このように製品を作り上げていく過程で行われる数多くの実験には、それぞれに適した統計解析手法があります。必ずしも実験量が多ければよいというものでもありませんし、安定性試験のようにあらかじめよく計画を立てておかないと何か月も無駄にしてしまうこともあります。もし開発の過程でお悩みがあればぜひご相談ください。ご連絡をお待ち申し上げます。