ある技術や製品などの「効果の有無」は、どうやって確かめたらよいのだろうか。
#む、このカテゴリは【種】の仲間にする方がいいかな?
#ま、そこは追々考えよう。
#ぼくは科学の人ではないので、勘違いも多々ありそう。例によって、突っ込み歓迎。
ちょっと極端な例で考えてみた。
腕利きの職人が刃物を作る。その刃物には、よく切れるようにというおまじないがかけられる(極端すぎ?)。その刃物は切れ味がなかなかよかった。さて、切れ味のよさは、本当におまじないのためなのか。それはどうすれば確認できるのか。よく「ダブルブラインド(二重盲検法)ができてない」とか「ランダムサンプリングが」「サンプル数が」なんて話が出るけれど、具体的にはどういうことで、どうすればいいのだろう。
◆
ここでいう「おまじない」は、別にオカルトなものじゃなくて、なにかの技術に置き換えても同じことだ。
思いつきやすい確かめ方に「比較」がある。真っ先に思いつくのは、おまじないがかけられていない刃物との比較だろう。なにかの効果の有無を調べたいのであれば、それ以外の条件を同一にしておく必要があるに違いない。そこに異論のある人は少ないだろう。じゃあ、具体的には同一にされるべき「それ以外の条件」って、どんなものがあるのだろうか。どうすればよけいな違いを排除できるだろう。
おまじないの前と後で、なにかを切って比べてみる。いわゆる使用前・使用後だ。それでなにが確かめられるだろうか。このとき、おまじないをかける前か後かを、試す人がわかっていても構わないだろうか。
別の刃物と比較する方法はどうだろう。別の職人が作った刃物と比較することには意味があるだろうか。また、同じ職人が作った、おまじないをかけていない刃物と比較するとしたら、意味のある比較はどんなものだろう。
人間が試す場合には、試す人の手癖といったものは問題にならないだろうか。刃物がハサミだったとして、手に馴染む刃物の方が切れ味がよい「ような気がしてしまう」といったことは、起きないだろうか。また、手の大きさや指の太さはどうだろう。
一方のハサミには、十分に手入れがされていた(たとば機械油がさされていた)けれども、もう一方の刃物は長いことしまい込まれていたものだ、といった違いがある場合はどうだろう。
なにを比較するかという問題もある。たとえば切ったものの切断面を比べるとか、切りやすさを比較するとか、そういう違い。前者は写真に撮ったり数値化したりしやすいから、誰が比較しても同じ結論が出やすいだろう。でも後者は感覚の問題なので、そもそも比較しにくい。試す人や、そのときどきの条件に左右される可能性が高い。
◆
おまじないの前かどうか(新技術を採用した製品かどうか)、誰が作ったものかといったことを、試す人が知っていてはダメだ。もっと言うと、試す人に刃物を渡す人が知っていても危うい。おまじない後の刃物を渡す時には慎重で、おまじない前の刃物を渡すときはぞんざいだ、なんて具合に態度が違ってしまうかもしれない。そうしたら、試す人は「ああ、大切そうにしている、これがおまじない後の刃物だな」とわかってしまうかもしれない。
ダブルブラインドとか二重盲検法というのは、こういう考え方というか手続きのことだ。
手癖や、手に馴染むかどうか、指の太さや手の大きさといったことも考えあわせると、試す人は一人だけでは十分ではない。試す人の個人的な偏りが結果を左右してしまう可能性があるからだ。偏りを排除しようにも、その偏りが事前に全部わかるとは限らない。であれば、手っ取り早いのは複数の人に試してもらうことだ。
試してもらう人を複数用意するとして、どんな人でもよいのだろうか。たとえば、同じ年齢・性別・人種で集めてしまうと、手の大きさはどうだろう。指の太さはどうだろう。似通ってしまうのではないか。たとえば「若い日本人男性にとっては、どういう効果があるのか」ということを調べるのであれば、そうした偏りに意味があるが、刃物の切れ味を純粋に調べるのであれば、偏りはないほうがよい。いわゆるランダムサンプリングと呼ばれる考え方だ。
複数でありさえすればよいのかというと、そうとも言えない。人数が少ないと、たまたま偏ったサンプルが集まってしまう可能性がある。2人よりは10人、10人よりは100人の方が、よりランダムになって偏りが中和される。
また、試してみる刃物もひとつだけでは十分ではない場合があるだろう(常に、かな?)。どのような結果であれ、その刃物だけがたまたまそういう結果を出してしまっただけかもしれないからだ。いくつもの刃物で試せば、その疑いは持たずに済む。
こういう話を、十分なサンプル数を確保するとかなんとか……。この辺は統計が詳しい人に突っ込んで欲しいところ(正月に統計の入門書を読もうと思ったんだが、いまだ果たせず・汗)。どれぐらいのサンプル数なら正確かという話は、テーマ次第だったりする。おまじないの刃物の場合はそんなにものすごい数を集める必要はないかもしれないが、もしも「日本人には××な傾向がある」とか言いたいのであれば、日本人は1億人以上もいるので、数千とかいうオーダーのサンプルが必要になるだろう。
もっと慎重を期するのであれば、時間がたってから同じテストをやっても同じ結果が出るかどうかを確かめるといいだろう。同時に多数で実験する方法でも同じような効果があると思うのだけど、要は「いつも同じ結果が出るか=再現性があるか」が大事だ、ということなのだと理解している。
◆
「おまじない以外の条件を同一」にするためのこうした配慮は、およそ「思い込みと偶然を排除するため」と言っちゃっていいんだろう(その道ではもっと別の言い方があるかもしれない。なにしろ無学なもんでさ、よく知らないのだ)。
こうやって条件を整えて比較をするような実験を、科学の世界では「対照実験」とか「コントロール実験」と呼ぶようだ。テレビの情報バラエティなどの「実験」が、「実験としての体裁をなしていない」「あんなものでは、なにかを確認したことにはならない」などと言われるのは、上記のような条件をクリアしておらず、「対照実験」になっていないという意味だろう。
こんなふうに、配慮すべきことを考えて、どうすれば確かめられるかを検討することや、そうやってできた組み立てが、たぶん科学の人たちの言う「実験のデザイン」ってやつだ。「実験のデザインがすべてだよね」なんていう話の意味が、ちょっとわかった気がする(あ、勝手に想像でわかった気になってはいけませんね。すいません(^^;;)。
こうした配慮だけでは効果の有無がはっきりしない場合もある。たとえばサンプルによってバラツキが出てしまうような場合だ(ほかにもあるかも)。その場合は統計を用いて、有意に差があると認められるかどうか、なんてことで判断されることになる。そういえば、そもそもこうした配慮の背景にあるのは、統計的な物事の判断方法らしい。科学的判断の基本には統計が横たわっておるのだなあ。
◆
おもしろいことに、トンデモとかニセ科学とか言われる製品の多くに、上記のような配慮をクリアしていない宣伝がよく見られる。それが、上記のような配慮の必要性をメーカーや販売者が理解していないためなのか、それとも消費者が理解していないと考えられているためなのかはわからない。また、この辺を指摘されると逆上する人や、こういう配慮の重要性に理解を示さない人もいるらしいのだが、それがなぜなのかもよくわからない。まあその、なんとなく想像がつくような気はするのだけど。
でも、「思い込みと偶然を排除するため」の、こうしたほんのいくつかの条件を覚えておくだけで、ある製品や実験・メディアが信頼の置けるものなのかどうか、ある程度は判断がつくわけだ。なかなか便利なワンポイント知識とも言えるだろう。