何を確認し忘れたかというと、全体のパターン数だ。もし、全体のパターン数が少なければ、全体のパターンから計算して平均的な分類方法を導き出せばよい。
しかし、先に結論を述べると、この方法では無理である。これを高校で習う数学の「組み合わせ」と「対数」を用いて確認してみる。
組み合わせの記法として、C(10,2)=10*9/2*1=45とし、対数logは底10の常用対数であるとする。
前回と同様に、具体例として、100人の学生を3つのクラスに分ける場合について見ていく。
この場合、全体のパターン数は
- 最初に100人の学生のうち、34人を選んでグループ1とし、
- 残った66人の学生のうち、33人をグループ2とし、
- さらに残った33人の学生をグループ3とし、
- グループ2とグループ3は区別されないことを考慮
すれば求めることができる。つまり、全体のパターン数TはC(100,34)×C(66,33)×C(33,33)÷2通りである。
これを実際に求めても良いのだか、イメージがつきにくいので、全体のパターン数の桁数を求めてみる。
log(C(100,34)×C(66,33)×C(33,33)÷2)
=log(C(100,34))+log(C(66,33))+log(C(33,33))-log(2)
≒26.76+18.85+0-0.30
=45.31
よって
45log10<log(T)<46log10
となるが、常用対数は単調増加なので、
10^45<T<10^46
が成り立つ。ゆえに、Tは46桁の数値であることが分かる。
言い換えると、全体のパターン数は、1000000000000000000000000000000000000000000000より大きいのである。
仮に、1秒間に100万パターン計算できたとして、これを日数に直すと約2.89×10^35日かかるのである。
全体のパターン数を調べ上げれば、真の分類方法が分かるのであるが、現実的な時間内で求めることは現状不可能なので、真の分類方法に近い、より精度の高い分類方法を実験的に考察して行こうと思う。