来年の4月からデータサイエンティストとして働くことになりました。
統計や数学の勉強をゼロから始める人のために、私自身がたどった勉強の過程や必要な知識を共有できればと思います。
必要な数学的・統計学的知識
まずデータサイエンティストは数字やデータを扱うことから、論理性が必要とされます。
その点で数学的論理力は必要です。
だからといって高度な数学の知識が必要かと言われれば、そこまで重要でもないのです。
高校数学で必要な知識
まずは高校数学で必要な知識を考えてみます。
データを扱うので確率の知識は必要です。データの列を扱うのでベクトル・数列も必要です。
他に必要な知識と言えば微分くらいですね。
高校数学から勉強を始める方は微分・数列・確率から始めてみましょう。
おすすめの高校数学教材
高校数学の教材と言ったらもうこれしかありません。一冊で全てがそろうのでまずはこれを買いましょう。
受験数学用のテクニック本なんかを買う必要はありませんし、そんなことをしても時間の無駄です。
基礎と概念だけかためていきましょう。
大学数学で必要な知識
大学数学といっても数学科でやるような定義と証明の数学は必要ないです。
大学数学のくくりではありますが高校数学の延長線上の簡単な数学のみが必要になります。
やはりデータを扱うので行列の計算(線形代数の計算)はマストでしょう。
微分は引き続き重要ですが高校数学と変わりないです。
ベクトル微分や行列微分が理解できていれば計算は簡単になりますが、データ処理でやっていることが理解できればいいので自分で計算できる必要もそこまでないでしょう。
大事になってくるのは統計学・確率論の知識です。
特に分布の種類や検定の考え方などはしっかりと理解していないと、データから得られた代表値の意味が理解できなかったりします。
結局何に対して検定しているのかわからなかったりするので、統計学については大学学部レベルはおさえておきたいですね。
基礎のための教材
難易度順におすすめの教材を並べています。
全てこなせば統計学・確率論の大枠がつかめるはずです。
もちろん理論的に完璧とまではいきませんが、最低限ここからスタートしましょう。
学習指針としては統計検定2級を目安にするといいかもしれません。
統計をもっと勉強したくなったら
統計学と確率論についてある程度基礎を学習し終えたら、線形統計やベイズ統計を学ぶと役に立ちます。私の数学・統計歴
実は私が数学の勉強を始めたのは高校2年生の時です。
それまでは一切勉強したことがありませんでした。 データサイエンティストになろうなんて思ってもいませんでした。
数学歴
高校数学(理系)を一通り勉強し終えて大学は数学科に入ります。
そこでひたすら理論と証明の数学を突き進んできますが、自分には数学の才能がないことを徐々に知っていきます。
代数学や幾何学などのピュアな数学を学んでも未来が想像つかなかったので、就職に効きそうな確率論を専攻することにしました。
確率論を専攻してみたものの、統計学の知識は皆無だったので実質ゼロからスタートです。
大学院に入学するまで標準偏差すらしらなかったといっても過言ではありません。
統計学歴
大学院の専攻は確率解析・統計学になりますが、ここからやっと統計学の勉強をはじめます。
数学的に強力なバックグラウンドを持っていた私ですが大変でした。
統計学には統計学の世界があって、統計学的な考え方が必要だからです。
論理的な記述で証明をするだけではなく、統計ソフトをつかってデータを分析してみたり考察してみたりしなければいけないのです。
統計学というのはもちろんそういう学問なので仕方ありませんが、慣れるまで大変でした。
そうして大学院で統計学を専攻し、数理ファイナンス分野で論文も書き、やっとデータサイエンティストとしてデータを使う仕事に就けるようになりました。
そんな私が思うこと
数学の勉強6年、統計の勉強2年してきて私が思うことは
もちろんすべてを否定するわけではありません。
でもゼロから論理を組み立てるような数学的学習法は絶対におすすめしません。
統計に必要な数学だけを学べばいいのです。
そして必要なものだけを勉強すれば数学1年と統計2年くらいでおつりがきます。
データに携わる職はこれからも需要が上がり続け、かつ供給はいまだ少ない状態です。ブルーオーシャンです。
大学生なら3年生までに統計学を修了し終えて、社会人でも働きながらボチボチ実用的な事からまなんでいけると思います。
知識よりもトライエラー
座学で知識を吸収することは大事ですが機械学習やデータサイエンスの仕事に就くなら、知識とプログラミングを半々くらいで交互にやっていくことが大事です。
実際にデータを扱って現実感がわきますし、何より楽しいです。
数学力ゼロからでも、統計力ゼロからでも、3年ほどあれば十分準備できると思うので、是非やってみてください。