2020-06

IT

Machine Learning 9: 10分でできるROC(Receiver Operating Characteristic)曲線

前回は、適合率/再現率曲線を実際に描いてみた。 理由は、正解率をチェックするだけでは不十分だからだ。 例えば、癌や新型コロナの陽性を発見するタスクでは、陽性患者を陰性と判定してはマズいので、陰性の患者を陽性と診断して、再検査したほうがマシと...
IT

Machine Learning 8: 10分でできるprecision/recall curve (適合率/再現率曲線)

前回は、予測と実際の結果がどれほど一致するか検証してみた。 具体的には、k-folds cross validationやconfusion matrix(混合行列)について、実際の手書きの数字画像データを利用して検証してみた。 理由は、検...
IT

Machine Learning 7: 10分でできる手書きの数字の判定と検証

前回は、クラス分類をするためにScikit-LearnのSGDというライブラリを使って数字の画像データの判定を行った。 今回は、結果がどれほど正しいかについて検証するための関数について学んでみよう。 Cross Validationとは C...
IT

Machine Learning 6: 10分でできる手書きの数字の読み方(2)

前回は、MNIST(エムニスト)の手書きの数字の「画像とラベル」のデータベースを使って、数字を画像表示したりした。 今回は、画像データにたいして数字の分類をしてみよう。 テストデータの準備 MNISTのデータセットは、すでにトレーニングとテ...
IT

Machine Learning 5: 10分でできる手書きの数字の読み方(1)

前回は、plot()メソッドを使って散布図を作成し、corr()メソッドを使い相関関係を調べてみた。 今回は、機械学習の画像認識について学んでいこう。 画像といっても色々なので、シンプルな初心者向けの手書きの数字画像を使ってみよう。 郵便番...
IT

Machine Learning 4: 10分でできる地図の表示と相関関係の求め方

前回は、info()、describe()メソッドを使って、データの中身について学んだ。また、ヒストグラムをshow()することによって、Jupyter Notebookでグラフを描いてみた。 今回は、データから地図を表示してみよう。といっ...
IT

Machine Learning 3: 10分でできるpandasとmatplotlibを使ってのデータの見方

前回は、データの最初の5行だけ表示したが、今回はもう少し詳しくみてみよう。 まずは、データの全体像を把握してみよう。それから、どのような分布になっているか探ってみよう。 info()メソッド pandasのinfo()メソッドで、エントリー...