Scikit-Learn のチート・シートに沿って機械学習


Scikit-Learnのcheat-sheetは使用するデータの内容と目的に応じて、どのアルゴリズムを使えばいいのか教えてくれます。

cheat-sheet:チート・シート:カンニングペーパーあるいは虎の巻…というくらいの意味

一部を日本語化してみました。

 

アルゴリズム一覧

classfication(クラス分類)

SGD(確率的勾配降下法) Classifier —- 線形なクラス分類
Kernel approximation(カーネル近似) —- 非線形なクラス分類
KNeighbors(K近傍法) Classifier —- 非線形なクラス分類
SVC(SVM Classification) –> Kernel SVC —- 非線形なクラス分類
Ensemble Classifier —- 非線形なクラス分類
Linear SVC —- 非線形なクラス分類
Naive Bayes(ナイーブベイズ)

regression(回帰)

線形

SGD Regression
Lasso
ElasticNet

SVR(kernel=’linear’)

非線形

SVR(サポートベクター回帰)(kernel=’rbf’)
EnsembleRegressors
RidgeRegression

clustering(グループ分け)

MeanShift
VBGMM
KMeans(K平均法)— 基本
MiniBatch KMeans
Spectral Clustering
GMM

dimensionality reduction(次元削減/次元圧縮)

Randomized PCA
Ispmap
Spectral Embedding
Kernel approximation(カーネル近似)–> Kernel PCA
LLE

 

このビデオ・レッスンでは非常に単純なデータを使っています。

だれでもできそうです。自分のデータを作ってやってみましょう。

参考までによく使われるデータのサンプルはこんな感じ。

classfication(クラス分類)

UC Irvine Machine Learning Repository から参照

アヤメの分類データ

ワインの分類データ

regression(回帰)

ボストン住宅価格

車の燃費   (説明)


Excel持っていれば、データファイルにはCSVが使えます。

 

scikit-learnではこいうデータはすでに用意されています。sklearn.datasetsで使えます。

各アルゴリズムを実装してみたい向きは、この方のブログをご参照ください。

 


Next

チート・シートの分岐の目安のデータ数はあくまでただの目安です。

データが少なくてもアルゴリズムの実行自体は可能です。。

Pythonで記述することで、各アルゴリズムが何をやっているのか見当をつけてみます。

やってみましょう


線形回帰やロジスティック回帰などの基本的なアルゴリズムをYoutubeのビデオレッスンで分かった気になろう(^^)…..理論と実装の両方で説明してくれます


 

その他のチート・シート(Scikit-Learnのcheat-sheetは少し古めです、以下のcheat-sheetでは新しめのアルゴリズムも使われています)

Microsoft Azureチート・シート   、 日本語版

SAS japanチート・シート  、Viyaチートシート

 


 

Be the first to comment

Leave a Reply

Your email address will not be published.


*