Kaggle何もわからない状態でしたが,やはりKaggle Notebookだとセッション時間の制限等が厳しかったです...
そこで,Kaggleから逃げない対策としてもColab Proに課金してしまいました.KaggleのためのColaboratoryの使い方を考えます.
初心者なりに考えたスターターです(まだ🍊)
KaggleをColabでするために必要だと思った条件
- Google Colab Pro
- Google Drive 200GB
これで大体月1400円ですかね〜〜.まぁ,安い.大学生なのに200万ちょいはたいて新車買った身からすると,めちゃくちゃ安いですw
Competitionのデータセットを入れるだけで,30~50GB使って,訓練させた重みとかを実験ごとに出力するともう100GBはすぐ埋まりますね.
強い方々は,複数のコンペを並行しているイメージがあるので,足りないでしょう(強い人強いローカルマシン持ってそうって偏見はあるw)
これからColabスターターを考えます!
Colabスターターのすゝめ
- CompetitionデータセットをDriveにzipのまま載せる
- ColabにDriveをマウント
- データセットを読み込む
CompetitionデータセットをDriveにzipのまま載せる
Competitionデータセットは,一旦ローカルに落としてから,GUIでGoogle Driveにアップロードします.
場所はどこでもいいですが,僕はMyDrive/Kaggle/{competition_name}/のなかに落とすことにしました.
ローカルにダウンロードしたzipファイルを何もせずにアップロードすると,MyDrive/Kaggle/{competition_name}/{competition_name}.zipになると思います.
本当は,kaggle-apiで落とそうとしたのですが,やめました.原因は以下です.
- kaggle-apiをいちいちreinstallするの面倒くさい
- 24時間でディスク消えてしまう
- インターネット状況によってはzipファイルの欠損がおきた
ColabにDriveをマウント
これからColabの方で実験をしていきますが,まずはDriveをColab上にマウントします.
画像が示しているところを押して,Driveをマウントできます.
データセットを読み込む
MyDrive/Kaggle/{competition_name}/{competition_name}.zipにデータセットがあるとして話を進めます.
一旦なんのGPUが乗っているか確認します.
!nvidia-smi
続いて,DriveにアップロードしたzipファイルをColabのディスク内の /content/datasetに展開します.
!unzip -o /content/drive/MyDrive/Kaggle/{competition_name}/{competition_name}.zip -d /content/dataset
毎回24時間おきに実験の度に,ディスクのにunzipしてから学習を開始します.
15分くらい取られたりしますが,そこは我慢って感じで考えていました...
イメージこんな感じです.
これ以降は自由にデータセットを呼び出せるので,ガチャガチャやってください.
初めてKaggleにガチで始めたばかりの初心者が考えたGoogle Colabスターターでした.
これからさらに改良を加えていって,うまいこと実験のルーティンを確立していこうと思います!!!