pop-web

スマートかつクールでアトラクティブなブログです

Signte ひろしまQuest2020#stayhome参加記

# ひろしまQuest2020#stayhomeというコンペに参加しました。

情報公開ポリシーからモデルや分析結果に関しては書けないので、コンペサイトから読み取れる範囲の内容でお気持ち程度に、今更ながらちょっと感想書きたいなと思ったので書きました。

## SIGNATEとは
SIGNATEという恐らく日本では最大手のデータ分析コンペを開催しているサイトです。

今回はタスクとして、各ピッチから球種かコースを予測するというタスクのテーブルデータコンペで、外部データも利用化という色々できそうな楽しいコンペでした。(実際できたと思います。成果発表会が9月上旬に開かれる予定となっているので、上位の解法について聞くのが楽しみです。)

## 自身の結果については以下のとおりです。

コンペティション 戦績 備考
ひろしまQuest2020#stayhome【コース予測部門】 41 位 / 258人投稿 銀メダル
ひろしまQuest2020#stayhome【球種予測部門】 141 位 / 481人投稿 60%Line以上

## コンペでの感想について

初めて参加したコンペでした。
初参加で銀メダルを獲得できたのはすごく嬉しく思っていますが、初参加故に計算時間の見積もりやログの取り方のノウハウ的な面で試行錯誤が必要だった、コンペ終了間際はサイトが重くなるなどの予想が甘かった、学習が間に合わなかったため最終サブに本当に提出したかったモデルを提出できなかったなどなどなどがすごく心残りです。(コンペ終了1時間後に僕の考えた最強のモデルの学習が終わりました笑)
コンペ終了後のサブミットができないため結果がどうなるかは神のみぞ知るですが、もっといい結果が出てたのではないかとCVの結果から見ても思います。

初めてでも参加しやすいテーブルデータで初参加者的な目線からもかなり良かったと思います。
ただ一つ言うなら、時系列データのコンペはタスクとしてそもそもあまりよくないかもしれないですね。
今回は目的変数を説明変数に与えるような運用はできないと言う制約があったのですが、次に何が投げられるか予測するのにまず使いたい情報は前何を投げたかだよなーと何度も唸りました。(ついでに言うとそれに近い特徴量を何度も作っては、「あ、これ使えないじゃん」を繰り返しました。(間抜けか?))
実際考えてみてください。そうですよね?
実務上もそうだと思います。前は内角高めに速い球を投げてきたから、今度は外角低めに遅い球を投げるとか。(野球は詳しく知らないので実際の戦略は知らないのでここら辺は適当な予想ですが)まあ、コンペという形式だとここら辺仕方ないんでしょうね。


もう一つの反省点として、全くデータ分析についてのノウハウのない人を半ば無理やり、チームにひき込んだのですが、自分のタスクをやるのにいっぱいいっぱいで、何もわからなくて暗闇の中困ってるはずなのにあんまりフォローできなくて、結果としてただ時間を奪ってしまっただけになってしまったり、プレッシャーを与えてしまったりといった非常に申し訳ないことをしてしまったという気持ちはあります。少しでも何か学ぶところが彼にあったら幸いなのですが...

チームを組むならもう少し情報共有やコードの共有方法について考える必要がありそうです。
Githubだとあげれるデータ量に上限があって(確か1ファイル100MBまで)、データ分析のタスクだと、特徴量が100MB超えることもままあると思うので、ここらへん他のチームはどう解決しているのか少し気になるところではあります。教えてください。