SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

13
SG11 理学におけるデータ科学実践 機械学習で自然科学を読み解けるか 2019年度 MACS成果報告会 2020年2月19日 中野 直人 国際高等教育院附属  データ科学イノベーション教育研究センター 特定講師 理学研究科 連携講師

Transcript of SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

Page 1: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

SG11 理学におけるデータ科学実践

機械学習で自然科学を読み解けるか

2019年度 MACS成果報告会 2020年2月19日

中野 直人   国際高等教育院附属    データ科学イノベーション教育研究センター 特定講師   理学研究科 連携講師

Page 2: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

理学におけるデータ科学実践:機械学習で自然科学を読み解けるか

参加教員: 中野直人       余田成男(地球惑星科学専攻)実験や観測からデータを取得してそれを解析することは,自然科学のいずれの分野においても普遍的に必要とされることである.昨今は機械学習などのデータ科学的手法が発達し,計算機能力の向上に伴い,様々な目的でデータが潜在的に持つ情報の抽出が試みられている.しかし,実際の理学研究においてもこれらの手法はどこまで有効なのであろうか.本SGでは,データ科学的手法を簡単なものから習得して,データ科学を身近なものにすることを目的とする.さらに,既存手法との比較による再確認,既存手法では得られない新たな理解,ここで学ぶ新しい手法ではできないこと,手法の数学的構造,などを整理することで,各手法の本質の理解を目指す. 具体的なSGの進め方としては,まず各手法の大まかなサーベイを行ってデータ科学を俯瞰した後,サンプルデータで手法に慣れるようにする.その後は,個人もしくはグループで課題を設定して進めることとする.設定課題は,自身の研究室の課題に必ずしも限定しない.Kaggle等のデータサイエンスコンペティションへの参加もその範疇に含めて良い.ミーティングは月に1・2回程度開くこととし,その場では新しい手法の習得やそれぞれの設定課題の進捗状況を報告して,SG全体で共有することとする. 本SGでは機械学習の手法に主眼をおくため,主にPythonを用いて実習を行うが,ミーティングの初回にチュートリアルを行うなど,計算環境の準備も行う.実習を進めるにあたっては,プログラミングスキルや機械学習の経験差によって,活動内容や興味対象の幅に差が出やすいため,経験者がTAとして参加するようであれば,2018年度のSG11のコンテンツを用いた初心者用速習コースも設置可能である.

Page 3: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

理学におけるデータ科学実践:機械学習で自然科学を読み解けるか

参加教員: 中野直人       余田成男(地球惑星科学専攻)

機械学習の手法を勉強をする 何でも良いから自分の興味ある問題に取り組む

概要

すみませんでした

雇用したTAに頑張ってもらいました

全体ミーティング前期に5回

Page 4: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

とにかくお手習い 各自の問題へ

ツールと手法のチュートリアル ~ Python + Jupyter Notebook~ scikit-learn 理学研究科附属地磁気世界資料解析センターご提供の柿岡観測所のデータ解析

各自の問題を(勝手に)やってもらう

やったこと

5/28顔合わせ インストール セッション

7/2 7/96/4

7/16

7/23 今日

Page 5: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

春名純一さん(物理学・宇宙物理学専攻M2)

•統計解析の教材作成補助 •Reservoir Computing の研究 西瑞穂さん(地球惑星科学専攻M2)

•画像解析・輪郭抽出の研究

頑張ってくれたTA

Page 6: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

春名さん:Reservoir Computing

Echo-State Network (ESN) (Jaeger-Haas, Science 2004)

入出力関係を再帰的ニューラルネットワークでエミュレートする

Page 7: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

Lorenz systemx′ = σ(y − x),y′ = x(ρ − z) − y,z′ = xy − βz .

σ = 10, ρ = 28, β = 83

タスク   x(t) から y(t) と z(t) を推定する

Page 8: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

Lorenz systemx′ = σ(y − x),y′ = x(ρ − z) − y,z′ = xy − βz .

σ = 10, ρ = 28, β = 83

タスク   x(t) から y(t) と z(t) を推定する これは

できる

Page 9: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

ESNがなぜエミュレートできるか これは 大問題

ESNがエミュレートできる時に 内部ではどうなっているか

これは 良問題

春名さんと 北海道大学大学院情報科学研究科M2の 宮岡真平さんに調べてもらった

Page 10: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …
Page 11: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

西さん:輪郭抽出

岩石のX線3次元CT画像の輪郭抽出をしたい

機械学習できない! Active Contour を使う

Page 12: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

西さん:輪郭抽出

土`山明先生(名誉教授・地質学鉱物学教室)のスライドより

こういう画像の位置合わせして中身のセグメンテーションして...

Page 13: SG11 理学におけるデータ科学実践 機械学習で自然科学を読 …

割と画像解析手法は使える 機械学習だけじゃないね(教師あり学習の限界)

自走してもらえるとすごい嬉しい きちんと進展する

おそらく僕よりも手の早い人いるはず

2019年度は天下り式セミナータイプだったけど2020年度はもう少し双方向でやりたい

来年度もSGはやりたい 反省材料 代表教員の馬力と体力 ときめ細やかな配慮不足