自動機械学習(AutoML)を使用した新型コロナウイルス感染者の死亡率予測: BlackBoxの理解 & 次元の削減 (Dimension reduction)

はい前回のビデオまではえこのアートマを 使ってコロナ感染者の出率予測という論文 を一緒に見てきましたえその中でもえ マシンラーニングモデルの評価方法の重要 性に関して触れてきましたえこのビデオで はマシンラーニングモデルのブラック ボックスを理解しようという心ですそして 次元の削減ということがものがえなぜ便利 になってくるのかということに関してえ見 ていきたいと思いますでは一緒に勉強して いき ましょうえマシンラーニングえ機械学習 ですねそれはくブラックボックスだと言わ れますなぜかと言うとえ中身がいいよく 分からないどうしてこの結論にたどり着い たのかえとてもパフォーマンスはいいけど なぜその結論にたどれていいのかよく わからないという意味で結構抵抗感使う側 は抵抗感がありますえもしマシン ラーニングのえ水論がえ臨勝位の直感と 一致していればえもう少し臨床側もあ やっぱりそうかと思ってえ使いやすくなっ てくるというわけですねえしかし僕たちは 今このえトmlに48個の変数を入れて いるのでえ少し使い勝手が悪るそこでえ ちょっと次元の削減をしてみようえそれは どういう意味かと言うとまず変数を重要度 の順にランク付けします48個の変数をえ 14°の12ランク付けしその上位10個 を取ってえその変数をその変数だけを使っ てもう1度えこのえ機械学習をさせる そして48個のパラメーターを使った時と 10個しか使わなかった時のこう パフォーマンスを見比べてみるわけですね そしてうまくいけばその10個だけでもあ かなりいいえパフォーマンスができるんだ なということが分かるわけですその上え 48個ものえなんつうんですか患者さんの データというか1つ1つのパラメーターを 持ってくるのは大変ですよねえそのために その度に毎回毎回えもっとえ患者さんから テストしなきゃいけないしかしえ10個 だけならばあもう少し集中的にえその患者 さんのえなんですかこう検査ができるわけ です ねえさてブラックボックスの見方にも実は 色々ありましてえ1つはこういうヒート マップを作ってみることですですねえ横軸 にはえオートメルが作った多くの機械学習 モデルが並んでいてえ縦軸にはいろんな 変数えですね48個の変数を使ったので 48個の変数が並んでいますそして分かる のはこの上の方のパラメーターが赤かっ たり黄色かったりするのでこれらのえ変数 は大事だったそれに対してま真ん中ら辺

からもう結構下の方まではこれらの変数は 意外とえモデルを作るのに必要ではなかっ たということが分かってきますそしてもう 1つのやり方はえSTANDARDコシ magnitudesあこの場合は年が 1番重要でえPRが次に重要だったという ことが分かりますそしてオレンジというの はその変数が高いという意味なんですね 従ってえ年を取ってる方の方が死ぬ可能性 が高いえSSTプシが低い方が死ぬ可能性 が高いLDHの場合はLDHが高い方が ええ死ぬ可能性が高いということが分かり ますそして最後はえシャップモデルという のですけれどもえこれはよく見るやり方な んですがこの点1つ1つが患者さんです そして赤赤いというのはこのsystの 場合はえ高い変数えエジの場合は赤いと いうことはえ高齢者ですねえそういう風に えなっていますそしてえこのグラフの左側 はあ死ぬ可能性が低いそしてこっち側は 死ぬ可能性が 高いということになりますえ従ってこれで 見てみますとえsystプシの青い点が 多いのでsystブラシがえ低いと死ぬ 可能性が高いえ年が高いと死ぬ可能性が 高いえその他にもえrdhが赤いつまり rdhが高いとえ死の可能性が高いという ことが分かりますえこっち側はえ単純に 違うモデルを使って見比べているだけ ですえこのようなやり方でとまたお医者 さんとも話してどのパラメーターが1番 重要なのかどの変数が1番重要になって くるのかということを議論した結果これら があ上げられましたしってこれらの10個 の変数を用いてもう1度Rの機械学習をさ せますえそしてその結果がここに現れてい ますえスクトアンサンブルモデルがまたえ 1位に戻り出ていてそしてare UnderprisionREC curveが0.71ROCが0.93と なりましたえこれがえprecisREC curveです そしてえこのモデルをモデル10と名付け ました10個のパラメーターを使っている のでえモデル10と名付けましたそして 48個使っている方のモデルはモデル48 と名付けまし たえそしてこれがコンフュージョン MatrixですねえF2スアをあ最大限 にする点をえこのえカーブから選びました えこれに関してもっときちんと知りたいと いう場合はえ前回のビデオを見てください えその場合はこれらのえセンシティビティ スティなどの結果が得られましたそして 大体ここら辺の値が1番えモデルを最適化

してくれ ますえではモデル48とモデル10え10 個しかパラメーターを使っていない時とを 見比べてみましょうえモデル48が左側 ですねえareUnderThe prisionreicが0.87え モデル10の場合は0.791え少し落ち ましたがえ結構いいえメインテインができ ていますえこれをグラフにしてみますとえ 青い線がモデル48でえ赤い線がモデル 10ですえとても近くえ赤い線が少し 下回りますがえモデル10の赤い線がえ 大体モデル48をなぞっていることが 分かりますこれによってえ次元の削減が うまくいったんだなということが分かり ますえこれがモデル48とモデル10を 比べたえ結果ですあ分かるようにえ大体 結構いい同じようなパフォーマンスが見 られることが分かりますえ10個この変数 に削減してもかなりいいパフォーマンスが できてることが分かり ますえそして最後にえキデーターを作り ましたえここではこのウェブサイトに行く と自分で色々え患者さんのデータを入力し てえ患者さんが生き延びる可能性をえ計算 することができますえここに え患者さんの生き延びる可能性が表示さ れるようになっていますそして例えばこの 患者さんの場合はえ違う変数を入れてえ スタデットするとえこの患者さんの場合は 62の可能性でえ生き延びるということが あ表示されますえこのえ計算機はえ自由に 皆さんが使えるようになっているのでこの ウェブサイトに行って自分でやってみて くださいえこれらの研究のえコードとえ データは全てこのgitHUBにあるので 参考にしてみてくださいえ最後に リミテーションとFUTworkに関して 見ていきましょうえこの研究ではえこの 候補とは力入院が必要な重徳な患者さんに え限定していますしって私たちの研究結果 を全ての患者さんに一般化できるわけでは ありませんそして時間的な特徴は分析では 考慮されていませんえつまり患者さんが 入ってからえ入院し始めてコロナにかかっ てからあいつ亡くなったのか第1周目なの か第2周目なのかあそれ以降なのかいつ 死ぬ可能性が高いのかなどそのような時間 的な特徴は捉えていませんそしてえに 基づいてどのような医療行為をすべきかと いうこともあ捉えていませんえつまりえ 例えば患者さんが80%の可能性で 生き延びるとあ機械学習のモデルが予測し たとしますその時お医者さんはどうしたら いいのか60%だったらどうしたらいいの

か40%だったらどうしたらいいのかと いうことまではえ研究に入っていません でしたえ将来的にはこの研究は他の病気に も応用できると思いますえコロナだけで なくこのマシンラーニングのモデル機械 学習をするやり方そしてその評価の仕方あ ブラックボックスの見方などは他の病気を 機械学習を使って研究する時も使えると 思いますそしてえ測定器を作ったらそれを Smartandfireを使ってえ emr電子カルテですねと接続することも 考えてい ますはいここまでのビデオをえまとめてみ ましょうえモデルの評価方法がえ適切か どうかを確認するマシンレーニングモデル ではよくROCを使いますがPRCのこと も忘れずにそしてえFベタスコアベータと いうのが変数になっていてF1だけじゃ なくってF2スコアとやF3もあるという ことを覚えていていただきたいと思います えそれによって自分の研究にあったベータ スコアを探すのが1番適切ですそしてえ ブラックボックスモデルを理解してえ臨床 的な直感と比較することが大事ですその ことによってえユーザーもえ使うことに 抵抗感を減らしてくれますそして問題を 単純化するために次元の削減を検討してみ て ください え以上でこの機械学習のえコロナ感染者 死亡予測のえ研究のおしまいですいかが だったでしょうかきっとこの研究はえ コロナだけじゃなくていろんなものに 使えるので皆さんも自分の研究に応用して みてくださいでは次のビデオでやり ましょう

この動画では、2021年に僕がMontefiore Medical Center での研修中に発表した論文について話します。私たちは自動機械学習 (AutoML) を使用して患者のを予測しました。コロナウは過去のものとなりつつあり、機械学習(ML)の分野は急速に進化していますがこのプレゼンテーションでは、MLモデルをどのように評価すべきかに焦点を当てました。MLモデルの評価方法は、この分野が進化しても、知っておくべき重要な概念であると思います。参考になれば幸いです!

00:00 動画の概要
00:25 Blackbox & 次元の削減 (Dimension Reduction)
01:43 どの変数が重要だったのか?
03:54 Top 10 の変数
04:14 Model-10 Performance
05:09 Model-48 vs Model-10
05:09 計算機を作る
06:54 Limitations & Future work
08:15 まとめ

論文, データ, 計算機などはここからダウンロードできます:
https://www.tsubomi.tech/

Code:
https://github.com/Kikemura7/Tsubomi-Technology/tree/master/covid-prediction