CATEGORY

機械学習

kaggleで戦うならMongoDBは必須!csvファイルを5分以内でimport(インポート)できる

この記事を読むとわかること ・CSVファイルをmongoDBにインポートする方法がわかる ・インポートにかかる時間が5分以内であることが分かる ・なぜ、kaggleで戦うのにmongoDBを使うと良いのかわかる   なぜkaggleを戦うのにDBを用意するの? kaggleで提供されるCSVデータは、10M以上あり、エクセルで開こうとするとかなり重くなります。 重いときは1Gを超えること […]

colabですぐ試せる!サクッとseq2seqで英語から日本語翻訳を試す

この記事でわかること 機械学習のseq2seqの仕組みがわかる seq2seqを使うとどんなことができるかわかる seq2seqを利用した英語から日本語に翻訳するpythonのプログラミング例がわかる kerasでモデルを作る方法がわかる   seq2seqとは 特徴は? seq2seqを使うとこんな事ができます。 ・長い文章を要約することができる ・対話の応答。自動返信のチャットが良い […]

kerasのLSTMを使って文章生成を実装するサンプル

この記事でわかること 文章の生成方法がわかる kerasのLSTMの使い方がわかる   概要 kerasを使えば、LSTMで文章の生成が意外に簡単にできてしまいます。 しかも、LSTMの詳しいロジックを知らなくても、実装できてしまうのがkerasのすごいところだと思います。 LSTMとは LSTMとは「Long Short Term Memory」の略で、長期的な時系列の依存関係を学習す […]

ニューラルネットワークをkerasで10行ほどで実装する簡単なサンプル

kerasを使えば、簡単なニューラルネットワークであれば10行ほどで実装できてしまいます。 ニューラルネットワークの実装は難しそうだな〜と思っている方に参考になると思います! 今回は、cos関数の描画という簡単なサンプルを使って、ニューラルネットワーク、kerasの使い方を説明します。   kerasでニューラルネットワークを実装する まず、kerasを使う部分だけ抜き出すと以下のような […]

Kaggleのコンペで評価でモデルの精度が上がったのにpublic scoreが悪くなったときに読む記事

以下のような疑問にお答えします 自分でモデル評価したら精度上がったのに、kaggleに提出したら精度が悪いと言われた。 なぜそんなことが起きるのかわからない。 そのような疑問に歴20年の現役エンジニアが回答します。 今回は、評価スコアが改善したのにpublic scoreが悪くなってしまう原因を事例を挙げて解説しますね。   記事を読み進める上での前提条件 この記事を読み進める上での前提 […]

【機械学習の分類問題の検証】AUC評価指標ってわかりずらくないですか?

「AUC評価指標」とは何? そのような疑問に歴20年の現役エンジニアが回答します。   混同行列についての復習 前回、混同行列についてオタクかどうか判断するカメラアプリの例で解説しました。   混同行列のTP,FN,TN,FP について簡単に復習します。   ■真陽性・TP(True-Positive) ポジティブ(正例)に分類すべきものをちゃんとポジティブに分類でき […]

【機械学習の分類問題の検証】混同行列 (Confusion matrix)ってわかりずらくないですか?

以下のような疑問にお答えします 混同行列 (Confusion matrix)のTP、TN、FP、FNの意味がわからない 「正解率」「適合率」「再現率」「F値」って何? 上記のような疑問に、歴20年の現役エンジニアが回答します。   混同行列について解説 機械学習の分類結果の精度を検証するために、混同行列 (Confusion matrix)が主に使われます。混同行列をつかうことにより、 […]

【3分で解説!】機械学習・カテゴリ変数は何故One-Hotエンコーディングが必要なの?Pythonのコードあり

■この記事で分かること なぜカテゴリ変数(ダミー変数)を機械学習のアルゴリズムに渡してはいけないか分かる カテゴリ変数の処理方法がわかる Pythonを使ったOne-hot表現の使い方の例が分かる     メイドの 見習い カテゴリ変数は、なぜOne-Hotエンコーディングが必要なの? One-Hotエンコーディングなんてやったらカラム(列)が増えるから計算が面倒になるよ。 ダ […]

【1時間で習得できる】機械学習分析ツールStreamlit を簡単なWEBアプリ開発に使ってみよう!

テキストボックスやボタン動作だけの簡単なWEBアプリを作成した公開したい! ちょっとした社内ツールをWEBで実現したい。 そんなとき、Pythonで作られている機械学習分析ツールStreamlitがオススメです。 Streamlitは、もともと機械学習の分析結果をレポートするのを目的に作られていますが、簡単なWEBアプリを作ることにも適しています。 今回は、Streamlitを使ってみたので紹介し […]

【5分で解説】sklearnで主成分分析(PCA)して次元削除!これでKaggleで100カラム以上あるデータも対処できる

  読者対象 ・主成分分析について知りたい ・機械学習ライブラリーsklearn(Python)の主成分分析(PCA)の使い方を知りたい ・主成分分析を使って次元削除したい   AIに興味持った メイド Pythonで欠損値の補完をしていたら、CSVファイルの列の数が300個になってしまってデータの傾向がわからなくなったよ。 男勝りな AIメイド長 データ分析の「あるある」だね […]