CATEGORY

機械学習

【機械学習】GPU・NVIDIA A100でトレーニングしたらCPUよりも遅くなった場合の解消方法

この記事は、以下のサーバー環境で、 開発ライブラリー・・・Pytorch(cudaあり) GPUメモリ・・・NVIDIA A100(40G) クラウドサーバー・・・GCP(Google Cloud Platform) インストール済みCudaドライバ・・・V11.0.221   あれ? トレーニングの速度がものすごく遅いぞ? なんかフリーズしたみたいだぞ?   と思ったときに、 […]

kaggleの画像処理コンペで絶対使うalbumentationsライブラリーの利用方法!ポートレートモデルさんの画像で解説します

またまた、kaggle(AIコンペ)で画像処理系のコンペを戦っているんだ。 コンペでは、画像の拡張(サイズを変えたり、加工したり)が必要で、それがないと上位に行けないんだ。なんかいい方法ない?   今回は、優勝者も使うalbumentationsライブラリーの使い方を解説しますね。     albumentationsをインストールする まずは、albumentati […]

【自然言語AI】日本語bert先生にMASKを使った質問で恋愛相談してみた!

bertは、Googleの検索で使われるなど、自然言語処理の分野ではよく使われています。 文章の一部をMASKする(隠す)ことにより、MASKした単語を文章の前後関係から予測することができます。 では、MASKを使って恋愛に関する問題を解決できるのか?検証してみました。   bertとは bertとは、「Bidirectional Encoder Representations from […]

kaggleのコンペでランキング爆上がりのデータ水増し(data augmentation)方法はPCAだった

概要 kaggleのコンペで正例が極端に少ないデータで戦わないと行けない事が多々あります。 そんなとき、データの水増しが、スコアアップに有効なときがあります。 この記事では、PCAを使った行単位のデータの水増し方法について解説します。   PCAを利用した、データの水増しは以下の通り。 元データをPCAで圧縮する。 圧縮したものを復元する その結果、元の値に近い値を取得することによりデー […]

【AI】日本語Bertでファインチューニングしてツイートの感情の分類を解く!

AIのBert(バート)と聞くとなんだか難しく感じませんか? 筆者は、日本語BertとTwitterのツイートのデータセットを使って感情分析(ネガの判別)をしましたが、transformersライブラリのおかげで楽(短いコード)に実装できたと思います! この記事では、日本語Bertを使って感情分析(ネガの判別)をする例を解説します。     概要 初心者メイド 自然言語の世界で […]

huggingfaceのtransformersを使って、日本語の文章変換をしてみた

huggingfaceのtransformersが日本語の事前学習モデルを追加してくれました。 そのおかげで日本語のbertを簡単に試す出来るようになりました。 今回は、colaboratory上で日本語のbertを使って、元の文章を別の文章(単語を入れ替える)にしてみます。   Bertを使って、文章の一部を別の文章に置き換える手順 今回は、colaboratoryで、日本語のBert […]

問題を理解したらkaggleのコンペでソロ銀メダルをゲットした話

  kaggleに挑戦して7ヶ月目、Ion Switchingというコンペで、ついにソロ銀メダルを取ることができました!   へーーよかったですね~。 どんなチートをしたんだい? 公開されているカーネルを集めてアンサンブルでもかけていたのかい?   いいえ、それで銀メダル取れる人なんていないよ。 銀メダルの決め手になったことは、問題文の意図、背景を理解することでした。 […]

seleniumとpythonを使ったスクレイピングをyahoo知恵袋を例に解説!図に出力も

悩みあり スクレイピングはどのようにやるの? 集めたデータは、どのように活用するの?   というわけで、今回はYahoo知恵袋の質問の検索結果の取得および、質問の詳細ページの取得を例にスクレイピングの実装例を紹介します。 さらに、集めたデータの活用例としてword2vecとPCAを用いて近い単語をグラフにプロットする例も紹介します。   準備 まずは、スクレイピングするための必 […]

【pythonで自然言語処理】日本語版・word2vecで分散表現した単語を2次元に可視化する

スクレイピングでデータを集めてみたんだけど、10000行とかデータが多すぎて分析が面倒だよ。 なんかいい方法ないかな?     すべてのデータを見るなんて現実的ではないよね。 そんな事やっているのは、De○Aのkaggleの金メダリストくらいだよ〜。 今回は、日本語の類似単語を図に出す方法を解説するよ。 単語を図にプロットするとなんとなく傾向をつかめて良いよ♪   & […]

5分で解決!nltk.downloadを実行したらSSL CERTIFICATE_VERIFY_FAILEDでハマった話

この記事でわかること pythonのnltkでstopwords辞書をダウンロードする方法がわかる nltk.downloadでSSL関係のエラーが出たときの対処方法がわかる   pythonの自然言語処理パッケージnltkのnltk.downloadを実行してstopwordsをダウンロードしようとしたら、 SSL CERTIFICATE_VERIFY_FAILEDエラーがでてハマりま […]