機械学習│TECHネタのペン太ブルBlog

【機械学習】GPU・NVIDIA A100でトレーニングしたらCPUよりも遅くなった場合の解消方法

この記事は、以下のサーバー環境で、開発ライブラリー・・・Pytorch(cudaあり) GPUメモリ・・・NVIDIA A100(40G) クラウドサーバー・・・GCP(Google Cloud Platform) インストール済みCudaドライバ・・・V11.0.221 あれ？トレーニングの速度がものすごく遅いぞ？なんかフリーズしたみたいだぞ？と思ったときに、 […]

kaggleの画像処理コンペで絶対使うalbumentationsライブラリーの利用方法！ポートレートモデルさんの画像で解説します

またまた、kaggle(AIコンペ)で画像処理系のコンペを戦っているんだ。コンペでは、画像の拡張(サイズを変えたり、加工したり)が必要で、それがないと上位に行けないんだ。なんかいい方法ない？今回は、優勝者も使うalbumentationsライブラリーの使い方を解説しますね。 albumentationsをインストールするまずは、albumentati […]

【自然言語AI】日本語bert先生にMASKを使った質問で恋愛相談してみた！

bertは、Googleの検索で使われるなど、自然言語処理の分野ではよく使われています。文章の一部をMASKする(隠す)ことにより、MASKした単語を文章の前後関係から予測することができます。では、MASKを使って恋愛に関する問題を解決できるのか？検証してみました。 bertとは bertとは、「Bidirectional Encoder Representations from […]

kaggleのコンペでランキング爆上がりのデータ水増し(data augmentation)方法はPCAだった

概要 kaggleのコンペで正例が極端に少ないデータで戦わないと行けない事が多々あります。そんなとき、データの水増しが、スコアアップに有効なときがあります。この記事では、PCAを使った行単位のデータの水増し方法について解説します。 PCAを利用した、データの水増しは以下の通り。元データをPCAで圧縮する。圧縮したものを復元するその結果、元の値に近い値を取得することによりデー […]

【AI】日本語Bertでファインチューニングしてツイートの感情の分類を解く！

AIのBert（バート）と聞くとなんだか難しく感じませんか？筆者は、日本語BertとTwitterのツイートのデータセットを使って感情分析(ネガの判別)をしましたが、transformersライブラリのおかげで楽(短いコード)に実装できたと思います！この記事では、日本語Bertを使って感情分析(ネガの判別)をする例を解説します。概要初心者メイド自然言語の世界で […]

huggingfaceのtransformersを使って、日本語の文章変換をしてみた

huggingfaceのtransformersが日本語の事前学習モデルを追加してくれました。そのおかげで日本語のbertを簡単に試す出来るようになりました。今回は、colaboratory上で日本語のbertを使って、元の文章を別の文章(単語を入れ替える)にしてみます。 Bertを使って、文章の一部を別の文章に置き換える手順今回は、colaboratoryで、日本語のBert […]

問題を理解したらkaggleのコンペでソロ銀メダルをゲットした話

kaggleに挑戦して7ヶ月目、Ion Switchingというコンペで、ついにソロ銀メダルを取ることができました！へーーよかったですね～。どんなチートをしたんだい？公開されているカーネルを集めてアンサンブルでもかけていたのかい？いいえ、それで銀メダル取れる人なんていないよ。銀メダルの決め手になったことは、問題文の意図、背景を理解することでした。 […]

seleniumとpythonを使ったスクレイピングをyahoo知恵袋を例に解説！図に出力も

悩みありスクレイピングはどのようにやるの？集めたデータは、どのように活用するの？というわけで、今回はYahoo知恵袋の質問の検索結果の取得および、質問の詳細ページの取得を例にスクレイピングの実装例を紹介します。さらに、集めたデータの活用例としてword2vecとPCAを用いて近い単語をグラフにプロットする例も紹介します。準備まずは、スクレイピングするための必 […]

【pythonで自然言語処理】日本語版・word2vecで分散表現した単語を２次元に可視化する

スクレイピングでデータを集めてみたんだけど、10000行とかデータが多すぎて分析が面倒だよ。なんかいい方法ないかな？すべてのデータを見るなんて現実的ではないよね。そんな事やっているのは、De○Aのkaggleの金メダリストくらいだよ〜。今回は、日本語の類似単語を図に出す方法を解説するよ。単語を図にプロットするとなんとなく傾向をつかめて良いよ♪ & […]

5分で解決！nltk.downloadを実行したらSSL CERTIFICATE_VERIFY_FAILEDでハマった話

この記事でわかること pythonのnltkでstopwords辞書をダウンロードする方法がわかる nltk.downloadでSSL関係のエラーが出たときの対処方法がわかる pythonの自然言語処理パッケージnltkのnltk.downloadを実行してstopwordsをダウンロードしようとしたら、 SSL CERTIFICATE_VERIFY_FAILEDエラーがでてハマりま […]