Shikata Ga Nai

Private? There is no such things.

Kaggle

44. TransformerとBERTの基本

Hello there, ('ω')ノ 1. Transformerとは? 基本構造と仕組み ✅ Transformerとは? Transformer とは、 「自己注意機構(Self-Attention)」を活用して、テキスト内の単語間の関係を学習するモデル です。 2017年にGoogleが発表した論文 「Attention is Al…

43. CNNを使った画像分類の実践

Hello there, ('ω')ノ 1. CNNとは? 基本構造と仕組み ✅ CNN(畳み込みニューラルネットワーク)とは? CNNは、画像や動画などのデータを処理するためのディープラーニングモデル です。 人間の視覚に近い仕組みで、画像の特徴を抽出して分類します。 CNN…

42. PyTorch vs TensorFlowどっちを使う?

Hello there, ('ω')ノ 1. PyTorch vs TensorFlow:基本情報 ✅ PyTorchとは? PyTorchは、Facebook(Meta) によって開発されたディープラーニングフレームワークです。 Pythonicで直感的な構文が特徴で、 ✅ 動的計算グラフ(Define-by-Run) → 柔軟性が高い…

41. ニューラルネットワークの基礎

Hello there, ('ω')ノ 1. ニューラルネットワークとは? ニューラルネットワーク(NN) とは、 「複数の層(レイヤー)で構成されたノード(ニューロン)が、データのパターンを学習するモデル」 です。 ✅ 入力層(Input Layer) → データを受け取る層 ✅ 隠…

40. Kaggleで成功するための戦略!

Hello there, ('ω')ノ 1. Kaggleで勝つための5つのステップ Kaggleで上位に入るためには、以下の流れで進めるのが効果的です。 ✅ ステップ① EDA(探索的データ分析) まずはデータの傾向をしっかり理解することが重要です。 ポイント データの分布を可視化…

39. モデルの解釈性を高める手法

Hello there, ('ω')ノ 1. モデルの解釈性とは? なぜ重要なのか? モデルの解釈性(Interpretability) とは、 「モデルがどのように予測を行っているのかを理解し、説明できること」 を指します。 解釈性が重要な理由 ビジネス・医療での意思決定の透明性…

38. Kaggleのコンペで勝つためのモデル選び

Hello there, ('ω')ノ 1. Kaggleのコンペの種類と適したモデル Kaggleのコンペは、大きく分けて以下の3つのタイプがあります。 各タスクに適したモデルを理解することが、勝率を上げるポイントです! タスク 代表的なデータセット 最適なモデル テーブルデ…

37. アンサンブル学習とは? 〜複数モデルを組み合わせる〜

Hello there, ('ω')ノ 1. アンサンブル学習とは? アンサンブル学習(Ensemble Learning) とは、 複数の異なる機械学習モデルを組み合わせて、最終的な予測を行う手法 です。 なぜアンサンブル学習が重要なのか? 1つのモデルの弱点を補完し、より高い精…

36. 特徴量エンジニアリングの重要性

Hello there, ('ω')ノ 1. 特徴量エンジニアリングとは? ✅ 特徴量エンジニアリングとは? 特徴量エンジニアリング(Feature Engineering) とは、 機械学習モデルが適切に学習できるように、データを最適な形に変換するプロセス です。 なぜ特徴量エンジニ…

35. ハイパーパラメータチューニングのコツ

Hello there, ('ω')ノ 1. ハイパーパラメータとは? ハイパーパラメータ とは、モデルの学習前に設定するパラメータ です。 例えば、決定木の「木の深さ」や、XGBoostの「学習率」 などが該当します。 ハイパーパラメータ vs 学習パラメータ 種類 例 設定…

34. モデル評価の方法② 〜交差検証・AUC・ROC曲線〜

Hello there, ('ω')ノ 1. 交差検証とは? 交差検証(Cross Validation) とは、データを複数の分割パターンで学習・評価することで、 「データ分割の偏り」や「過学習」を防ぐ手法 です。 ✅ なぜ交差検証が必要なのか? 通常の評価では、データを 「学習用…

33. モデル評価の方法① 〜精度・再現率・F1スコア〜

Hello there, ('ω')ノ 1. モデル評価の基本(混同行列とは?) まず、分類モデルの評価に欠かせない 「混同行列(Confusion Matrix)」 について理解しましょう! 混同行列とは? 2クラス分類(例: スパム or 非スパム)における予測結果を整理した表です…

32. XGBoost・LightGBMの基本

Hello there, ('ω')ノ 1. XGBoost・LightGBMとは? XGBoostとLightGBMは、どちらも勾配ブースティング(Gradient Boosting) を使った強力な決定木アルゴリズムです。 XGBoost・LightGBMの特徴 アルゴリズム 特徴 代表的な用途 XGBoost 高精度、過学習に強…

31. k近傍法(k-NN)を使ってみよう!

Hello there, ('ω')ノ 1. k-NNとは? k-NN(k-近傍法) は、データの分類や回帰に使われる「距離ベース」のアルゴリズムです。 「k個の近くのデータ(近傍)を見て、多数決 or 平均で予測する」というシンプルな仕組みです。 k-NNの基本アイデア 新しいデ…

30. サポートベクターマシン(SVM)入門

Hello there, ('ω')ノ 1. SVMとは? SVM(サポートベクターマシン) は、分類問題を解くための強力なアルゴリズムです。 データを分類するために 「最適な境界線(超平面)」 を見つけることが目的です。 SVMの考え方 1. データを分類する「境界線(決定境…

29. 決定木・ランダムフォレストの仕組み

Hello there, ('ω')ノ 1. 決定木(Decision Tree)とは? 決定木(Decision Tree)は、データを分岐しながら分類・予測するモデル です。 木のようにデータを分けていくことで、最終的な予測を行います。 決定木の仕組み 1. 特徴量(例: 年齢, 収入)を使…

28. 線形回帰モデルを理解しよう!

Hello there, ('ω')ノ 1. 線形回帰とは? 線形回帰(Linear Regression) は、入力データ(特徴量)を使って、 「連続値(数値)」を予測するための統計モデル です。 例えば、以下のようなケースで活用されます。 線形回帰の活用例 問題 説明 住宅価格予…

27. 機械学習の基礎② 〜分類・回帰モデルの違い〜

Hello there, ('ω')ノ 1. 分類(Classification)とは? 分類(Classification) は、データを カテゴリ(離散的な値) に分類するタスクです。 分類の例 問題 説明 例 スパムメール分類 メールが「スパム」か「スパムでない」かを予測 2クラス分類 手書き…

26. 機械学習の基礎① 〜教師あり学習と教師なし学習とは?〜

Hello there, ('ω')ノ 1. 機械学習とは? ✅ AI・機械学習・ディープラーニングの違い 「AI(人工知能)」という言葉はよく聞きますが、機械学習やディープラーニングとの違いを整理すると以下のようになります。 AI(人工知能) - 人間のように学習・判断…

25. データ分析プロジェクトの進め方

Hello there, ('ω')ノ 1. データ分析プロジェクトの基本フロー データ分析プロジェクトは、「ビジネスの課題をデータで解決する」 ことが目的です。 一般的な流れは以下の5つのステップに分かれます。 データ分析の5ステップ 1. 課題定義(Problem Definit…

24. 分析結果を効果的に伝える方法 〜ストーリーテリングのコツ〜

Hello there, ('ω')ノ 1. なぜストーリーテリングが重要なのか? データ分析の報告で、よくある 失敗パターン は以下の3つです。 データの羅列で、何を伝えたいのかわからない 例: 「売上データを時系列でプロットしました」→ だから何? グラフが複雑すぎ…

23. Kaggleデータセットを活用しよう!

Hello there, ('ω')ノ 1. Kaggleデータセットとは? Kaggleには、世界中のデータサイエンティストがアップロードしたデータセット が多数公開されています。 Kaggleデータセットの例 データセット 内容 活用例 Titanic - Machine Learning from Disaster …

22. 欠損データをうまく補完するテクニック

Hello there, ('ω')ノ 1. 欠損データとは? なぜ発生するのか? ✅ 欠損データ(Missing Data)とは? データの一部が抜け落ちている状態を 「欠損データ」 といいます。 例えば、以下のようなデータで Age 列に欠損値があるとします。 ID Name Age Salary 1…

21. データの可視化応用 〜ダッシュボードを作ってみよう〜

Hello there, ('ω')ノ 1. ダッシュボードとは? ダッシュボードとは、データを視覚的に整理し、リアルタイムで操作できるインターフェース です。 ✅ データの全体像を直感的に把握できる ✅ インタラクティブに操作でき、ユーザーが自由に分析できる ✅ リア…

20. 画像データの分析② 〜CNN(畳み込みニューラルネットワーク)の基礎〜

Hello there, ('ω')ノ 1. CNN(畳み込みニューラルネットワーク)とは? CNNは、画像認識に特化したニューラルネットワークで、畳み込み層(Convolutional Layer) を使って画像の特徴を抽出します。 ✅ CNNの基本構造 CNNの主な構造は以下のとおりです。 層…

19. 画像データの分析① 〜画像データの読み込みと前処理〜

Hello there, ('ω')ノ ✅ 画像データの読み込みと表示 ✅ リサイズ・グレースケール変換 ✅ データ拡張(Data Augmentation) ✅ 画像の数値ベクトル化(配列変換) 1. 画像データとは? 画像データは、ピクセル(画素) の集まりです。 カラー画像(RGB)の場…

18. 自然言語処理(NLP)入門 〜テキストデータを扱う基本〜

Hello there, ('ω')ノ ✅ 自然言語処理とは? ✅ テキストデータの基本操作(前処理) ✅ 単語のベクトル化(BoW, TF-IDF, Word2Vec) ✅ 感情分析(ポジティブ・ネガティブ分類) 1. 自然言語処理(NLP)とは? 自然言語処理(NLP) とは、人間が話す言葉(テ…

17. 地理空間データの分析 〜ロンドンのパブ&Starbucksデータで実践〜

Hello there, ('ω')ノ 1. 地理空間データとは? 地理空間データ とは、緯度・経度の座標情報を持つデータのことです。 例: ロンドンのパブデータ Pub Name Latitude Longitude The Red Lion 51.5133 -0.1360 The King's Head 51.5120 -0.1245 The White Ha…

16. 時系列データの基本 〜トレンド・季節性の可視化〜

Hello there, ('ω')ノ 1. 時系列データとは? 時系列データは、時間の流れに沿って記録されたデータ です。 例えば、以下のようなデータがあります。 日付 売上(万円) 2024-01-01 120 2024-01-02 135 2024-01-03 150 2024-01-04 125 2024-01-05 160 時系…

15. 探索的データ分析(EDA)入門 〜データを深く理解する方法〜

Hello there, ('ω')ノ 1. EDAとは?なぜ重要なのか? 探索的データ分析(EDA) とは、データの傾向を理解し、問題を発見するための手法です。 EDAを行うことで、データのパターン・相関・異常値・欠損値 などを把握し、適切な前処理や特徴量エンジニアリン…