Shikata Ga Nai

Private? There is no such things.

Kaggle

他の参加者とスコアを比較するには

Hello there, ('ω')ノ ✅ 手順:他の人とスコアを比較する方法 ① Kaggle のコンペページへ 例: https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques ② 上部メニューから Leaderboard をクリック このタブでは、参加者全体のス…

Kaggle に `submission.csv` を提出する手順

Hello there, ('ω')ノ ✅ Kaggle 提出方法(submission.csv) 1. submission.csv を出力(保存) あなたのノートブックで以下のようなコードを実行して、CSVファイルを生成します: submission.to_csv("submission.csv", index=False) print("submission.csv…

自分でモデルの精度を確認する方法

Hello there, ('ω')ノ ✅ 精度を自分で確認する方法:2つあります 方法 内容 精度が見えるか ① train/test を分けてKaggleに提出 提出後にスコア(RMSE)で確認 ✅ できる(Public Score) ② train データの中で分割して検証 自分でRMSEを計算できる ✅ 自分で…

ステップ④:モデル構築と予測

Hello there, ('ω')ノ ステップ④:モデル構築と予測 ここではまず、初心者向けで最もシンプルな「線形回帰モデル」を使って、住宅価格(SalePrice)を予測してみます。 目的 入力:前処理済みの特徴量 X_train 出力:住宅価格 y モデル:線形回帰(Linear …

ステップ③:前処理(欠損値処理とカテゴリ変数の対応)

Hello there, ('ω')ノ ステップ③:前処理(データクレンジング) ここでは主に以下の作業を行います: 処理内容 目的 欠損値(NaN)の処理 モデルが学習できるようにする カテゴリ変数の処理 文字列データを数値に変換して学習可能にする データの統合と整…

機械学習の基本的な流れ

Hello there, ('ω')ノ プロジェクト概要 目標は、アメリカのアイオワ州エイムズ市の住宅価格を、間取り・築年数・面積などのデータから予測することです。 これを通して、以下のようなプロセスを学びます: ✨ 全体の流れ(初心者でもできる構成) データの…

コンペのデータをノートブックに接続する方法

Hello there, ('ω')ノ ✅ データセットをKaggleノートブックにセットする方法 ステップ①:右側の「+ Add Input」ボタンをクリック 画像の右側「Input」欄にある + Add Input ボタンをクリックします。 ステップ②:「Competition Data」タブを開く 上部にあ…

データファイルをKaggleノートブックにセットする手順

Hello there, ('ω')ノ ✅ 手順:Kaggleにデータファイルをセットする方法 ステップ1:対象コンペのページを開く まずは「House Prices: Advanced Regression Techniques」のコンペページを開きます: https://www.kaggle.com/competitions/house-prices-adv…

Kaggle上でデータセットを準備する手順

Hello there, ('ω')ノ ステップ1:Kaggleアカウントの作成 まずはKaggleのアカウントが必要です。まだ持っていない場合は、以下の手順で作成しましょう。 Kaggle公式サイトにアクセス 右上の「Sign In」→「Sign up」からアカウント作成 Googleアカウントや…

44. TransformerとBERTの基本

Hello there, ('ω')ノ 1. Transformerとは? 基本構造と仕組み ✅ Transformerとは? Transformer とは、 「自己注意機構(Self-Attention)」を活用して、テキスト内の単語間の関係を学習するモデル です。 2017年にGoogleが発表した論文 「Attention is Al…

43. CNNを使った画像分類の実践

Hello there, ('ω')ノ 1. CNNとは? 基本構造と仕組み ✅ CNN(畳み込みニューラルネットワーク)とは? CNNは、画像や動画などのデータを処理するためのディープラーニングモデル です。 人間の視覚に近い仕組みで、画像の特徴を抽出して分類します。 CNN…

42. PyTorch vs TensorFlowどっちを使う?

Hello there, ('ω')ノ 1. PyTorch vs TensorFlow:基本情報 ✅ PyTorchとは? PyTorchは、Facebook(Meta) によって開発されたディープラーニングフレームワークです。 Pythonicで直感的な構文が特徴で、 ✅ 動的計算グラフ(Define-by-Run) → 柔軟性が高い…

41. ニューラルネットワークの基礎

Hello there, ('ω')ノ 1. ニューラルネットワークとは? ニューラルネットワーク(NN) とは、 「複数の層(レイヤー)で構成されたノード(ニューロン)が、データのパターンを学習するモデル」 です。 ✅ 入力層(Input Layer) → データを受け取る層 ✅ 隠…

40. Kaggleで成功するための戦略!

Hello there, ('ω')ノ 1. Kaggleで勝つための5つのステップ Kaggleで上位に入るためには、以下の流れで進めるのが効果的です。 ✅ ステップ① EDA(探索的データ分析) まずはデータの傾向をしっかり理解することが重要です。 ポイント データの分布を可視化…

39. モデルの解釈性を高める手法

Hello there, ('ω')ノ 1. モデルの解釈性とは? なぜ重要なのか? モデルの解釈性(Interpretability) とは、 「モデルがどのように予測を行っているのかを理解し、説明できること」 を指します。 解釈性が重要な理由 ビジネス・医療での意思決定の透明性…

38. Kaggleのコンペで勝つためのモデル選び

Hello there, ('ω')ノ 1. Kaggleのコンペの種類と適したモデル Kaggleのコンペは、大きく分けて以下の3つのタイプがあります。 各タスクに適したモデルを理解することが、勝率を上げるポイントです! タスク 代表的なデータセット 最適なモデル テーブルデ…

37. アンサンブル学習とは? 〜複数モデルを組み合わせる〜

Hello there, ('ω')ノ 1. アンサンブル学習とは? アンサンブル学習(Ensemble Learning) とは、 複数の異なる機械学習モデルを組み合わせて、最終的な予測を行う手法 です。 なぜアンサンブル学習が重要なのか? 1つのモデルの弱点を補完し、より高い精…

36. 特徴量エンジニアリングの重要性

Hello there, ('ω')ノ 1. 特徴量エンジニアリングとは? ✅ 特徴量エンジニアリングとは? 特徴量エンジニアリング(Feature Engineering) とは、 機械学習モデルが適切に学習できるように、データを最適な形に変換するプロセス です。 なぜ特徴量エンジニ…

35. ハイパーパラメータチューニングのコツ

Hello there, ('ω')ノ 1. ハイパーパラメータとは? ハイパーパラメータ とは、モデルの学習前に設定するパラメータ です。 例えば、決定木の「木の深さ」や、XGBoostの「学習率」 などが該当します。 ハイパーパラメータ vs 学習パラメータ 種類 例 設定…

34. モデル評価の方法② 〜交差検証・AUC・ROC曲線〜

Hello there, ('ω')ノ 1. 交差検証とは? 交差検証(Cross Validation) とは、データを複数の分割パターンで学習・評価することで、 「データ分割の偏り」や「過学習」を防ぐ手法 です。 ✅ なぜ交差検証が必要なのか? 通常の評価では、データを 「学習用…

33. モデル評価の方法① 〜精度・再現率・F1スコア〜

Hello there, ('ω')ノ 1. モデル評価の基本(混同行列とは?) まず、分類モデルの評価に欠かせない 「混同行列(Confusion Matrix)」 について理解しましょう! 混同行列とは? 2クラス分類(例: スパム or 非スパム)における予測結果を整理した表です…

32. XGBoost・LightGBMの基本

Hello there, ('ω')ノ 1. XGBoost・LightGBMとは? XGBoostとLightGBMは、どちらも勾配ブースティング(Gradient Boosting) を使った強力な決定木アルゴリズムです。 XGBoost・LightGBMの特徴 アルゴリズム 特徴 代表的な用途 XGBoost 高精度、過学習に強…

31. k近傍法(k-NN)を使ってみよう!

Hello there, ('ω')ノ 1. k-NNとは? k-NN(k-近傍法) は、データの分類や回帰に使われる「距離ベース」のアルゴリズムです。 「k個の近くのデータ(近傍)を見て、多数決 or 平均で予測する」というシンプルな仕組みです。 k-NNの基本アイデア 新しいデ…

30. サポートベクターマシン(SVM)入門

Hello there, ('ω')ノ 1. SVMとは? SVM(サポートベクターマシン) は、分類問題を解くための強力なアルゴリズムです。 データを分類するために 「最適な境界線(超平面)」 を見つけることが目的です。 SVMの考え方 1. データを分類する「境界線(決定境…

29. 決定木・ランダムフォレストの仕組み

Hello there, ('ω')ノ 1. 決定木(Decision Tree)とは? 決定木(Decision Tree)は、データを分岐しながら分類・予測するモデル です。 木のようにデータを分けていくことで、最終的な予測を行います。 決定木の仕組み 1. 特徴量(例: 年齢, 収入)を使…

28. 線形回帰モデルを理解しよう!

Hello there, ('ω')ノ 1. 線形回帰とは? 線形回帰(Linear Regression) は、入力データ(特徴量)を使って、 「連続値(数値)」を予測するための統計モデル です。 例えば、以下のようなケースで活用されます。 線形回帰の活用例 問題 説明 住宅価格予…

27. 機械学習の基礎② 〜分類・回帰モデルの違い〜

Hello there, ('ω')ノ 1. 分類(Classification)とは? 分類(Classification) は、データを カテゴリ(離散的な値) に分類するタスクです。 分類の例 問題 説明 例 スパムメール分類 メールが「スパム」か「スパムでない」かを予測 2クラス分類 手書き…

26. 機械学習の基礎① 〜教師あり学習と教師なし学習とは?〜

Hello there, ('ω')ノ 1. 機械学習とは? ✅ AI・機械学習・ディープラーニングの違い 「AI(人工知能)」という言葉はよく聞きますが、機械学習やディープラーニングとの違いを整理すると以下のようになります。 AI(人工知能) - 人間のように学習・判断…

25. データ分析プロジェクトの進め方

Hello there, ('ω')ノ 1. データ分析プロジェクトの基本フロー データ分析プロジェクトは、「ビジネスの課題をデータで解決する」 ことが目的です。 一般的な流れは以下の5つのステップに分かれます。 データ分析の5ステップ 1. 課題定義(Problem Definit…

24. 分析結果を効果的に伝える方法 〜ストーリーテリングのコツ〜

Hello there, ('ω')ノ 1. なぜストーリーテリングが重要なのか? データ分析の報告で、よくある 失敗パターン は以下の3つです。 データの羅列で、何を伝えたいのかわからない 例: 「売上データを時系列でプロットしました」→ だから何? グラフが複雑すぎ…