Shikata Ga Nai

Private? There is no such things.

データサイエンス

帰無仮説(Null Hypothesis, \(H_0\))とは

Hello there, ('ω')ノ 帰無仮説((H_0))とは、「統計的な差や関係が存在しない」という仮定のことです。統計的仮説検定では、まずこの帰無仮説を立て、それを棄却することで対立仮説((H_1))が支持されるかどうかを判断します。 帰無仮説の特徴 「差がない…

仮説検定におけるタイプIエラーとタイプIIエラーの違い

Hello there, ('ω')ノ 仮説検定では、帰無仮説((H_0))と対立仮説((H_1))を設定し、統計的にどちらが妥当かを判断します。その際、誤った結論を下す可能性があり、タイプIエラー(第一種の過誤)とタイプIIエラー(第二種の過誤)の2種類のエラーが発生す…

t 検定

Hello there, ('ω')ノ t検定とは? t検定(t-test) は、2つのグループの平均値に有意な差があるかを検定する統計手法です。標本のサイズが小さい場合でも信頼性のある結果を得るために使用されます。 t検定の種類 t検定には主に以下の3種類があります。 対…

Zスコア

Hello there, ('ω')ノ Zスコア(標準得点)とは、データが平均からどれだけ離れているかを標準偏差を基準にして示す指標です。データの分布が正規分布に従う場合、特定のデータが全体の中でどの位置にあるのかを把握するのに役立ちます。 Zスコアの計算式 [ …

カイ二乗(χ²)検定

Hello there, ('ω')ノ カイ二乗(χ²)検定とは、統計学においてカテゴリーデータ(質的データ)の分析に用いられる検定方法の一つです。主に以下のような目的で使用されます。 1. 適合度検定 ある観測データが理論的な分布(期待値)にどれくらい適合してい…

離散データとは

Hello there, ('ω')ノ 離散データ(Discrete Data) とは、数えられる(カウントできる)値を持つデータのことです。 連続データ(Continuous Data) と対比される概念で、離散データは「途中の値を取らない」特徴があります。 具体例 ✔ 離散データの例 - 人…

非構造化 BLOB データとは

Hello there, ('ω')ノ BLOB(Binary Large Object) とは、大きなサイズのバイナリデータ(画像、動画、音声、PDFなど)をデータベースに保存するためのデータ型です。 非構造化 BLOB データ とは、BLOB の中でも特に 決まったデータの形式や構造を持たない…

データリポジトリと冗長データとは

Hello there, ('ω')ノ データリポジトリ(Data Repository) とは、組織が収集・管理するデータを格納するための中央ストレージのこと です。 データの種類や用途によって、さまざまなタイプのデータリポジトリが存在します。 主なデータリポジトリの種類 …

ELTとETLの違い

Hello there, ('ω')ノ ELT(Extract, Load, Transform) と ETL(Extract, Transform, Load) は、データ処理の2つの異なる手法です。 どちらもデータの抽出(Extract)、変換(Transform)、ロード(Load)を行いますが、その処理の順番が異なります。 ETL…

サンプリングとは

Hello there, ('ω')ノ サンプリング(Sampling) とは、大規模なデータセットの一部(サンプル)を抽出し、そのサンプルを基に全体の傾向を分析する手法 です。 データの全体(母集団)を直接分析するのが難しい場合に、一部のデータを抜き出して分析するこ…

データ分析で見る信頼区間の求め方

Hello there, ('ω')ノ 「製薬業界のデータサイエンティストが、小さな地方コミュニティで期限切れの薬を保有している世帯数について調査を行いました。信頼水準は 99% です。得られたデータをもとに、Excel で信頼区間を求めた結果は以下のとおりです: Alpha…

不動産価格の変化率を分析

Hello there, ('ω')ノ 「ある不動産ブローカーが、住宅の価格をどれだけ下げれば購入希望者の興味を引けるか、その値下げ率(パーセント変化)を算出してほしいとアナリストに依頼しました。分析対象の住宅は以下のとおりです: House 1, 元の販売価格:$157,…

小さなホテルの賃金データを分析

Hello there, ('ω')ノ 「ある小さなホテルのアナリストが、ハウスキーピングスタッフのパートタイム賃金を確認しています。以下がそのリストです: $80, $820, $150, $250, $300, $95, $420, $450, $695, $250, $175 このパートタイム賃金の平均はいくらでし…

役員報酬のデータ分析

Hello there, ('ω')ノ 「ある金融投資会社の人事部は、ボーナスを含む以下の役員報酬(給与)に対して代表値(中心傾向)を計算するようにデータアナリストに依頼しました。給与の一覧は以下のとおりです: $243,799, $243,799, $244,100, $244,100, $244,100…

人気ゲームの売上データを分析

Hello there, ('ω')ノ 「あるアナリストが、小規模のビデオゲーム店で過去3か月間に購入された人気ビデオゲームの数を表すデータをまとめました。トップ5の販売数は以下のとおりです: Video game #1 = 350本売れた Video game #2 = 317本売れた Video game #…

オンライン トランザクション処理 (OLTP)とは

Hello there, ('ω')ノ オンライントランザクション処理(OLTP) とは、リアルタイムでデータベースへのトランザクション(取引・操作)を処理するシステム です。 銀行の振込、ショッピングサイトでの注文、在庫管理システムなど、日常的な業務で頻繁に発生…

オンライン分析処理 (OLAP)とは

Hello there, ('ω')ノ オンライン分析処理(OLAP) とは、データを多次元的に分析し、ビジネスインテリジェンス(BI)や意思決定を支援する技術 です。 データウェアハウス(DWH) に格納された大量のデータを、さまざまな視点(ディメンション)から高速に…

スキーマとは

Hello there, ('ω')ノ スキーマ(Schema) とは、データベースやデータウェアハウスの構造(設計)を定義する枠組み のことです。 データのテーブル構成、カラム(フィールド)、データ型、リレーション(関係性)、制約(Constraints) などを定義します。 …

ディメンション テーブルとは

Hello there, ('ω')ノ ディメンションテーブル(Dimension Table) とは、データウェアハウスやOLAP(オンライン分析処理)において、ファクトテーブル(Fact Table)を補助し、分析の軸(ディメンション)を提供するテーブルのことです。 ディメンションテ…