Shikata Ga Nai

Private? There is no such things.

2025-06-22から1日間の記事一覧

第29回:外れ値の見つけ方と対処方法

Hello there, ('ω')ノ 「平均を出したら、ものすごく大きな値が混じっていて意味がなかった…」 「一部のデータだけ極端におかしい」 こんな経験はありませんか? こういった“場違いな値”は、外れ値(がいれち/アウトライアー)と呼ばれ、分析をゆがめる原因…

第28回:無効なデータ・形式ミスマッチの扱い方

Hello there, ('ω')ノ データ分析において、よくある困りごとの一つが「見た目は合ってるのに、中身がヘン!」という問題です。 たとえばこんな経験、ありませんか? 「日付」と思ったら文字列だった 「数値」と思ったら“十”とか“0円”が混じっていた 「男性…

第27回:欠損値(NULL)の3タイプと対処法

Hello there, ('ω')ノ データ分析やレポート作成をしていると、必ず出会うのが 「空欄」や「値が入っていない」という問題。 この状態のデータは、「欠損値(けっそんち)」と呼ばれ、SQLやExcelでは NULL(ヌル) という特別な値で表現されます。 放ってお…

第26回:重複データを発見・除去しよう

Hello there, ('ω')ノ データ分析を始める前に避けて通れないのが、「データの掃除(クレンジング)」です。 その中でも非常に多いトラブルの一つが「重複データ(ダブり)」。 たとえば顧客名簿に同じ人が2回登録されていたり、売上データに同じ取引が重複…

第25回:クエリを速くする工夫:インデックス・サブクエリ活用術

Hello there, ('ω')ノ 「SQLでデータを取るのはいいけど、遅い…」 「大量データを扱ったら、結果が出るまで待たされる」 こんな経験はありませんか? データ量が増えると、クエリ(データ抽出の命令)のパフォーマンスが非常に重要になります。 ✅ まずは、な…

第24回:クエリの基本:SELECT文とWHERE句って何?

Hello there, ('ω')ノ 「データベースから欲しい情報だけ取り出したい」 「分析のためにデータを抽出したい」 そんなときに欠かせないのが、SQL(エスキューエル)というデータ操作言語です。 ✅ クエリって何? 「クエリ(query)」とは、データベースに送る…

第35回:実例で学ぶビジネスロジックの脆弱性

Hello there, ('ω')ノ 1. ビジネスロジック脆弱性とは? アプリが「正しく」動いた結果、ビジネスルールを破壊してしまう状態 (入力検証など技術的な脆弱性ではなく、仕様上の抜け穴) コードはエラーを出さず、ステータス 200 を返す WAF/スキャナでは検…

第34回:権限昇格(特権取得)とは?どう見つける?

Hello there, ('ω')ノ 1. 権限昇格とは? 区分 説明 例 縦(Vertical) 低権限 → 高権限へ 一般ユーザ → 管理者 横(Horizontal) 同レベル間だが他人のリソースへ ユーザ A → ユーザ B の情報 どちらも 「本来できない操作ができる」 点が共通。 バグバウン…

第33回:コードインジェクションや XSS などの探し方

Hello there, ('ω')ノ 1. まずは“入力点”を洗い出す 入力面 例 チェック方法 URL パラメータ ?q=検索ワード 末尾に '">< など追加 POST フォーム ログイン/問い合わせ Burp で送信内容を編集 HTTP ヘッダー User-Agent Referer Repeater で任意文字列を注入…

第32回:APIの解析とテストの基本

Hello there, ('ω')ノ 1. なぜ API テストが重要か? 観点 理由 機能の集中 本番ロジック・認可判断・データ処理が API に集約 UI 非依存 フロント改装後もエンドポイントは生存し続ける 自動攻撃の的 Bot やスクリプトが直接 API を叩くほうが効率的 2. テ…

第31回:入力フォームやファイルアップロードに注目しよう

Hello there, ('ω')ノ 1. 入力フォームが狙われやすい理由 観点 内容 自由度 テキスト・数値・ファイル・URL など多様な入力を受け取る コード密度 バリデーション、DB 書き込み、メール送信など処理が複数絡む 「動くからOK」思考 ユーザテストは通るがセキ…

第30回:公開リポジトリや GitHub の情報漏えいを探る方法

Hello there, ('ω')ノ 1. なぜ GitHub で秘密情報が漏れるのか? 原因 具体例 コミット忘れ .env に本番 DB パスを書いたまま push 履歴に残存 直後に削除しても git log で丸見え Fork 連鎖 他人に Fork され、コピー先で公開状態に Gist 誤用 メモ用に貼っ…

第23回:OLAPとOLTP:集計か?トランザクションか?

Hello there, ('ω')ノ データベースや分析の話になると、よく出てくる用語に「OLAP(オーラップ)」と「OLTP(オーエルティーピー)」があります。 一見似ていますが、この2つは目的も、得意な処理もまったく異なるシステム構造です。 簡単に言うと: OLTP:…

第22回:ETLとELTの違いを図解で理解しよう

Hello there, ('ω')ノ データ分析やBIツールの活用に取り組むと、よく目にするのが「ETL」や「ELT」という言葉。 似たような言葉ですが、データをどの順番で処理するかという違いがあり、仕組みも使いどころも異なります。 ✅ ETL・ELTとは? まずは言葉の意…

第21回:観察と手動記録:フィールドワーク型データ収集

Hello there, ('ω')ノ データ収集といえば、アンケートやシステムログのような「数字で集まるデータ」をイメージする方が多いかもしれません。 しかし、現場に足を運び、直接観察して手で記録する「フィールドワーク型データ収集」も、実は非常に価値の高い…

第20回:アンケート調査のコツと注意点

Hello there, ('ω')ノ 「お客様の声を集めたい」 「社内の満足度を測ってみたい」 そう考えたときに活用されるのがアンケート調査です。 ただし、アンケートは設計を間違えると、集めたデータが使い物にならないことも…。 せっかく時間と労力をかけるなら、…

第19回:データの自動収集:Webスクレイピング入門

Hello there, ('ω')ノ 「ホームページにある情報を手作業でコピーするのが面倒…」 「特定のサイトから最新情報を毎日取りたい」 そんなときに力を発揮するのが、Webスクレイピング(Web scraping)という技術です。 これは、インターネット上のページからデ…

第18回:APIとは?料理の注文で例えるデータの取り出し方

Hello there, ('ω')ノ 「APIって最近よく聞くけど、正直よくわからない…」 「プログラミングの話?」と思っている方も多いかもしれません。 でも、APIはデータ分析や業務システムでも頻繁に使われる“便利なデータの取り出し口”なんです。 今回は、IT初心者の…

第17回:Kaggleの使い方:面白くて役立つデータを探す

Hello there, ('ω')ノ 「面白いデータで分析練習がしたい」 「公開データを使って社内の教育用に使えないかな?」 そんなときにぜひ活用したいのが、世界中のデータサイエンティストが集まるKaggle(カグル)というプラットフォームです。 ✅ Kaggle(カグル…

第16回:公共データを活用しよう!おすすめのデータベース

Hello there, ('ω')ノ 「社内に使えるデータがない」「どこから情報を取ればいいかわからない」―― そんなときに頼りになるのが、公共データ(オープンデータ)の存在です。 最近では、国や自治体、研究機関などが無料で公開している信頼性の高いデータが豊富…

第15回:実務で役立つ!ファイルの見分け方と使い方

Hello there, ('ω')ノ 業務でデータを扱っていると、毎日のようにいろんなファイル形式に出会います。 たとえばCSVやExcel、PDF、JSON、画像ファイルまで――。 「このファイルってどうやって開けばいいの?」「何に使えるの?」と悩んだことはありませんか? …

第14回:ファイル形式いろいろ:CSV、JSON、HTMLの違いとは?

Hello there, ('ω')ノ データ分析を進める中で、データのやり取りや保存にはさまざまなファイル形式(フォーマット)が使われます。 その中でも特によく登場するのが、CSV・JSON・HTMLという3つの形式です。 それぞれ見た目も構造も違いますが、「何に使われ…

第13回:変数のタイプを理解しよう:離散・連続・カテゴリ

Hello there, ('ω')ノ データ分析を始めると、「変数の種類(タイプ)」という言葉に出会うようになります。 これは、そのデータがどういう性質を持っていて、どんな分析が向いているのかを判断するための基本です。 特に、離散(Discrete)・連続(Continuo…

第12回:データ型の種類:数字・文字・通貨・日付

Hello there, ('ω')ノ データ分析を行ううえでとても重要なのが、「データの型(データ型)」の理解です。 実は、見た目が同じでも中身の型が違うと、正しく集計できないことがあります。 たとえば、数字に見えるのに合計できない。日付なのに並び順がおかし…

第11回:データの更新ルール:履歴を残すor上書き?

Hello there, ('ω')ノ データを扱っていると、必ず直面するのが「データの更新」に関する悩みです。 たとえば、顧客の住所が変わった、商品の価格が改定された、ステータスが更新された── そんなとき、「前のデータを上書きしていいのか?」「それとも履歴と…

第10回:データウェアハウスとデータレイクの違いとは?

Hello there, ('ω')ノ 近年、企業ではデータ活用が加速し、膨大な情報を保管・分析するための「データの保管場所」にも注目が集まっています。 その代表的な手段が 「データウェアハウス(DWH)」 と 「データレイク」 です。 名前は似ていますが、役割・特…

第9回:スノーフレーク型スキーマの特徴と使いどころ②

Hello there, ('ω')ノ 名前の通り、雪の結晶のように枝分かれした構造が特徴です。 一見複雑ですが、実務では大規模なデータ分析やデータベース設計でよく登場する形です。 ❄️ スノーフレーク型スキーマとは? スノーフレーク型スキーマ(Snowflake Schema)…

第8回:スター型スキーマって何?データベースの設計図①

Hello there, ('ω')ノ データ分析において、「データがどのように整理されているか」は非常に重要なポイントです。 複雑なデータベースでも、ある一定の「型」に従って整理されていることが多く、 それがいわゆる「スキーマ(schema)」と呼ばれるものです。…