Follow @data_no_memo

メモ

個人的なメモです。他者にわかりやすく書くよりも未来の自分にわかりやすく書いています。なお、記事内容の正確さは保証できません。勉強中の身ですので、間違い等ご指摘頂けたら幸いです。

コロナウイルスのデータで遊ぶ

久しぶりの更新。 最近流行のコロナウイルスのデータで少し遊んでみる。 なお、コロナウイルス関連の情報は錯綜しており、本記事も必ずしも正しいことを言っているわけではないことには留意されたい。 また、分析ミス等があるかもしれない。 Rのパッケージ …

機械学習・Pythonお勉強(k最近傍法を例にして 実践編)

はじめに 今回はkNN法の実践編を書く。なお、その理論編は以下の通り。 abcxyzonetwothree.hatenablog.com 今回も前回の実践編と同様に有名なtitanicデータを用いる事にする。なお、前回の実践編の記事は以下の通り。 abcxyzonetwothree.hatenablog.com 使用…

機械学習・Pythonお勉強(線形識別関数を例にして 理論編)

はじめに 以下の記事の続き。 abcxyzonetwothree.hatenablog.com abcxyzonetwothree.hatenablog.com 今回は線形識別関数について。特にここでは、線形判別分析を取り上げる。『はじめてのパターン認識』では線形判別分析以外にも線形識別関数とロジスティッ…

機械学習・Pythonお勉強(k最近傍法を例にして 理論編)

はじめに 以下の記事の続き。 abcxyzonetwothree.hatenablog.com 今回は理論編と実践編を分けて書く。理由は、理論編では数式が多く登場するが、Markdown方式で書くと、おそらくその記号のバッティングで書けない数式が出てくる。したがって、理論編ではMark…

AtCoder:ABC081B - Shift only

はじめに Pythonの勉強がてらAtCoderをやっているが、正解にはたどり着くものの処理時間の時間切れになってしまう問題が発生する。私のコーディング力ではこれが限界なので、そのような回答をここに載せる・ 問題文 黒板に N 個の正の整数 A 1 , . . . , A N…

AtCoder Beginner Contest 137

Pythonの練習がてらAtCoderの練習問題に取り組んでいたが、AtCoder Beginner Contest 137のC- Green Binの問題で、合っているだろうにも関わらず全く正解判定とならない。 どういう事だろう…。 x = list(map(str, input().split())) #入力 n = int(x[0]) #最…

機械学習・Pythonお勉強(ベイズの識別規則を例にして)

はじめに これまでRを使って社会科学系の分析のみを行ってきたが、就職するにあたってPythonと機械学習のお勉強をはじめなければならないことになった。そこで、機械学習・Python関係の勉強に関してアウトプットとしてここに残しておく。現在の勉強法はData …

研究室にslack分報を導入してみた話

はじめに 今回は分析系の話ではなく、研究室にslackの分報を導入してみた話をまとめてみる。以下では、まず私が所属している研究室の様子を記述する。その後、slack分報の概要を示す。最後に、slack分報を導入してみて生じた事、考えた事をまとめてみる。 研…

カーネル密度推定・Shinyを使ってみた

はじめに 今回の記事は前半と後半に分かれる。前半でカーネル密度推定の概要を書く。後半でカーネル密度推定をコンテンツとしてShinyで簡単なweb アプリを作成する。はじめに両者の簡単な紹介をする。 カーネル密度推定とは手元にあるデータからそのデータが…

試験的にMarkdownで文章を書いてみた

はじめに R StudioでMarkdown方式で文章を書いてみた。とりあえず、論文やレポート執筆のための最低限の機能を網羅した感じかな。これ以上の機能については、実際に使用しながらこれから試していく。以下、完全に自分用のメモ。 コード この記事もMarkdown方…

Markdown

目次 背景 具体的な方法 数式 コード 文字いろいろ 表 最後に 背景 これまで、Markdownの存在は知っていたものの、それに取り組もうとはしなかった。しかし、はてなブログでもMarkdown方式でブログが書けてしまうこと、R studio内でMarkdown式で書けてしまう…

混合分布モデル・潜在クラス分析

今回は、潜在クラス分析について。 潜在クラス分析はクラスター分析ほど知名度が低いが、とても便利な分析手法。 なお、クラスター分析については以下の記事を参照。 abcxyzonetwothree.hatenablog.com 潜在クラス分析は、ある質的な変数の応答パターンを用…

クラスター分析

今回はクラスター分析についてまとめる。 クラスター分析はあまりにも有名で、一般向けにも非常にわかりやすい記事がいっぱいある。 クラスター分析は、機械学習の文脈では「教師なし学習」の1つとして紹介されることが多い。 ざっくりとその概要を示すと、…

傾向スコア(Propensity Score)法②

この2ヶ月間、非常にバタバタしていて更新がストップしていたが、落ち着いたので更新していく。 今回は前回の続き。 abcxyzonetwothree.hatenablog.com 前回は、傾向スコア法の基本的な発想を紹介した。「強く無視できる割り当て」という仮定のもとで、トリ…

傾向スコア(Propensity Score)法

傾向スコア法による分析を使いたいので勉強。分かった事についてメモ。なお、一口に傾向スコア法といっても様々な使い方があるので、適宜更新していく。 まず、物事の因果関係を考える時、例えば、留学経験はその人の収入を増加させるのかという問いを考える…

RからLatexへ

メモ。今後、情報を更新していく。 私は完全にアンチ商用パッケージなので、できるだけビルゲイツにはお世話になりたくない。また、IBMにもお世話になりたくない*1。よって、分析はR、最近は文章をlatexで書くようになった。また、Rとlatexはとても互換性が…

進まない

研究が進まない。走っても走っても前に進まない夢をよく見るが、その感覚に似ている。多分、この走っても走っても前に進まない夢をみるのは小学生の時に所属していたサッカーチームの監督にひどく怒られていた時のトラウマ経験に由来していると思う。誰か精…

尤度比検定における統計量がカイ二乗分布に従うかの実験

最尤法を用いてパラメータを推定する分析において、モデル1と、モデル1に独立変数を加えたモデル2を比較したい時に便利な検定がある。尤度比検定(likelihood ratio test: LR test)である。最尤法で最大尤度を導出して推定する分析(例えば、ロジスティック…

フィッシャーの検定とモンテカルロ法③

以下の記事からの続き。 abcxyzonetwothree.hatenablog.com abcxyzonetwothree.hatenablog.com 今回はモンテカルロ法について。 統計を使って何らかの事象を分析する統計学のエンドユーザーにとって、モンテカルロ法は「コンピューターでランダムな数字を発…

ロジットモデルとプロビットモデル

某授業でロジットモデルとプロビットモデルの説明を求められたので、ここにメモ。 ロジットモデルとプロビットモデルは、従属変数がカテゴリカルなデータである時に用いられる分析手法である(ただし、特に計算が簡単なロジットモデルについては、よく知られ…

フィッシャーの検定とモンテカルロ法②

前回からの続き。前回の記事は以下。 abcxyzonetwothree.hatenablog.com 今回は、フィッシャーの検定について。 例えば、以下のようなデータを得たとしよう。 この時、縦と横の周辺度数が固定されたとして、あり得るマトリックスは何だろうか。考えられるの…

フィッシャーの検定とモンテカルロ法①

Rでフィッシャーの正確検定(fisher.test())を行おうと思ったら、 Try increasing the size of the workspace なるエラーメッセージがでてきた。 よくわからんが、とにかくworkspace=1e50 とか試して、workspaceなるものを増やしてみたが結局うまくいかなか…

トービットモデル

トービットモデルについて。 まだ勉強中で、間違っているところがあるかもしれないが、メモ。 それでは、どのように普通の回帰分析と結果が異なるのか。簡単に実験してみた。 まず、独立変数x(平均3000、標準偏差1000)と従属変数y(平均3000、標準偏差1000…

ポワソン分布

ポワソン分布は、1単位時間あたり平均λ回生じるこ事象が、ある期間にちょうどk回生じる確率の分布である。 例えば、ある売店で1日あたり平均5(=λ)本の水が売れるとした場合、1ヶ月間(30日間)でちょうどk個売れる確率の分布はポワソン分布に従うと仮定で…

標準化しても正規分布にはならない

特に、教育分野で標準化の例として偏差値が取り上げられ、偏差値70だと上位○○%だと、正規分布とともに紹介されることがある。 先日、友人と話をしていて、このことがあたかも標準化を行えば、そのデータが正規分布に従うようになるという誤解を生んでいるの…

クロンバックのα係数

何らかの質問項目によって、測定された変数がどれだけ、本当に測りたいそれを測れているのかを示す指標として、しばしばクロンバックのα係数が使用される。なお、クロンバックのα係数は信頼性係数の指標の1つである。 クロンバックのα係数を考えるために、こ…

偏相関係数の意味

先日、ある先生が偏相関係数について説明していたけど、適切とはお思えない方法で(少なくとも非常にわかりにくい方法で)、その数式の意味を教えていたので、偏相関係数について改めて考える。 偏相関係数とは、変数xと変数y間の関係において、変数z影響を…

正規分布からカイ二乗分布導く

よく知られる確率分布は互いに関連しており、ある分布からある分布を導出することができる。 今回は標準正規分布からカイ二乗分布を導いてみる。 カイ二乗分布は標準正規分布からランダムに得られた数値の2乗値の合計の分布である。 カイ二乗分布は自由度に…

多重共線性

多重共線性とは、ある回帰モデルにおいて、独立変数間の相関が強い時、その係数の推定値の分散が大きくなってしまい、推定値が安定しない問題である。 最小2乗法による回帰分析で実際に試してみた。 手順は以下の通り。 ①従属変数yを正規分布から発生 ②yと相…

相関のある2つの変数の乱数の発生方法

Rで相関関係のある2つの変数の乱数を発生させる時、いつも以下の方法に頼っていました。 n<-10000 b<-0.9 set.seed(1234) x<-rnorm(n) e<-rnorm(n) y<-x*b+e cor(x,y) この時のbをいじる事で相関の強さを調整していました。なんと効率の悪い方法でしょう。 …