Follow @data_no_memo

メモ

個人的なメモです。他者にわかりやすく書くよりも未来の自分にわかりやすく書いています。なお、記事内容の正確さは保証できません。勉強中の身ですので、間違い等ご指摘頂けたら幸いです。

分析系

混合分布モデル・潜在クラス分析

今回は、潜在クラス分析について。 潜在クラス分析はクラスター分析ほど知名度が低いが、とても便利な分析手法。 なお、クラスター分析については以下の記事を参照。 abcxyzonetwothree.hatenablog.com 潜在クラス分析は、ある質的な変数の応答パターンを用…

クラスター分析

今回はクラスター分析についてまとめる。 クラスター分析はあまりにも有名で、一般向けにも非常にわかりやすい記事がいっぱいある。 クラスター分析は、機械学習の文脈では「教師なし学習」の1つとして紹介されることが多い。 ざっくりとその概要を示すと、…

傾向スコア(Propensity Score)法②

この2ヶ月間、非常にバタバタしていて更新がストップしていたが、落ち着いたので更新していく。 今回は前回の続き。 abcxyzonetwothree.hatenablog.com 前回は、傾向スコア法の基本的な発想を紹介した。「強く無視できる割り当て」という仮定のもとで、トリ…

傾向スコア(Propensity Score)法

傾向スコア法による分析を使いたいので勉強。分かった事についてメモ。なお、一口に傾向スコア法といっても様々な使い方があるので、適宜更新していく。 まず、物事の因果関係を考える時、例えば、留学経験はその人の収入を増加させるのかという問いを考える…

尤度比検定における統計量がカイ二乗分布に従うかの実験

最尤法を用いてパラメータを推定する分析において、モデル1と、モデル1に独立変数を加えたモデル2を比較したい時に便利な検定がある。尤度比検定(likelihood ratio test: LR test)である。最尤法で最大尤度を導出して推定する分析(例えば、ロジスティック…

フィッシャーの検定とモンテカルロ法③

以下の記事からの続き。 abcxyzonetwothree.hatenablog.com abcxyzonetwothree.hatenablog.com 今回はモンテカルロ法について。 統計を使って何らかの事象を分析する統計学のエンドユーザーにとって、モンテカルロ法は「コンピューターでランダムな数字を発…

ロジットモデルとプロビットモデル

某授業でロジットモデルとプロビットモデルの説明を求められたので、ここにメモ。 ロジットモデルとプロビットモデルは、従属変数がカテゴリカルなデータである時に用いられる分析手法である(ただし、特に計算が簡単なロジットモデルについては、よく知られ…

フィッシャーの検定とモンテカルロ法②

前回からの続き。前回の記事は以下。 abcxyzonetwothree.hatenablog.com 今回は、フィッシャーの検定について。 例えば、以下のようなデータを得たとしよう。 この時、縦と横の周辺度数が固定されたとして、あり得るマトリックスは何だろうか。考えられるの…

フィッシャーの検定とモンテカルロ法①

Rでフィッシャーの正確検定(fisher.test())を行おうと思ったら、 Try increasing the size of the workspace なるエラーメッセージがでてきた。 よくわからんが、とにかくworkspace=1e50 とか試して、workspaceなるものを増やしてみたが結局うまくいかなか…

トービットモデル

トービットモデルについて。 まだ勉強中で、間違っているところがあるかもしれないが、メモ。 それでは、どのように普通の回帰分析と結果が異なるのか。簡単に実験してみた。 まず、独立変数x(平均3000、標準偏差1000)と従属変数y(平均3000、標準偏差1000…

ポワソン分布

ポワソン分布は、1単位時間あたり平均λ回生じるこ事象が、ある期間にちょうどk回生じる確率の分布である。 例えば、ある売店で1日あたり平均5(=λ)本の水が売れるとした場合、1ヶ月間(30日間)でちょうどk個売れる確率の分布はポワソン分布に従うと仮定で…

標準化しても正規分布にはならない

特に、教育分野で標準化の例として偏差値が取り上げられ、偏差値70だと上位○○%だと、正規分布とともに紹介されることがある。 先日、友人と話をしていて、このことがあたかも標準化を行えば、そのデータが正規分布に従うようになるという誤解を生んでいるの…

クロンバックのα係数

何らかの質問項目によって、測定された変数がどれだけ、本当に測りたいそれを測れているのかを示す指標として、しばしばクロンバックのα係数が使用される。なお、クロンバックのα係数は信頼性係数の指標の1つである。 クロンバックのα係数を考えるために、こ…

偏相関係数の意味

先日、ある先生が偏相関係数について説明していたけど、適切とはお思えない方法で(少なくとも非常にわかりにくい方法で)、その数式の意味を教えていたので、偏相関係数について改めて考える。 偏相関係数とは、変数xと変数y間の関係において、変数z影響を…

正規分布からカイ二乗分布導く

よく知られる確率分布は互いに関連しており、ある分布からある分布を導出することができる。 今回は標準正規分布からカイ二乗分布を導いてみる。 カイ二乗分布は標準正規分布からランダムに得られた数値の2乗値の合計の分布である。 カイ二乗分布は自由度に…

多重共線性

多重共線性とは、ある回帰モデルにおいて、独立変数間の相関が強い時、その係数の推定値の分散が大きくなってしまい、推定値が安定しない問題である。 最小2乗法による回帰分析で実際に試してみた。 手順は以下の通り。 ①従属変数yを正規分布から発生 ②yと相…

相関のある2つの変数の乱数の発生方法

Rで相関関係のある2つの変数の乱数を発生させる時、いつも以下の方法に頼っていました。 n<-10000 b<-0.9 set.seed(1234) x<-rnorm(n) e<-rnorm(n) y<-x*b+e cor(x,y) この時のbをいじる事で相関の強さを調整していました。なんと効率の悪い方法でしょう。 …

虹を描いてみた

ggplot2 という素晴らしいパッケージの存在を教えてもらったので、ggplotで虹を描いてみました。 綺麗 そのコードは以下の通り。 x<-c(-250:250) num<-numeric(length(x)*7) y<-matrix(num,nrow=length(x),ncol=7) for(i in 1:7){ y[,i]<--x^2-i*10000 } c<-…

R:Mac文字化けをひらがなに

Rに関するメモ MacのRでplot()などで図示すると、ひらがなが以下のように化けます。 これに対処する一つの方法として以下のコードを書いておくとなおります。 par(family="HiraKakuProN-W3") と入力してからplotさせると解決します。