Follow @data_no_memo

メモ

個人的なメモです。他者にわかりやすく書くよりも未来の自分にわかりやすく書いています。なお、記事内容の正確さは保証できません。勉強中の身ですので、間違い等ご指摘頂けたら幸いです。

2018-01-01から1年間の記事一覧

RからLatexへ

メモ。今後、情報を更新していく。 私は完全にアンチ商用パッケージなので、できるだけビルゲイツにはお世話になりたくない。また、IBMにもお世話になりたくない*1。よって、分析はR、最近は文章をlatexで書くようになった。また、Rとlatexはとても互換性が…

進まない

研究が進まない。走っても走っても前に進まない夢をよく見るが、その感覚に似ている。多分、この走っても走っても前に進まない夢をみるのは小学生の時に所属していたサッカーチームの監督にひどく怒られていた時のトラウマ経験に由来していると思う。誰か精…

尤度比検定における統計量がカイ二乗分布に従うかの実験

最尤法を用いてパラメータを推定する分析において、モデル1と、モデル1に独立変数を加えたモデル2を比較したい時に便利な検定がある。尤度比検定(likelihood ratio test: LR test)である。最尤法で最大尤度を導出して推定する分析(例えば、ロジスティック…

フィッシャーの検定とモンテカルロ法③

以下の記事からの続き。 abcxyzonetwothree.hatenablog.com abcxyzonetwothree.hatenablog.com 今回はモンテカルロ法について。 統計を使って何らかの事象を分析する統計学のエンドユーザーにとって、モンテカルロ法は「コンピューターでランダムな数字を発…

ロジットモデルとプロビットモデル

某授業でロジットモデルとプロビットモデルの説明を求められたので、ここにメモ。 ロジットモデルとプロビットモデルは、従属変数がカテゴリカルなデータである時に用いられる分析手法である(ただし、特に計算が簡単なロジットモデルについては、よく知られ…

フィッシャーの検定とモンテカルロ法②

前回からの続き。前回の記事は以下。 abcxyzonetwothree.hatenablog.com 今回は、フィッシャーの検定について。 例えば、以下のようなデータを得たとしよう。 この時、縦と横の周辺度数が固定されたとして、あり得るマトリックスは何だろうか。考えられるの…

フィッシャーの検定とモンテカルロ法①

Rでフィッシャーの正確検定(fisher.test())を行おうと思ったら、 Try increasing the size of the workspace なるエラーメッセージがでてきた。 よくわからんが、とにかくworkspace=1e50 とか試して、workspaceなるものを増やしてみたが結局うまくいかなか…

トービットモデル

トービットモデルについて。 まだ勉強中で、間違っているところがあるかもしれないが、メモ。 それでは、どのように普通の回帰分析と結果が異なるのか。簡単に実験してみた。 まず、独立変数x(平均3000、標準偏差1000)と従属変数y(平均3000、標準偏差1000…

ポワソン分布

ポワソン分布は、1単位時間あたり平均λ回生じるこ事象が、ある期間にちょうどk回生じる確率の分布である。 例えば、ある売店で1日あたり平均5(=λ)本の水が売れるとした場合、1ヶ月間(30日間)でちょうどk個売れる確率の分布はポワソン分布に従うと仮定で…

標準化しても正規分布にはならない

特に、教育分野で標準化の例として偏差値が取り上げられ、偏差値70だと上位○○%だと、正規分布とともに紹介されることがある。 先日、友人と話をしていて、このことがあたかも標準化を行えば、そのデータが正規分布に従うようになるという誤解を生んでいるの…

クロンバックのα係数

何らかの質問項目によって、測定された変数がどれだけ、本当に測りたいそれを測れているのかを示す指標として、しばしばクロンバックのα係数が使用される。なお、クロンバックのα係数は信頼性係数の指標の1つである。 クロンバックのα係数を考えるために、こ…

偏相関係数の意味

先日、ある先生が偏相関係数について説明していたけど、適切とはお思えない方法で(少なくとも非常にわかりにくい方法で)、その数式の意味を教えていたので、偏相関係数について改めて考える。 偏相関係数とは、変数xと変数y間の関係において、変数z影響を…

正規分布からカイ二乗分布導く

よく知られる確率分布は互いに関連しており、ある分布からある分布を導出することができる。 今回は標準正規分布からカイ二乗分布を導いてみる。 カイ二乗分布は標準正規分布からランダムに得られた数値の2乗値の合計の分布である。 カイ二乗分布は自由度に…

多重共線性

多重共線性とは、ある回帰モデルにおいて、独立変数間の相関が強い時、その係数の推定値の分散が大きくなってしまい、推定値が安定しない問題である。 最小2乗法による回帰分析で実際に試してみた。 手順は以下の通り。 ①従属変数yを正規分布から発生 ②yと相…

相関のある2つの変数の乱数の発生方法

Rで相関関係のある2つの変数の乱数を発生させる時、いつも以下の方法に頼っていました。 n<-10000 b<-0.9 set.seed(1234) x<-rnorm(n) e<-rnorm(n) y<-x*b+e cor(x,y) この時のbをいじる事で相関の強さを調整していました。なんと効率の悪い方法でしょう。 …

虹を描いてみた

ggplot2 という素晴らしいパッケージの存在を教えてもらったので、ggplotで虹を描いてみました。 綺麗 そのコードは以下の通り。 x<-c(-250:250) num<-numeric(length(x)*7) y<-matrix(num,nrow=length(x),ncol=7) for(i in 1:7){ y[,i]<--x^2-i*10000 } c<-…

R:Mac文字化けをひらがなに

Rに関するメモ MacのRでplot()などで図示すると、ひらがなが以下のように化けます。 これに対処する一つの方法として以下のコードを書いておくとなおります。 par(family="HiraKakuProN-W3") と入力してからplotさせると解決します。