やっぱり九割がたの説明がつく──「犯罪と失業率」続報

松尾匡のページ

08年1月25日　やっぱり九割がたの説明がつく──「犯罪と失業率」続報　(1月28日修正)

最新分析結果あり→09年3月19日版

追記：このページをアップロード後、被説明変数を説明変数に使った回帰式では、誤差の系列相関の判定にダービン・ワトソン比は使えないということをウェブ上で発見し、矢野浩一さんに電子メールで確認したところ、その通りだということがわかりました。ありがとうございます。
　この場合の系列相関の判定は、「ダービンのh」というものを用いるということを、ウェブを調べて人生で始めて知りました。下記のモデルX、モデルYは、これにあてはまりますので、ダービン・ワトソンではなくて、ダービンのhを用いて判定しなければなりません。詳しくは、
http://www.eco.osakafu-u.ac.jp/~kazuhisa/e8.htm
http://www.csus.edu/indiv/j/jensena/mgmt105/durbin-h.htm←自分の英語力がおかしいのか、帰無仮説の説明が反対のような気がする。
http://ht.econ.kobe-u.ac.jp/~tanizaki/class/2005/econome.grad/0611/dw.pdf
　この最後のは、大学院の頃の先輩、谷崎久志さんの非常に分かりやすい教材です。これを見て本人に電話で問い合わせたら、親切に教えていただいてありがとうございました。検証結果は下に書き込んであります。モデルX、モデルYともに、系列相関はないと見てよい、OKだということになります。とりあえずほっと一安心です。
　ついでに、ダービン・ワトソン比を使ったテストも、上の谷崎さんの表などを使って厳密にやりなおしてみました。かなり甘い判断をしていたことがわかってすみません。以下に修正しておきます。(08年1月28日)

　日頃、拙サイトに何の反応もないことを味気ないと思っていた。しかし前回のエッセーが「はてなブックマーク」で一時540集めたり、「アメーバニュース」に取り上げられたり、たくさんの関連エントリーをいただいたりすると、大変ありがたいと思いつつも、毎日世間の反応が気になって気になってしかたない。それで、しょっちゅう時間をつぶしてしまって、結構ストレスになったりする。自分ながら勝手なものである。
　それでついつい続きの分析にのめりこんだりしてしまう。下に書いたとおり、前回のエッセーの分析には「誤差の系列相関」という問題があったので、ちゃんと解決しないと気がおさまらなかったのである。あとでお見せしますので、請う御期待。「九割」の夢再びと追い求める闘いの記録である。

　本当はこんな専門外のことをしている暇はないのである。といっても、差し迫っている仕事の多くは専門外のことなのだが。今月中の主要なものだけでも並べてみるとこれだけある。
・学内学術雑誌の論文原稿。学部の研究所の所長からのご用命である。これは、今まで地域から請負ってきた久留米地区での観光コンベンションの経済波及効果分析について全部まとめる仕事である。新年度から大学を変わるのでこの仕事は後任に引き継ぐため、マニュアルとして使えるように、懇切丁寧に書かなければならない。締め切りは過ぎているのだが、同じ号に書く先生の一人とカルテルを結んだから、来週までなんとか引き延ばせそうだ。
・大牟田視察の報告サイト作成。12月に実施した大牟田のまちづくり視察イベントが、文学部H教授の共同研究の予算でやったので、教授から報告を早くまとめるよう言われている。ホームページにするむね言ってあるので、早くやらないと。全然手を付けていない。
・市議会議員の後援会の昨年の決算。2月11日の総会にむけて、2月初頭に運営会議があるので、それまでに間に合わせて監査を受けないと。
・このホームページが、大学を移るので春には大学のサーバーから追い出される。早めに新しいところに移しとかないと、移転が周知できない。ところが今自宅で使っているケーブルテレビのサーバーには、市議会議員の後援会のホームページを入れていていっぱいである。後者の方を、新しいサーバーを見つけて移さなければならないのだが、自宅のもいっしょに切り替えたい気もする。後援会の方は2月の運営会議で支出の承認をもらうのに間に合うように、いろいろ比較検討して早く移さないといけないのだが。
・学生の卒論にあたる論文指導1件。まだ道筋が定まっていない。困った。
・立命館大学のシラバス作成。いろいろ細かいぞ。よく仕組みがわからないのに。本日締め切り。
・定期試験・レポート類の採点。
・2月4日に大阪でまちづくりと商人道に関する公開研究会を主催することになったのでその準備。
細かいことはまだまだあるが。学部長が研究室を残してくれたのが助かった。引き払わなければならないなら大仕事だった。でも今週末は河上肇賞奨励賞の授賞式で子連れで、今晩から東京に行くのよ。先週末は土日ともにセンター試験の監督でつぶれたし、その上町内の新年会があったりしたし。はあ。

******************************************
　さて、前回のエッセーに対して、みなさまからいただいたその後の主な展開には次のようなものがあります。

1月16日　svnseedsさんが、G7諸国について、犯罪率と失業率の相関の国際比較をされています。実働5時間の力作です。
http://d.hatena.ne.jp/svnseeds/20080116

1月17日　eliyaさんが、犯罪の種類別に失業率との相関を分析されています。窃盗は相関するが殺人は相関しない。
http://d.hatena.ne.jp/eliya/20080117

1月17日　矢野浩一さんが、ブログで誤差項が回帰分析の前提を満たしているかご指摘下さいました。早速、ダービン・ワトソン比を計算してみたら、前回のエッセーの分析は、誤差の系列相関があるので正確でないことが明らかになりました。ガックリ。詳しくは下のブログのコメント欄を参照のこと。矢野さんは犯罪・失業間の相関は大筋では間違いないと見ていらっしゃいます。
http://d.hatena.ne.jp/koiti_yano/20080117

1月18日　大竹文雄先生がブログで取り上げて下さいました。前回のエッセーで私は、先行研究が見当たらないという話の中で、大竹先生がどこかでこの分析をやっているはずと予想しました。実はそれはまだなさっていなかったのですが、社会学者の津島昌寛氏が『日本労働研究雑誌』に発表した「失業・犯罪・年齢」という先行研究があることを紹介されています。
http://ohtake.cocolog-nifty.com/ohtake/2008/01/post_f38d.html
津島先生の論文はこちら、
http://db.jil.go.jp/cgi-bin/jsk012?smode=dtldsp&detail=F2003080121&displayflg=1
これは、2001年までのデータを使っていて、失業率が最悪まで達してから減り出した最新数年間がまだ含まれていません。また「認知件数」に基づく率ではなくて、「検挙率」を使っているので、やや実証結果は悪くなるようです。しかし、年齢別、犯罪種別に分け、アーモンラグ手法を使うなど、かなり立ち入った詳しい分析をしています(犯人がわからないと年齢がわからないので「検挙率」を使うほかないのでしょう)。強盗や窃盗が失業率との相関が有意で、特に中高年の方が相関が高くなることが示されています。

1月18日　前日の矢野さんの指摘を受けて、svnseedsさんが16日の分析のダービン・ワトソン比を調べたら、やはり誤差の系列相関があることがわかりました。残念です。16日のエントリーの追記をご覧下さい。大筋では間違いないと思いますが。
　さらに、米国の犯罪種別の失業率との相関を分析されています。窃盗、強盗だけではなくて殺人も相関がありそうですが、やはりダービン・ワトソン比が低いことが残念です。
http://d.hatena.ne.jp/svnseeds/20080118

1月18日　eliyaさんが、17日の犯罪の種類別の失業率との相関分析に関して、誤差の系列相関を修正した分析をされています。Prais-Winsten法というらしい。私はよく知りません。その結果、やはり強盗、窃盗はとても有意な相関が実証されました。17日の分析の段階では交通事故や偽造も失業率との相関が有意とされましたが、それは有意性がなくなりました。殺人や暴行などもやはり有意な相関が観察されなかったということです。
http://d.hatena.ne.jp/eliya/20080118/1200705999

　実は、殺人と失業率との相関については、PyTestさんが1月16日のブログで、1994年から2006年までのデータを使い、殺人率、殺人認知件数ともに、失業率との間に有意な相関があることを見いだしています。
http://d.hatena.ne.jp/PyTest/20080116/1200482273
　実証期間の違いなどがeliyaさんとの結論の違いにつながっているのだと思いますが、この問題は今日のエッセーでも後に取り上げます。
　ところで、このPyTestさんのエントリーは、続く、
http://d.hatena.ne.jp/PyTest/20080116/1200469535
も含めて、前回のエッセーの追記で触れました管賀江留郎さんの「釣りネタ」(「警察が失業率に合わせて認知件数を操作する」)を真面目に受け取って反論したものです。管賀さん自身は本気でなかったのですが、これを真面目に信じた人は多いようなので、そういう人達向けにはとても有用な記事だと思います。

******************************
　ここで、いくつかいただいたコメントやご批判にお応えしておこうと思います。

　まず、失業率→犯罪という因果関係ではなくて、犯罪をおかしてクビになるから失業率が増えるのではないかという指摘をときどき見かけましたが、それはあり得ないと思います。失業のほとんどは、人員整理のためにクビになったり退職に追い込まれたり、倒産したり、新卒者が就職口がなかったりして生み出されるものであって、犯罪を犯したからクビになるなんてものは全体の動向に影響を与える量ではありません。失業率の全体的動向は圧倒的に景気の状態で決まっているのです。

　それから、失業と犯罪両方に影響を与える第三の要因があって、こうした因果関係が観察されるのではないかというご意見も多いです。
　私のゼミは統計のゼミでも計量のゼミでもなく、IS-LMのようなマクロ経済理論で景気を論じるのが目的で、清水咲希君は「景気と犯罪の関係を調べたい」というのが問題意識でした。そして論文の結論は、マクロ経済政策って責任重大だよねというものです。第三の要因が、大天災や戦災でもあったならば別ですが、現実にはもしあったとしても、景気に関連したもの以外には考えられないと思います。失業率は不景気を表す指数ぐらいの位置付けでも、この研究にとっては十分なのです。
　しかしそれでも、やはり失業の直接の影響は大きいと思います。失業率と犯罪率の推移を改めて折れ線グラフで見てみると、こんなのです。

私もそれなりにマクロ経済指標のグラフをいろいろ見てきていますが、犯罪率のグラフにこんなに形が似ているものは、上下逆にしたのも含めて、失業率以外には思い当たりません。

　最後に、この因果関係を論じることについては、失業者を犯罪者予備軍扱いして差別しているのではないかとのご批判も見られます。少なくとも私個人の意図としては、そのような読み方は本意とは正反対です。人間は誰でもたいていは善良であり、犯罪など犯したいとは思わないものです。でも、個人の努力ではどうしようもない経済の条件によって失業し、まともに喰っていくことのできない状況におかれる人が出ているわけです。その中で、踏み止まって耐える多くの人々は誉められ、耐えられなくて犯罪に手を染めたごく一部の者は責められるのはたしかに当然ですが、しかしこの後者の人達も、経済条件が違っていれば、善良な市民として一生をおくったはずだと思っています。
　失業者というのは、民族性や身分や性別と違って、個人の属性でもないし、多くの場合個人の責任でなったわけでもない。無策や過った政策で作られるものです。そして、民族性や身分や性別と違って、本来は無くすことをめざして政策がとられるべきものです。犯罪を教育や道徳のせいにして真の原因を放置することこそ、一部の人々に不幸な境遇を強いる差別につながるのではないかと思っています。

******************************
　さて、前回のエッセーでは、次の三つの実証モデルを紹介しました。
モデルA「単純モデル」：犯罪認知件数をその年の失業率で回帰したもの。
モデルB「清水モデル」：犯罪認知件数を過去4年の失業率の平均で回帰したもの。
モデルC「松尾モデル」：犯罪認知件数をその年の失業率と、4・5・6年前の失業率の平均との二説明変数で回帰したもの。
前回お見せした結果は非常によかったのですが、上に書きました通り、ダービン・ワトソン比がとても低く、誤差項に正の系列相関があります。すなわち、
モデルA 0.352、モデルB 0.309、モデルC 0.525
でした。残念でした。

　ところで、いただいたご批判の中に、犯罪を「認知件数」で測るのはおかしい、「率」にするべきだというのがありました。前回のエッセーでは、「率」でやったらもっと実証成績はよくなると予想したのですが、実際やってみたら、若干悪くなりました。まあ、あまり変わりはしませんが。
　上記三モデルの被説明変数を「人口千人あたりの犯罪認知件数」という意味での「犯罪率」に変えて回帰分析するとこうなりました。

モデルA　観測数52(1953-2004)
　　犯罪率=9.517+1.925×その年の失業率
　重決定係数は0.653、定数項と係数のp値は、それぞれ、1.55×10^-23、4.37×10^-13、ダービン・ワトソン比は、0.153。

モデルB　観測数49(1956-2004)
　　犯罪率=8.729+2.286×過去四年間の失業率の平均
　重決定係数は0.749、定数項と係数のp値は、それぞれ、2.12×10^-22、1.01×10^-15、ダービン・ワトソン比は、0.165。

モデルC　観測数43(1962-2004)
　　犯罪率=6.377+2.049×その年の失業率+1.389×4・5・6年前の失業率の平均
　重決定係数は0.834、定数項と第1係数、第2係数のp値は、それぞれ、4.65×10^-12、1.33×10^-5、3.43×10^-8、ダービン・ワトソン比は、0.243。

　決定係数やp値は、これでも十分いい値なのですが、やはり、ダービン・ワトソン比が低すぎて、誤差の正の系列相関が示されています。

　この問題をクリアするために、コクレン・オーカット法というのがありますが、実は、私は計量経済学の専門ではないので、計量分析のパッケージツールなどを持っていないのです。エクセルにはそんなのは載っていないし。
　そこでまず考えたのが、県別データを集めて一時点でクロスセクションの回帰分析をすることでした。ところが県別の失業率のデータというのは、「労働力調査年報」で報告されているのですが、ウェブではとれません。土日センター試験で追われて、月曜日になってから図書館で見つけてきて、月曜一日はこの分析で費やしたのでしたが、結論はどうやっても失敗でした。県別のクロスセクションでは相関は見出せないということです。

　そこで、翌火曜日は、コクレン・オーカット法を試みることにしました。教員休憩室にあるパソコンのSPSSには入っているだろうと思ったのです。
　ところが・・・、入っていませんでした。
　こうなりゃ意地だ。ということで、エクセルで計算して、値が収束するまで何回も回帰分析を繰り返す「人力コクレン・オーカット」にチャレンジしたのです。そしたら何回もミスが見つかり、しかも繰り返しの初期でミスったら、繰り返し計算を最初からやり直さなければならないということで、これもまた果てしなく時間がかかりました。そしたらこんなのになりました。

モデルA　観測数51(1954-2004)
　　犯罪率=10.53+1.525×その年の失業率+0.904×前期の誤差
　重決定係数は0.334、定数項(1-ρをかけたもの)と係数のp値は、それぞれ7.83×10^-11、8.81×10^-6。

モデルB　観測数48(1957-2004)
　　犯罪率=8.323+2.22×過去四年間の失業率の平均+0.951×前期の誤差
　重決定係数は0.354、定数項(1-ρをかけたもの)と係数のp値は、それぞれ0.0006、8.43×10^-6。

　モデルCは、繰り返し計算が収束せず、とうとうρが1を超えてしまったのであきらめました。上二つの結果は、p値がとても低いので、十分相関があることは言えます。決定係数は三割もあれば御の字です。
　散布図はこんな感じになります。モデルBのものです。遠慮して30度ぐらいにかいておきます(笑)。

　しかしこれでも満足できない私は、各変数、前期からの階差どうしを回帰分析することを試みました。階差にすると系列相関はなくなりやすいからです。するとこうなりました。(以下4モデルのダービン・ワトソン比は誤差の系列相関の存在を示している。──08年1/28)

モデルA'　観測数51(1954-2004)
　　犯罪率の階差=0.025+1.24×失業率の階差
　重決定係数は0.212、定数項と係数のp値は、それぞれ、0.77、0.00068、ダービン・ワトソン比は、1.183。

　定数項は有意ではないので、定数項をつけない制約をおいた回帰分析をしてみると、こうなりました。

モデルA''　観測数51(1954-2004)
　　犯罪率の階差=1.262×失業率の階差
　重決定係数は0.226、係数のp値は0.00037、ダービン・ワトソン比は、1.188。

モデルB'　観測数48(1957-2004)
　　犯罪率の階差=-0.0145+0.842×今期失業率と過去4年平均失業率との差
　重決定係数は0.281、定数項と係数のp値は、それぞれ、0.869と0.0001、ダービン・ワトソン比は0.905。

　やはり定数項が有意でないので、定数項をつけない制約をおいた回帰分析をすると、こうなりました。

モデルB''　観測数48(1957-2004)
　　犯罪率の階差=0.831×今期失業率と過去4年平均失業率との差
　重決定係数は0.298、係数のp値は4.9×10^-5、ダービン・ワトソン比は0.904。

　どれも相関が有意です。しかも、階差どうしにすると定数項がなくなるということは、失業率が増えた年は犯罪率が増える、失業率が減った年は犯罪率が減るという関係があるということです。

　以上の結果で、犯罪と失業率の相関は十分実証されているのですが、なんか満足できませんでした。
一度九割の味をしめてしまうと・・・
またそれを目にするまでやめる気がしなくなったのです。
　そして、実にいろいろの式を試し、ついにたどりついたのが、次のモデルでした。

モデルX　観測数51(1954-2004)
　　ln(犯罪率)=0.192+0.910×ln(前期犯罪率)+0.065×ln(その年の失業率)
　重決定係数0.9605、定数項と第1係数、第2係数のp値は、それぞれ、0.046、2.95×10^-28、5.53×10^-5、ダービン・ワトソン比は1.36。

　これでどうだっ。「九割」出したぞ(笑)。p値も極めて低くて有意だぞ。系列相関の問題もまあまあという感じ(←ダービンのhは1.760でした。系列相関がないという仮説が5%の有意水準で棄却されることがないためには、hが1.96より小さくなければならないので、これにあてはまっています。つまり、とりあえず系列相関はないと言ってよいということになります。ああよかった。──08年1/28)。あまり対数をとる意味はなくて、ナマの数値でやってもそんなにこれと比べて悪くないのだけど、とりあえず一番いい結果ということで。
　つまり、世の中の犯罪には慣性があるということですね。当初モデルで誤差の系列相関がでたことの正体は、これだったのではないでしょうか。

　ひとつ心配なのは、もともと犯罪率と失業率は相関がよかったわけですから、そんなものを二つ説明変数に使って、多重共線性が起こっていないかどうかということです。それで考えたのですが、モデルXの式では、第1係数と第2係数の和はだいたい1になるので、これが、ln(犯罪率)=α+(1-β)×ln(前期犯罪率)+β×ln(その年の失業率)という式だとみなすと、両辺からln(前期犯罪率)を引くことで、これは、
　　　犯罪率の増加率=α+β×ln(その年の失業率／前期犯罪率)
と変型できます。そこで、これを回帰分析して、αやβの値が安定的かどうか確かめてみればいいわけです。やってみるとこうなりました。

モデルX'　観測数51(1954-2004)
　　ln(犯罪率)-ln(前期犯罪率)=0.118+0.061×ln(その年の失業率／前期犯罪率)
　重決定係数0.2822、定数項と係数のp値は、それぞれ、3.93×10^-5、6.03×10^-5、ダービン・ワトソン比は1.38。

　決定係数はあまり高くないけど、p値はとても有意です。この定数項と係数をみると、モデルXのものとそれほど変わっていません。モデルXの結果は安定的と言えると思います。(ただしやはりこのモデルも誤差の系列相関がある。──08年1/28)

********************************
　さて、最後に私も、犯罪種別の分析を試してみました。といっても、窃盗と殺人だけですが。
　まず窃盗ですが、ほとんどモデルXと同じ式で、犯罪全体と同じ反応をしていますね。「人口千人あたりの窃盗の認知件数」を「窃盗率」として、回帰分析したら、次のようになりました。

モデルY　観測数49(1954-2002)
　　ln(窃盗率)=0.0812+0.952×ln(前期窃盗率)+0.065×ln(その年の失業率)
　重決定係数0.962、定数項と第1係数、第2係数のp値は、それぞれ、0.471、2.75×10^-23、0.0011、ダービン・ワトソン比は1.89。

　定数項だけが有意ではありませんが、他はすべて十分有意で、決定係数も96％、誤差の系列相関もありません(ダービンのhは0.328しかないので、やはり系列相関がないという仮説は受け入れられます──08年1/28)。比べてみたら、モデルXと係数はほぼ同じですね。特に、失業率にかかる係数がぴったり同じだということが特筆されます。つまり失業率の同一の変化に合わせた犯罪認知件数全体の変化率は窃盗の変化率と同じだということです。

　では、殺人のような犯罪は失業率とは無関係なのでしょうか。上記eliyaさんとPyTestさんで分析結果が食い違っているところでもあります。実は、「人口千人あたりの殺人の認知件数」を「殺人率」として、モデルX型の式で回帰分析したら、前期の殺人率だけで説明がついてしまい、失業率の係数は全く有意ではなくなります。では、eliyaさんが正しく、PyTestさんは間違っているのでしょうか。
　もう少し詳しく検討するために、殺人件数の推移を折れ線グラフにして、失業率のグラフとあわせて眺めてみましょう。

　一見しておわかりのとおり、戦後殺人は一貫して減少しています。人殺しばかりで世の中がだんだん物騒になってきて危険だ危険だという通念が、いかにいいかげんなものか、これを見れば一目瞭然です。何が戦後教育のせいだと思います。
　それはともかく、よく見てみると、殺人認知件数の細かい変動は、やはり失業率の変動とシンクロしているように見えます。そこでこれを実証してみましょう。eliyaさんがお使いになった総務省統計局の長期データは2002年で終っているので、残りは、警察庁の統計サイトから毎年の犯罪報告を調べて、2006年まで継ぎ足していきました。

モデルZ　観測数54(1953-2006)
　　殺人認知件数=86716.82+193.84×その年の失業率-43.1×トレンド(西暦年)
　重決定係数0.964、定数項と第1係数、第2係数のp値はそれぞれ、4.52×10^-35、6.81×10^-14、1.86×10^-34、ダービン・ワトソン比は1.00。

　また九割(笑)。決定係数とp値だけ見たら、有意も有意です。ただし、ダービン・ワトソン比は~~微妙な値で、誤差の系列相関がないとは言い切れません~~(こんなものでは小さすぎます。バリバリ系列相関しています──08年1/28)。そこで、モデルZの式の1年ズラしたものを左辺どうし右辺どうし引いた階差の式を回帰分析すると、トレンド項の係数が定数項になり、第1係数がそのまま係数になっているはずです。すると、次のような結果がでました。

モデルZ'　観測数53(1954-2006)
　　殺人認知件数の階差=-38.49+157.23×失業率の階差
　重決定係数0.137、定数項と係数のp値はそれぞれ、0.0095、0.0063。ダービン・ワトソン比は2.12。

　決定係数は低いですが、定数項と係数は有意です。誤差の系列相関は全くありません。この定数項と係数をモデルZのものと比べてみると、まあまあいい線いっていると言えない？
　だから、上の折れ線グラフを見ると、平成不況以降、殺人は下げ止まって横ばい傾向になっていますが、この不況がなければこのまま下がり続けた可能性が高いと思います。軸の一番下の目盛りはゼロではないので、まだまだ下がる余地はあったはずなのです。

　私はこれでとりあえず足を洗いましょう。清水君は来年度の卒論で続きをやってくれるでしょうけど、御関心のあるかたはそれにかまわず、どんどんやって下さい。専門のかたはじめ、志のあるかたは、管賀江留郎さんのデータベース構築プロジェクトに是非協力してやって下さい。有意義なのに孤独な作業にお怒りのようなので。

********************************
　最後に、前回エッセーのタイトル「犯罪の九割は失業率で説明できる」は、前回のエッセーの追記の最後でも釈明しましたとおり、百万件の犯罪のうち九十万件が失業由来というような誤解を与えた点で、思慮の浅い表現だったと反省しています。もちろん、「犯罪数は失業率によって九割がたのあてはまりで説明できる」という意味です。
　清水君の論文のタイトルは「失業率と犯罪認知数について」。アオりもヒネりもない。もっとヒネりなさい、ヒネりなさい・・・。学生の方がよほど真摯ですかそうですか。

　
「最近感じること」目次へ

ホームページへもどる