08年1月14日 犯罪の九割は失業率で説明がつく (追記:1月16日,
再追記:1月17日)
最新分析結果あり→ 09年3月19日版
続報あり。以下の分析結果には「誤差の系列相関」という問題がありました。続報ではその解決に取り組んでいます。
再追記:08年1月17日
下の方の昨日書いた追記で、管賀江留郎さんからいただいた批判のエントリーの中で言われていた、「警察がデータを操作したため相関する」という「説」について、管賀さんご自身の説であるように表現した一文がありました。私自身、本気で言われていることかどうかは疑わしいと思っていましたが、ネタと断定することもできず、ああいう表現になりました。
このたび管賀さんとのやりとりの中で、これが管賀さんご自身信じておられない、いわゆる「釣り」のネタであることが明らかになりましたので、当該の表現を削除して訂正します。管賀さんはこれがひとつの積極的主張として一人歩きしていることに大変困っておられます。このような状況に少しでも加担したことをおわびいたします。
この件につきましては、管賀さんの当該エントリーの「追記」およびコメント欄での私とのやりとりをご覧下さい。
久留米大学経済学部には「論文A」という三年次以上配当の科目があって、論文が認められれば4単位もらえることになっている。
ゼミ生の清水咲希君が、この論文にエントリーして、景気と犯罪の関係をテーマにしたいと言ったから、失業率と犯罪の相関を調べてみることをすすめた。
実は、この問題は大竹文雄先生がすでに取り上げておられて、『経済学的思考のセンス』(中央公論社、2005年)pp.174-176にも密接な相関がある旨書いてある。同書に載っているのと同じグラフが以下の論文でも載っているのでご覧いただきたい。
http://www.iser.osaka-u.ac.jp/~ohtake/paper/situgyoitami.pdf
見てお分かりの通り、犯罪発生件数と失業率を年ごとの折れ線グラフにかくと、とてもよく似た波形を描いている。これは、2003年の論文だから右端は上がりっ放しだけど、その後、景気が回復して失業率が減ると、犯罪率もおもしろいほどいっしょに減っている。
しかし、これはグラフで示されているだけで、統計的分析がなされているわけではない。大竹先生のことだから、どこかでやっておられるはずなのだが(まだでした。続報参照──1/25)、探しても見つからなかった。それで、清水君にやってもらうことにした。
ちなみに少年犯罪については、大竹先生はかなり詳しい分析をされている。以下を参照のこと。
http://www.iser.osaka-u.ac.jp/~ohtake/paper/shonen.pdf
さて、この科目には「論文発表会」というのがあって、原稿を本格的に書きはじめる前に、他の先生や学生の前で要旨を発表してコメントを受けることになっている。そしたら、彼女の場合はいつものことながら、間に合うかどうか直前までやきもきさせた上、他の学生があらかじめ何枚ものレジュメを閉じてパワーポイントまで準備してきているところ、A4一枚に実証結果を載せただけの紙を当日持ち込んできた。一同おいおい。
そしたらあーた、発表が始まってみたら、コメンテーターの情報系の先生が驚愕して感心するのなんの。
大竹先生は犯罪「率」だったけど、ここでは「件数」を使っている。『犯罪白書』に載っている「交通関係業過を除く一般刑法犯の認知件数」である。まず、これを、その年の失業率で単純に回帰させた結果が次のようになっている。
1953-2004(観測数52)
犯罪件数=749523.5+348753.6×その年の失業率
(15.4368) (19.1076)
括弧内はt 値である。重決定係数は0.879547、定数項と係数のp値はそれぞれ、1.17×10−20、1.25×10−24である。つまり、犯罪件数の88%はこの式で説明がつき、本当は関係ないのにたまたまこんなふうになった確率がこのp値しかないということ。統計的に有意も有意である。
これだけでも十分いい実証結果なのだが、清水君は、失業してから犯罪が起こるまでにラグがあることを考えて、犯罪件数を、過去数年の失業率の平均で回帰することを試みている。その中でも最も成績のよかった、過去四年の失業率の平均で回帰した結果は次の通りであった。
1956-2004(観測数49)
犯罪件数=684998+392844×過去4年の失業率の平均
(14.93) (21.92)
重決定係数は0.91089、定数項と係数のp値はそれぞれ、1.83×10−19、2.55×10−26であった。とんでもなく有意である。
まさに相関45度(笑)
(↑一部ブログ界の内輪受けネタなので真面目に受け取らないように。)
ちなみに相関をグラフで見るとこうなる。45度になるようにかいたけど(笑)。(←縦と横で単位が違うのだからいくらでもそうできる。ちなみに、失業率と年率の上昇率との間も、一方が無名数、他方が時間分の1の次元を持つので単位が違う。)
おもしろがって調子にのって僕もやってみたのですが、一番よかったのはこれ。説明変数を二変数にした。ひとつは、その年の失業率。もう一つは4年前から6年前までの失業率の平均。するとこうなりました。
1959-2004(観測数46)
犯罪件数=577410+229763×その年の失業率+225657×4年前から6年前までの失業率の平均
(12.69) (10.66) (6.70)
重決定係数は0.947707、定数項、第一係数、第二係数のp値はそれぞれ、3.93×10−16、1.21×10−13、3.46×10−8であった。やはり十分有意である。犯罪数の実に95%は失業率だけで説明がついてしまうわけである。
この式による犯罪数の現実値と予測値を年ごとの折れ線グラフでかくと下のようになった。
ところで、清水君は少年犯罪についてもやってみたいと言うから、渡した資料の中に、管賀江留郎『戦前の少年犯罪』(築地書館)を入れておいたら、論文締め切りが迫る中、データを読む前に本文を読みふけったそうで、結局少年犯罪の分析は何もしないままに終わってしまった。それだけならいいが、これのせいで、論文提出自体が危ぶまれる事態になってしまった。
まあ、あんまりおもしろいからさもありなん。
私も以前利用させてもらった少年犯罪データベースの主管が、ついに出した本である。戦前の新聞記事などを丹念に調べ上げ、戦前がいかにとんでもない少年犯罪多発時代であったのかを明らかにしている。まあ、現代の若者などとても足下に及ばない、猟奇犯罪、短絡犯罪、幼女レイプ、家族殺し、傍若無人の数々。富めるものも貧しきものもやりもやったりである。「今の若者がおかしくなったのは戦後教育のせいだ」とかいう妄言を粉砕してあまりある書。
全くこの本も今回の実証結果も教育基本法改悪の前に出てほしかった。「戦後教育が悪かった?
ちがうだろ。誰のせいだ。」
追記(08年1月16日):
これをあげたとたん、はてなブックマークがどんどんのびてびっくりしている。
http://b.hatena.ne.jp/entry/http://www.mii.kurume-u.ac.jp/~tadasu/essay_80114.html
あんまり実証結果がいいもので、清水君に名前あげてウェブに公表していいか尋ねたら快諾したのであげたのだが、こんなことになるとは。彼女は携帯番号も載せてなどとトンデモなことを言っていたが、冗談とは思ったが、真に受けていたらスゴいことになっているところであった。
さて、そしたら上にあげた『戦前の少年犯罪』の著者の管賀江留郎さんから、「少年犯罪データベース」の中でご批判をいただきました。短い文章だからすぐ読めるので、まず目を通して下さい。
http://blog.livedoor.jp/kangaeru2001/archives/51481922.html
で、リプライなんですけど、まず、「失業率に何年もラグがあるのはおかしいのではないか」という件についてです。
上の一番下の私のやった実証結果。なぜその時の失業率と、ちょっと昔のころの失業率の二つに相関するかということの謎解きが次の課題になるわけです。それですぐ思いついたのが、犯罪の種類によって、ラグが違うだろうということです。はてなブックマークのコメントでも、一般刑法犯のほとんどは窃盗だからこの結果は当然で、もっと重い犯罪については違うんではないかというご意見をいただいています。種類を分けてみたらどうなるだろうということは当然興味がでてきます。
とりあえず、『犯罪白書』に載っている年ごとの折れ線グラフの波形を眺めてみると、こんな感じです。
昭和21年から49年までの窃盗 (I-3図)
http://hakusyo1.moj.go.jp/nss/list_body?NSS_BKID=16&NSS_POS=GTOP#H001003E
昭和51年から平成17年までの窃盗 (1-1-3-1図)
http://hakusyo1.moj.go.jp/nss/list_body?NSS_BKID=52&HLANG=&NSS_LEVSTR=2_1_1_3_0#H001001003001E
これを見ると、戦後復興とともにただちに減りはじめ、1960年代半ばという戦後日本で一番失業率が低い時に凹んでいて、オイルショック後すぐに上昇を始め、90年代後半の不況深刻化後急増し、近年の景気回復とともにただちに減っているという気がします。
それに対して、窃盗を除いたやつは、この1-1-1-1図の紫色のグラフなのですが、
http://hakusyo1.moj.go.jp/nss/list_body?NSS_BKID=52&HLANG=&NSS_LEVSTR=2_1_1_1_0#H001001001001E
戦後長らく80年代に入るぐらいまで基本的に減り続け、今世紀になって急増しているという印象がします。
つまり、窃盗などは、そのときの失業率に直に影響され、もっと重い犯罪は5年ほどラグを置いて傾向的に効いてくるという感じがします。
これを、もう少し中身を詳しく見ながら、ちゃんと実証分析したらどうなるだろうかということが気になります。
一応こんな感じの見通しは立ててたのですが、きちんと分析していないので、何も触れませんでした。一応来年度も久留米大学のゼミを残してあるので、来年度の清水君の卒論(にあたる論文)でネタの一つに取り上げてもらおうかと思っていたのですが、関心が持続しているかどうか心もとないし、そもそも一年後こんな時期に大学に来ているだろうか、国内にもいるだろうかということが心配されるところでもあります。
だから、気になってしかたない人は、彼女にかまわずやってみて下さい。『犯罪白書』だったらデータが手打ちになって、しかも長期のやつがなくてつないでいかなければならないので、総務省統計局のサイトの長期時系列のところにある
http://www.stat.go.jp/data/chouki/28.htm
の28-1がエクセルですので便利です。
私は専門でもないし、いろいろ多忙で当面は手がつけられません。そういえば、別のゼミ生の卒論(にあたる論文)で、ある需要曲線を推計してそれをつかって景気対策を考えるネタをやっているのですが、今に至るも推計の実証結果が全然うまいこといかないので天をあおいでいます。それなのにこれから評議会だし、あまりこんなホームページ作っているような余裕はないはずなのですが。
それから、犯罪数がなぜ「率」でなくて「件数」なのかという点ですが、全然深い意味はなくて、生データで実証してきたのが結果がよかったので、そのままにしているだけです。実は、上の大竹先生のグラフと私の「現実値」のグラフを比べてもらえばわかるのですが、「率」にすると、「件数」に比べて昔は時間がたつほど引き下げられるけど(人口が増えていたから)、近年はグラフの形が変わらないので、「率」では成長時代の凹んでいる部分が目立って出ることになります。その方が、失業率の動向と合うので、「率」にした方が、(ラグは要るかもしれないが)実証結果はよくなるはずだと思います。(この予想ははずれました。続報参照──1/25)
これも気になる人は確認してみて下さい。
なお、はてなブックマークのコメントでは、「犯罪の九割は失業率で説明できる」という意味を、百万件の犯罪のうち90万件が失業で説明できるというような意味にとっているかたもいらっしゃるようですが、本文を読めばおわかりいただけますとおり、それは全く誤解です。失業率から説明される予想は、百万件よりも多くなることもあります。失業率から説明される値で九割方の確率であてはまるという意味です。