奈良県立医科大学 生物統計学2018
(医学部医学科)

本授業の位置付け

医学教育モデル・コア・カリキュラム(平成28年度改訂版)をベースに構成
http://www.mext.go.jp/b_menu/shingi/chousa/koutou/033-2/toushin/1383962.htm

本講義が医学教育モデル・コア・カリキュラムにおいて担う部分・主に関連する部分
B社会と医学・医療
 B-1 集団に対する医療
  B-1-1) 統計の基礎
   確率には頻度と信念の度合いの二つがあり、それを用いた統計・推計学の有用性と限界を理解し、確率変数とその分布、統計的推測(推定と検定)の原理と方法を理解する。
  B-1-2) 統計手法の適用
   医学、生物学でよく遭遇する標本に統計手法を適用するときに生じる問題点、統計パッケージの利用を含めた具体的な扱い方を修得する。
  B-1-4) 疫学と予防医学
   保健統計の意義と現状、疫学とその応用、疾病の予防について学ぶ。
  B-1-7) 地域医療・地域保健
   地域医療・地域保健の在り方と現状及び課題を理解し、地域医療に貢献するための能力を獲得する。
  
授業メニュー
第1回 オリエンテーション

第2回 尺度・度数分布

第3回 代表値・散布度



第1回 オリエンテーション

到達目標
1−1統計の限界について理解する
1−2確率について理解する

本授業の目的

 生物統計学は、統計的手法を用いて保健医療分野における課題の解決に資する学問領域である。
そのため統計学の基礎だけではなく、これまで本分野においてどのような統計的手法が用いられてきたのか理解し、データの収集・解析・解釈を実施する際に最適な手法を選択するための知識と、それを活用する能力の獲得を目的とする。

本授業の到達目標

0)統計手法など必要に応じて「勉強すれば出来るようになる能力」を獲得する
1)データの性質に関して説明できる
2)適切な統計手法を選択できる
3)仮説の統計学的検定法を説明できる
4)研究デザイン毎の特徴とデータを取り扱う上での注意点を説明できる

教科書

新版統計学の基礎 第2版
http://www.nikkyoken.com/catalog/catalog_education/642

参考図書

バイオサイエンスの統計学−正しく活用するための実践理論
http://www.nankodo.co.jp/g/g9784524220366/

参考資料

必要に応じて適宜配布しますが・・・

授業の進め方


電卓使いますのでよろしくお願いします(授業中はスマホでかまいません。試験はどうしようか考え中)

単位認定

毎回「到達度確認」を実施します。提出いただいたものは返却します。
定期試験での電卓利用等については、講義を進める中で判断します
「到達度確認」は正誤によって評価するものではありません。最終的に正しい知識を得ていくことが目的ですので間違いだから評価しない。ということはありません。
社会に出ると、正しいことをしたから,真正面から取り組んだから必ず報われる。というわけでもありません。積み重ねで確率が上がる程度と思います。
そのような意味で、少なくとも本授業では報われるような世界にしようと思いますのでご協力ください。

Donabedianの提唱する医療の質の評価・・・「構造」「過程」「成果」
本授業では
構造・・・講義を行う環境(受講に関する全体評価)
過程・・・到達度確認の状況(受講に関する個別評価)
成果・・・試験(個々)
と定義しました。
成果の指標も色々
参考:医療の成果に関する指標(アウトカム指標)及び過程に関する指標(プロセス指標)の取扱い(医療情報の提供のあり方等に関する検討会(第8回)厚生労働省)
http://www.mhlw.go.jp/stf/shingi/2r9852000001u0or-att/2r9852000001u0tr.pdf

統計処理について

集団からデータをとりまとめて示すので・・・
nmucommed2017-01.png(276444 byte)
奈良県立医科大学大学院看護学研究科 地域医療学(分担:データ分析編) より)
データは目的に応じて丸めたり切ったりしてしまう。故に二次利用の場合は注意が必要。
とりあえず収集してデータベース構築をすることが目的ならば、分析は既に二次利用。耐えうるデータを目指さなければ意味が無い
・一次データは情報源からダイレクトに取得するので粒度を目的にあわせてコントロールしている
・二次データは本来の目的と異なるデータ活用となるので、その目的に対してデータの粒度があわない事がある(細かい場合は粗くできるが粗いものは推定するしかない)
医療情報学の分野は二次利用がテーマ

確率について

頻度・・・・・・・客観確率・・・自身の思考となんら関係ない。事象を外から眺めた(頻度を数えた)過去の結果で人により異ならない
信念の度合い・・・主観確率・・・現時点での自身の知見による推論を混ぜ込む・・・論理的(と信じたいがいずれにしても)人により異なる

「非日常的な出来事は、主観確率を、客観確率よりも大きくしたり、小さくしたりする」
引用元:主観確率の大きさはどれぐらいか−その出来事は、本当に奇跡的と言えるか?:研究員の眼(THE HUFFINGTON POST)
http://www.huffingtonpost.jp/nissei-kisokenkyujyo/odds_b_8965176.html

ところで医療は医療従事者にとっての日常だが、住民の方にとっては非日常
setonet20160521-53.png(163855 byte)
地域と医療の統合に資する 情報活用の考え方 −不足の観点からみる医療2.10− より)
故に患者さんを中心とする医療チーム内で個々の主観確率が異なる状況に陥る(かも)。

ベイズの定理

原因は何だったの?状況はどうだったの?

確率の乗法定理からベイズの定理

P(A|B)P(B)=P(A∩B)=P(B|A)P(A)
よりベイズの定理は
P(A|B) =P(A∩B)=P(B|A)P(A)/P(B)
=P(A∩B)=P(B|A)P(A)/{P(B|A)P(A)+{P(B|AC)P(AC)}
=P(A∩B)=P(B|A)P(A)/{P(B|A)P(A)+{ΣP(B|Ai)P(Ai)}
C:complement
P(A)を事前確率
P(A|B)を事後確率

一年前、自動車事故について事故の有無(P(B))と自動アシストの有無P(A)の関係について調査した。(ダミーデータです)
自動運転付き 自動運転無し
事故有 15
事故無 198 285
P(A|B)P(B)=P(A∩B)=P(B|A)P(A)
(2/17)*(17/500)=2/500=(2/200)*(200/500)


自動運転アシスト有の割合P(A)=200/500=0.4
自動運転アシスト無の割合P(AC)=300/500=0.6

事後確率は
事故を起こした車が自動運転アシスト有の割合
P(A|B)=2/17=0.118
   =(2/200)*(200/500)/(17/500)/((2/200)*(200/500)/(17/500)+(15/300)*(300/500)/(17/500)=0.118/(0.118+0.882)=0.118
事故を起こした車が自動運転アシスト無の割合
P(AC|B)=15/17=0.882
   =(15/300)*(300/500)/(17/500)/((2/200)*(200/500)/(17/500)+(15/300)*(300/500)/(17/500)=0.882/(0.118+0.882)=0.882

ココから主観確率の話
自動運転アシスト車は調査当時と普及率違うんじゃないの?(世の中のシェアは1.5倍ぐらい増加したんじゃないの)
P(A)=(200/500)*1.5=0.6

今日事故が起こった場合、自動運転付きの車である確率P(A|B)は?
事故を起こした車が自動運転アシスト有
P(A|B)=(2/200)*0.6/(17/500)/((2/200)*0.6/(17/500)+(15/300)*0.4/(17/500)=0.176/(0.176+0.588)=0.230
事故を起こした車が自動運転アシスト無
P(AC|B)=(15/300)*0.4/(17/500)/=((2/200)*0.6/(17/500)+(15/300)*0.4/(17/500)=0.588/(0.176+0.588)=0.770

モンティホールジレンマ

実際に皆さん賞品をあててみましょう
賞品は一つ。残りの二つはハズレ
nmubiostat2018-0101.png(310373 byte)
1.3つの箱(A B C)一つ選んでください。あなたの選んだ箱をAとします
nmubiostat2018-0102.png(311201 byte)
2.私はB,Cの箱の中からハズレている(ことを知っている)箱Bを開けます
nmubiostat2018-0103.png(306942 byte)
3.残りはAとC。変えることできますがどちらにします?
nmubiostat2018-0104.png(305866 byte)

到達度確認

1)残りはAとC。変えることできますがどちらにします?
2)箱AとBとC。この時点でそれぞれのアタリが入っている確率を答えよ
3)(公表しても良い範囲で)一番確率の低いと思われる遭遇したことのある出来事はなんでした?その確率は何%ぐらいの出来事だったと思われますか?。

授業後補足

設問1)2)回答結果
設問1 設問2
正解 40 36
不正解 69 73
設問1と設問2の正解は概ね連動するが、一部そうじゃない方も
正解 Cにする A33% B0% C66%
間違いで多いのは AとC50% とか A66% C33%
初志貫徹であえて変えない系の学生もおられました
参考:
ネコでもわかるモンティホールジレンマ(DOFI-BLOG どふぃぶろぐ)

情報をどこまで確率に置き換えれるのかで決まる話

設問3
有効回答数85
最小値0
最大値0.9
平均値0.0403
(5%もまんざらじゃないなと思う結果でした)
回答の一部
・医大合格系
 0.3,0.15,0.143,0.1,0.03,0.01,0.003,0.000001(医大で生まれて)
 (参考)目の前の可能性を見つめ修正を繰り返しながら視野の広い人生を築こう(前学長吉岡章先生 関塾タイムス)
   http://www.kanjuku-times.com/201302/bengaku.php

・有名人等遭遇系
 0.1 旅先で元横綱の朝青龍さん
 0.05 伊丹空港でデーブ・スペクターさん
 0.05 甲子園球場近くのダイエーで元横浜,巨人のクルーンさん
 0.08 遊んでいたら隣にお笑い芸人
 0.001 姫路セントラルパークで元千葉ロッテの里崎さん
 0.001 ジャックスパロウ のコスプレソックリさん
 0.00001 騒動で盛り上がっているときの貴乃花部屋親方の貴乃花さん
 0 淀川で吉本興業の松本人志さん

(参考)マーク・クルーン(元巨人・横浜)投手の驚きの現在(MEN's HOLIDAY)
 http://mensholiday.tokyo/?p=347

(参考)天才じゃなくても世界一になれた思考術 元プロ野球選手・里崎智也(ニュースイッチ 日刊工業新聞社)
 https://newswitch.jp/p/10509

(参考)高円寺ジャックスパロウが車にはねられ死亡?突然の訃報に悲しみが広がっている(NAVERまとめ)
 https://matome.naver.jp/odai/2146790168773125101

・知り合い遭遇系
 0.02 ご近所さんと入学式で
 0.0001 出会ってない頃の母が捨てた犬を父が拾う
 1.90E-09 ハワイでご近所家族

・当たった系
 0.02 ガチャ
   0.01 50m先のゴールにシュートしてクロスバー
 0.01 ガチャ
 0.001 ガチャ
 0.0001 おみくじ白紙
 0.0002 ドームツアー最前列
 0.0003 一万円の券
 0.000002 USJペアチケット当選
 0.000001 テレビ

 (参考)ストイコビッチ監督が“ロングシュート”を決めて退席処分(ゲキサカ)
 https://web.gekisaka.jp/news/detail/?60654-44427-fl

・気をつけましょう系
 0.05 電車とホームの間に落ちた
 0.01 受験の時に水ぼうそう
 0.01 白いヘビに遭遇
 0.0001 寝ているときに自分の首をしめていた
nmubiostat2018-0105.png(38839 byte)

安全に関するお客様へのお願い(JR西日本)
http://www.westjr.co.jp/safety/cooperation/activity/#sec06

第2回 尺度・度数分布

到達目標
2−1データの尺度分類(4つの尺度)について説明できる
2−2度数分布表が作成できる

母集団とは

対象としている集団の全体を指し示すときに「母」を最初に付ける。
無限母集団と有限母集団からなる。
対象が有限か無限に増殖するかの違い

標本とは

母集団の一部。
昆虫標本を思い浮かべると、偏りに注意する必要があることは自明。

橿原市の人口(橿原市)
http://www.city.kashihara.nara.jp/kikaku/toukei/jinkou/tikubetu_tyoubetu_jinkou.html
各地区によって異なる(年齢構成も居住期間も)

平成26年経済センサス-基礎調査(確報)奈良県結果平成29年3月(奈良県)
http://www.pref.nara.jp/secure/67732/H26kakuho_gaiyo.pdf
全国と比較して構成比率が異なることは分かるが全国の中である指標が一番になれば良い環境になるわけでもない
あくまでも、抱えている問題点と照らし合わせることで状況がみえてくる。

変量(データ)の分類

変量は様々なものがあるがそれらの性質をとりまとめ分類することが出来る。
それぞれを尺度と呼び、4つに分類するのが一般的である
1分類尺度(名義尺度)
2順序尺度
3間隔尺度
4比尺度(比例)

1,2を質的変量(定性的)
3,4を量的変量(定量的)
性質としては上位互換性があり
4>3>2>1

教科書は間隔尺度及び比尺度に関して統計処理上区別する意味は無いとなっているが、注意は必要
ポイントは数学的には正しかったとしても意味的に正しいかどうか

度数分布表

それぞれのデータ(変量)の数(出現頻度)をまとめたもの
変量が名義尺度の時は多い順(お作法として。但しその他を出すなら一番最後)
順序尺度以降であれば順(名義尺度でも比較のためにお作法を破ることはある)
度数  ・・・出現頻度
相対度数・・・総出現頻度を1(100%)としたときに、それぞれの度数がしめる割合
累積度数・・・上位の変量の度数もあわせた度数
累積相対度数・・・累積度数の相対版

教科書P11の「複雑な調査データ」TGの度数分布表を作成してください
<参考> トリグリセリド(TG:中性脂肪)―脂肪の主成分、肥満の指標―(公益財団法人 神奈川県予防医学協会)
http://www.yobouigaku-kanagawa.or.jp/kensa/kensati09.html
階級 階級値 度数 相対度数 累積度数 累積相対度数
75〜100 87.5
100〜125
125〜150
150〜175
175〜200
200〜225
225〜250
250〜275
275〜300
----- 18 1.00 ----- -----

度数分布図

度数分布を縦棒グラフで示したもの
量的変量の場合「ヒストグラム」→縦棒の間隔は無し(量だから)
棒グラフの面積がその度数の量を示す。→ある部分だけ階級幅を倍にした場合度数は半分で描く
例:
nmubiostat2017-0102.png(3848 byte)
第1回 オリエンテーション 奈良県立医科大学 生物統計学2017(医学部医学科) より)

到達度確認

1)上記の度数分布表を完成させよ
2)下記の度数分布表の空欄部A,B,Cを求めよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
0.5〜1.0
1.0〜1.5 6 A 0.325
1.5〜2.0 0.1 17
2.0〜2.5 B 0.65
2.5〜3.0 7
3.0〜3.5 0.125 C
3.5〜4.0
----- 1.00 ----- -----

授業後補足

1)上記の度数分布表を完成させよ
累積相対度数最後の行は1.00
累積相対度数は順に値が大きくなる(少なくなることはない)
0〜100 は 0以上100未満(診療情報管理士の世界は)
慌てて書かれている方が少し間違っているくらい
2)下記の度数分布表の空欄部A,B,Cを求めよ
「求め方で候補を挙げ逐一計算して矛盾があれば採用しない法」(推奨しないけど)
(限られた時間で解くための術なんでしょう・・・現実的な問題解決を目指す発想)
 1)度数及び累積度数は整数としたとき相対度数及び累積相対度数の整数になる倍数を逆算し全体の度数を推定する   出現する(累積)相対度数は0.1、0.125、0.325.0.65
それぞれより求める度数を整数とした場合   0.1 ・・・(×10)=1,2,3, ・・・10x
  0.125 ・・・(×8)=1,2,3, ・・・8x
  0.325 ・・・(×40)=13,26, ・・・40x
  0.65 ・・・(×20)=13,26, ・・・20x
   これらの最小公倍数は40

Aの所に入るのは
n=40の場合 40×0.325=13
n=80の場合 80×0.325=26
Aの下の行のセルの累積度数は17なので17以下じゃないとおかしい
∴n=40

A13 B9 C0.95

素直に全数を求める方法については口頭で
<注意> 字は間違われないように書きましょう
nmubiostat2018-0201.png(5114 byte)
ナースあるある☆「医師の書く字がどうにも読めない」(ナース専科)
http://nurse-senka.jp/contents/square/230009/


第3回 代表値・散布度

到達目標
3−1代表値の算出及び特性について説明できる
3−2散布度の算出及び特性について説明できる


代表値と散布度と大きさn(個数や事象数)が提示されれば、その集団がどんなものか想像出来る(マラソン実況)

代表値

average(その集団を数値一つで表す。excelはaverage関数で算術平均を出すが、代表値の代表ということだからと解釈しています)

算術平均

mean(算術平均以外にも相乗平均(積して累乗根をとる)などもあります)
1/n・Σxi
パレートの法則(80-20の法則)
代表値なのに実在しない場合がある → 集団の指標(重心)であって、事象を代表する値そのものを示しているとは限らない

寄り道

民間給与実態統計2015(国税庁)
http://www.e-stat.go.jp/SG1/estat/GL08020103.do?_toGL08020103_&listID=000001159883&requestSender=dsearch
第9表 業種別及び給与階級別の給与所得者数・給与額 より ローレンツ曲線
nmubiostat2017-0301.png(17389 byte)
ジニ係数は医療,福祉0.358 不動産業,物品賃貸業0.439 電気・ガス・熱供給・水道業0.230
ちなみに奈良県の医師偏在の話で曲線を描くと(市町村単位)
naracommed20170322-24.png(117341 byte)
データ分析から考える地域医療の課題 より)
もっとも地域別医師数偏在の話が解消されればすべてが解決されるわけでもないですし、範囲を狭めていくほど偏在は生じるわけですから・・・
リソースの地理的な偏りをゼロにすることそのものは目的ではなく解決に近づく手段であって、提供になるべく偏りがでないような配分ができる仕組みとのパッケージと考えております

加重平均
重みづけをした平均
1/n・Σmixi
応用 度数分布表を基にした平均値の計算法
Σ(階級値×度数)/観測数

中央値

median(別名第2四分位数)
量的変量を順序尺度で処理した代表値
順番に並べたとき真ん中の順位にきた個体の値
個体数が偶数の時は真ん中2つの数値の平均値
スキージャンプの飛型点は中央値的なノリで算術平均している
スキージャンプを知ろう!!ルール解説(ジャンプ雪印メグミルク)
https://www.meg-snow.com/jump/rule/rule.html

最頻値

mode(流行,はやり)
違う意味で数の理論(多数決)の世界
量的変量を名義尺度で処理した代表値
名義尺度でわかることは一緒か違うか
階級毎に度数をカウント
一番多いところの階級値
一位が同点の時は併記(平均をとると えっオレ優勝!?状態になる)



散布度

dispersion

最大値と最小値を使う

最大値と最小値がわかればその集団のバラツキがわかる
最大値maximum excel max関数
最小値minimum excel min関数

範囲

Range
R=最大値−最小値

特徴
 外れ値もひらう
 算出が用意

四分位数を使う

Quartile
小さい順(昇順)に並べて集団を4分割

四分位数の求め方

注意:順序の話とその順位のラベル(数値)をこんがらがってしまわないように
例:テストの点 16,5,12,16,13,15,15,18,20,10,20
昇順に並べて順位(カッコ書き)をつける 5(1),10(2),12(3),13(4),15(5),15(6),16(7),16(8),18(9),20(10),20(11)
n数(11)を4で割る
第1四分位数・・・1/4の順位・・・11/4×1=2.75個に分割する場所に相当する数値
第2四分位数・・・2/4の順位・・・11/4×2=5.5個に分割する場所に相当する数値
第3四分位数・・・3/4の順位・・・11/4×3=8.25個に分割する場所に相当する数値

2.75個に分割した場所の出し方
+1/4番目の数値=3番目=12

5.5個に分割した場所の出し方
+2/4番目の数値=6番目=15

8.25個に分割した場所の出し方
+3/4番目の数値=9番目=18

四分位範囲

IQR(interquartile range)
IQR=Q3-Q1

四分位偏差

QD(Quartile Deviation)
QD=IQR/2
範囲は集団を外から見たバラツキをイメージ
偏差は集団の内部のある値からのバラツキをイメージ

平均値を使う

mean

偏差

Deviation
もともとは標準となる数値からのズレ(偏り)を意味するものだが統計の世界では集団の平均値からのズレを示す
偏差の平均をとれば集団内の各々のズレっぷりがわかる → 合計は常に0 故に平均も常に0

分散

variance
V excel関数はVAR
偏差を二乗したものの平均

標準偏差

Standard Deviation
記号は標本標準偏差s 母標準偏差σ
s=√V
(故にVはs^2やσ^2で表現する)
nmubiostat2016-0302.png(3064 byte)

到達度確認

1)教科書P11の「複雑な調査データ」TGの平均値を求めよ
2)先週作成した度数分布表からTGの平均値を求めよ
3)1)(算術平均)と2)(階級値由来)の差は理論上最小で0だが、最大でどの程度異なるか
4)平均値>中央値>最頻値となるよう以下の度数分布表を完成させよ
階級 階級値 度数 相対度数 累積度数 累積相対度数
0.0〜1.0 0.5 2
1.0〜2.0 1.5
2.0〜3.0 2.5 3
3.0〜4.0 3.5
4.0〜5.0 4.5 2
5.0〜6.0 5.5
6.0〜7.0 6.5 6
----- 25 1.00 ----- -----