Copyright© KANEHARA & Co., LTD. All Rights Reserved.
超絶解説 医学論文の難解な統計手法が手に取るようにわかる本
「統計はよくわからないから読み飛ばす」。本当にそれでいいのか?
編 著 | 康永 秀生 / 山名 隼人 / 岩上 将夫 |
---|---|
定 価 | 3,520円 (3,200円+税) |
発行日 | 2019/11/20 |
ISBN | 978-4-307-00487-9 |
A5判・272頁・図数:65枚
在庫状況 | あり |
---|
近年、医学研究に用いられる統計手法が極めて高度化している。臨床家が現代の論文を斜め読みせず、真に理解するにはどうすればよいのか? そのためには臨床医学の進歩だけでなく、統計学の進歩もキャッチアップしていく必要がある。本書では、「どのような臨床的状況や臨床データに当てはまるか」に焦点を合わせ、日々進化する難解な統計手法を“臨床家目線”で徹底的にわかりやすく解説した。臨床疫学の専門家たちが贈る、すべての臨床家必携の一冊。
【関連書籍】必ず書けるようになる 論文執筆のための学び直し英文法・英語表現
【関連書籍】目の前の患者から始まる臨床研究
【関連書籍】必ず読めるようになる医学英語論文
【関連書籍】必ずアクセプトされる医学英語論文 完全攻略50の鉄則 改訂版
【関連書籍】できる!臨床研究 最短攻略50の鉄則
【関連書籍】できる!傾向スコア分析 SPSS・Stata・Rを用いた必勝マニュアル
【関連書籍】必ず書けるようになる 論文執筆のための学び直し英文法・英語表現
【関連書籍】目の前の患者から始まる臨床研究
【関連書籍】必ず読めるようになる医学英語論文
【関連書籍】必ずアクセプトされる医学英語論文 完全攻略50の鉄則 改訂版
【関連書籍】できる!臨床研究 最短攻略50の鉄則
【関連書籍】できる!傾向スコア分析 SPSS・Stata・Rを用いた必勝マニュアル
イントロダクション 臨床疫学・統計学の基礎から応用へ
1. 臨床医学と臨床疫学
2.臨床研究のタイプ
3.バイアスの調整
4.臨床予測モデル
第1章 傾向スコア分析の応用 ―未測定交絡を傾向スコアで調整できる?
1.傾向スコア分析
2.高次元傾向スコア
第2章 操作変数法 ―究極の擬似ランダム化?
1.操作変数法とは
2.操作変数法を用いた擬似ランダム化
3.操作変数の種類
4.操作変数法の3条件の検証方法
5.操作変数法のその他の留意点
6.操作変数法の限界
7.操作変数法を用いた研究例
第3章 不連続回帰デザイン ―HPVワクチンで無防備な性交が増える?
1.不連続回帰デザインとは
2.不連続回帰デザインによる医療政策の影響評価
3.不連続回帰デザインが成立するための前提条件
4.不連続回帰デザインにおける治療効果の推定
5.不連続回帰デザインの限界
6.不連続回帰デザインを用いた研究の紹介
第4章 差の差分析 ―ポケモンGOで健康になれる?
1.前後比較デザインと差の差分析
2.差の差分析の実際
3.差の差分析が成り立つための仮定
4.差の差分析を用いた研究
第5章 時間依存性交絡と周辺構造モデル ―重症熱傷患者に対する気管切開術の効果は?
1.時間依存性交絡と時間依存性治療
2.時間依存性交絡因子の存在によって生じる問題
3.時間依存性交絡因子の対処方法
4.周辺構造モデルと因果推論
5.実際の作業工程と実例
第6章 感度分析 ―見方を変えれば姿が変わる?
1.感度分析とは
2.感度分析で検討される項目
3.さまざまな感度分析
第7章 生存時間分析における競合リスクモデル ―死ねば人工呼吸から離脱できる?
1.生存時間分析とは
2.競合リスクを考慮した生存時間分析
第8章 欠側データの取り扱いと多重代入法 ―データが欠けている患者は解析から除く?
1.欠測データとは?
2.記録されていないデータの扱い方
3.欠測データ発生のメカニズム
4.欠測データに対する統計解析手法
5.欠測データに対処した研究例
第9章 マルチレベル分析 ―患者は病院の色に染まる?
1.階層構造とマルチレベル分析
2.統計モデル
3.マルチレベル分析を用いた論文を読む際のポイント
第10章 症例対照研究、マッチド・ペア・コホート研究 ―統合失調症患者はがん診断が遅れる?
1.階層構造とマルチレベル分析
2.統計モデル
3.マルチレベル分析を用いた論文を読む際のポイント
第11章 自己対照研究デザイン ―インフルエンザが急性心筋梗塞のリスクを高める?
1.自己対照研究デザインとは
2.ケース・クロスオーバー法
3.自己対照ケースシリーズ
4.研究デザインの選択
第12章 臨床予測モデル ―10年以内に心血管イベントが起こる確率は?
1.多変量回帰モデルと臨床予測モデル
2.臨床予測モデルの作成方法
3.臨床予測モデルの結果の提示
4.臨床予測モデルの予測能の評価
5.臨床予測モデルの評価の対象
第13章 機械学習 ―アルゴリズムは経験知を超えるか?
1.機械学習の概略
2.機械学習の手法
3.機械学習の手順
4.論文紹介
5.機械学習の失敗
第14章 データベースにおけるバリデーション研究 ―リアルワールドデータを理解するために
1.データベースと妥当性
2.妥当性の評価
3.バリデーション研究の方法
4.バリデーション研究の活用例
索引
コラム
・臨床疫学・統計学を学ぶ機会
・統計家の困惑
・発生件数だけでオッズ比を導出する
・論文自動生成プログラムの怪
・臨床知識の寿命はどれくらいか?
・査読は難しい
・症例数は「40人75眼」
・同じデータに違う研究デザインを使ったら結論が「逆」に!?
・ゴルディアスの結び目
・研究対象者のリクルートは難しい
・QRISKに寄せられた批判と反応
・タダ飯はない
・データベース研究における縁の下の力持ち
1. 臨床医学と臨床疫学
2.臨床研究のタイプ
3.バイアスの調整
4.臨床予測モデル
第1章 傾向スコア分析の応用 ―未測定交絡を傾向スコアで調整できる?
1.傾向スコア分析
2.高次元傾向スコア
第2章 操作変数法 ―究極の擬似ランダム化?
1.操作変数法とは
2.操作変数法を用いた擬似ランダム化
3.操作変数の種類
4.操作変数法の3条件の検証方法
5.操作変数法のその他の留意点
6.操作変数法の限界
7.操作変数法を用いた研究例
第3章 不連続回帰デザイン ―HPVワクチンで無防備な性交が増える?
1.不連続回帰デザインとは
2.不連続回帰デザインによる医療政策の影響評価
3.不連続回帰デザインが成立するための前提条件
4.不連続回帰デザインにおける治療効果の推定
5.不連続回帰デザインの限界
6.不連続回帰デザインを用いた研究の紹介
第4章 差の差分析 ―ポケモンGOで健康になれる?
1.前後比較デザインと差の差分析
2.差の差分析の実際
3.差の差分析が成り立つための仮定
4.差の差分析を用いた研究
第5章 時間依存性交絡と周辺構造モデル ―重症熱傷患者に対する気管切開術の効果は?
1.時間依存性交絡と時間依存性治療
2.時間依存性交絡因子の存在によって生じる問題
3.時間依存性交絡因子の対処方法
4.周辺構造モデルと因果推論
5.実際の作業工程と実例
第6章 感度分析 ―見方を変えれば姿が変わる?
1.感度分析とは
2.感度分析で検討される項目
3.さまざまな感度分析
第7章 生存時間分析における競合リスクモデル ―死ねば人工呼吸から離脱できる?
1.生存時間分析とは
2.競合リスクを考慮した生存時間分析
第8章 欠側データの取り扱いと多重代入法 ―データが欠けている患者は解析から除く?
1.欠測データとは?
2.記録されていないデータの扱い方
3.欠測データ発生のメカニズム
4.欠測データに対する統計解析手法
5.欠測データに対処した研究例
第9章 マルチレベル分析 ―患者は病院の色に染まる?
1.階層構造とマルチレベル分析
2.統計モデル
3.マルチレベル分析を用いた論文を読む際のポイント
第10章 症例対照研究、マッチド・ペア・コホート研究 ―統合失調症患者はがん診断が遅れる?
1.階層構造とマルチレベル分析
2.統計モデル
3.マルチレベル分析を用いた論文を読む際のポイント
第11章 自己対照研究デザイン ―インフルエンザが急性心筋梗塞のリスクを高める?
1.自己対照研究デザインとは
2.ケース・クロスオーバー法
3.自己対照ケースシリーズ
4.研究デザインの選択
第12章 臨床予測モデル ―10年以内に心血管イベントが起こる確率は?
1.多変量回帰モデルと臨床予測モデル
2.臨床予測モデルの作成方法
3.臨床予測モデルの結果の提示
4.臨床予測モデルの予測能の評価
5.臨床予測モデルの評価の対象
第13章 機械学習 ―アルゴリズムは経験知を超えるか?
1.機械学習の概略
2.機械学習の手法
3.機械学習の手順
4.論文紹介
5.機械学習の失敗
第14章 データベースにおけるバリデーション研究 ―リアルワールドデータを理解するために
1.データベースと妥当性
2.妥当性の評価
3.バリデーション研究の方法
4.バリデーション研究の活用例
索引
コラム
・臨床疫学・統計学を学ぶ機会
・統計家の困惑
・発生件数だけでオッズ比を導出する
・論文自動生成プログラムの怪
・臨床知識の寿命はどれくらいか?
・査読は難しい
・症例数は「40人75眼」
・同じデータに違う研究デザインを使ったら結論が「逆」に!?
・ゴルディアスの結び目
・研究対象者のリクルートは難しい
・QRISKに寄せられた批判と反応
・タダ飯はない
・データベース研究における縁の下の力持ち
はじめに
医学研究に用いられる統計手法が、近年とみに高度化しつつある。旧来の統計手法(線形回帰分析など)の問題点を克服する最新かつ難解な統計手法が次々に登場している。統計学をかじった程度の臨床家にはほとんど理解できないレベルの難しさである。
幸いなことに(?)、難しい統計手法を理解できなくても、医学論文は何となく読める。AbstractとConclusionだけ読めば、論文の“あらすじ”は分かってしまう。それ故に、論文の「斜め読み」が横行しているかもしれない。Methodsに書かれている統計手法の説明は読み飛ばされてしまう。医局の抄読会でも、発表担当者は論文中の統計手法に関する記載には深入りしない。
「統計の部分は何を書いているのかよく分からないから、いつも読み飛ばしていますよ」と談笑している臨床家たちに遭遇した。悪びれることなくそう話す彼らを見て、筆者(康永)は「まずいな」と感じた。統計手法の理解はなおざりになり、AbstractとConclusionだけ読んで論文全体を分かったつもり。本当にそれでいいのか? 統計手法の理解なしに、論文を理解したことにはならないはずである。
なぜこんな事態に陥っているのか? 一つは、臨床医学が日進月歩であると同様に、統計学も進歩しているからだ。様々な臨床的状況や、入手可能なデータの内容に合わせて、より洗練された統計手法が統計学者によって次々に開発されている。臨床家は臨床医学の進歩をキャッチアップできても、統計学の進歩をキャッチアップすることはできなくて当たり前である(逆もしかり)。
もう一つは近年、大規模なリアルワールドデータ(real world data、RWD)を用いた研究が世界的に増加していることが挙げられる。RWD とは、日常臨床から得られる種々の患者情報を多施設から収集したデータの総称である。患者レジストリー、保険データベース、電子カルテデータなどが含まれる。RWDは圧倒的に多い症例数を確保できる点が魅力である。しかし、ランダム化比較試験のような介入試験ではなく、観察試験であるため、交絡をはじめとする様々なバイアスの問題が不可避であり、それらに対処するための疫学研究デザインや統計手法が高度化している。
古典的な統計手法である多変量回帰分析(重回帰、ロジスティック回帰、Cox回帰など)は今も用いられるものの、それだけでは対処しきれない。その一つ上を行く「傾向スコア分析」は、臨床家にとってもすっかりおなじみになった。筆者らは前書「できる!傾向スコア分析SPSS・Stata・Rを用いた必勝マニュアル」で、傾向スコア分析の実践的な分析手順について詳説した。
ところが、傾向スコア分析は応用統計の序の口に過ぎない。さらにその上を行く、新しくかつ難しい統計手法を用いた論文が、臨床のトップジャーナルに次々に登場している。操作変数法、不連続回帰デザイン、差の差分析、時間依存性交絡に対する周辺構造モデル、マルチレベル分析、競合リスクモデル、多重代入法、自己対照デザイン、などなど実に多彩である。
筆者(康永)は最近、ある臨床家に傾向スコア分析の手ほどきをし、論文執筆も指導した。彼がその論文を一流の臨床誌に投稿したところ、統計レビューアーが「時間依存性交絡を考慮した分析を実施せよ」とのコメントをよこした。――恐ろしい時代になったものだ。臨床誌のレビューアーが「時間依存性交絡」を考慮した分析をさらりと求めてくる。
いや、悠長なことを言っている場合ではない。傾向スコア分析は1990年代後半に医学誌に登場し、その後傾向スコア分析を用いた論文数は2000年から2018年までの間に100倍以上に増えた。これと同じとは言わぬまでも、傾向スコア分析の上を行く統計手法を扱った論文が今後も増え続けるに違いない。こうした統計手法を理解していないと、論文を読むこともままならず、自ら研究を行いジャーナルに論文を投稿してもアクセプトはままならなくなるかもしれない。
では、臨床家はどうすればいいのだ? 臨床論文に書かれてある難しい統計解析を理解するために、統計学者が書いた統計論文の原著を孫引きして読まなければならないのか? それを臨床家に勧めるのは全くナンセンスである。奇特にも引用文献を孫引きする臨床家がいたとしても、統計学者が書いた数式ばかりの理論論文に遭遇し、ロゼッタストーンを解読することと同等に困難であることを知るばかりである。
そこで本書の登場である。本書はそのタイトルの通り、医学論文に近年取り入れられている難解な統計手法の理解を深めるための本である。本書に書かれてある統計手法について、臨床家向けに日本語で分かりやすく解説した書籍は前例がない。本書は言わば、時代を先取りしている。
筆者らは全員、医師・歯科医師・看護師・理学療法士といった医療資格をもち、臨床経験もある研究者である。筆頭著者の康永は東京大学のSchool of Public Health(SPH)で教鞭をとり、臨床疫学を教えている。その他の筆者全員は、東大SPHを卒業しMaster of Public Health(MPH)の学位をもつ、臨床疫学のスペシャリストたちである。本書に書かれてある統計手法を日常的に使いこなし、多くの臨床研究論文を生み出している異能の集団である。
筆者らは統計の理論論文を読みこなし、一般の臨床家にも分かる言葉に置き換えるという作業を地道に行ってきた。本書はその集大成である。数式の記載は極力排した。一部に解説の流れの中で必要最小限度の数式を記載している箇所があるものの、言葉を用いて数式の意味を分かりやすく説明している。
各々の統計手法が、いかなる臨床的状況や、どのような臨床データにフィットするかに焦点を当て、ひたすら臨床家目線で読みやすい内容を追求した。臨床家にとって必要・有用と考えられる疫学・統計の知識については、妥協なく詳細な解説を加えた。一方、臨床家が知る必要が無い、統計学者がこだわる細部については迷いなく切り捨てた。
本書の読者対象は主に臨床家や臨床研究者である。特に、一歩進んだ統計手法を理解し医学論文を読みこなしたいと考えている臨床家、1クラス上の臨床研究を志す臨床家や臨床研究者向けに書かれてある。なお統計家になりたい方は、本書ではなく、統計学の原著論文を読むことを勧める。
本書の執筆に際し、複数の統計学者にご助言をいただいた。5章は川原拓也先生(東京大学医学部附属病院臨床研究支援センター中央管理ユニット生物統計部門)、8・11章は竹内由則先生(東京大学大学院医学系研究科生物統計学分野)、10・12章は篠崎智大先生(東京理科大学工学部情報工学科)のお力添えなしには完成に至らなかった。茲に深謝申し上げる。また、本書の編集にあたり常に細やかなご支援を頂いた金原出版編集者の須之内和也氏にも厚く御礼を申し上げる。
2019年11月
康永 秀生
医学研究に用いられる統計手法が、近年とみに高度化しつつある。旧来の統計手法(線形回帰分析など)の問題点を克服する最新かつ難解な統計手法が次々に登場している。統計学をかじった程度の臨床家にはほとんど理解できないレベルの難しさである。
幸いなことに(?)、難しい統計手法を理解できなくても、医学論文は何となく読める。AbstractとConclusionだけ読めば、論文の“あらすじ”は分かってしまう。それ故に、論文の「斜め読み」が横行しているかもしれない。Methodsに書かれている統計手法の説明は読み飛ばされてしまう。医局の抄読会でも、発表担当者は論文中の統計手法に関する記載には深入りしない。
「統計の部分は何を書いているのかよく分からないから、いつも読み飛ばしていますよ」と談笑している臨床家たちに遭遇した。悪びれることなくそう話す彼らを見て、筆者(康永)は「まずいな」と感じた。統計手法の理解はなおざりになり、AbstractとConclusionだけ読んで論文全体を分かったつもり。本当にそれでいいのか? 統計手法の理解なしに、論文を理解したことにはならないはずである。
なぜこんな事態に陥っているのか? 一つは、臨床医学が日進月歩であると同様に、統計学も進歩しているからだ。様々な臨床的状況や、入手可能なデータの内容に合わせて、より洗練された統計手法が統計学者によって次々に開発されている。臨床家は臨床医学の進歩をキャッチアップできても、統計学の進歩をキャッチアップすることはできなくて当たり前である(逆もしかり)。
もう一つは近年、大規模なリアルワールドデータ(real world data、RWD)を用いた研究が世界的に増加していることが挙げられる。RWD とは、日常臨床から得られる種々の患者情報を多施設から収集したデータの総称である。患者レジストリー、保険データベース、電子カルテデータなどが含まれる。RWDは圧倒的に多い症例数を確保できる点が魅力である。しかし、ランダム化比較試験のような介入試験ではなく、観察試験であるため、交絡をはじめとする様々なバイアスの問題が不可避であり、それらに対処するための疫学研究デザインや統計手法が高度化している。
古典的な統計手法である多変量回帰分析(重回帰、ロジスティック回帰、Cox回帰など)は今も用いられるものの、それだけでは対処しきれない。その一つ上を行く「傾向スコア分析」は、臨床家にとってもすっかりおなじみになった。筆者らは前書「できる!傾向スコア分析SPSS・Stata・Rを用いた必勝マニュアル」で、傾向スコア分析の実践的な分析手順について詳説した。
ところが、傾向スコア分析は応用統計の序の口に過ぎない。さらにその上を行く、新しくかつ難しい統計手法を用いた論文が、臨床のトップジャーナルに次々に登場している。操作変数法、不連続回帰デザイン、差の差分析、時間依存性交絡に対する周辺構造モデル、マルチレベル分析、競合リスクモデル、多重代入法、自己対照デザイン、などなど実に多彩である。
筆者(康永)は最近、ある臨床家に傾向スコア分析の手ほどきをし、論文執筆も指導した。彼がその論文を一流の臨床誌に投稿したところ、統計レビューアーが「時間依存性交絡を考慮した分析を実施せよ」とのコメントをよこした。――恐ろしい時代になったものだ。臨床誌のレビューアーが「時間依存性交絡」を考慮した分析をさらりと求めてくる。
いや、悠長なことを言っている場合ではない。傾向スコア分析は1990年代後半に医学誌に登場し、その後傾向スコア分析を用いた論文数は2000年から2018年までの間に100倍以上に増えた。これと同じとは言わぬまでも、傾向スコア分析の上を行く統計手法を扱った論文が今後も増え続けるに違いない。こうした統計手法を理解していないと、論文を読むこともままならず、自ら研究を行いジャーナルに論文を投稿してもアクセプトはままならなくなるかもしれない。
では、臨床家はどうすればいいのだ? 臨床論文に書かれてある難しい統計解析を理解するために、統計学者が書いた統計論文の原著を孫引きして読まなければならないのか? それを臨床家に勧めるのは全くナンセンスである。奇特にも引用文献を孫引きする臨床家がいたとしても、統計学者が書いた数式ばかりの理論論文に遭遇し、ロゼッタストーンを解読することと同等に困難であることを知るばかりである。
そこで本書の登場である。本書はそのタイトルの通り、医学論文に近年取り入れられている難解な統計手法の理解を深めるための本である。本書に書かれてある統計手法について、臨床家向けに日本語で分かりやすく解説した書籍は前例がない。本書は言わば、時代を先取りしている。
筆者らは全員、医師・歯科医師・看護師・理学療法士といった医療資格をもち、臨床経験もある研究者である。筆頭著者の康永は東京大学のSchool of Public Health(SPH)で教鞭をとり、臨床疫学を教えている。その他の筆者全員は、東大SPHを卒業しMaster of Public Health(MPH)の学位をもつ、臨床疫学のスペシャリストたちである。本書に書かれてある統計手法を日常的に使いこなし、多くの臨床研究論文を生み出している異能の集団である。
筆者らは統計の理論論文を読みこなし、一般の臨床家にも分かる言葉に置き換えるという作業を地道に行ってきた。本書はその集大成である。数式の記載は極力排した。一部に解説の流れの中で必要最小限度の数式を記載している箇所があるものの、言葉を用いて数式の意味を分かりやすく説明している。
各々の統計手法が、いかなる臨床的状況や、どのような臨床データにフィットするかに焦点を当て、ひたすら臨床家目線で読みやすい内容を追求した。臨床家にとって必要・有用と考えられる疫学・統計の知識については、妥協なく詳細な解説を加えた。一方、臨床家が知る必要が無い、統計学者がこだわる細部については迷いなく切り捨てた。
本書の読者対象は主に臨床家や臨床研究者である。特に、一歩進んだ統計手法を理解し医学論文を読みこなしたいと考えている臨床家、1クラス上の臨床研究を志す臨床家や臨床研究者向けに書かれてある。なお統計家になりたい方は、本書ではなく、統計学の原著論文を読むことを勧める。
本書の執筆に際し、複数の統計学者にご助言をいただいた。5章は川原拓也先生(東京大学医学部附属病院臨床研究支援センター中央管理ユニット生物統計部門)、8・11章は竹内由則先生(東京大学大学院医学系研究科生物統計学分野)、10・12章は篠崎智大先生(東京理科大学工学部情報工学科)のお力添えなしには完成に至らなかった。茲に深謝申し上げる。また、本書の編集にあたり常に細やかなご支援を頂いた金原出版編集者の須之内和也氏にも厚く御礼を申し上げる。
2019年11月
康永 秀生
- 医書.jpで購入される方は
こちらから (外部サイトに移動します) - M2PLUSで購入される方は
こちらから (外部サイトに移動します)