谢谢邀请。 很久不答题了,最近因为一些事情,很想就统计学在医学方面的学习与应用稍微谈一点个人建议。 我觉得面对未来的医学发展,不能再仅仅把眼光局限在一点点粗浅的统计学知识上了。题主问的,都是一些最基本的统计学知识,我相信搞清楚搞懂这些内容应该就是几天的事情。国内的任何一本基础统计学教材都能解答你的问题,SAS的操作更加不是问题,因为SAS的网站上有非常丰富的解释文档,覆盖几乎所有可能产生的问题。我想聊的是,掌握了这些之后怎么办。 现在这个时代,除了传统的医院、卫生管理机构、各类健康养老服务组织、药厂等部门,互联网、智能手机、可穿戴设备、智能家具,都在日复一日生产庞大的健康数据,并且生产的速度越来越快。照着这样的趋势,在医学领域上需要非常丰富的统计学知识才能应对暴涨的数据量和复杂的数据结构。在这种前提下,如何建立最合适的模型,阐明模型背后的现实意义,是摆在医学数据分析研究人员面前的重大课题。可是现实情况是,人人都在提“大数据”,但是实际上并没有多少人可以做扎实的基于大数据的统计分析。 万变不离其宗,归根到底还是要把统计学学好,学多一些,学精一些。 - 对于基础的入门,跟统计系的学生一样,应该从两本最好的概率论与统计学教材开始:Morris Degroot的Probability and Statistics (4th Edition),以及Sheldon Ross的Introduction to Probability models。在这个阶段要掌握基本的概率论和统计学概念,打牢基础。题主想学习的基础概念都在这个阶段。
- 第二步是如何建立统计模型,我推荐Draper的Applied Regression Analysis(更严格一些),以及Vittinghoff 的Regression Models in Biostatistics(更偏应用一些)。在这个阶段要至少掌握linear regression,logistic regression,Cox regression,以及Poisson regression,统称Generalized Linear Models (GLM)。这四类分别应对的是四种最常见的outcome:mean,log Odds,Log Hazard,和Log Rate。题主提到的存活率的概念,就包含在这个阶段,运用Cox regression进行Survival analysis。
- 进阶是对于cluster/longitudinal data,建议学习Gelman的Data Analysis Using Regression and Multilevel/Hierarchical Models。这类data更符合现实,因为outcome之间往往是有correlation,这个特点决定了我们不能满足于GLM,要拓展模型。这个阶段重点要掌握multilevel models。
- 之后就是分方向进行研究。比如我感兴趣的是人们的选择行为和偏好问题,那么最经典的参考书就是Train的Discrete Choice Methods with Simulation,以及Hensher的Applied Choice Analysis。
如果医学专业(包括公共卫生)的学生除了学习疾病和临床操作之外,能更加认识到自己实际上是处理纷繁复杂的健康数据的数据分析人员,那么我想这可能是应对未来变化的一个良好起点。 |