《大数据时代的医疗革命》史今驰著|(epub+azw3+mobi+pdf)电子书下载

时间: 2022-10-28 20:32:33  83 大数据时代 大数据时代 epub

图书名称:《大数据时代的医疗革命》

【作 者】史今驰著
【页 数】 261
【出版社】 天津:天津科学技术出版社 , 2019.06
【ISBN号】978-7-5576-6805-1
【分 类】数据处理-应用-医疗卫生服务-研究
【参考文献】 史今驰著. 大数据时代的医疗革命. 天津:天津科学技术出版社, 2019.06.

图书目录:

《大数据时代的医疗革命》内容提要:

本书详细讲解了如何在大数据时代,运用全新的思维方式、技术手段解决医改难题,内容包括数据、信息、知识的意义;什么是医疗大数据;医疗大数据时代;大数据产业及应用前景概述;大数据医疗领域的应用;大数据运用于医疗改革的尝试及案例;医疗大数据引发的思考;国外医疗大数据应用案例;实现医疗大数据的价值最大化。

《大数据时代的医疗革命》内容试读

第一章数据、信息、知识的意义

第一章数据、信息、知识的意义

第一节直面“大数据”

“量变会转化为质变”。

曾屹立于国际象棋世界王座不倒的象棋大师卡斯帕罗夫(GarryKasparov)在与IBM推出的超级计算机深蓝(Deep Blue)展开人机大战后,说了这样一番意味深长的话。

“至少在国际象棋的世界里,人类已经无法战胜拥有压倒性数据和计算能力的计算机!”量变的确会转化为质变。

今天,随着大数据时代的到来,摆在我们眼前的课题也已经蜕变为量和质的问题。怎样正确驾驭这些以令人恐惧的势头持续增加的数据,又怎样将它们转化为高质量的信息?

毋庸置疑,各种数据的爆发式增加会为商业世界创造新的机遇,也会为医学领域的学术研究带来巨大的福音。但是,数据同时也是一柄双刃剑,读取方式错误,可能造成致命的灾难性后果。

研究人员在面对数据时,应该从以下两方面的视角出发。

这就是“假设验证”和“假设生成(一说探索)”。其中,假设验证可以说是研究人员的基本态度,为验证自己提出的假设正确与否需要收集大量数据。当数据与假设不一致,还要对假设进行修改。通过反复的“假设与验证”程序,假设逐渐凝练,继而找到通向真理的道路。

那么,假设来自哪里?

首先,是研究人员的“限定范围内的观察区域”和“大脑”。

其次,“先行研究(现存文献)”是迄今为止主要假设的生成场所。其样貌正逐步改变。从庞大的数据海洋中。或许在与人类前所未有的感知形式相左的过程中,某个新假设突然出现。日新月异的计算机分析技术,例如数据挖掘也许会承担假设萌芽的一个辅助角色。结果,某个研究人员提出的假设也许呈现出颠覆传统的奇葩内容。数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。

以抢在竞争对手前面出招为制胜策略的商业世界为例,商业人惯常的思维模式是根据数据挖掘的结果生成某种假设,在这个无沦成败与否的假设阶段,首先果断出手,小试牛刀。

例如:市场营销界有一个著名的定论,即“来超市买啤酒的男性顾客很大概率也会购买婴儿尿布”。这是某连锁超市对庞大的历史销售数据进行研究后得出的结论。那么,据此类推,如果这家超市大胆尝试在饮料区的收银台附近摆放婴儿尿布会如何其结果,即使尿布销量平平,对这家超市的销售业绩也无妨大碍,但是,医疗的世界绝非如此。

假设大数据分析获得如下结果,证明:“人在食用某种特定食品后,会出现血压降低的情况。”当然,仅仅根据这个结果,没有哪个研究人员会得出“这种食品具有降低功效”的结论。但是,即便如此,从事人体血压波动研究的研究人员却不能轻易放过这项数据,因为从这种食品中所含的某种有效降压成分与血压之间的关系展开分析,他们可能得出某个新的假设

对大数据进行分析,就能获得传统无法与之比拟的真知灼见,继而获得大量假设、这其中既包括新派生的某种假设,也可能是一些“无聊或不值一提”的假设、可以说,随着大数据时代的到来,医

1

大数据时代的医疗革命

疗从业人员最应拿出的态度,第一是“假设验证”,第二是“假设生成”的平衡」

如前所述,假设验证是接近科学的根本。但是,凡事过犹不及,如果太钻牛角尖,就可能陷人诸如“执着于寻找对自己提出的假设有利的数据,仅仅将着眼点放在这类数据上”;或者“即使客观数据无法形成佐证,也固执地生搬硬套在自己的假设上…”这样危险的境地

让人遗憾的是,这恐怕就是近年来在社会上掀起狂澜的“科学论文抄袭问题”之类事件的背景之一。另一方面,与假设验证相比,假设生成在某种程度上需要自由思考,即所谓的“独立假设”,这对科学家来说具有极大的吸引力,但同时必须远离个人主观或自以为是的根源陷阱,以一颗虚怀若谷的坦诚之心,倾听以事实为根据的客观数据。

接下来,对这种情况下浮现出来的某个征兆进行切实的提炼,将这个雾里看花的事物作为假设的萌芽进行耐心培育,在此基础上寻找相关数据。当假设以某种形式逐渐形成维形,此时需要做的是从验证的视角与数据进行关联一—这种假设生成看似具有无穷的吸引力,实则可能以某种完全背离传统知识积累的、无法解释的关系呈现出来。大数据时代的假设生成,其优点和注意点带有这种前所未有的鲜明特征。

本节将从医疗从业者面对大数据时的正确立场出发,例如:以诱发高血压的病因为例,假设人体缺乏某种维生素会导致血压升高。那么,为了对这个假设进行验证,必须以人为对象开展流行病学研究,进行相关数据的搜集和分析工作,然后对结果进行分析(信息提取)。

结果,如果掌握以下两类数据:(1)少量摄入这种维生素的人群存在血压升高的倾向;(2)服用这种维生素的人群的血压呈下降趋势,那么,就可以认为该假设暂时成立。

这种假设验证的思维模式不仅限于维生素与血压之间的关系,研究人员应保持“哪些物质会引起血压升高”的原始问题意识,以及与数据对立是假设生成的立场,只要对诊疗明细数据和电子病历进行充分分析,我们就会发现很多以前忽视的患者的生活方式、既往病史以及以往经历等问题。而关注这类问题有时可能与血压的新研究发展之间存在某种关联性一但是,假设生成看似具有无穷的吸引力,如果非要从否定的立场出发看问题,那么,也有可能与传统知识积累相左,陷入某种难以解释的关系之中。

大数据的世界同样可能夹杂着“偶然性”,这一点毋庸置疑,今天,即使通过大数据分析,得出两种事物之间的关联存在统计学上的意义,也不能排除在其他时间段发现同样关联关系的可能(大数据随着时间流逝,其数据的蓄积量递增,继而形式发生能动性的改变),有时,两种事物之间最初呈现的关系可能仅仅是一个“偶然”。

第二节信息来自数据分析

数据、信息、知识究竞是什么?我们应该怎样理解它们之间的区别和关系呢?

先说数据。一般情况下,提到数据,人们第一个想到的数字,其次是文字数据。此外,声音数据、图像数据是近年来普及的概念。那么,“数据”,这个我们平时经常无意识地使用的词汇到底是什么意思?

辞典对“数据”一词的表述如下:“数据,指用于立论、计算基础的现有或者被认可的事实和数值”(引自《广辞苑》第五版)。此外,数据一词,还包括与以下分析相对的下述定义。2

第一章数据、信息、知识的意义

“以文字、符号、数值等综合形式对某种事物进行再现的结果;对人类有价值的事物;人类将分

析结果称为信息的事物。单纯提及数据时,在T业特指计算机记录、处理的内容。此外,指计算

机存储中程序以外的内容以及程序处理对象等。”

例如,下面有一组医疗数值数据。

110、120、130、140

如果为上述数据补充一些说明性的文字数据,比如“患者A一150、患者B一130…”,我们就

能从中看到一些有用的信息,继而推测这组数据可能是一些代表血压的数字,也可能是一组代表小学生身高的数据。这时,如果在此基础上进一步补充诸如“患者A:收缩压150mmhg/50岁;患者

B,收缩压130mmhg/35岁…”等文字数据,这组数据代表的含义将变得更加清晰。如果再将这组数值数据与文字数据并列起来看,就可以得出如“人随着年龄增加,收缩压会随之增加…”即年龄与血压之间关联关系的结论。

也就是说,当数据单独存在时,我们很难从数据中获取“意义”。相反,为了让数据变得有“意义”,必须与其他数据组合。通过在初始数字数据上追加“血压”数据,数据才变得更具“意义”

这种从数据中产生的“意义”就是信息。辞典对“信息”一词的表述如下:“以判断或引发行动为目的,需要借助各种必要媒介的知识。”(引自《广辞苑》第五版)此外,信息的另一个定义是“通过文字、声音等途径的再现促使人在感知过程中唤起某种意义,并对具体的思考以及行为方式产生影响的事物。这与对人而言无意义的杂音以及随机模式在内的数据存在本质上的区别”。

总之,可以认为“对人有无意义”是信息与数据的区别所在,或者可以说“数据分析的结果”就是信息。那么,接下来需要我们思考的问题是怎样对数据进行分析,即数据分析的方法。

假设下面有一组数据:某人的血压值为“150/96mmHg”。

那么,从这组数据能够获得什么信息呢?根据数据读取意义,首先,数据本身的正确性是大前提。使用有故障的血压计测量出来的血压值没有任何意义。而且,隔着厚重的衣服测量出来的血压值也不可能准确。换句话说,使用精准度高的血压计,采用正确的测压方法测得的血压值才是进行数据分析的前提条件。

假设“150/96mmHg”是测量得出的正确的血压值。那么,我们从这个数据能够读取哪些信息呢?一般情况下,血压值高于“140/90mmHg”时,临床上会被诊断为高血压。按标准值衡量,根据“150/96mmHg”这个数据,可能得出这名患者患有高血压这一信息。

但是,一次测量结果还不能确诊患者一定患有高血压。即使真的患有高血压,治疗的第一步也不是立即让患者服药,而是从改善生活方式开始。

也就是说,对这个“150/96mmHg”的血压数据进行分析,为了让生成的信息为做出一个判断提供帮助,该判断标准的周边必须有一些必备知识作为基础支持。

如前所述,有时数据会呈现出某些偶然的关联关系。研究人员不能只求速度,不求精度地急着从数据中寻找信息,而应在“这种现象可能仅仅是一个偶然”等(统计学)知识支持的基础上,抱着“其他数据是否存在同样的倾向”或“是否从大量数据分析结果中提取所需数据”等谨慎的态度进行数据分析。综上所述,首先,对数据进行正确测量是数据分析的前提条件。其次,将正确数据作为知识运用并进行正确的分析。只有这样,我们才能获得恰当的信息。

3

大数据时代的医疗革命

第三节数据分析的方向性和风险

一般来说,进行数据分析有两个基本视角。第一,如前文血压事例所示,需要观察与其他数据

之间的关联性。单纯从数据本身无法获取任何有价值的信息。而怎样设置关联的数据项,将在很大程度上改变数据分析的难度。

第二,观察数据的分布情况。从平均值开始,中央值、标准偏差等数据之间的差异,或根据缺失值的类型读取的信息就是数据分析的根本。数据分布是今后处理大数据时最重要的衡量指标,这

一点不变。

两种数据的分布方式之间存在关联性。也就是说,自变量增长时,因变量也随之增长的现象被

称为“正相关”(两个变量变动方向相同,一个变量由大N,变化时,另一个变量亦由大NⅡ,)。另

一方面,因变量值随自变量值的增大而减小的现象被称为“负相关”。

在传统医疗世界中,可利用数据的绝对量是有限的。例如,在基础医学领域,实验室范围内收集的数据最多只有数十例。

在此基础上,以按比率增加(scale一up)的临床研究为例,充其量不过数百例规模;即使以地区对对象进行的流行病学研究,一个研究小组处理的数据量按受试者人数确定,通常也不过数千单位。

在大数据时代,上述可利用数据的绝对量将一跃膨胀至十万单位甚至百万单位。随着电子病历数据和诊疗明细数据进一步集约化,研究人员面对的可利用数据量很容易突破百万单位。

另一方面,人们在数据分析上花费的时间将大幅缩短。过去,当研究人员面对庞大的数据量进行复杂的统计分析时,往往需要花费很长时间才能得到结果。而现在,在计算机硬件和数据处理软件的帮助下,研究人员在处理大容量数据上耗费的时间已经显著缩短。

这里有一点需要注意:这就是从事数据处理的人一通常意义上被称为“数据科学家”这一职业的存在。

不具备医学及医疗专业知识的人担任数据科学家时,很容易发生以下问题。

假设以某国的女性为对象,围绕吸烟对人体健康的影响展开调查研究。调查开始时,以是否吸烟作为衡量指标,将调查对象分为两组,在接下来的20年期间,分别对两个调查组的生存状况展开跟踪调查:该研究的定性是流行病学染色体组型分析研究。调查数据证实:调查时吸烟组女性20年期间的死亡率为13%,非吸烟组的死亡率为19%。两组调查开始的人数均为1万人。

根据该数据,数据科学家得出结论:“吸烟女性比非吸烟女性的死亡率低,即长期生存率高。”可想而知,即使数据科学家坚持上述观点,也不会有哪个医学研究人员会表示支持。因为从科学常识的角度来说,“一般情况下,与非吸烟者相比,吸烟者的寿命更短”。

这组数据存在的问题是调查开始时是否追加年龄项?

如果将吸烟组和非吸烟组按65岁年龄段分为两组。那么,65岁以下的吸烟者是9000人,非吸烟者1000人,死亡人数分别是900人和50人(死亡风险分别是0.1和0.05):65岁以上的吸烟者是1000人,非吸烟者9000人,死亡人数分别是400人和1800人(死亡风险分别是0.4和0.2)。

也就是说,无论年龄超过65岁还是未满65岁,吸烟者的死亡风险均为非吸烟者的2倍。但

第一章数据、信息、知识的意义

是,如果不分年龄段对数据进行汇总处理,得出的结果就是吸烟人群及非吸烟人群各1万人,死亡人数分别为1300人和1850人,死亡风险分别为13%和19%。

那么,原本已成定论的“吸烟会增加死亡风险”这一关联,由于未考虑年龄因素,结果得出截然相反的结论。年龄是衡量死亡风险的重要背景因素,进行数据分析时,缺乏这方面专业知识的数据科学家很容易在根本性的问题上犯错。

如上所述,当不具备医学及医疗专业知识的数据科学家进行数据分析时,存在一个死穴一在必要的基础数据上犯错。在上述案例中,他们所犯的错误是遗漏了流行病学上重要的混淆变量(Confounding Variable)一年龄因素。当数据量增至l0万以上时,调查项目中必须追加年龄段的吸烟/非吸烟,饮酒/不饮酒、未婚/已婚、大学毕业/非大学毕业…等多领域的指标。

当对上述数据进行分析的数据科学家得出诸如:“非吸烟、未婚、大学学历女性的死亡率最高”的信息时,我们应该怎样看待这个结果呢?

当然,必须考虑存在某种混淆变量时的情况。例如,大学毕业、未婚、不吸烟、不饮酒的女性多数埋头努力工作,与普通女性相比,她们无论在精神或体力层面都承受着更大的压力,这一点不可否认。当然,或许数据科学家的分析可能提出某个新假设。但是,由于数据科学家缺乏基本的医学及医疗常识,其分析很可能存在某些缺陷。最糟的情况莫过于这种数据科学家可能出于某种理由,故意歪曲数据。

近年来,作为新兴的热门职业之一一数据科学家正受到社会前所未有的关注。如果从事这种职业的人接触医疗及医学行业数据,从客观上来说,他们必须具备相关领域的基础知识。当然,没有哪个人能够全面掌握医疗及医学领域庞大的基础知识。但是,他们可以通过与具备这方面专业知识的人之间的密切合作和沟通达到目的。其次,他们需要学习关于科学的公正和营私舞弊行为等方面的知识,具备职业素养的高度伦理观。关于这些人才取得社会认可的资质或标准,今后有必要进一步展开探讨。

第四节信息的作用是减少不确定性

现代社会是信息化社会。随着网络的普及,在世界范围内流通的信息量(数据量的提法可能更恰当)正呈爆炸式增加。

以日本为例,2012年月均网络流通数据量约为2300PB(拍字节或千T字节),大约相当5.7亿

张DVD。这么说可能让人一下子有点蒙,总之现代人就生活在这个似乎永远看不到尽头的庞大信

息量的包围下,这一点毋庸置疑。

辞典对“信息”一词的定义参见前文所述。这里想介绍数字理论之父一克劳德·艾尔伍德·香农(Claude ElwoodShannon)提出的定义。开辟通往信息化社会之路的香农对信息是这样定义的:“所谓信息,是用来消除不确定性的东西。”

例如,假设有人准备从A地前往B地。在没有确切信息指引的情况下,这个人到达目的地的

可能性将发生变化,这一点很容易理解。首先,假设这个人出发的道路有两条,一条在左,一条在右。那么,他该选择哪条路呢?在没有任何参考线索的情况下,他选择正确道路的概率仅为1/2,

即50%。此时,假设道路的右侧竖着一块路标,路标上清晰地标明“前往B地方向”,那么,这个人

选择正确道路的可能性会大大提高。像这样,我们将增加到达目的地概率(消除不确定性)的东西

5

大数据时代的医疗革命

称为“信息”。

消除不确定性的信息在医疗领域起着决定性的重要作用。早在此之前,加拿大籍内科医生威廉·奥斯勒(William Osler)对医学是这样定义的。

“Medicine is a science of uncertainty and an art ofprobability,”“医学是一门不确定性的科学和可能性的艺术。”

奥斯勒医生主张医疗具有科学和艺术的两面性。为什么?因为医疗行为本身带有不确定性。以未破裂颅内动脉瘤为例,假设某临床医生发现某患者患有早期脑动脉瘤,需要考虑是否手术。如果不及时手术,可能引发脑动脉瘤破裂出血。那么,这种情况下需要对该患者施行预防性手术。相反,另一种情况是脑动脉瘤破裂的可能性较低,不建议施行风险性手术。手术做与不做,患者得到的信息,是医生在结合个人知识储备的基础上做出的判断,除此之外没有其他途径。

结合前文的例子:某人从A地前往B地的路标(信息)发挥的重要作用,这样我们就能理解医

疗领域信息的重要性。以减少医疗的不确定性为目的的信息所承担的作用多么重要!

医疗一线充当路标作用的对象是诊疗手册。所谓诊疗手册,就是将与疾病相关的各种复杂的研究成果(evidence)进行汇总整理,为医生和患者做判断提供帮助的文档。根据美国医学研究所(Institute of Medicine)的传统定义,“诊疗手册是在特定临床状况下,为做出合理的判断,以辅助临床从业人员和患者为目的,系统制作的文档资料”。上述定义需要注意一点一即在临床从业人员之外,患者以支持辅助为目的的参与。

1997年,日本厚生省(现更名厚生劳动省)公布《日本医疗技术评价状况研讨会》报告,该报告首次将循证医学(EBM,Evidence-Based Medicine)的观点作为医疗基础纳人其中。在之后l999

年公布的报告中,日本厚生省在将EBM纳入诊疗手册制作的同时,还明确提出这一概念的重要

性。此后,“遵循证据的诊疗手册”制作正式启动

目前,日本国内发行的诊疗手册数量众多,但是,现实情况下仍然存在一些使用人和使用状况不明的现象。制作合理的诊疗手册,并在临床一线合理使用,只有这样,医疗品质才有望改善。

因此,对诊疗手册制作合理与否进行评估的手段之一是AGREE工具(临床实践指南质量评估

审查工具,Appraisal ofGuidelines for Research and Evaluation)。AGREE工具由23项审查项目和综合评估构成,对保证临床诊疗手册的质量会起到很大的帮助。该方法的检查内容并非诊疗手册的医学内容,而是一种用于描述诊疗手册制作过程的主数据。所谓主数据,是指“信息的信息(与信息本身相关的信息)”。所谓诊疗手册,是指哪些人,面向哪些对象,从何种目的出发制作的手册?资金提供方是谁?在什么时间?在什么证据的基础上制作等信息。通过关注这些内容来获得判断诊疗手册质量的线索。

另一方面,为了正确理解医疗信息,还需要信息受众的信息收集能力(Literacy)。与健康、医疗相关的信息应用能力被称为“健康认知力”(Health literacy)。健康认知力的代表研究学者Don

Nutbeam教授(英国南安普顿大学校长)将健康素养分为三个层次:基本/技能素养、交流/沟通素养和批判素养。

技能素养,指理解文字层面的处方。在国外,以移民为中心,无法完全使用移民国语言的人群大量存在,日本民众的识字率堪称世界第一,所以,这方面的问题并不大,但是,在现实情况下,晦涩难懂的医疗专业用语被曲解误读的情况屡屡发生。

沟通素养,是在读取文字的基础上理解内容和含义,并与他人进行沟通的能力。最后,批判素养是指按自己的方式消化理解的内容,并反映在自律行为上的能力。6

···试读结束···

  • 声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,以上内容仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站内容来自网络收集整理或网友投稿,所提供的下载链接也是站外链接,版权争议与本站无关。您必须在下载后的24个小时之内,从您的设备中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版!我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!邮箱:121671486@qq.com,微信:diqiuren010101

学习考试资源网-58edu © All Rights Reserved.  湘ICP备12013312号-3 
站点地图| 免责说明| 合作请联系| 友情链接:学习乐园