摘 要:本文以“好大夫在线”问答中糖尿病主题相关的十年数据为例,揭示在线医疗社区的患者、医生及问答记录的特征。研究发现,患者人群覆盖所有糖尿病类型,出现多种并发症;患病时长较长的用户更愿意在网上咨询;患者的过敏原大多数属于食入式或注射式过敏原;医生的临床职称和教学科研职称存在一定的正相关关系;医生所属的医院具有明显的集中与分散的特点,少部分医院吸引大多数患者进行咨询;医生所属的科室较为分散;较活跃的医生来自于三级医院,且大多数属于内分泌科;患者提问主题的大致分为 7 类,围绕着糖尿病及其并发症展开;大多数患者希望从治疗过程、治疗手段和医治程度等方面得到医生的帮助。
关键词:好大夫在线;医患群体;问答记录;糖尿病
0 引言
在线医疗社区是医疗服务的新型业态,依托于互联网信息技术,将医疗服务从线下转移到线上。在线医疗社区按服务主体分类可分为三类:一是患者交流平台,主要用户为患有相同或相似病症的患者,如甜蜜家园、慢友帮;二是医生交流平台,主要为医生提供学术交流和在线培训等,如丁香园、好医生;三是医患交流平台,具备医生和患者两类用户,主要为医患之间的健康管理、健康咨询、挂号、导诊、问诊、药品购买等交流提供平台,比如“好大夫在线”、春雨医生等[1]。“好大夫在线”是国内最大的医患互动平台,2006 年诞生至今,积累了大量医患数据。糖尿病是一种由于胰岛素分泌不足或外周组织对胰岛素不敏感引起的代谢性疾病,以持续高血糖状态为特征,并可能引发 100 多种并发症。糖尿病病人由于患病时间长,更易在医疗社区浏览和发布信息。因此,本文以“好大夫在线”的问答数据为例,通过数据分析,探讨与糖尿病主题相关患者、医生与医患问答的特征。
1 研究现状
在线医疗社区目前没有统一的定义,存在若干相似概念。笔者在中国知网中以“在线医疗社区”“在线医疗平台”“在线健康平台”“在线健康社区”“健康医疗社区”“健康医疗平台”作为主题词进行检索,共有 392 条记录,集中于近 5 年,说明相关研究处于起步阶段。相关主题研究热点包括患者研究、医生研究、医患交互研究、系统设计与构建研究、现状研究、慢性病研究等。
1.1 关于患者群体的研究
在线医疗社区患者特征的研究主要包括四个方面。一是患者使用在线医疗社区的意愿研究,从影响因素、影响关系等方面展开,表明社会支持、成就需要、隐私安全、感知信任、医疗效果、感知收益和交互设计等都有正向影响[2-3]。二是患者信息披露与个人隐私的顾虑研究,从影响因素、影响模型构建等方面展开,发现患者性格、信息敏感、以往经历、情感承诺、外部保护和医生信誉等都对患者的信息披露与隐私顾虑产生了影响[4-9]。三是患者的社区参与和知识共享行为研究,发现利他性、归属感、互动中心性、等价性、交互感知和社区回报对共享行为产生影响,且不同用户存在差异[10-13]。四是研究患者的购买意愿,影响因素有网络口碑、患者生成信息和医生生成信息等[14-15]。
1.2 关于医生群体的研究
医生特征的研究集中在对医生声誉、服务价格、个人贡献、疾病类型、咨询量和个人收益等之间的关系的研究。刘笑笑以“好大夫在线”为例,发现医生的在线信誉和努力对医生咨询量都有显著影响[16]。韩晓翠基于“好大夫在线”医生的数据,发现医生的经济回报、名誉回报及线下身份对贡献行为有积极影响[17]。李洋从糖尿病、冠心病和乳腺癌 3 种慢性病入手,发现不同疾病的医生贡献行为的影响因素存在差异[18]。李莹莹发现服务评价、医生职称、医生所在医院都对服务价格有显著影响[19]。叶存辉等以“好大夫在线”为例,研究了医生受访量的影响因素,发现相对于医生职称,患者更在乎医院等级[20]。梁俏等基于 2008-2016 年“好大夫在线”的数据分析,认为医生及其同事的努力和声誉对参与免费咨询的新患者数有显著影响[21]。
1.3 关于问答记录的研究
李蕾等总结社会化问答主要包括问题、答案、用户和平台四个部分[22],而在医疗领域,主要是问答主题特征研究。吕英杰等研究 Medhelp 社区中肺癌、乳腺癌和糖尿病 3 种疾病,并提取了 7 各热点主题[23]。金碧漪等基于问答网站和糖尿病社区的数据得出糖尿病的主题分布特征[24]。王煜等以寻医问药网中糖尿病社区的帖子内容为分析对象,采用矢量空间模型和 K-Means 聚类模型进行主题分析,得出“症状与并发症”“治疗”两个热点主题[25]。综上所述,已有研究成果主要基于问卷调查、网络数据爬取、社会网络分析等方法对单一主题进行探讨,且数据量较少。笔者将以“好大夫在线”为例,通过对十年来糖尿病相关主题参与问答的医患群体及问答本身的特征分析,全面揭示患者、医生及问答三个方面的具体特征,以期为优化在线医疗社区服务提供充分的数据与事实支持。
2 研究设计
2.1 研究思路
本文将基于 python 爬虫数据对在线医疗社区中医患问答相关特征进行分析,与前人研究方式不同的是,将会爬取尽可能完整的、大量的数据作为支撑。研究将分为三个部分进行展开。前两个部分是医患问答中的主体,即患者、医生的特征分析。从患者角度,将从患者的患病类型、患病时长、过敏史三个维度展开。从医生角度,将从医生的职称、所属的医院及科室、活跃医生的特征等维度展开。第三个部分为医患问答的特征,包括患者提问的时间分布、患者提问的主题特征、患者提问的意向特征等方面展开,并采用 LDA 主题模型、R 语言词频统计等方法进行揭示。
2.2 数据获取
“好大夫在线”的“网上咨询”中提供2008年至今的在线咨询历史数据检索。经观察可知,问答记录的格式、各字段的顺序、有无都存在差异。因此,笔者选择爬取全文的方式。笔者用 python 爬取提问题目中包含“糖尿病”关键词的记录,共爬取到 2008 年 3 月至 2018 年 10 月间 139361 条问答数据。问答数据的数据项包括患者信息、医生信息、咨询主题、咨询日期等四部分,其中患者信息包括患者填写的疾病/症状、患病时长、过敏史等,医生信息包括医生的姓名、职称、医生所属的医院及科室等。
2.3 数据处理
由于原数据存在大量自然语言描述,且存在错别字和空字段等,需要进行预先处理。首先要对自然语言描述进行归纳整合,如将Ⅰ型糖尿病、一型糖尿病等都归为 1 型糖尿病,将Ⅱ型糖尿病、二型糖尿病等都归为 2 型糖尿病,将妊娠期糖尿病、怀孕糖尿病都归为妊娠糖尿病。其次,需处理错别字,如将壬辰糖尿病、妊辰糖尿病等改为妊娠糖尿病。另外,由于网页格式差异,一些字段未爬取到,或者网页失效无法打开,导致数据缺失,需要去掉缺失项。
3 “好大夫在线”糖尿病患者的特征分析
3.1 患者所患糖尿病的类型及并发症
笔者首先对患者填写的疾病内容进行整理,得到 111695 条关于疾病或症状的描述,有 78.7%(87894 人)的患者使用“糖尿病”来描述自身的疾病或症状。在前 100 个高频词中,显示了 1 型糖尿病、2 型糖尿病和妊娠糖尿病三大糖尿病的类型,2 型糖尿病的记录数最多。另外,高频词中体现了糖尿病的常见并发症,包括:糖尿病肾病(肾功能不全、肾病)、糖尿病眼部并发症(视网膜病变、白内障、眼底出血、视力模糊、视力下降)、糖尿病足、糖尿病心血管并发症(高血压、冠心病、心脏病、心绞痛、心衰、心梗、房颤)、糖尿病性脑血管病(脑梗、脑血栓)和糖尿病神经病变(糖尿病周围神经病变)等。
3.2 患者的患病时长分布
经整理,有患病时长字段的咨询记录共有 33815 条。其中 52%(17475 人)的患者患病时长超过半年,18%(6145 人)的患者患病时长在半年之内,17%(5785 人)的患者患病时间小于 1 个月,13%(4410 人)的患者患病时长不超过 1 周。可见,患病时间较长的用户更愿意在网上咨询。
3.3 患者的过敏史
经整理,填写了有效的过敏史的数据记录共 1151 条,包括具体的过敏原、过敏物或过敏表现。笔者将出现 3 次及以上的过敏记录进行归类,如表 1 所示,括号内数字表示出现次数。过敏原可分为吸入式过敏原、食入式过敏原、接触式过敏原和注射式过敏原。因患者未描述药品过敏的方式,因此将食入式和注射式归为一类。大部分过敏记录(1015 例, 88%)都属于食入或者注射方式,笔者又将食入式/注射式过敏原分为药物类和食物类,其中,药物类占大多数。在药物类中,除常见的过敏原青霉素类、头孢类、磺胺类、外,还有糖尿病用药,如胰岛素、二甲双胍等,少量患者对此有过敏现象。有的患者对于药物过敏的描述较为模糊,如感冒药、止疼药等。另外,少部分患者描述的是过敏性疾病本身,如过敏性哮喘、过敏性咳嗽,而非具体的过敏原。
4 “好大夫在线”回复糖尿病咨询的医生特征分析
经统计,共有 17661 位医生参与了 119697 次在线咨询,医生人数大致随着回复记录数的增加而下降,大部分的医生对在线咨询的回复数在 10 次以内。具体为:89.92%(15881 人)的医生的回复少于 10 次,其中,51.03%(9013 人)的医生只参与了 1 次咨询;9.17% (1619 人)的医生回复在 10 次到 100 次之间;0.91%(161 人)的医生回复在 100 次以上,总计为 43769 次咨询记录,占总记录数的 37%。其中,0.02%(4 人)的医生回复超过 1000 次。可见,少部分医生(10.08%,1780 人)参与了大部分的咨询(71.72%,85852 条)。
4.1 医生的职称特征
经过对 17661 条医生的职称信息的统计,医生的临床职称包括住院医师、主治医师、副主任医师、主任医师、主任技师等 18 种,前 4 种占大多数。医生的教学科研职称包括助教、讲师、副教授、教授、副研究员、研究员等。住院医师和主治医师中,无科研职称的占大多数;副主任医师中,副教授占大多数;主任医师中,教授占大多数。医生的临床职称和教学科研职称的对应关系如图 1 所示。可见,临床体系中的职称与教学科研中的职称呈现一定的正相关关系。
4.2 医生所属的医院及科室类别
4.2.1 医生所属的医院
17661 位医生来自于 2922 所医院,其中,医生记录数大于(或等于)100 的医院共有 22 所,按照参与网络咨询的医生人数排名,分别是:好大夫工作室、郑州大学第一附属医院、中国人民解放军总医院(301 医院)、北京协和医院、北京同仁医院、武汉协和医院、上海交通大学医学院附属第九人民医院、山东省立医院、东部战区总医院(原南京军区总医院)、上海交通大学医学院附属仁济医院、复旦大学附属华山医院、北京大学第一医院、空军军医大学西京医院、中国中医科学院广安门医院、中日友好医院、北京大学人民医院、北京大学第三医院、未收录医院、山东大学齐鲁医院、四川大学华西医院、江苏省人民医院和中国医学科学院阜外医院。除去好大夫工作室和未收录医院,其他 20 所医院中参与网络咨询的医生共为 2817 人,占医生总人数的 15.95%。20 所医院中,从等级来看,均属于三级甲等医院;从类别来看,18 所属于综合性医院的,2 所是专科医院,分别是中国中医科学院广安门医院(中医医院)和中国医学科学院阜外医院(心血管专科医院)。
4.2.2 医生所属的科室类别
不同医院的科室分类存在差异,大型医院和小型诊所分类的粒度不一样,科室的名称也不一定规范。经统计,17661 位医生来自 1653 个科室,所属的科室较为分散。其中,医生人数大于(或等于)100 人次的科室共计 37 个。这 37 个科室收纳了 68.9%(12169 人)的医生。可看出糖尿病不同于与其他疾病的一大特点,即有很多并发症。其中,眼科、内分泌科、泌尿外科、神经外科、骨科、妇产科、皮肤科的医生人数最多,与上文中患者所患疾病类型和糖尿病易皮肤过敏相对应。
4.3 活跃医生的特征
从医生个人的回复行为来看,笔者认为回复次数多的医生,一方面表现出医生的活跃,另一方面表现出有大量患者依赖。笔者将回复记录超过 500 条的医生列举于表 2,记录总计为 15326 条,占总记录数的 12.8%;医生为 19 人,占总医生数 0.1%。除未收录医院的医生外,其他医生都来自三级医院,且大多数属于内分泌科。
5 “好大夫在线”糖尿病医患问答特征分析
5.1 患者提问的时间特征
笔者将糖尿病问答记录按照患者提问时间统计,如图 2 所示,从 2008 年 3 月到 2011 年底数量快速增长,患者用户群体快速增加。2012 年增幅减小,但达到历年记录数最大。随后,从 2013 年开始,患者提问减少,之后也未有大幅回升。其中,2018 年只统计至 10 月,预估年底会达到近 5 年来的高峰值。可见,使用好大夫的糖尿病患者用户数量从百位数增至万位数,并非持续增长。就这十年来看,大致每 5 年达到一个高峰值。
5.2 患者提问的主题特征
由于隐私保护,问答的内容只能医生和病人可见,而提问的题目是公开的。因此笔者使用 R 语言中的 LDA 包,对患者的提问进行聚类并可视化,分析糖尿病问答的主题特征。如图 3 所示,左边的圆代表不同的聚类主题。通过设置不同的聚类个数来看聚类效果,发现聚为 7 类时的效果最好(圆圈之间无交叉)。右边蓝色柱条表示该词在整个问答文档中的词频,红色柱条表示该词在该聚类的估计频率。如选择主题 1,“糖尿病”贡献最多,其次是“治疗”。去掉“如何”“什么”“可以”等无贡献意义的词,经归纳后得到 7 个患者提问的主题:糖尿病治疗、糖尿病血糖控制、糖尿病心血管并发症治疗、糖尿病足治疗、妊娠糖尿病治疗、糖尿病肾病及其他并发症治疗和糖尿病眼部并发症治疗等,主题基本围绕糖尿病及其并发症展开。
5.3 患者提问的意向特征
问答数据中包含“希望得到的帮助”或“想得到怎样的帮助”字段,该字段表达患者的提问意向。经处理,共有 103595 条问答中记录了意向字段。笔者用 R 语言进行词频统计,筛选出词频在 500 以上且有意义的关键词,如表 3 所示。总体看,患者希望得到治疗糖尿病的方案。从患者主体看,除了“我”“我们”外,还有“孩子”“父亲”“母亲”“老人”等。因此,很多患者用户除咨询自身病情外,也有代替孩子和长辈向医生咨询的。从治疗过程看,患者更多的会寻问去哪个医院(或门诊)预约、就诊、化验、复查、换药等。从治疗手段来看,大多数患者寻问医生关于手术、用药、饮食、住院治疗、中医治疗等方式。从治疗程度上看,希望能有效控制、缓解、改善、根治、恢复等。另外,很多患者希望医生能告知糖尿病的并发症以及其诊疗方式,和诊疗费用等。可知,在线医疗社区的患者咨询,并不能完全替代线下治疗方式。更多是起到连接患者与线下医生(或医院)进行治疗的桥梁作用和辅助线下治疗的作用。
本文以“好大夫在线”问答中糖尿病相关的十年数据为例,探究了在线医疗社区的患者、医生、问答记录的特征。揭示了糖尿病患者的糖尿病类型及并发症、患病时长与线上治疗意向的关系、过敏史信息、医生的临床职称与教学科研职称的关系、医生所在医院科室、活跃医生的特征、患者提问的时间、主题和意向特征。研究发现,患者人群覆盖所有常见的糖尿病类型,出现多种并发症;患病时长较长的用户更愿意在网上咨询;少部分患者有过敏现象,且大多数属于食入式或注射式过敏;医生的临床职称与教学科研职称呈现一定的正相关关系,教学科研职称越高,临床职称也相对越高;医生所属的医院具有明显的集中与分散的特点,多数患者集中于少部分医院进行咨询;医生所属的科室较为分散;活跃的医生来自于三级医院,且大多数属于内分泌科。糖尿病患者用户提问数量有着时间周期性波动的特点,大致呈现每 5 年达到一个高峰值。提问主题可以分为 7 类,包括糖尿病及其并发症的治疗。患者的提问意图是希望得到关于治疗过程、手段和程度等方面的帮助。笔者初步对“好大夫在线”医疗社区平台进行了关于糖尿病主题问答的患者和医生的画像,以及揭示了问答的相关特征。可为糖尿病患者寻找网上咨询的医生提供借鉴,为优化平台的服务提供参考。本文只针对“好大夫在线”这一平台的糖尿病主题问答相关内容进行了研究,具有一定的局限性,且对每个特征的关联研究不够,未来将对特征之间的关联关系进行深入的研究。
参考文献
[1]马骋宇.在线医疗社区发展现状浅析[J].中国医院管理,2018(5):58-60.
[2]吴江,李姗姗.在线健康社区用户信息服务使用意愿研究[J].情报科学,2017(4):119-125.
[3]胡志伟.在线医疗信息服务的用户行为规律及实证研究[D].南昌大学,2017.
[4]解可欣.在线医疗服务用户个性与隐私顾虑作用研究[D].哈尔滨工业大学,2015.
在线医疗社区医患群体及问答记录特征研究相关论文期刊你还可以浏览:《中国医疗保险国家级医学期刊发表》