图片来源@视觉中国
你失眠过么?为何失眠呢?如果能预测自己的失眠概率,你想知道答案吗?
近日,来自西北大学范伯格医学院和弗吉尼亚联邦大学医学院的研究人员在PLOS ONE发表研究,报道了根据美国国家健康与营养调查的数据训练开发的一种机器学习模型,能够通过分析人口数据、饮食数据、生活方式,来预测个体是否处于失眠的风险之中。其预测的敏感性达到了74%,特异性为77%。
(资料图片)
▷图片来源:文献封面
(注:美国国家健康与营养调查是一项基于人群的横断面调查,旨在收集美国家庭人口健康和营养的信息,项目内容包括家庭访谈和健康体检两部分。访谈部分包括人口统计学、社会经济学、饮食和健康相关问题。体检部分包括生理测量、实验室检查等内容。调查结果用于确定主要疾病的患病率和导致疾病的风险因素。)
充足的睡眠对于我们的心理和生理健康至关重要。在过去的一个世纪里,越来越多的人被诊断患有睡眠障碍。睡眠障碍的定义很广泛,包括入睡困难、睡眠质量差、早醒、昼夜节律紊乱、异态睡眠、睡眠相关运动障碍以及睡眠相关呼吸障碍。睡眠障碍还会并发全身性的健康问题,包括糖尿病、心脏病、肥胖、抑郁。一些被用于治疗睡眠障碍的药物,虽能降低睡眠延迟,但却有着成瘾、呼吸抑制、睡眠质量的下降等副作用,在停用药物时还会出现明显的戒断反应。
尽管我们已经逐步认识到睡眠障碍会导致患病率和死亡率的上升,但仍不清楚它们与睡眠障碍密切相关的真正原因。
早前研究就已经在使用多种机器学习的方法,从各种数据集中准确预测睡眠障碍的存在。有研究曾通过对18,901条推文进行自然语言处理,以寻找与失眠和负面健康信息相关的单词。研究者通过对15种机器学习算法进行比较研究,确定了预测失眠的14个主要因素,包括视力问题、运动能力问题和睡眠障碍等。
为了找出生活方式、饮食、人口统计学和生理数据预测失眠症的线索,此次的研究者收集了一个大型数据集(N = 7,929)和一个多元化的潜在协变量数据集(700多个协变量)。他们利用易于解释和理解的机器学习方法,从2017-2020年美国国家健康与营养调查的数据中找出了能导致睡眠障碍的相关因素,并且计算出相关因素的相对贡献。结果发现,PHQ-9得分高低、体重、腰围这三个因素最能预测睡眠障碍。
(注:病人健康问卷(PHQ)是一种广泛使用的工具,用于筛查和评估抑郁症。其中,PHQ-9是一个特定的模块,由九个问题组成,旨在评估过去两周的抑郁症状的严重程度。)
该研究共纳入了7929名患者,其中4055名为女性(51%),3874名为男性(49%)。平均年龄为49.2岁。共有2,302名患者(29%)患有睡眠障碍。研究者比较了四种不同机器学习模型的预测结果,其中XGBoost模型被选择为平均AUROC最高的模型。
(注:AUROC 是一种用于衡量分类模型性能的指标,全称为 Area Under the Receiver Operating Characteristic Curve,即 ROC 曲线下面积。AUROC 的作用是衡量一个二分类模型预测结果的准确性,可以用于评估模型的整体表现。)
单变量分析发现,有64个特征具有显著性,这些特征被拟合到XGBoost模型中。研究者观察到,覆盖率最高的四个特征为患者健康问卷抑郁量表(PHQ-9)、年龄、医生推荐锻炼、体重和腰围。对模型覆盖率最高的四个连续协变量进行了SHAP可视化,他们观察到PHQ-9得分的增加与睡眠障碍的几率密切相关。在PHQ-9得分在11分以下,每增加一分PHQ-9得分,睡眠障碍的几率就会增加。在PHQ-9得分在11分以上,患有睡眠障碍概率不再随着PHQ-9得分的增加而增加。体重与睡眠障碍的几率之间存在曲线关系。体重低于80公斤的患者,体重增加不会导致睡眠障碍的几率显著增加,但超过80公斤后,体重的增加将显著增加睡眠障碍的几率。腰围的增加也会导致患有睡眠障碍的概率增加。
流行病学证据和文献报道也表明睡眠问题与抑郁、年龄、体重密切相关。抑郁症状的增加与入睡困难和睡眠时间减少,低质量睡眠和日间疲劳增加有关。而年龄增长则与睡眠潜伏期的增加、快速眼动(REM)睡眠的减少和晚上醒来的频率增加有关。此外,体内咖啡因的增加也被发现与入睡困难、入睡时间减少和睡眠质量降低有关。饮酒也会导致睡眠潜伏期减少,有些人可能会出现生理性需要酒精作为镇静剂,以便入睡。
此次机器学习的结果与早前报道文献结果相吻合,研究人员相信机器学习模型能够捕捉这些变量与睡眠障碍的关系。这些算法捕捉到了预测睡眠障碍的真实信号,而不仅仅是复制可能源自数据质量的潜在偏差。
然而,研究者指出,机器学习分析模型的一个潜在缺陷是其预测能力会局限于本次回顾性队列研究。在这个研究中选择的变量预测这个队列的睡眠障碍的能力更好,对于其他队列的预测能力尚未可知。他们也试图在尝试使用训练集和测试集来最小化过拟合的误差。不过,研究者也提到,机器学习的可视化结果可以让研究人员测试每个协变量的生理合理性,并允许研究人员有效地分析这些效应是否由真正的信号引起。
这种算法方法的最大优势在于它能够系统地搜索数百个变量,而不依赖于研究人员的判断,排除了研究人员偏见的影响。此方法还可以通过覆盖统计量对每个协变量的相对重要性进行排名,从而推断每位患者对睡眠障碍的真实风险的相对贡献。在选择这些协变量并构建模型之后,可以使用SHAP可视化来确保每个协变量是否符合当前文献对其与睡眠障碍的关系的理解,允许研究人员验证该特征的可信度,然后评估数据质量可能存在的错误。
机器学习方法的使用可以作为识别风险因素的第一步,然后临床医生可以根据特定的临床表现做进一步的判断。
作为主要研究者,Samuel Y. Huang 指出:“机器学习能诊断睡眠障碍风险,而不必依靠医生的判断或者单纯的偏见来诊断失眠,这项关于失眠风险因素的研究与其他的不同之处在于,不仅看到抑郁症状,年龄,咖啡因使用,充血性心力衰竭病史,胸痛,冠状动脉疾病,肝病和其他57个变量与失眠有关,而且能够可视化每个变量的贡献。”
参考文献:
Huang AA, Huang SY (2023) Use of machine learning to identify risk factors for insomnia. PLoS ONE 18(4): e0282622. https://doi.org/10.1371/journal.pone.0282622
关键词: