DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组-个人在线分享-虚灵IT资料分享

说在前面

今天分享一篇做深度学习模型的文章，这是一篇软硬结合的研究，排除转换实体产品，我们做生信基础研究的可以学习模仿这个算法，适用且不局限于临床资料，转录组数据，GWAS数据。

今天给大家分享的一篇文章：Towards automatic home-based sleep apnea estimation using deep learning

标题：使用深度学习实现家庭睡眠呼吸暂停的自动评估
期刊名称：npj Digital Medicine
影响因子：15.2
JCR分区：Q1
中科院分区：医学1区 Top
小类：卫生保健与服务1区医学：信息1区

摘要

呼吸暂停和呼吸不足是常见的睡眠障碍，其特征是气道阻塞。多导睡眠图 (PSG) 是一种睡眠研究，通常用于计算呼吸暂停-呼吸不足指数 (AHI)，即一个人每小时睡眠中呼吸暂停或某些类型的呼吸不足的次数，并诊断睡眠障碍的严重程度。及早发现和治疗呼吸暂停可以显著降低发病率和死亡率。然而，长期 PSG 监测是不可行的，因为它对患者来说既昂贵又不舒服。为了解决这些问题，我们提出了一种名为 DRIVEN 的方法，通过可穿戴设备在家中估计 AHI，并检测整个晚上何时发生呼吸暂停、呼吸不足和清醒期。因此，该方法可以帮助医生诊断呼吸暂停的严重程度。患者可以佩戴单个传感器或多个传感器组合，这些传感器可以在家中轻松测量：腹部运动、胸部运动或脉搏血氧仪。例如，DRIVEN 仅使用两个传感器，就将 72.4% 的测试患者正确归类到四个 AHI 类别之一，其中 99.3% 的患者要么正确分类，要么被置于与真实类别相差一个类别的位置。这是模型性能和患者舒适度之间的合理权衡。我们使用来自三项大型睡眠研究的公开数据，总共有 14,370 条记录。DRIVEN 由深度卷积神经网络和用于分类的光梯度提升机组合而成。它可以用于在无人监督的长期家庭监测系统中自动估计 AHI，从而降低医疗系统成本并改善患者护理。

结果

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图
表1 三个数据集

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图(1)
图 1：DRIVEN 的管道。

a数据按通道分离并分割成 30 秒的窗口。
b对于每个通道，经过不同训练的深度 CNN 从原始信号（输入）中提取特征（输出）。
c提取的特征被连接起来并输入到经过训练的 LightGBM，该 LightGBM 将输入数据分为正常和 AHI 事件（呼吸暂停、呼吸不足 1 型和呼吸不足 2 型）。

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图(2)
图 2：DRIVEN 对 AHI 事件分类的表现。

a接收者-操作员特性和 ( b ) 精确召回曲线。请注意胸部和腹部传感器的重叠曲线。
c使用两个输入通道（腹部运动和 SpO 2 ）时 DRIVEN 的阈值相关性能指标。测试数据集中显示了所有患者的性能结果。准确度、精确度、召回率和 F1 事件分类是单个事件分类的指标。F1-AHI 分类测量在整个睡眠研究中预测 AHI 严重程度类别（健康、轻度、中度、重度）的 F1 分数。

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图(3)
图 3：DRIVEN 对 AHI 估计的表现。

a实际与预测 AHI 除以四个 AHI 严重程度组。
b混淆矩阵。在考虑阈值 0.79 和两个信号（腹部运动和 SpO 2）组合的情况下，根据测试数据评估性能。

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图(4)
表 2 不同传感器组合的 F1 得分

DRIVEN｜15分的CNN+LightGBM怎么做特征分类，适用于转录组插图(5)
图 4：使用两个传感器（腹部运动和 SpO 2 ）自动标记随机患者的 AHI 事件。

蓝色区域表示真实事件（零表示无事件，一表示 AHI 事件）。DRIVEN 的输出用符号表示，对于每个 30 秒窗口，这些符号表示该窗口被归类为 AHI 事件的概率。窗口根据其分类着色，取决于它们是高于还是低于确定的阈值 0.79。黑色十字代表被归类为清醒的片段，绿色三角形代表被归类为非 AHI 事件的片段，红色星号是被归类为 AHI 事件的窗口。第二张图放大了 1 小时的片段。补充图10将分辨率进一步提高到 15 分钟间隔。补充图11包括按呼吸暂停和不同低通气类型划分的真实标签。

总结

主要是用了CNN深度卷积神经网络，捕捉信号特征，用LightGBM分类器进行检测和事件分类。
数据集的主要变量有腹部运动信号、胸部运动信号、血氧饱和度（SpO2）。深度学习模型预测指标就常见的：准确率（Accuracy）、敏感性（Sensitivity）、特异性（Specificity）、F1评分、受试者工作特性曲线下面积（AUC-ROC）。
这套流程同样适用于临床资料，或者我们的转录组数据，变量从传感数据换成了量表队列或基因表达数据而已

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

说在前面

摘要

结果

总结

admin 钻石

相关推荐