高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于VAE的编码DNA载体阻断事件聚类分析与研究

    作者简介: 魏梓轩(1993-),男,山东淄博人,硕士生,主要研究方向为检测技术与自动化装备。E-mail:zxwei@mail.ecust.edu.cn;
    通讯作者: 周家乐, zhou.jiale@ecust.edu.cn
  • 中图分类号: R857.3

Clustering Analysis and Research on the Blockade Events of Encoded DNA Carrier Based on VAE

    Corresponding author: Jiale ZHOU, zhou.jiale@ecust.edu.cn
  • CLC number: R857.3

  • 摘要: 纳米孔道检测技术是单分子检测领域一个重要的研究方向。对纳米孔道阻断电流信号进行特征提取和转换,是对阻断事件进行分类以确定分析物种类的关键。由于有监督学习只能对已知种类的阻断事件进行预测,难以实现对信号本质特征的区分,因此本文基于编码DNA载体的阻断事件,利用卷积神经网络的特征提取特性,提出了一种应用于纳米孔道信号的无监督聚类方法。结合深度嵌入聚类和变分自编码器(Variational Autoencoder, VAE),实现了对阻断事件的特征转换和聚类的整体性训练。实验结果表明,该聚类方法能对编码DNA载体阻断事件提供较好的聚类结果,与其他聚类算法相比,最高提升了29%的聚类精度,具有更高的聚类准确度。
  • 图 FIG. 332.  FIG. 332.

    Figure FIG. 332..  FIG. 332.

    图 1  基于变分自编码器的深度嵌入聚类

    Figure 1.  Deep embedded clustering based on the variational auto encoder

    图 2  聚类框架中的变分编码器结构

    Figure 2.  Structure of the encoder of variational auto encoder in the clustering framework

    图 3  8种编码DNA载体的阻断电流信号

    Figure 3.  Blockade signals of eight encoded DNA carriers

    图 4  0 ~ 3类中离聚类中心最近的5个样本

    Figure 4.  Five samples closest to the centroids of cluster 0 to 3

    图 5  降采样后的聚类结果

    Figure 5.  Clustering results after under-sampling

    表 1  编码DNA载体的阻断事件数量

    Table 1.  Numbers of blockade events produced by encoded DNA carriers

    LabelNumber
    0005 838
    0018 663
    0102 410
    01115 990
    100963
    1017 668
    1107 066
    1117 391
    下载: 导出CSV

    表 2  K-means、AE + K-means、VAE + K-means、IDEC、VAE + IDEC的聚类结果比较(8个聚类中心)

    Table 2.  Clustering results comparison of K-means, AE + K-means, VAE + K-means, IDEC, VAE + IDEC (8 clusters)

    Clustering methodACC
    K-means0.214 4
    AE + K-means0.220 0
    VAE + K-means0.236 7
    IDEC0.243 0
    VAE + IDEC0.277 5
    下载: 导出CSV

    表 3  K-means、AE + K-means、VAE + K-means、IDEC、VAE + IDEC的聚类结果比较(6个聚类中心)      

    Table 3.  Clustering results comparison of K-means, AE + K-means, VAE + K-means, IDEC, VAE + IDEC (6 clusters)

    Clustering methodACC
    K-means0.269 0
    AE + K-means0.254 6
    VAE + K-means0.248 0
    IDEC0.253 6
    VAE + IDEC0.305 8
    下载: 导出CSV
  • [1] 王慧锋, 黄飞, 顾震, 等. 纳米孔道单分子电化学信号在线识别与分析研究[J]. 分析化学, 2018, 46(6): 843-850. doi: 10.11895/j.issn.0253-3820.171476
    [2] GU Z, YING Y L, CAO C, et al. Accurate data process for nanopore analysis[J]. Analytical Chemistry, 2015, 87(2): 907-913. doi: 10.1021/ac5028758
    [3] CAO C, LONG Y T. Biological nanopores: Confined spaces for electrochemical single-molecule analysis[J]. Accounts of Chemical Research, 2018, 51(2): 331-341. doi: 10.1021/acs.accounts.7b00143
    [4] ZHANG J, LIU X, YING Y L, et al. High-bandwidth nanopore data analysis by using a modified hidden Markov model[J]. Nanoscale, 2017, 9(10): 3458-3465. doi: 10.1039/C6NR09135K
    [5] BOŽA V, BREJOVÁ B, VINAŘ T. DeepNano: Deep recurrent neural networks for base calling in MinION nanopore reads[J]. Plos One, 2017, 12(6): 1-13.
    [6] ROTEM D, JAYASINGHE L, SALICHOU M, et al. Protein detection by nanopores equipped with aptamers[J]. Journal of the American Chemical Society, 2012, 134(5): 2781-2787. doi: 10.1021/ja2105653
    [7] OUKHALED G, MATHE J, BIANCE A L, et al. Unfolding of proteins and long transient conformations detected by single nanopore recording[J]. Physical Review Letters, 2007, 98(15): 158101. doi: 10.1103/PhysRevLett.98.158101
    [8] WANG H, YING Y, LI Y, et al. Peering into biological nanopore: A practical technology to single-molecule analysis[J]. Chemistry:An Asian Journal, 2010, 5(9): 1952-1961. doi: 10.1002/asia.201000279
    [9] YING Y L, LONG Y T. Single-molecule analysis in an electrochemical confined space[J]. Science China: Chemistry, 2017, 60(9): 1187-1190. doi: 10.1007/s11426-017-9082-5
    [10] MISIUNAS K, ERMANN N, KEYSER U F. QuipuNet: Convolutional neural network for single-molecule nanopore sensing[J]. Nano Letters, 2018, 18(6): 4040-4045. doi: 10.1021/acs.nanolett.8b01709
    [11] BALIJEPALLI A, ETTEDGUI J, CORNIO A T, et al. Quantifying short-lived events in multistate ionic current measurements[J]. ACS Nano, 2014, 8(2): 1547-1553. doi: 10.1021/nn405761y
    [12] CAO C, LI M Y, CIRAUQUI N, et al. Mapping the sensing spots of aerolysin for single oligonucleotides analysis[J]. Nature Communications, 2018, 9(1): 2823. doi: 10.1038/s41467-018-05108-5
    [13] CAO C, YU J, LI M Y, et al. Direct readout of single nucleobase variations in an oligonucleotide[J]. Small, 2017, 13(44): 1-5.
    [14] WANG Y Q, CAO C, YING Y L, et al. Rationally designed sensing selectivity and sensitivity of an aerolysin nanopore via site-directed mutagenesis[J]. ACS Sensors, 2018, 3(4): 779-783. doi: 10.1021/acssensors.8b00021
    [15] BELL N A W W, KEYSER U F. Digitally encoded DNA nanostructures for multiplexed, single-molecule protein sensing with nanopores[J]. Nature Nanotechnology, 2016, 11(7): 645-651. doi: 10.1038/nnano.2016.50
    [16] LOMAN N J, QUINLAN A R. Poretools: A toolkit for analyzing nanopore sequence data[J]. Bioinformatics, 2014, 30(23): 3399-3401. doi: 10.1093/bioinformatics/btu555
    [17] FORSTATER J H, BRIGGS K, ROBERTSON J W, et al. MOSAIC: A modular single-molecule analysis interface for decoding multistate nanopore data[J]. Analytical Chemistry, 2016, 88(23): 11900-11907. doi: 10.1021/acs.analchem.6b03725
    [18] ZHANG J H, LIU X L, HU Z L, et al. Intelligent identification of multi-level nanopore signatures for accurate detection of cancer biomarkers[J]. Chemical Communication, 2017, 53(73): 10176-10179. doi: 10.1039/C7CC04745B
    [19] 陈逸斐, 虞慧群. xk-split: 基于k-medoids的分裂式聚类算法[J]. 华东理工大学学报(自然科学版), 2017, 43(6): 849-862.
    [20] 陈帆, 孙自强. 结合物品类型和密度峰值聚类的协同过滤推荐算法[J]. 华东理工大学学报(自然科学版), 2018, 44(6): 862-868.
    [21] XIE J, GIRSHICK R, FARHADI A. Unsupervised deep embedding for clustering analysis[C]//ICML’16 Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York: ICML, 2016: 478-487.
    [22] FUJIWARA Y, MATSUMOTO R, NAKAE T, et al. Auto-encoding variational Bayes[C]//International Conference on Learning Representations (ICLR) 2014. Banff, UK: ICLR, 2014: 1-14.
    [23] VIDYASAGAR M. Kullback-Leibler divergence rate between probability distributions on sets of different cardinalities[C]//Proceedings of the IEEE Conference on Decision and Control. Atlanta: IEEE, 2010: 948-953.
    [24] GUO X, GAO L, LIU X, et al. Improved deep embedded clustering with local structure preservation[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17). Melbourne: IJCAI, 2016: 1753-1759.
    [25] ZHANG D, SUN Y, ERIKSSON B, et al. Deep unsupervised clustering using mixture of autoencoders[EB/OL]. ArXiv e-prints: 2017-9-26[2019-04-10]. http://arxiv.org/abs/1712.07788.
    [26] KASIANOWICZ J J, BRANDIN E, BRANTON D, et al. Characterization of individual polynucleotide molecules using a membrane channel[J]. Proceedings of the National Academy of Sciences, 1996, 93(24): 13770-13773. doi: 10.1073/pnas.93.24.13770
  • [1] 随学杰王慧锋颜秉勇 . 基于改进生成式对抗网络的编码DNA分子识别. 华东理工大学学报(自然科学版), 2020, 46(): 1-6. doi: 10.14135/j.cnki.1006-3080.20191216001
    [2] 王学武闵永顾幸生 . 基于密度聚类的多目标粒子群优化算法. 华东理工大学学报(自然科学版), 2019, 45(3): 449-457. doi: 10.14135/j.cnki.1006-3080.20180321005
    [3] 饶毓和凌志浩 . 一种结合主题模型与段落向量的短文本聚类方法. 华东理工大学学报(自然科学版), 2020, 46(3): 419-427. doi: 10.14135/j.cnki.1006-3080.20190430001
    [4] 周倩李莉张涛付智楠郭旭虹 . 基于磁性球形聚电解质刷制备可回收的银纳米催化剂. 华东理工大学学报(自然科学版), 2019, 45(4): 541-547. doi: 10.14135/j.cnki.1006-3080.20180705001
    [5] 钱文秀常青向辉康文斌 . 基于深度监督显著目标检测的草莓图像分割. 华东理工大学学报(自然科学版), 2020, 46(1): 114-120. doi: 10.14135/j.cnki.1006-3080.20181205004
    [6] 王德勋虞慧群范贵生 . 基于深度学习的面部动作单元识别算法. 华东理工大学学报(自然科学版), 2020, 46(2): 269-276. doi: 10.14135/j.cnki.1006-3080.20190107003
    [7] 赵剑沈阳曹旭妮 . 基于铁蛋白的溶栓蛋白纳米粒子的构建及活性分析. 华东理工大学学报(自然科学版), 2019, 45(4): 576-584. doi: 10.14135/j.cnki.1006-3080.20180601001
    [8] 颜建军刘章鹏刘国萍郭睿王忆勤付晶晶钱鹏 . 基于深度森林算法的慢性胃炎中医证候分类. 华东理工大学学报(自然科学版), 2019, 45(4): 593-599. doi: 10.14135/j.cnki.1006-3080.20180410001
    [9] 张雪芹魏一凡 . 基于深度学习的驾驶场景关键目标检测与提取. 华东理工大学学报(自然科学版), 2019, 45(6): 980-988. doi: 10.14135/j.cnki.1006-3080.20181023002
    [10] 马振伟何高奇袁玉波 . 基于小样本深度学习的通风柜橱窗状态识别方法. 华东理工大学学报(自然科学版), 2020, 46(3): 428-435. doi: 10.14135/j.cnki.1006-3080.20190412004
    [11] 齐莉莉刘济 . 基于改进CKF算法的一类有色噪声污染的线性观测系统的状态估计. 华东理工大学学报(自然科学版), 2019, 45(4): 600-605. doi: 10.14135/j.cnki.1006-3080.20180427002
    [12] 王静雅方向晨白富栋彭绍忠张琰 . 生物可降解的聚己内酯-g-木质素薄膜的制备与性能研究. 华东理工大学学报(自然科学版), 2020, 46(4): 472-479. doi: 10.14135/j.cnki.1006-3080.20190315001
    [13] 昌慧郝伟举刘洪来徐首红 . pH响应MSNs@polymer(FITC/FA)核-壳结构双重药物载体. 华东理工大学学报(自然科学版), 2019, 45(4): 548-555. doi: 10.14135/j.cnki.1006-3080.20180421003
    [14] 宁秦洁陈颖闫梦迪胡泽岚吴侠杜增民郑静肖啸 . 人体肝脏靶向性新型AAV血清型载体的研发. 华东理工大学学报(自然科学版), 2020, 46(3): 404-410. doi: 10.14135/j.cnki.1006-3080.20190312002
    [15] 陈晨杜增民吴侠蒋威赵阳肖啸郑静 . 靶向心肌组织的新型腺相关病毒载体的构建及筛选. 华东理工大学学报(自然科学版), 2020, 41(): 1-8. doi: 10.14135/j.cnki.1006-3080.20200313002
    [16] 吕露王绍华易红玲公维光林珩郑柏存 . 杂化硅溶胶/有机硅低聚物复合透明超疏水涂层的制备及性能. 华东理工大学学报(自然科学版), 2020, 46(): 1-7. doi: 10.14135/j.cnki.1006-3080.20191202002
    [17] 薛敏杨健谭帅侍洪波 . 基于多数据结构的集成质量监控方法. 华东理工大学学报(自然科学版), 2019, 45(6): 938-945. doi: 10.14135/j.cnki.1006-3080.20180821002
    [18] 赵倩倩赵均徐祖华陈曦邵之江秦海中 . 空分装置群的设备启停及变负荷调度策略. 华东理工大学学报(自然科学版), 2020, 46(1): 84-91. doi: 10.14135/j.cnki.1006-3080.20181015005
    [19] 宋劲坤陈建钧葛家豪 . 基于分形理论的冲裁断面质量评价研究. 华东理工大学学报(自然科学版), 2020, 46(5): 63-68. doi: 10.14135/j.cnki.1006-3080.20190602001
    [20] 罗安王汉奎王建文 . 基于小冲杆试验数据的力学性能的数值模拟. 华东理工大学学报(自然科学版), 2019, 45(4): 669-674. doi: 10.14135/j.cnki.1006-3080.20180609002
  • 加载中
图(6)表(3)
计量
  • 文章访问数:  6917
  • HTML全文浏览量:  2584
  • PDF下载量:  25
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-04-24
  • 网络出版日期:  2019-06-26
  • 刊出日期:  2020-06-01

基于VAE的编码DNA载体阻断事件聚类分析与研究

    作者简介:魏梓轩(1993-),男,山东淄博人,硕士生,主要研究方向为检测技术与自动化装备。E-mail:zxwei@mail.ecust.edu.cn
    通讯作者: 周家乐, zhou.jiale@ecust.edu.cn
  • 华东理工大学信息科学与工程学院,上海 200237

摘要: 纳米孔道检测技术是单分子检测领域一个重要的研究方向。对纳米孔道阻断电流信号进行特征提取和转换,是对阻断事件进行分类以确定分析物种类的关键。由于有监督学习只能对已知种类的阻断事件进行预测,难以实现对信号本质特征的区分,因此本文基于编码DNA载体的阻断事件,利用卷积神经网络的特征提取特性,提出了一种应用于纳米孔道信号的无监督聚类方法。结合深度嵌入聚类和变分自编码器(Variational Autoencoder, VAE),实现了对阻断事件的特征转换和聚类的整体性训练。实验结果表明,该聚类方法能对编码DNA载体阻断事件提供较好的聚类结果,与其他聚类算法相比,最高提升了29%的聚类精度,具有更高的聚类准确度。

English Abstract

  • 纳米孔道检测技术作为一种可用于单分子检测的有力工具,具有巨大的研究价值和应用潜力[1-4]。目前,纳米孔道已经被成功应用于DNA测序[5]、蛋白质检测[6]、蛋白质折叠[7]等研究中。纳米孔道检测装置通常由纳米孔道及其连通的两部分电解质溶液组成,在外加电场的驱动下,待测物分子穿越纳米孔道时,使得流经纳米孔道的离子电流发生变化,进而形成特征阻断电流[8]。因此,待测物分子的穿越行为对离子电流产生的信号进行了调制,这些信号中包含了分子电性、尺寸和结构等特异性信息[3, 9-10]

    待测物分子穿越纳米孔道产生的瞬时电流阻断为一次阻断事件。为识别这些事件,可以利用电流阈值的方法来实现[11]。然而,由于纳米孔道信号的信噪比较低,增加了后续特征提取和分析的困难。传统的数据分析方法主要提取事件持续时间和阻断幅值两个特征,通过研究其散点分布对待测物分子进行区分[12-13]。该方法往往依赖于纳米孔道对不同分析物的分辨率,具有一定的随机性。即使利用具有较高分子空间结构分辨率的纳米孔道,也难以完全对混合待测物散点分布中的每一个事件进行区分,因此,该数据分析方法对纳米孔道阻断事件的分辨率较低[14]

    文献[15]利用DNA分子链作为蛋白质分子的载体,并在载体DNA链上的不同位置加以哑铃型束夹修饰。镶嵌哑铃型束夹后,载体DNA分子镶嵌部位的体积增大,在穿越孔道过程中会产生二级阻断事件。通过在预先设定的若干位置进行束夹镶嵌,形成编码结构,进一步通过分析二级阻断事件特征,便可对编码DNA载体上的蛋白质分子进行分类。为实现对编码DNA载体的纳米孔道信号进行分析,需精确识别二级阻断事件的特征。然而,由于纳米孔道检测存在的局限,如幅值变化、信噪比低、信号持续时间的分布范围大、重叠事件、DNA分子链的缠绕和折叠等问题,使得自动化的分析方法难以适用于各种复杂的情况,需要依赖于手动调整参数[4, 16-18]。Misiunas等[10]利用卷积神经网络的自动特征提取特性提出了QuipuNet网络结构,对编码DNA载体种类和有无蛋白质绑定进行分类,取得了较高精度。然而,QuipuNet作为一种监督分类方法,依赖于人工对阻断事件进行精确标注以用于模型的训练,这需要耗费大量的时间,效率低。无监督学习方法不依赖于对阻断事件进行标注,可自动发现信号中的类簇[19-20]。基于这一优势,本文建立了基于深度嵌入特征[21]和变分自编码器[22]的聚类模型,该模型实现了对不同持续时间的阻断事件的低维嵌入,并在嵌入特征上进行聚类。为验证此模型的聚类效果,将其与经典的聚类方法进行了对比分析。在无监督聚类精度的评价标准下,本文模型实现了对纳米孔道数据的精确分析。

    • Misiunas等[10]将编码DNA载体的阻断事件的表格信息整理到HDF5文件格式中,可用Pandas提供的数据接口进行读取。该数据集提供了32个纳米孔道产生的58 178条数据,包含了“000”~“111”8种编码DNA载体有无蛋白质绑定的阻断事件信息。每条数据包含编码、纳米孔道编号、阻断事件信号数据点、有无蛋白质绑定、展开幅值等信息。本文采用该数据集,使用阻断事件信号数据点作为模型输入,输出得到对应信号的8种编码聚类簇,并利用已有的标注信息对算法的效果进行分析。在对信号进行聚类前,还需对阻断事件进行预处理,利用载体DNA分子链的展开幅值(Unfolded level)去除不同纳米孔道对信号幅值产生的影响,以避免模型对纳米孔道编号过拟合。

    • 深度嵌入聚类[21](Deep Embedded Clustering, DEC)将经过预训练的自编码器网络的编码输出zi作为嵌入特征,并利用t分布刻画嵌入特征zi与聚类中心cj的相似度,如式(1)所示:

      利用该相似度,定义目标分布为

      进而采用目标变量P与相似度变量QKL散度[23]定义聚类的损失函数:

      优化式(3)所示的损失函数,可以对编码网络的权重和聚类中心向量进行联合更新。

      深度嵌入聚类所使用的经过预训练的自编码网络,利用无监督学习的方式学习得到了原始数据的低维嵌入表示,保留了数据中固有的局部特征。因此,在深度嵌入聚类中,编码网络的特征转化效果将大大影响最终损失函数的优化程度。Guo等[24]提出的IDEC(Improved DEC)模型将自编码器网络的损失函数Lr和聚类的损失函数Lc进行加权求和,作为新的损失函数,从而对深度嵌入聚类模型进行优化,如式(4) ~ (5)所示。

      其中:α为加权因子;${L_{\rm r}}$为自编码器的重构误差损失函数;xi为原始数据;zi为自编码器网络的编码输出。

    • 变分自编码器(Variational Autoencoder, VAE)包含两个主要的神经网络结构:编码器和解码器。在概率编、解码器的视角下,自编码器模型可以写为

      其中:x为原始信号;z为经编码器${p_\phi }$编码后的隐变量信号;$\hat {{x}}$为经解码器${q_\psi }$重构的信号。

      变分自编码器假设隐变量的条件分布服从多元正态分布,即$p\left( {{{z}}\left| {{{{x}}^{(i)}}} \right.} \right) = \mathcal{N}\left( {{{z}};{{{\mu}} ^{(i)}},{{{\sigma}} ^{2(i)}}{{I}}} \right)$,其中I为单位矩阵。利用编码器${p_\phi }$生成的正态分布参数均值向量μ和方差向量σ2,在隐变量的分布空间$\mathbb{Z}$中运用重参数技巧[22](Reparameterization trick)进行采样得到z

      再通过解码器${q_\psi }$重构原始输入$\hat {{x}}$。令$p\left( {{z}} \right) = \mathcal{N}\left( {{{z}};{\bf{0}},{{I}}} \right)$,那么编码器${p_\phi }$生成的正态分布参数μσ2就要满足标准正态分布的参数。变分自编码器在优化编码网络时,利用KL散度来计算$\mathcal{N}\left( {{{z}};{\bf{0}},{{I}}} \right)$$\mathcal{N}\left( {{{z}};{{\mu}} ,{{{\sigma}} ^2}{{I}}} \right)$差异所带来的损失,如式(9)所示:

      其中,J为隐变量空间的维度。解码器${q_\psi }$所重构的信号要与真实的输入信号相似,因此依然采用自编码器形式的重构误差,如式(10)所示:

      优化损失函数$L = {L_{{p_\psi }}} + {L_q}_{_\phi }$可以得到最优的编码器和解码器网络参数,进而利用变分参数采样并重构信号。利用编码器${p_\phi }$生成的正态分布参数μσ2进行重参数采样,便可以得到原始信号的低维嵌入表示。该表示相较于自编码器得到的低维嵌入,在隐变量空间$\mathbb{Z}$中引入了概率视角,能够描述数据的显著特征。

    • 将IDEC中使用的自编码网络替换为变分自编码器网络,利用重采样技巧得到的表示z进行聚类,如图1所示。本文对编码DNA载体的阻断事件进行聚类,这些阻断事件可视为时间序列,因此,定义一个大小为N的时间序列数据集,其中每条时间序列的长度为Q,那么该数据集可表示为${{{x}}^{N \times Q}}$。数据集x中的第i条数据xi经过编码器映射分别得到其正态分布的隐变量空间的均值μi和方差σi,经过式(8)所示的重参数技巧采样,便可得到xi在隐变量空间的表示zi。根据式(1)可得到zi与各个聚类中心ci的相似度qi,进而可以得到xi的聚类标签:

      图  1  基于变分自编码器的深度嵌入聚类

      Figure 1.  Deep embedded clustering based on the variational auto encoder

      为了得到最优的模型参数,对目标函数(12)进行优化,即

      利用梯度下降法对式(12)中的编码器${p_\phi }$、解码器${q_\psi }$的网络权重和隐变量空间中聚类中心μj进行优化,便可得到聚类框架的最优参数。算法的整体求解步骤如下:

      输入:时间序列数据集x,聚类中心数量K,目标分布的更新间隔T,停止迭代阈值δ,最大迭代次数MaxIter。

      输出:编码器${p_\phi }$、解码器${q_\psi }$的网络权重,聚类中心c,标签s

      (1)利用时间序列数据集x和式(9)~式(10)对变分自编码器进行预训练;

      (2)利用预训练得到的变分自编码器生成x的隐变量空间的表示z,并利用K-means算法对聚类中心c进行初始化;

      (3)利用式(6)计算x的隐变量空间的表示z

      (4)利用式(1) ~式(2)以及z更新目标分布${p_{ij}}$

      (5)保存聚类中心的原始标注副本${s_{\rm{old}}} = s$

      (6)由式(11)更新数据的聚类中心标注;

      (7)利用梯度下降法优化式(12),迭代T次;

      (8)计算标注变化的数量${{I}}\left( {{s_{\rm{old}}} \ne s} \right)$,若$\dfrac{{I\left( {{s_{\rm{old}}} \ne s} \right)}}{N} < \delta $,则停止迭代,转入步骤(9);否则,重复步骤(3)~步骤(7);

      (9)输出编码器${p_\phi }$、解码器${q_\psi }$的网络权重,聚类中心c,标签s,并存储。

      评估时,选择无监督聚类精度(ACC)作为聚类效果的评价标准[21, 24-25],计算公式如下:

    • 将卷积网络结构设计用于聚类框架的变分自编码器。如图2所示,该网络输入维度为700,卷积层输出按两组相同维度的特征图为一个元胞进行链接,其维度按照自编码器的通用设计方法采用逐级降低方式进行设定。因此,设定卷积层输出的维度为{350, 350, 128, 128, 87, 87},那么卷积核的大小依次为{7, 7, 5, 5, 3, 3}。对于越深层的卷积层,选择更多数目的特征图来提取信号中的特征,其数目依次为{16, 16, 32, 32, 64, 64}。将卷积层输出连接至维度为1 024的全连接层,并分别连接至均值μ和标准差σ,其维度为32。再通过式(8)所示的重参数技巧,利用均值μ和标准差σ进行高斯分布的采样,得到隐变量表示z,至此构建成编码器结构。解码器按照与编码器镜像的方式进行构建,卷积算子利用反卷积算子进行代替,以还原出信号空间的维度。该网络中的激活函数全部采用LeakyRelu函数:

      图  2  聚类框架中的变分编码器结构

      Figure 2.  Structure of the encoder of variational auto encoder in the clustering framework

      其中:x为各层的线性输出;γ为待优化参数。

    • 纳米孔道检测技术存在的局限使得编码DNA载体阻断事件中包含着与具体编码类别无关的干扰,因此,在应用本文的聚类方法前,有必要对数据进行预处理,以降低聚类模型对噪声特征的过拟合风险。由于纳米孔道的直径具有固定尺寸,编码DNA载体自身直径和加之以靶位点后的直径之间存在较大的差距,因此会在孔道中产生不同的占位作用,从而产生不同大小的二级阻断电流幅值。图3示出了8种不同编码DNA载体对应的阻断电流信号,图中红色虚线表示载体DNA分子链的展开幅值,黑色虚线表示阻断事件的开孔电流幅值,箭头表示开始位点至结束位点的方向。

      图  3  8种编码DNA载体的阻断电流信号

      Figure 3.  Blockade signals of eight encoded DNA carriers

      根据图3中箭头指向可以判断,编码DNA载体两端进入纳米孔道的顺序是不固定的,但通过判断靶位点尖峰的偏向可以判断载体两端的进入顺序,进而从高位到低位读出编码。同一种类、不同批次的纳米孔道,由于制备条件的差异,会在尺寸和结构上存在偏差,尤其是固体纳米孔道。如图3中红色虚线表示了编码DNA载体进入纳米孔道时去折叠过程中的主要电流水平,是对电流数据设置3个聚类中心进行聚类分析的结果。在将开孔电流对齐后,可看到红色虚线所示的电流水平存在明显差异,因此,需要对这些信号的去折叠电流水平进行对齐,以防止模型聚焦于孔差异而带来错误的聚类结果。

      另外,从图3中还可以发现原始阻断事件的持续时间并不一致,这是因为分子穿过纳米孔道过程中受到初始速度、分子结构、进入角度等随机因素影响。传统分析方法通过统计分布来分析待测碱基链长度[12, 26],而本文将阻断事件的信号输入到变分自编码器中。由于变分自编码器为一个神经网络模型,输入信号维度固定,因此,除了将信号的电流水平对齐,还需要对信号进行长度补全。选取每个信号的前50个数据点(开孔电流信号)分别计算其标准差,得到平均值为0.009 5。进而,选取均值μ = 0、标准差σ = 0.009 5的高斯白噪声,对信号的末尾补全至总共含700个数据点。最终,不同编码DNA载体的阻断事件数量如表1所示。

      LabelNumber
      0005 838
      0018 663
      0102 410
      01115 990
      100963
      1017 668
      1107 066
      1117 391

      表 1  编码DNA载体的阻断事件数量

      Table 1.  Numbers of blockade events produced by encoded DNA carriers

    • 仿真平台配置:Intel® Xeon® CPU E5-2650 v4 @ 2.20 GHz, 252 GB RAM, 64-bit GNU/Linux Centos 7, Python 3.6.8, Keras 2.2.4, Tensorflow-mkl 1.12.0。本文选择结合动量和自适应学习率的优化方法(Adam),对式(12)所示的损失函数进行优化。训练时,所选取的批大小为512,最大迭代次数为20 000,目标分布的更新间隔为140次,即T = 140。

      利用2.3节中的优化方法和参数,对基于变分自编码器深度聚类框架进行优化。随机选取了4个聚类中心,并分别绘制出离聚类中心最近的5个阻断事件样本,如图4所示。结合表1中的数据样本数量可以发现,离聚类中心距离较近的样本中出现频率较高的“011”、“101”等编码,同时也是样本数据集中占比较高的编码。表1中的数据存在严重不平衡的现象,表明聚类过程中占比较高的样本会完全淹没占比较小的样本,从而产生与编码无关的聚类模型。

      图  4  0 ~ 3类中离聚类中心最近的5个样本

      Figure 4.  Five samples closest to the centroids of cluster 0 to 3

      表1中数据进行随机降采样,使得8种编码的分布保持一致,最终得到每个编码对应样本数量为963的数据集。在降采样后的数据集上,利用2.3节的方法对上述模型重新训练。选取4类聚类中心,并分别列出5个最相似样本,如图5所示。对比图5中的结果可以发现,降采样后的聚类效果得到提升,每类聚类中心周围的样本纯度较高。因此,对原始的数据样本进行降采样后,训练得到的模型在聚类效果上得到了提升。

      图  5  降采样后的聚类结果

      Figure 5.  Clustering results after under-sampling

      利用K-means、Auto-encoder + K-means (AE + K-means)、VAE + K-means、IDEC[24]、基于变分自编码器的IDEC(VAE + IDEC)分别对降采样后的数据进行聚类,利用式(13)对聚类后的结果进行评价,结果如表2所示。不难发现,可聚类的变分自编码器模型相较于其他聚类算法可显著提升分析精度,提升量最高可达29%。K-means聚类算法的结果较差,原因在于该算法要求原始数据严格对齐,更适用于表格型数据,并且聚类效果也容易受到噪声的干扰。而编码DNA载体阻断事件信号具有时序数据中变形、位移等特征,这对K-means中计算样本与聚类中心距离的方法提出了更高的要求。因此,变分自编码器能更有效地提取出原始信号中与阻断事件类型相关的特征,进而通过将变分自编码器与聚类层联合训练的方式,使得编码器产生的隐变量分布逐渐向聚类中心对齐。AE + K-means等两阶段的聚类方法中,表示特征转换的编码层网络的训练与聚类过程是分离的,因此难以保证编码器所转换特征的对齐效果。在计算样本与聚类中心距离时,引入了一定的噪声,使得聚类效果较差。基于VAE的聚类模型相比于基于AE的模型都取得了较高的聚类精度,原因在于VAE对数据的概率分布参数进行建模,而不仅仅是对输入数据进行压缩表示。概率分布参数反映了输入数据分布的本质特征,基于此可以得到更优的聚类精度。

      Clustering methodACC
      K-means0.214 4
      AE + K-means0.220 0
      VAE + K-means0.236 7
      IDEC0.243 0
      VAE + IDEC0.277 5

      表 2  K-means、AE + K-means、VAE + K-means、IDEC、VAE + IDEC的聚类结果比较(8个聚类中心)

      Table 2.  Clustering results comparison of K-means, AE + K-means, VAE + K-means, IDEC, VAE + IDEC (8 clusters)

      由于原始数据,即编码DNA载体的阻断电流信号,存在不规则的信号特征,如持续时间分布的方差、极差较大,使得原本分布在时间域上的数据又可能分离出更多子类。因此,通过对表2中各个聚类方法的比较,本文认为变分自编码的隐变量特征最大化地保留了信号特征,通过对隐变量进行分布假设,使得原始信号与类别相关的特征被转换到更低维的特征分布中。

      图3可以发现,相同编码的DNA载体进入纳米孔道的方向是不确定的。因此,编码001和编码100、编码011和编码110的DNA载体穿越纳米孔道会产生相同时序的阻断事件。在该聚类问题中,无论是传统聚类算法还是本文提出的基于变分自编码器的聚类算法,都无法直接利用尖峰的偏向信息来建立较优的聚类模型,所以本文将编码001和编码100、编码011和编码110的数据分别设定为同一类别,得到6个中心的聚类模型。聚类结果如表3所示。

      将上述结果与表2的结果进行对比,可以发现所有聚类算法的无监督聚类精度都得到了一定的提升,总体上升了12%。同时,本文提出的基于变分自编码的深度嵌入聚类模型得到了较优的聚类精度,最高提升了23%。这说明基于变分自编码器隐变量模型对于信息感知和压缩的有效性。本文设计的变分自编码器模型采用了卷积神经网络的隐层结构,可见卷积运算在纳米孔道信号滤波或特征提取中的实用性。

      Clustering methodACC
      K-means0.269 0
      AE + K-means0.254 6
      VAE + K-means0.248 0
      IDEC0.253 6
      VAE + IDEC0.305 8

      表 3  K-means、AE + K-means、VAE + K-means、IDEC、VAE + IDEC的聚类结果比较(6个聚类中心)      

      Table 3.  Clustering results comparison of K-means, AE + K-means, VAE + K-means, IDEC, VAE + IDEC (6 clusters)

    • 数字编码的DNA载体为检测蛋白质分子提供了重要的途径,然而传统的数据分析方法往往依赖于手动进行大量的调参。本文提出了一种基于变分自编码器的深度嵌入聚类方法。首先,利用阻断事件数据集对变分自编码器进行预训练,对信号的隐变量空间进行建模。再将预训练好的变分自编码器加入到深度嵌入聚类的框架中,在隐变量空间中对信号的嵌入特征进行聚类。隐变量模型能够保留信号中的主要特征,可以有效过滤阻断事件信号的噪声、变形等干扰。与传统的以及多阶段的聚类算法相比较,本文提出的聚类框架以及设计的变分自编码器网络实现了较高精度的聚类效果。

      本文的无监督聚类方法与卷积神经网络模型在DNA载体阻断事件中的高精度监督分类效果,展示了卷积运算在纳米孔道数据处理中的研究前景。该方法不依赖于阻断事件数据集的先验信息,可自主地发现数据集中的聚类簇,对于识别未知的信号种类或编码特征具有较好的研究和应用价值。

(6)  表(3) 参考文献 (26) 相关文章 (20)

目录

    /

    返回文章