高级检索

  • ISSN 1006-3080
  • CN 31-1691/TQ
引用本文:
Citation:

基于改进生成式对抗网络的编码DNA分子识别

    作者简介: 随学杰(1996-),女,山东德州人,硕士生,主要研究方向为纳米孔道数据分析。E-mail:Y30170664@mail.ecust.edu.cn;
    通讯作者: 颜秉勇, byyan@ecust.edu.cn
  • 中图分类号: R857.3

Encoded DNA Molecules Identification Based on the Improved Generative Adversarial Network

    Corresponding author: Bingyong YAN, byyan@ecust.edu.cn
  • CLC number: R857.3

  • 摘要: 纳米孔道单分子检测技术通过在纳米孔道中捕获分子穿过时产生的离子流变化信号来研究单个分子的信息。然而,由于纳米孔道对不同分子的捕获率不同,因此采集得到的单分子数据集不平衡,进而影响分子识别的准确率。本文基于编码DNA分子的阻断事件,构建以深度卷积生成式对抗网络(DCGAN)为基本框架的模型,实现少数类样本的扩充,从而达到纳米孔道数据集的平衡处理。进一步,采用QuipuNet对平衡前后数据集进行训练和识别。结果表明,采用DCGAN平衡数据集后,训练后的QuipuNet对部分“100”编码分子的识别准确率提升了14%,且平均识别准确率均高于其他扩充数据集的方法,验证了采用DCGAN方法扩充编码DNA分子数据以平衡数据集可有效提高模型训练后对实际信号的识别准确率。
  • 图 1  总流程图

    Figure 1.  General flow diagram

    图 2  生成器和判别器的网络结构图

    Figure 2.  Network structure of generator and discriminator

    图 3  编码为“100”的DNA分子的阻断事件生成过程

    Figure 3.  Generation process for blockage event of barcode ‘100’

    图 4  训练准确率变化图

    Figure 4.  Diagram of training accuracy

    图 5  模型在不同训练集下的测试数据的混淆矩阵

    Figure 5.  Confusion matrix of test data for model trained with different datasets

    表 1  不同数据扩充方法的分类结果

    Table 1.  Classification results using different data augmentation method

    Data augmentation methodAcc
    Resampling0.86
    Adding noise0.89
    Improved DCGAN0.96
    下载: 导出CSV
  • [1] CAO C, YING Y L, HU Z L, et al. Discrimination of oligonucleotides of different lengths with a wild-type aerolysin nanopore[J]. Nature Nanotechnology, 2016, 11(8): 713-716. doi: 10.1038/nnano.2016.66
    [2] HU Z L, LI Z Y, YING Y L, et al. Real-time and accurate identification of single oligonucleotide photoisomers via an aerolysin nanopore[J]. Analytical Chemistry, 2018, 90(7): 4268-4272. doi: 10.1021/acs.analchem.8b00096
    [3] 沙菁㛃 , 徐冰, 陈云飞, 等. 固态纳米孔对蛋白质易位的实验研究[J]. 化学学报, 2017, 75(11): 1121-1125.
    [4] 尚积祯, 李志, 郗冬梅, 等. 生物纳米孔分析技术研究进展[J]. 应用化学, 2017, 34(8): 855-867. doi: 10.11944/j.issn.1000-0518.2017.08.170103
    [5] DEAMER D W, AKESON M. Nanopores and nucleic acids: prospects for ultrarapid sequencing[J]. Trends in Biotechnology, 2000, 18(4): 147-151. doi: 10.1016/S0167-7799(00)01426-8
    [6] SHA J J, SI W, XU B, et al. Identification of spherical and nonspherical proteins by a solid-state nanopore[J]. Analytical Chemistry, 2018, 90(23): 13826-13831. doi: 10.1021/acs.analchem.8b04136
    [7] WEI Z Y, YING Y L, LI M Y, et al. Learning shapelets for improving the single-molecule nanopore sensing[J]. Analytical Chemistry, 2019, 91(15): 10033-10039. doi: 10.1021/acs.analchem.9b01896
    [8] YING Y L, CAO C, HU Y X, et al. A single biomolecule interface for advancing the sensitivity, selectivity and accuracy of sensors[J]. National Science Review, 2018, 5(4): 450-452. doi: 10.1093/nsr/nwy029
    [9] GU Z, YING Y L, LONG Y T. Nanopore sensing system for high-throughput single molecular analysis[J]. Science China Chemistry, 2018, 61(12): 1483-1485. doi: 10.1007/s11426-018-9312-3
    [10] GU Z, WANG H F, YING Y L, et al. Ultra-low noise measurements of nanopore-based single molecular detection[J]. Science Bulletin, 2017, 62(18): 1245-1250. doi: 10.1016/j.scib.2017.09.005
    [11] YING Y L, LONG Y T. Nanopore-based single-biomolecule interfaces: from information to knowledge[J]. Journal of the American Chemical Society, 2019, 141(40): 15720-15729. doi: 10.1021/jacs.8b11970
    [12] 颜秉勇, 朱明乔, 王学武. 一种新型纳米通道单分子检测探头的设计[J]. 华东理工大学学报(自然科学版), 2018, 44(6): 869-875.
    [13] 赖永杭, 颜秉勇, 王慧锋. 基于HSMM和K-means的纳米孔多级事件检测[J]. 华东理工大学学报(自然科学版), 2017, 43(2): 220-226.
    [14] WANG F, ZHANG Z Y, LIU C, et al. Generative adversarial networks and convolutional neural networks based weather classification model for day ahead short-term photovoltaic power forecasting[J]. Energy Conversion and Management, 2019, 181(1): 443-462.
    [15] MATEUSZ B, ATSUTO M, MAZUROWSKI M A. A systematic study of the class imbalance problem in convolutional neural networks[J]. Neural Networks, 2018, 106(1): 249-259.
    [16] POUYANFAR S, CHEN S C, SHYU M L, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification[C]// 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). USA: IEEE, 2018: 112-117.
    [17] SUI X J, LI M Y, YING Y L, et al. Aerolysin nanopore identification of single nucleotides using the AdaBoost model[J]. Journal of Analysis and Testing, 2019, 3(2): 134-139. doi: 10.1007/s41664-019-00088-x
    [18] KAROLIS M, NIKLAS E, KEYSER U F. QuipuNet: convolutional neural network for single-molecule nanopore sensing[J]. Nano Letters, 2018, 18(6): 4040-4045. doi: 10.1021/acs.nanolett.8b01709
    [19] FAWAZ H I, FORESTIER G, WEBER J, et al. Data augmentation using synthetic data for time series classification with deep residual networks[J]. Data Mining and Knowledge Discovery, 2018, 33(4): 917-925.
    [20] HARADA S, HAYASHI H, UCHIDA S. Biosignal data augmentation based on generative adversarial networks[C]//Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). USA IEEE, 2018: 368-371.
    [21] ZHU F, YE F, FU Y C, et al. Electrocardiogram generation with a bidirectional LSTM-CNN generative adversarial network[J]. Scientific Reports, 2019, 9(1): 1-11. doi: 10.1038/s41598-018-37186-2
    [22] BELL N A W, KEYSER U F. Digitally encoded DNA nanostructures for multiplexed, single-molecule protein sensing with nanopores[J]. Nature Nanotechnology, 2016, 11(7): 645-651. doi: 10.1038/nnano.2016.50
    [23] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//International Conference on Neural Information Processing Systems (NIPS). USA:ACM, 2014: 2672-2680.
    [24] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]//International Conference on Learning Representations. [s, l]; ICLR,2016: 1-15.
    [25] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1): 321-357.
    [26] YUDAN H, QIONG G U, ZHIHUA C, et al. Classification method for imbalance dataset based on genetic algorithm improved synthetic minority over-sampling technique[J]. Journal of Computer Applications, 2015, 35(1): 121-124.
  • [1] 魏梓轩周家乐 . 基于VAE的编码DNA载体阻断事件聚类分析与研究. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190424001
    [2] 曹雅茜黄海燕 . 基于代价敏感大间隔分布机的不平衡数据分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180515001
    [3] 颜建军刘章鹏刘国萍郭睿王忆勤付晶晶钱鹏 . 基于深度森林算法的慢性胃炎中医证候分类. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180410001
    [4] 许奕杰王嵘万永菁孙静 . 基于AE-LSTM网络模型的机场周界入侵报警及分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20200122001
    [5] 解冰朱宏擎 . 一种基于选择性卷积特征和最大后验高斯混合模型的细粒度图像分类算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180603001
    [6] 宋振振陈兰岚娄晓光 . 基于时序卷积网络的情感识别算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190508001
    [7] 赵鸿山范贵生虞慧群 . 基于归一化文档频率的文本分类特征选择方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180914005
    [8] 金志超高大启朱昌明王喆 . 基于权重的多视角全局和局部结构风险最小化分类器. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180704001
    [9] 王文铃虞慧群范贵生 . 融合分类和情境偏好的矩阵分解电影推荐算法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20200115003
    [10] 殷飞宇金晶王行愚 . 基于多相关性的导联前向搜索算法用于运动想象分类. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190901002
    [11] 魏琛陈兰岚张傲 . 基于集成卷积神经网络的脑电情感识别. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180416004
    [12] 尚旭景希玮徐健郑柏存公维光 . 不同分子量聚乙烯吡咯烷酮对多壁碳纳米管分散性能的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180820002
    [13] 赵剑沈阳曹旭妮 . 基于铁蛋白的溶栓蛋白纳米粒子的构建及活性分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180601001
    [14] 陈兰萍牛玉刚 . 基于多代理的微电网分区分布式最优潮流分析. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190523004
    [15] 徐清爽郭志前 . 反应型甲醛小分子荧光探针进展. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190224002
    [16] 刘秀军马骧 . 光响应型主客体超分子聚合物. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190312001
    [17] 薛敏杨健谭帅侍洪波 . 基于多数据结构的集成质量监控方法. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180821002
    [18] 豆伟涛贺晓鹏 . 振动诱导发光(VIE)分子材料的应用研究进展. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20190624001
    [19] 张融周颖晏琦帆 . 分子内弱相互作用对共轭性的影响. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20180902001
    [20] 茆敏刘月杨舜曲大辉 . 一种光酸响应型[2]轮烷分子梭的合成与表征. 华东理工大学学报(自然科学版), doi: 10.14135/j.cnki.1006-3080.20191128001
  • 加载中
图(5)表(1)
计量
  • 文章访问数:  85
  • HTML全文浏览量:  44
  • PDF下载量:  0
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-16
  • 网络出版日期:  2020-06-23

基于改进生成式对抗网络的编码DNA分子识别

    作者简介:随学杰(1996-),女,山东德州人,硕士生,主要研究方向为纳米孔道数据分析。E-mail:Y30170664@mail.ecust.edu.cn
    通讯作者: 颜秉勇, byyan@ecust.edu.cn
  • 1. 华东理工大学 信息科学与工程学院
  • 2. 化学与分子工程学院,上海 200237

摘要: 纳米孔道单分子检测技术通过在纳米孔道中捕获分子穿过时产生的离子流变化信号来研究单个分子的信息。然而,由于纳米孔道对不同分子的捕获率不同,因此采集得到的单分子数据集不平衡,进而影响分子识别的准确率。本文基于编码DNA分子的阻断事件,构建以深度卷积生成式对抗网络(DCGAN)为基本框架的模型,实现少数类样本的扩充,从而达到纳米孔道数据集的平衡处理。进一步,采用QuipuNet对平衡前后数据集进行训练和识别。结果表明,采用DCGAN平衡数据集后,训练后的QuipuNet对部分“100”编码分子的识别准确率提升了14%,且平均识别准确率均高于其他扩充数据集的方法,验证了采用DCGAN方法扩充编码DNA分子数据以平衡数据集可有效提高模型训练后对实际信号的识别准确率。

English Abstract

  • 作为最具前景的第3代DNA测序技术,纳米通道单分子检测技术引起了广大研究者的兴趣[1-4]。该技术的基本原理是在嵌有纳米孔的磷脂双分子层两侧施加电压,电解液中的离子在电场力驱动下穿过纳米孔,产生微弱的开孔电流,当有DNA、RNA、氨基酸、金属离子等分子穿过纳米孔时,由于分子在纳米孔道的占位改变了离子流量,将产生pA级的阻断电流信号[5-6]。通过对阻断信号进行分析,可得到分子在溶液中的浓度、分子与孔的相互作用、分子类型、碱基序列等信息。传统的数据分析方法是依据阻断信号的时间和电流散点图分布实现分子类别的识别,然而,由于低信噪比、DNA链折叠和缠绕、分子类别间信号重叠等原因,导致传统方法对分子的识别率较低[7]。为提高纳米孔道信号的识别率,可通过改进实验条件和仪器设备精度等方法提高纳米孔测量的电流和时间分辨率,但这些方法通常会增加实验复杂度和难度,或达到难以突破的物理极限[8]。为提高纳米孔道单分子检测中对单个分子阻断信号的识别精度,发展高效且智能的纳米孔道数据分析识别方法具有重大意义[11-13]

    在机器学习和深度学习领域,样本不平衡是指在分类学习算法中,不同类别样本的数据量相差悬殊,从而导致以总体准确率为目标的分类任务中过多地关注多数类,从而使少数类样本的分类性能下降,模型准确性较差[14-16]。由于纳米孔道对不同类型单分子信号的捕获率存在着巨大差异,因此基于深度学习模型对纳米孔道单分子信号分类训练存在数据集不平衡的问题,进而影响模型对单个分子识别的准确率。Sui等[17]针对单级阻断事件提出了基于HMM-AdaBoost的分类模型,对阻断信号有重叠的AA3和GA3分子进行了识别,Aerolysin纳米孔道对AA3分子的捕获率大于对GA3分子的捕获率,导致训练集中两种分子比例约为3:1。Karolis等[18]提出了基于卷积神经网络的QuipuNet模型,对编码为“000”~“111”的8种DNA分子和有无蛋白质绑定进行分类,训练集中编码为“011”的分子与编码为“100”的分子比例为17:1等。从分类结果可以观察到,少数类样本的分类准确率均低于其他类别。多数基于机器学习和深度学习的分类任务研究表明,解决样本不均衡问题,增加训练样本数据量,可显著提高模型的分类性能[19]

    生成式对抗网络是一种基于对抗策略的生成式模型,可生成与训练样本分布相同的仿真样本,在深度学习、图像领域和序列数据领域等都受到广泛关注[20-21]。本文通过建立改进深度卷积生成式对抗网络(Deep Convolutional Generative Adversarial Networks,DCGAN)模型,研究类别不平衡的纳米孔道单分子数据集,并实现数据集的扩充与分类。首先对数据进行预处理,并将所有分子的阻断事件处理为相同长度;然后使用改进DCGAN模型对少数类样本数据集进行扩充,生成相应分子的仿真阻断信号;最后应用QuipuNet卷积神经网络对扩充前后的数据集进行分类。本文方法可显著改善纳米孔道对分子捕获率不同所带来的数据集不平衡问题,不仅可提高单个分子阻断事件的识别准确率,同时对深度学习等人工智能算法应用于纳米孔道研究提供了新的数据处理方法。总流程图如图1所示。

    图  1  总流程图

    Figure 1.  General flow diagram

    • 数据来源于Misiunas等[20]的多通道蛋白质检测实验。由32个纳米通道产生的58 178个阻断事件被存储至HDF5文件中,包含“000”~“111”8种编码DNA分子的阻断信息,每个分子被记录了纳米通道编号、编码信息、有无蛋白质绑定、表征阻断信号的电流序列等信息。

    • 采用阈值滤波[18]去除由于DNA片段不完整、分子与孔道的非特异性相互作用而产生的异常阻断信号,对数据集进行归一化处理,从而消除纳米孔道作用时间差异所引起的阻断信号变化。由于卷积神经网络输入信号维度固定,为使阻断信号长度相同,采用如下处理方法:长度大于700的阻断信号,保留前700个数据点;取样本集中所有阻断信号开孔电流的前50个数据点,计算其均值为0.009 5,对长度小于700的信号,用均值为0、标准差为0.0095的高斯白噪声补齐至长度为700。

    • Goodfellow等[23]提出的生成式对抗网络是一种基于博弈理论扩充数据集的方法,最初用于图像的生成。生成式对抗网络由生成器(Generator,G)和判别器(Discriminator,D)两部分组成,其中生成器接收随机噪声用于学习和捕捉真实数据集的分布,并生成与之相似的新数据集;判别器的功能是一个二分类器,判断数据是来自真实数据集还是由生成器生成的伪数据集。训练过程中,生成器的目标是尽量生成与真实数据相似的伪数据,使生成器难以区分;而判别器的目标是尽量辨别出真实数据和伪数据,最终达到纳什平衡,即判别器无法判断数据是否来自生成器。该模型绕过了求解似然函数的困难,可直接生成样本,从而拟合训练数据的分布。

      DCGAN对原始生成式对抗网络的改进[24]:(1)采用带步长的卷积代替D中的池化层;(2)在D和G中加入批量标准化(Batch Normalization, BN)层,加快模型的收敛速度;(3)去除全连接层;(4)在G中,除最后一层激活函数使用tanh,其余层的激活函数为ReLU;(5)在D中,均使用LeakReLU激活函数,该激活函数可保证导数总是不为零,能减少静默神经元的出现。

      本文以DCGAN为基本框架,设计适合纳米孔道单分子数据分析的网络模型结构如图2所示,包含生成器和判别器两部分。生成器G的输入为服从正态分布、长度为100的特征向量,由4层卷积神经网络构成。其中,卷积神经网络的基本结构为Conv1d+BN+ReLu,最后一层采用tanh激活函数,卷积核大小为3,3,3;判别器D的输入为真实样本$x$和D生成的伪样本G($z$),主要由3层卷积神经网络构成,特征图大小按16、32、64逐级递增,相应的卷积核为7、5、3,使用LeakRelu激活函数,最后经过一个全连接层,由sigmod函数判断当前样本为真实样本(标签为1),或为伪样本(标签为0)。tanh、ReLU和LeakReLU激活函数表达式如下:

      图  2  生成器和判别器的网络结构图

      Figure 2.  Network structure of generator and discriminator

      训练过程中,batch_size设为64,初始学习率learning_rate=0.000 1,采用Adam优化算法训练600次。因编码DNA分子的标签已知,本文在目标函数中引入标签信息,构成条件约束,解决深度卷积对抗网络训练太过自由的问题。目标函数如下:

      其中:x为真实样本;z为随机噪声。为防止判别器过于强大而造成训练不平衡,使用标签平滑,即当判断为正样本时,用0.95代替1。以编码为“100”的分子为例,图3示出了模型在不同的训练时段生成的阻断事件。

      图  3  编码为“100”的DNA分子的阻断事件生成过程

      Figure 3.  Generation process for blockage event of barcode ‘100’

    • 原始数据集中,编码为“011”的分子在实验中的捕获率最高,对应的阻断事件最多;而编码为“100”和“010”的分子捕获率较低,仅占“011”数据集的8%和23%,造成数据集的类别不平衡。将各阻断事件预处理后,使用上述改进DCGAN,对除“011”编码之外的7种编码DNA分子的阻断事件进行扩充。分别将原始数据集与平衡后的编码DNA载体数据集作为QuipuNet的输入,其中,两次实验的测试集大小相同。为验证该网络生成数据集的有效性,评价标准采用混淆矩阵以及平均准确率,混淆矩阵是以预测标签为横坐标,真实标签为纵坐标的交叉表,用以直观展示各类别分类情况,平均准确率的计算公式如下:

      其中:n为类别数;Ni为第i类别中样本的数量;Ti为第i类别中预测正确的样本数。QuipuNet包含8层卷积网络,基本结构为Conv1d+BN+ReLU,卷积核大小为{7,7,5,5,3,3},特征图大小分别为{64,64,128,128,256,256},最后一层为softmax分类器,进行8分类。训练时,batch_size设为32,使用Adam优化算法,初始学习率为0.001,损失函数选择交叉熵损失函数,表达式如下:

      其中:yi为样本的真实标签;${\hat y_i}$为QuipuNet模型预测标签。将训练次数设为200次,使用原始数据集与平衡后数据集对QuipuNet模型进行训练,训练过程中,训练集准确率变化如图4所示。可见,在两种训练集下,模型的训练准确率均呈上升趋势,平衡后的数据集收敛至约0.94,原始数据集约为0.95。

      图  4  训练准确率变化图

      Figure 4.  Diagram of training accuracy

      将测试集送入训练好的QuipuNet模型,得到的混淆矩阵如图5所示。混淆矩阵的横坐标为预测标签,纵坐标为真实标签,对角线即为各类别的分类准确率,颜色深浅代表数值的大小,混淆矩阵右边为对应各类别训练数据的规模。可见,使用改进DCGAN对数据集进行平衡后,少数类别的分类准确率具有明显的提升。平衡前后编码为“100”极少数类样本的分类准确率由0.82提升至0.96,编码为“010”的分子的准确率由0.89提升至0.93,由于二者在原始数据集中本身所占比例不同,识别准确率存在一定差异。此外,“110”和“001”等分子的识别准确率也有了一定幅度的提升。可见,在对数据集进行平衡后,少数类分子信号的识别准确率获得了显著提升,均达到0.93及以上,总体平均准确率由0.92提升至0.96,说明改进DCGAN可用于生成阻断事件以平衡数据集,从而提高混合分子中捕获率低的分子的识别准确率。

      图  5  模型在不同训练集下的测试数据的混淆矩阵

      Figure 5.  Confusion matrix of test data for model trained with different datasets

    • 目前常用的数据集扩充方法有重采样法和添加高斯噪音等[25-26],为进一步验证改进DCGAN模型在纳米孔道数据分析中的有效性,将两种传统扩充方法与改进DCGAN模型进行对比。重采样法通过对少数样本进行有放回抽样m次,数据集的数量与图5(b)右图中各类别训练数据集大小相等;噪音法即在抽样得到的阻断电流信号上添加白噪音。分别将两种数据集送入分类模型,经不同扩充数据集训练后的QuipuNet模型对测试集的平均识别准确率如表1所示。可知,用本文方法得到的平衡数据集训练QuipuNet后,测试集上的分类准确率较高,重采样的方法使数据集中含有较多重复样本,尤其是数据倾斜较为严重的编码为“100”分子的阻断事件,使得模型产生过拟合,降低准确率,而噪音法一定程度上增加了数据的多样性,但所加随机噪音的大小不易控制。对比结果表明,两种传统的数据集扩充方法不适用于纳米孔道数据集的扩充,将大数据分析方法应用到纳米通道数据分析领域时,本文的方法能一定程度上解决纳米通道对分子捕获率不同而造成的数据集不平衡问题,提高分类准确率。

      Data augmentation methodAcc
      Resampling0.86
      Adding noise0.89
      Improved DCGAN0.96

      表 1  不同数据扩充方法的分类结果

      Table 1.  Classification results using different data augmentation method

    • 纳米孔道单分子阻断信号存在重叠或阻断台阶不明显的问题,使用传统散点图法较难进行区分,同时,由于纳米孔对分子的捕获率不同,致使不同分子阻断事件数量不平衡,进而影响模型的准确率。基于编码DNA分子的阻断事件,本文将改进DCGAN用于少数类单分子信号样本的扩充,避免类间不平衡问题。通过与原始数据集以及由重采样法和噪音法扩充的数据集相比,本文方法显著提高了模型训练后对单分子的识别准确率。此外,本文的研究也展示了生成式对抗网络扩充训练数据的方法在纳米孔道单分子数据分析算法研究中的重要意义和作用,其还可进一步用于基于纳米孔道的复杂DNA测序数据或基于多测量方法的纳米孔道数据分析研究中。

(5)  表(1) 参考文献 (26) 相关文章 (20)

目录

    /

    返回文章