更有效地识别癌症样本工程大王国强教授
近日,我校数理与统计学院王国强教授指导商务统计学专业级硕士研究生罗康洋开展了基于F-统计量和mPDC的改进SVM-RFE及其在癌症分类中基因选择的研究,在国际期刊上发表了最新研究成果。
该研究成果以“AnimprovedSVM-RFEbasedonF-statisticandmPDCforgeneselectionincancerclassification”为题发表在SCI数据库国际期刊《IEEEAccess》(该期刊最新影响因子为4.,属中科院分区工程技术大类二区)上,并受到国家自然科学基金(Nos.,,)、上海市自然科学基金(No.14ZR)的支持。
▲部分论文截图
一种新的特征选择分类模型
可更有效地识别癌症样本
世界卫生组织的数据显示,癌症已经成为全球第二大死亡原因,约有六分之一的死亡是癌症引起的。晚期癌症通常无法治疗,但如果能够在早期阶段做出有效的诊断,大多数患者仍然可以康复。
为了提高癌症患者的生存率和治愈率,人们需要从早期诊断中分析相应的癌症微阵列基因数据集。然而,由于样本获得的成本高昂,用于癌症分类的基因表达数据中,集中的样本数量非常少(通常只有几十到数百个),相比之下基因数量非常多(通常为数千个),使得提取有用信息和有效分类变得困难。因此,从大量的癌症微阵列基因数据中选择包含尽可能多的信息的少量基因是一个关键且具有挑战性的问题。此外,数据集中存在的类不平衡问题进一步加大特征选择和分类的难度。
而罗康洋的论文中,基于F-统计量和mPDC提出了一种新的特征选择分类模型ISVM-RFE(FPD),可应用于癌症分类中的基因选择。大量数值实验表明ISVM-RFE(FPD)相对于现有的基于SVM-RFE的特征选择分类算法,能在较少牺牲非癌症样本判别率的情况下更有效地识别癌症样本。
全文历时半年多
英文写作是最大难点
从年12月正式开始着手研究。罗康洋同学在王教授的指导下历经了半年多的时间才最终投稿。论文投稿后,又经历了一次大修和一次小修,直到年9月收到了录用通知。
每一篇成功的论文都离不开作者长期以来对该领域的深入研究。在这篇论文之前,罗康洋就已经对数据集的类不平衡问题进行过研究,并以题为《基于L-SMOTE与混合核SVM的不平衡数据集分类研究》在北大核心期刊《计算机工程与应用》上发表了文章。近期,在已有研究的基础上,罗康洋还对上市公司财务预警问题进行了研究,最终以题为《基于改进的MRMR算法和代价敏感分类的财务预警研究》被北大核心期刊和南京大学核心期刊《统计与信息论坛》录用。
在谈到如何想到基于F-统计量和mPDC提出了一种新的特征选择分类模型ISVM-RFE(FPD),并应用于癌症分类中的基因选择时,罗康洋谈到:“在已有研究基础上的进一步研究过程中,我发现了具有类不平衡和高维数双重特性的癌症基因数据集。通过阅读国内外大量文献,我构造了多个备选的特征选择算法。在大量数值模拟结果之后发现ISVM-RFE(FPD)算法的效果最好。因此提出了这种新的特征选择分类模型。”
成功的背后没有一帆风顺的,在这篇论文写作过程中,罗康洋同学表示最难的部分是英语的表达。“因为这是我第一次写英文论文。首先遇到的问题是无法准确地用英语表达研究的内容,并且对背景介绍和引言部分的英语表达毫无头绪,一度导致论文的书写无法进行。这时王老师的鼓励给予了我莫大的动力,并教导我这是写英文论文必须要过的坎,坚持就是胜利。同时,针对论文的书写,王老师给出了很多建设性的意见,比如多阅读相关文献、积累好的英语表达并不断理解转化为自己的东西。”
在此期间,国外多名教授来校与王老师交流时,罗康洋积极利用接待外宾的机会练习英语表达。他直言:“这对我的帮助很大!经过不断的坚持和训练,论文的后续写作顺畅了很多。”虽然在论文的写作中遇到了困难,但在王老师的鼓励和指导以及自己一步一个脚印的摸索下,罗康洋最终顺利完成了论文的书写与研究。经王老师的推荐,这篇论文的研究,尤其在英文表达方面也得到了论文第四作者——美国马里兰大学JiyuanTao教授的肯定。
这篇论文的发表对罗康洋的科研能力和英语表达及写作能力的提升有很大帮助。此外,SCI论文的发表也拓宽了罗康洋的国际视野。“在以前的研究过程中,我主要
转载请注明:http://www.makingchance.com/jbzd/5776.html