让生物学家更容易理解的机器学习新方法来啦 - 互联网

Justin Kinney正在展示一个最新设计的相对容易理解的人工神经网络结构。

在这个“大数据”的时代，人工智能（AI）已经成为科学家的宝贵盟友。例如，机器学习算法正在帮助生物学家理解控制基因功能的数量惊人的分子信号。但随着分析更大量数据的新算法被开发出来，它们也变得更加复杂和难以解释。

近日，来自美国普林斯顿大学的定量生物学家Justin B. Kinney和Ammar Tareen提出了一种设计高级机器学习算法的策略，由此设计的算法更容易被生物学家理解。他们的研究结果在12月13日举行的第一届计算生物学机器学习会议上正式公布。

新开发的算法是人工神经网络（ANN）的一种。ANN是科学家们受到大脑中神经元连接和分支方式的启发而开发的高级机器学习的计算基础。尽管名字如此，人工神经网络并不是专门用来研究大脑的。

大规模并行报告基因检测 (MPRA) 是一种研究DNA的方法，生物学家一直使用ANNs来分析通过MRPA产生的数据。利用这些数据，定量生物学家可以制造出能预测哪些分子在基因调控过程中控制特定基因的ANN。

细胞并不总是需要所有的蛋白质，而是依赖着复杂的分子机制根据需要开启或关闭产生蛋白质的基因。当这些机制失效时，混乱和疾病通常也随之而来。Kinney说：“理解基因调控是如何运作的，对于我们能否开发出治疗疾病的分子疗法至关重要。” 不幸的是，标准的ANN从MPRA数据中形成的方式与科学家在生命科学中提出问题的方式非常不同。这种失调意味着生物学家很难解释基因调控是如何发生的。

基因调控的数学热力学模型(左上)被表述为一个人工神经网络(ANN)(左下)。随后通过新的ANN (右)产生大型的DNA数据集，连接模式以一种生物学家容易理解的方式呈现。

现在，Kinney和Tareen开发的这种新方法，在计算工具和生物学家的思维方式之间架起了桥梁。他们创造了自定义的神经网络，从数学上反映了生物学中基因及其控制分子的共同概念。从本质上来讲，这两位科学家是在迫使机器学习算法以生物学家能够理解的方式处理数据。

Kinney说：“我们优化了现代工业人工智能技术，这将使它能够更好地应用于生命科学。”在验证了这个定制ANNs的新策略后，Kinney的实验室正在将其应用于多种生物系统的研究，包括与人类疾病相关的关键基因通路。