EMRI

مطالب علمی / تخصصی

   ۱۳۹۸/۰۹/۲۰

Comprehensive Ensemble in QSAR Prediction for Drug Discovery

پیشنهاد روش جدیدی برای "یادگیری ماشین بر اساس چند روش" که از روش های قبلی نتایج بهتری داشته است.

رابطه کمّی ساختار-فعالیت (QSAR)، یک روش مدل سازی محاسباتی برای یافتن رابطه بین خصوصیات ساختاری ترکیبات شیمیایی و فعالیت های بیولوژیکی آن است. به این صورت که، مثلا میزان اثر تعدادی مهارکننده بر فعالیت یک آنزیم از آزمایش های شیمیایی به دست می آید (IC50). بعد خصوصیات ساختار شیمیایی آن مهارکننده ها بررسی می شود ( مثلا، تعداد دهنده های هیدروژن یا سایز مولکول مهارکننده). سپس، با محاسبات آماری،  ارتباط IC50  با آن خصوصیات شیمیایی به صورت کمیّ محاسبه می شود. اما، یک مولکول خصوصیات شیمیابی متعددی دارد که الزاما همه آنها نمی توانند در محاسبات کیوسار در نظر گرفته شوند؛ انتخاب این که کدام خصوصیات وارد محاسبات آماری کیوسار شوند، کاری دقیق، پیچیده و بر مبنای محاسبات آماری است. برای این منظور، از کامپیوتر بهره می گیرند. با کمک روش های «یادگیری ماشین» (machine learning)،  کامپیوتر را با استفاده از اطلاعات به دست آمده قبلی، آموزش می دهند (train)، تا بعدا بتواند از روی آموزه های خود و داده های فعلی، محاسبات جدید را انجام دهد. مثلا بتواند تشخیص دهد که کدام خصوصیات شیمیایی را در محاسبات کیوسار در نظر بگیرد. در محاسبات مختلف کیوسار، محدودیت هایی وجود دارد. برای غلبه بر محدودیت ها و به دست آوردن پیش بینی های معتبر، از ترکیبی از چند روش یادگیری ماشین  استفاده می شود (ensemble-based machine learning approaches).

مقاله حاضر، روش  جدیدی را برای «یادگیری ماشین بر اساس چند روش» پیشنهاد می کند که از روش های قبلی نتایج بهتری داشته است.

به نقل از t.me/molecular_modeling

*لطفاً برای دسترسی به لینک دانلود مقاله بر روی نام آن کلیک کنید.

 

Title: Comprehensive ensemble in QSAR prediction for drug discovery
Authors: Sunyoung Kwon, Ho Bae, Jeonghee Jo, Sungroh Yoon
Journal: BMC Bioinformatics

 

Abstract:

Background: Quantitative structure-activity relationship (QSAR) is a computational modeling method for revealing relationships between structural properties of chemical compounds and biological activities. QSAR modeling is essential for drug discovery, but it has many constraints. Ensemble-based machine learning approaches have been used to overcome constraints and obtain reliable predictions. Ensemble learning builds a set of diversified models and combines them. However, the most prevalent approach random forest and other ensemble approaches in QSAR prediction limit their model diversity to a single subject

Results: The proposed ensemble method consistently outperformed thirteen individual models on 19 bioassay datasets and demonstrated superiority over other ensemble approaches that are limited to a single subject. The comprehensive ensemble method is publicly available at http://data.snu.ac.kr/QSAR

Conclusions: We propose a comprehensive ensemble method that builds multi-subject diversified models and combines them through second-level meta-learning. In addition, we propose an end-to-end neural network-based individual classifier that can automatically extract sequential features from a simplified molecular-input line-entry system (SMILES). The proposed individual models did not show impressive results as a single model, but it was considered the most important predictor when combined, according to the interpretation of the meta-learning