روشی جدید برای تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد با استفاده از دادههای بیان ژن و روشهای یادگیری ماشین
رباب شیخپور1، راضیه شیخپور2، مهدی آقا صرام3
چکیده سابقه و هدف لوسمی از سرطانهای شایع در جهان است. یکی از مهمترین روشها برای کشف و پیشبینی لوسمیمیلوژنیک و لنفوسیتیک حاد، استفاده از DNA افراد و اطلاعات ژنتیکی آنها میباشد. تکنولوژی ریز آرایه، ابزاری برای بررسی بیان هزاران ژن در حداقل زمان است. تحلیل مجموعه دادههای ریز آرایه بدون کمک آنالیز آماری و روشهای یادگیری ماشین ممکن نیست. در این مطالعه با استفاده از مجموعه دادههای ریز آرایه و روشهای یادگیری ماشین به تشخیص انواع لوسمی پرداخته شد. مواد و روشها دادههای مورد استفاده در این پژوهش توصیفی، بیان 7129 ژن مربوط به 72 بیمار مبتلا به لوسمیبود که با استفاده از فناوری ریز آرایه به دست آمد. سپس با استفاده از این دادهها، تشخیص لوسمیمیلوژنیکحاد(AML) و لوسمیلنفوسیتیک حاد(ALL) با روش طبقهبندی ناپارامتری هسته، تابع پایهشعاعی ناهمسانگرد با استفاده از معیارهای نسبت بهره و بهره اطلاعاتی انجام شد. یافتهها روش پیشنهادی طبقهبندی ناپارامتری با استفاده از معیار بهره اطلاعاتی با انتخاب230 ژن مهم و با استفاده از معیار نسبت بهره با انتخاب 86 ژن مهم با دقت 06/97٪ ، قادر به تشخیص انواع لوسمیمیلوژنیکو لنفوسیتیک است، در حالیکه روش طبقهبندی ناپارامتری هسته، تابع پایهشعاعی با 7129 ژن دارای دقت 29/35٪ است. نتیجه گیری نتایج این مطالعه نشان داد که استفاده از دادههای بیان ژن و روش پیشنهادی با معیار نسبت بهره قادر به تشخیص لوسمی با دقت بالایی است. بنابراین به نظر میرسد این روش میتواند در تشخیص دقیقتر انواع لوسمیکمک کند تا تصمیمات مناسبتری در مورد نحوه تشخیص و درمان بیماران گرفته شود. کلمات کلیدی:لوسمی، بیان ژن، آنالیز ریز آرایه، یادگیری ماشین
تاریخ دریافت : 5 /10/94 تاریخ پذیرش : 22/2/95
1- مؤلف مسئول: PhD بیوشیمی، گروه تربیت بدنی، واحد تفت، دانشگاه آزاد اسلامی، تفت، ایران و مرکز تحقیقات خون و انکولوژی، دانشگاه علوم پزشکی شهید صدوقی، یزد، ایران، صندوق پستی: 56965-89156 2- دانشجوی دکترای کامپیوتر ـ گروه مهندسی کامپیوتر ـ دانشگاه یزد ـ یزد ـ ایران 3- دکترای تخصصی فناوری تست سیستمها ـ دانشیار گروه مهندسی کامپیوتر ـ دانشگاه یزد ـ یزد ـ ایران
مقدمه سرطان بیماری است که در نتیجه تقسیم غیر قابل کنترل سلولها به وجود میآید(1). امروزه بیش از 100 نوع مختلف از سرطانها در دنیا شناخته شدهاند و لوسمی یکی ازانواعشایعومهلک این سرطانهااست(2). لوسمی 8% کل سرطانهای جمعیت انسانی را شامل و به عنوان پنجمین سرطان شایع در جهان شناخته شده است(3). علتدقیقابتلابهلوسمی مشخص نیست و پژوهشهای انجامشدهروندبدخیمی بیماری لوسمی رابهژنتیک، قرارگرفتندرمعرضپرتوهای یونیزه کنندهوبرخی موادشیمیاییخاصویانارساییسیستم ایمنیطبیعی بدنارتباطمیدهند(6-4). سرطانخونیا لوسمی، بیماریپیشروندهوبدخیماعضایخونسازبدنبه ویژهمغز استخواناستکهباتکثیروتکاملناقص سلولهایخونو پیشسازهایآندرخونومغزاستخوان ایجادمیشود(2). سلولهایسفیدخونیمعمولاًدرصورت نیازبدن،به طریقیمنظمو کنترل شدهرشدکردهوتقسیم میشوند.امابیماریلوسمیدراین رونداخلالایجادنموده ورشدسلولهایخونیراازکنترلخارج مینماید. در بیماریلوسمیحاد،مغزاستخوانمقداربسیارزیادی سلولهایسفیدخونینارستولیدمیکندوتولیدطبیعی سلولهایسفیدخونی نیزمتوقفمیشودکهمنجربهاز بین رفتنتوانایی بدندرمقابلهبابیماریهامیشود(3). دو نوع اصلیحاد از این بیماری وجود دارد که عبارتند از لوسمی میلوئیدی حاد Acute Myeloid Leukemia(AML) و لوسمیلنفوسیتی حاد Acute Lymphoblastic Leukemia(ALL)(8، 7). تشخیص لوسمیمیلوئیدیحاد از لوسمی لنفوسیتی حادبرای درمان موفق، حیاتی است(9). یکی از دقیقترین و مهمترین روشها برای کشف این بیماری و پیشبینی آن، استفاده از DNA افراد و اطلاعات ژنتیکی آنها میباشد. تکنولوژی ریز آرایه(MicroarrayDNA)، برای مطالعه سریع ژنها به وجود آمده است و یکتصویر کلی ازمیزانبیانژنراارایهمیدهد(2). این تکنولوژی در تنظیم و تعاملات ژنها و پژوهشهای بالینی و دارویی کاربرد دارد و برخلافروشهایقبلیکهتنها مطالعهیکژنرا میسرمینمود، امکان بررسی بیان هزاران ژن را در حداقل زمان ممکن فراهم میکند(16-10). بنابراین تشخیصدقیقسرطان میتواندباطبقهبندیدادههای ریز آرایهعملیباشد(17). مشکلاصلیدرتحلیلدادههای ریز آرایه،بعدبالای آنها استکهدرنتیجهتعدادبسیارزیاد متغیرها(ژنها)در مقابلتعدادکمنمونههاایجادمیشود. اگر چهتعدادبسیار زیادیازژنهادردادههایریز آرایه وجوددارند،تنهابخش اندکیازآنهاتاثیربهسزاییدر صحتطبقهبندیمیگذارند. ازاینرو،اولینقدممهمدر آنالیزدادههایریز آرایه، کاهشتعدادژنهایابهعبارتی، انتخابژنهایمتمایزکننده بهمنظورطبقهبندیاست(12). انتخاب ژنهای مرتبط و تفسیر این اطلاعات بدون کمک آنالیز آماری و روشهای هوشمند تحلیل اطلاعات ممکن نیست. یادگیری ماشین(Machine learning)، شاخهایاز هوشمصنوعی (Artificial intelligence) است که با طرحو بهکارگیریالگوریتمهابهکامپیوترهااینامکانرا میدهد که کارآیی خودرابر اساسیادگیری،بهینهنمایند. الگوریتمهای مختلف داده کاوی(Data mining) و یادگیری ماشین(Machine learning) میتوانند در خوشهبندی و طبقهبندی ژنها مورد استفاده قرار گیرند. هدف از انجام این مطالعه، تشخیص انواع لوسمیALL و AML با استفاده از مجموعه دادههای ریز آرایه و روشهای یادگیری ماشین بود.
مواد و روشها مطالعهحاضرتوصیفیودادهمحوربود که به ارایه روشی برای تشخیص لوسمیمیلوژنیکحاد(AML) و لوسمیلنفوسیتیکحاد(ALL) با استفاده از دادههای بیان ژن بیماران لوسمیمیلوژنیکو لنفوسیتیک حاد پرداخته است.
توصیف مجموعه دادهها: دادههای مورد استفاده در این مطالعه، بیان 7129 ژن مربوط به 72 بیمار مبتلا به لوسمی بود که با استفاده از فناوری ریز آرایه توسط گلوب و همکاران به دست آمده است(9). هر بیمار با برچسب لوسمی میلوژنیک حاد(AML) یا لوسمیلنفوسیتیکحاد(ALL) مشخص میگردد. 25 بیمار مبتلا به لوسمیمیلوژنیکحاد و 47 بیمار مبتلا به لوسمی لنفوسیتیکحاد بودند. مجموعه دادههای مذکور قبلاً به دو دسته دادههای آموزشی و دادههای آزمایشی تقسیم شده و در بازه [0,1] نرمالسازی شدهاند. مجموعه دادههای آموزشی، بیان ژن 38 بیمار(شامل 11 بیمار مبتلا به لوسمی میلوژنیکحاد و 27 بیمار مبتلا به لوسمیلنفوسیتیکحاد) و مجموعه دادههای آزمایشی بیان ژن 34 بیمار(شامل 14 بیمار مبتلا به لوسمی میلوژنیکحاد و 20 بیمار مبتلا به لوسمی لنفوسیتیکحاد) را مشخص میکنند و دادههای مربوط به بیماران، بالغین و کودکان را شامل میشود.
روش پیشنهادی: تابعتوزیعچگالی (Density Distribution Function)، مفهومیبنیادیدرآماراست.متغیرتصادفی X را درنظر بگیریدکهتابعتوزیعچگالی آن P است.با داشتنتابع توزیعچگالی میتوانیمتخمینیازتوزیع X داشتهباشیم. فرض کنیدمجموعهایازدادههایمشاهدهشدهازنمونهها وجود دارند که تابعتوزیعچگالی آنناشناختهاست. برآورد چگالی (Density estimation)به فرآیند تخمینتابع چگالی احتمالیکمتغیر تصادفیبا استفاده از نمونههای مشاهده شده از آن متغیر گفته میشود. برآورد چگالی مبتنی بر هسته(kernel density estimation)، روشی ناپارامتر(non-parametric) برای برآورد تابع چگالی احتمال توزیع است که به صورت رابطه زیر تعریف میشود:
در این رابطه h پارامتر هموارساز یاپهنای باند (bandwidth) است که انتخاب مناسب این پارامتر، مهمترین مسئلهدربرآوردهستهایاست، N تعداد نمونههای آموزشی و K(.) تابع هسته است.یکی از توابع هسته معروف، هسته تابع پایه شعاعی(RBF:Radial Basis Function) میباشد. در روشهای برآورد چگالی هستهای، انتخاب روشی مؤثر برای محاسبه پارامترهموارسازیازاهمیتخاصیدر برآوردچگالی برخورداراست. اغلب روشهای برآورد چگالی هستهای مقدار ثابتی را برای این پارامتر در نظر میگیرند که این مقدار ثابت همیشه میتواند با دقت بالایی برای برآورد چگالی مورد استفاده قرار گیرد. بهازای کوچککردن پارامترهموارسازی h، منحنی حاصلاز برآوردهستهایناهموارترشدهوجزئیاتجعلیبیشتریرا از چگالیواقعیبهنمایشمیگذاردوبهازایبزرگکردن این پارامتر، منحنیهمواروباعثمحوشدنجزئیات واقعی تابعچگالی میگردد. از دیگر مشکلات روشهای برآورد چگالی، احتمال هستهای ابعاد زیاد دادهها است. در این مطالعه، روشی مؤثر برای انتخاب پارامترهای مختلف هموارسازی در هر بعد، پیشنهاد میشود. در روش پیشنهادی،هسته تابع پایه شعاعیناهمسانگرد(anisotropic RBF kernel) مورد استفاده در روش ماشین بردار پشتیبان (Support Vector Machine) برای طبقهبندی ناپارامتری بر اساس برآورد چگالی احتمال به کار گرفته میشود. در این بخش یک روش ناپارامتری هستهای مبتنی بر رتبهبندی ژنها با استفاده از معیارهای بهره اطلاعاتی (Information Gain) و نسبت بهره(Gain Ration) در هسته تابع پایه شعاعیناهمسانگرد پیشنهاد میشود که از رتبه ژنها برای یادگیری پارامترهای هسته تابع پایه شعاعی ناهمسانگرد استفاده مینماید. روش پیشنهادی دارای سه مرحله رتبهبندی ژنها، انتخاب ژنها و طبقهبندی است.
مرحله رتبهبندی ژنها: اولین مرحله روش پیشنهادی، رتبهبندی ژنها بر اساس معیار بهره اطلاعاتی و نسبت بهره است. در این مرحله، بردار رتبه ژنها تشکیل میشود. رتبهبندی ژنها در روش پیشنهادی برای دو منظور استفاده میشود: - استفاده از رتبه ژنها برای یادگیری پارامترهای هسته تابع پایه شعاعیناهمسانگرد - استفاده از رتبه ژنها برای انتخاب ژن بر اساس روشهای فیلتر
مرحله انتخاب ژنها: مسئلهانتخاب ژنها درواقع شناساییوانتخابیکزیر مجموعهمفیدازژنها ازمیانمجموعهدادههای اولیهاست کهحداکثرتوان رادر پیشگوییخروجیداراباشند. برای حل مشکل، ابعاد زیاد دادههای ریز آرایه در برآورد چگالی هستهای، روش پیشنهادی زیر مجموعهای از ژنها را بر اساس روش انتخاب ویژگی فیلتر انتخاب میکند. در روش پیشنهادی، رتبه ژنها برای انتخاب ژنها و تعیین پارامترهای هموارسازی مورد استفاده قرار میگیرند. در این مرحله، ابتدا بردار ژنها به ترتیب نزولی مرتب میشوند و ژنهای با رتبه صفر حذف میشوند. سپس ژنها با بالاترین رتبه انتخاب میشوند و ژنهای دارای رتبه پایین حذف میشوند.
مرحله طبقهبندی: آخرین مرحله روش پیشنهادی، طبقهبندی است. فرض کنید که N نمونه آموزشی شامل d ژن وجود دارد که هر نمونه با یک بردار ژن و برچسب مشخص میگردد. مرحله انتخاب ژن روش پیشنهادی، k ژن با بالاترین رتبه را به عنوان ورودی مرحله طبقهبندی انتخاب میکند. تابع جداسازی طبقهبندی ناپارامتری هستهایتابع پایه شعاعی ناهمسانگرد به صورت زیر تعریف میشود:
در رابطه فوق، x بیانگر نمونه جدیدی است که میخواهیم نوع لوسمی آن را پیشبینی کنیم. با استفاده از این رابطه، نمونه x به کلاسی اختصاص مییابد که بالاترین مقدار را داشته باشد.در این رابطه، hj پهنای باند در بعد j را نشان میدهد. هم چنین فرض میشود که m کلاس C1, C2,…, Cm وجود دارد، اگر نمونه xt متعلق به کلاس Ci باشد، مقدار rti برابر یک و در غیر این صورت صفر است. Ni تعداد نمونههای متعلق به کلاسCi است.
یافتهها برای ارزیابی کارایی روش پیشنهادی، آزمایشهایی با استفـاده از نـرمافـزارMatlab R2013a انجـام مـیشــود و عملکرد روش پیشنهادی با استفاده از معیارهای دقت، حساسیت و اختصاصیت با روش ناپارامتری چگالی احتمال هستهای تابع پایهشعاعی مقایسه میشود. میـزاندقـتیـکروش طبقهبنـدی، درصـد نمونههای طبقهبندی شده درست را در میان تمام نمونهها نشان میدهد. حساسیتبهمعنینسبتیازمواردمثبتاست که سیستم آنهارابهدرستیبهعنوانمثبتعلامتگذاری میکند. اختصاصیتبهمعنینسبتیازمواردمنفی استکه سیستم آنهارابهدرستیبهعنوانمنفیعلامتگذاری میکند. در آزمایشها، ابتدا مقدار بهینه عرض هسته σ در روش طبقهبندی ناپارامتری، هسته تابع پایه شعاعی را با استفاده از اعتبارسنجی عرضی با ده تکرار روی مجموعه دادههای آموزشی به دست آورده و سپس با استفاده از پارامترهای بهینه تعیین شده، به انجام آزمایشها بر روی مجموعه دادههای آزمایشی میپردازیم. مقدار بهینه پارامتر σ از مجموعه{100،20، 10،9، 8،7،6،5 ،4،3،2، 1،5 /0،2 /0} با استفاده از اعتبارسنجی عرضی با ده تکرار انتخاب میشود. نتایج طبقهبندی روش پیشنهادی و روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی، در جدول 1 نشان داده شده است. پارامتر n مقدار ژنهای استفاده شده در طبقهبندی را نشان میدهد. مرحله انتخاب ژن روش پیشنهادی توانسته است با استفاده از معیار بهره اطلاعاتی 230 ژن و با استفاده از معیار نسبت بهره 86 ژن از 7129 ژن را انتخاب کند. نتایج آزمایشها حاکی از آن است که روش پیشنهادی توانسته است با انتخاب ژنهای مناسب به عملکرد خوبی دست یابد. همان گونه که از جدول 1 مشخص است، کارایی روش پیشنهادی با هر دو معیار بهره اطلاعاتی و نسبت بهره در تشخیص لوسمی میلوژنیکو لنفوسیتیک حاد در مقایسه با روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی، به طور چشمگیری بهبود یافته است. نتایج این جدول هم چنین نشان میدهد روش پیشنهادی به طور قابل توجهی تعداد ژنها را کاهش داده که این امر موجب افزایش سرعت و ساده شدن سیستم میشود. با مقایسه نتایج به دست آمده توسط روش پیشنهادی با استفاده از معیارهای بهره اطلاعاتی و نسبـت بهـره مشخص میگردد که معیار نسبت
جدول 1: مقایسه عملکرد روش پیشنهادی و روش طبقهبندی ناپارامتری هسته تابع پایه شعاعی
نام روش
تعداد ژن (n)
دقت (Accuracy)
حساسیت (Sensitivity)
اختصاصیت (Specificity)
روش طبقهبندی ناپارامتری هسته تابع پایه شعاعی
7129
29/35%
90%
50/12%
روش پیشنهادی با معیار بهره اطلاعاتی
230
06/97%
100%
83/95%
روش پیشنهادی با معیار نسبت بهره
86
06/97%
100%
83/95%
جدول 2: مقایسه عملکرد روش طبقهبندی ناپارامتر هسته تابع پایه شعاعی با استفاده از تمام ژنها و ژنهای تعیین شده توسط روش پیشنهادی
نام روش
تعداد ژنها (n)
دقت (Accuracy)
حساسیت (Sensitivity)
اختصاصیت (Specificity)
روش طبقهبندی ناپارامتری هسته تابع پایه شعاعی
7129
29/35%
90%
50/12%
روش طبقهبندی ناپارامتری هسته تابع پایه شعاعی با معیار بهره اطلاعاتی
230
12/94%
100%
67/91%
روش طبقهبندی ناپارامتری هسته تابع پایه شعاعی با معیار نسبت بهره
86
12/94%
100%
67/91%
بهره توانسته است با تعداد ژنهای کمتری به عملکردی یکسان با معیار بهره اطلاعاتی در طبقهبندی دادهها دست یابد. به منظور بررسی بیشتر ژنهای استخراج شده توسط روش پیشنهادی، روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی با استفاده از ژنهای تعیین شده توسط روش پیشنهادی مورد آزمایش قرار میگیرد(جدول 2). همان گونه که در جدول 2 نشان داده شده است، عملکرد روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی، با استفاده از ژنهای استخراج شده توسط روش پیشنهادی به طور قابل توجهی بهبود یافته است. هم چنین نتایج این جدول نشان میدهند که معیار نسبت بهره با تعداد ژنهای کمتری قادر به طبقهبندی دادههای لوسمیمیلوژنیک و لنفوسیتیک حاد است.
بحث در این مطالعه، دادههای بیان ژن سرطان خون باروش طبقهبندی ناپارامتری هسته تابع پایهشعاعی ناهمسانگردبا استفاده از معیار انتخاب ژن بهره اطلاعاتی و نسبت بهره طبقهبندی گردیدند. روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی ناهمسانگرد،با معیار بهره اطلاعاتی با انتخاب 230 ژن به دقت 12/94٪ و با معیار نسبت بهره با انتخاب 86 ژن به دقت12/94٪ رسید. در حالیکه روش طبقهبندی ناپارامتری هسته تابع پایهشعاعی، با استفاده از 7121 ژن به دقت 29/35% رسید. بن دور و همکاران دادههای ریز آرایه لوسمی را با روش نزدیکترین همسایه و ماشینبردار پشتیبان با استفاده از هسته درجه دوم مورد بررسی قرار دادند و به ترتیب با دقت6/91% و 4/94% ، قادر به شناسایی انواع سرطان بودند (18). نگونو همکاران با روش جداسازی لجستیک، دادههای ریز آرایه لوسمی را مورد بررسی قرار دادند و با دقت 4/94% قادر به تشخیص انواع سرطان بودند، هم چنین این محققان با روش تحلیل جداسازی درجه دوم به دقت 4/95% رسیدند(19). لی و همکاران در مطالعه دیگری با انتخاب روش الگوریتم ژنتیک و طبقهبندی کننده KNN به دقت6/84% در ریز آرایه لوسمی دست یافتند(20).چن و لین در سال 2011 با انتخاب مجموعه دادههای بیان ژن مربوط به سرطان خون و انجام روش BPNN بـا دقـت 83/95% قـادر بـه تشخیص انواع سرطان خون شدند(21). ونگ و همکـاران در سـال 2006 از دادههای بیان ژن و روشKNN و Single NF برای طبقهبندی بیماران سرطان خون مبتلا به دو نوع AML و ALL استفاده کردند و به ترتیب به دقت 64/72% و 5/87% رسیدند(22). کای و همکاران در سال 2014 مطالعهای بر روی دادههای ریزآرایه سرطان خون با استفاده از روشی موسوم به I-RELIEF-NB انجام دادند و به دقت 67/91% رسیدند. همین محققان روش I-RELIEF-LDA را بر روی مجموعه دادههای بالا انجام دادند و به دقت 86/92% رسیدند. بالاترین دقت این محققان زمانی بود که آنها از روش RELIEF-KNN استفاده کردند و به دقت 44/94% رسیدند (23). ژانگ و همکاران در سال 2012 مطالعهای بر روی
مجموعه دادههای ریزآرایه خون انجام دادند و از روش BMSF-NB استفاده نمودند و به دقت 25/96% رسیدند(24).
نتیجهگیری نتایج این مطالعه نشان داد، روش برآورد ناپارامتری هسته، تابع پایه شعاعیناهمسانگرد با معیار نسبت بهره و انتخاب ژنهای مناسب، با دقت بالایی قادر به تشخیص سرطان لوسمیاست. بنابراین به نظر میرسد روش پیشنهادی میتواند در تشخیص دقیقتر انواع لوسمیکمک کند تا تصمیمات مناسب تری در مورد نحوه تشخیص و درمان بیماران گرفته شود.
Sheikhpour R, Sheikhpour R, Aghasaram M. A new approach for diagnosis of Acute Myeloid and Lymphoblastic Leukemia using gene expression profile and machine learning techniques. Sci J Iran Blood Transfus Organ 2016; 13 (3) :207-214 URL: http://bloodjournal.ir/article-1-1011-fa.html
شیخپور رباب، شیخپور راضیه، آقا صرام مهدی. روشی جدید برای تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد با استفاده از دادههای بیان ژن و روشهای یادگیری ماشین. فصلنامه پژوهشی خون. 1395; 13 (3) :207-214