Sheikhpour R, Aghaseram M, Sheikhpour R. Diagnosis of acute myeloid and lymphoblastic leukemia using gene selection of microarray data and data mining algorithm. Sci J Iran Blood Transfus Organ 2016; 12 (4) :347-357
URL:
http://bloodjournal.ir/article-1-930-fa.html
شیخ پور راضیه، آقاصرام مهدی، شیخپور رباب. تشخیص لوسمی لنفوسیتی و میلوئیدی حاد با استفاده از انتخاب ژن دادههای ریزآرایه و الگوریتمهای داده کاوی. فصلنامه پژوهشی خون. 1394; 12 (4) :347-357
URL: http://bloodjournal.ir/article-1-930-fa.html
یزد، ایران ـ صندوق پستی: 56965-89156
متن کامل [PDF 374 kb]
(3451 دریافت)
|
چکیده (HTML) (7704 مشاهده)
متن کامل: (6621 مشاهده)
تشخیص لوسمی لنفوسیتی و میلوئیدی حاد با استفاده از انتخاب ژن دادههای
ریزآرایه و الگوریتمهای داده کاوی
راضیه شیخپور1، مهدی آقاصرام2، رباب شیخپور3
چکیده
سابقه و هدف
تکنولوژی ریزآرایه، یک تصویر کلی از میزان بیان هزاران ژن به طور هم زمان ارایه میدهد. تفسیر دادههای ریز آرایه بدون آنالیز آماری و روشهای هوش مصنوعی ممکن نیست. هدف این مقاله، تشخیص انواع لوسمی حاد با استفاده از مجموعه دادههای ریز آرایه و الگوریتمهای داده کاوی بود.
مواد و روشها
در این مطالعه توصیفی از دادههای بیان 7129 ژن مربوط به 72 بیمار مبتلا به لوسمی استفاده شد. سپس با انتخاب ژنهای مهم بر اساس روشهای ضریب همبستگی، بهره اطلاعاتی، نسبت بهره و امتیاز Fisher و با استفاده از روشهای جداکننده خطی، ماشینبردار پشتیبان، k نزدیکترین همسایه، بیزین ساده، شبکه بیزین، نزدیکترین میانگین، رگرسیون لجستیک، شبکه عصبی پرسپترون چند لایه و درخت تصمیم J48 برروی ژنهای انتخاب شده به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد پرداخته شد.
یافتهها
روشهای نزدیکترین میانگین، ماشینبردار پشتیبان، k نزدیکترین همسایه، بیزین ساده و شبکه عصبی پرسپترون چند لایه با استفاده از 39 ژن انتخاب شده توسط نسبت بهره با دقت 100٪ ، قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند. هم چنین روش ماشینبردار پشتیبان با استفاده از 87 ژن انتخاب شده توسط بهره اطلاعاتی و روش شبکه عصبی پرسپترون چند لایه با استفاده از 133 ژن انتخاب شده توسط بهره اطلاعاتی با دقت 100٪ ، قادر به تشخیص آن میباشند.
نتیجه گیری
نتایج این مطالعه نشان داد که انتخاب ژنها و الگوریتمهای داده کاوی قادر به تشخیص انواع لوسمی با دقت بسیار بالایی هستند، بنابراین با استفاده از این روشها، میتوان تصمیمات مناسبی در مورد نحوه تشخیص و درمان بیماران گرفت.
کلمات کلیدی: لوسمی لنفوسیتیک حاد، لوسمی میلوژنیک حاد، آنالیز ریز آرایه، داده کاوی
تاریخ دریافت : 17/10/93
تاریخ پذیرش : 21/4 /94
1- دانشجوی دکترای کامپیوتر ـ دانشکده مهندسی برق و کامپیوتر ـ دانشگاه یزد ـ یزد ـ ایران
2- دکترای تخصصی کنترل سیستمها ـ دانشیار دانشکده مهندسی برق و کامپیوتر ـ دانشگاه یزد ـ یزد ـ ایران
3- مؤلف مسئول: PhD بیوشیمی ـ دانشکده پزشکی، واحد یزد، دانشگاه آزاد اسلامی و مرکز تحقیقات خون و انکولوژی، دانشگاه علوم پزشکی شهید صدوقی، یزد، ایران، صندوق پستی: 56965-89156
مقدمه
سرطان بعد از بیماریهای قلبی ـ عروقی، دومین علت اصلی مرگ و میر در جهان میباشد. سرطان یک بیماری ژنتیکی است که در نهایت زاییده اثرات عوامل محیطی است(2، 1). اگر سرطانها در مراحل اول تشخیص داده شوند، قابل معالجه هستند(3). سرطان خون یا لوسمی؛ بیماری پیشرونده و بدخیم اعضای خون ساز بدن است و یکی از مهمترین سرطانهایی است که جامعه بشری با آن درگیر میباشد(4). این بیماری در اثر تکثیر و تکامل ناقص گویچههای سفید خون و پیشسازهای آن در خون و مغز استخوان ایجاد میشود. در بیماری لوسمی، مغز استخوان به صورت غیر عادی، مقدار بسیار زیادی سلول خونی تولید میکند. این سلولها با سلولهای خون طبیعی متفاوت هستند و درست عمل نمیکنند. در نتیجه، تولید سلولهای سفید خون طبیعی را متوقف کرده و توانایی فرد را در مقابله با بیماریها از بین میبرند. سلولهای لوسمی بر تولید سایر انواع سلولهای خونی که از مغز استخوان تولید میشوند مانند گلبولهای قرمز خون و پلاکتها نیز تاثیر میگذارند(4).
لوسمی نیز خود بر اساس طیف، شدت و سرعت پیشرفت روند بیماری به حاد و مزمن و نیز بر اساس نوع گلبول سفید درگیر، به لنفوئیدی و میلوئیدی تقسیم میشود(5، 4). 1- لوسمی میلوژنیک حاد(AML = Acute Myeloid Leukemia) سلولهای مغز استخوان یا میلوسیتها را تحث تاثیر قرار میدهد و روندی حاد دارد. در این بیماری، مغز استخوان، میلوبلاستها، گلبولهای قرمز یا پلاکتهای غیر طبیعی میسازد. 2- لوسمی میلوژنیک مزمن(CML = Chronic Myeloid Leukemia) سلولهای مغز استخوان یا میلوسیتها را تحت تاثیر قرار میدهد و روندی مزمن دارد. 3- لوسمی لنفوسیتیک حاد (ALL = Acute Lymphoblastic Leukemia) سلولهای لنفاوی یا لنفوسیتها را تحت تاثیر قرار میدهد و روندی حاد دارد(6). 4- لوسمی لنفوسیتیک مزمن(CLL = Chronic Lymphocytic Leukemia) سلولهای لنفاوی یا لنفوسیتها را تحث تاثیر قرار میدهد و روندی مزمن دارد.
بـسیاری از مطالعـههـا رونـد بـدخیمـی لـوسمی را به ناهنجاریهای ژنتیکی نسبت میدهند و مطالعههای زیادی پیرامون کشف عوامل مولکولی درگیر در این بیماری صورت گرفته است(8 ،7). یکی از حوزههای جدید دانش در کشف بیان ژنها در حالت بیماری، استفاده از تکنولوژی ریز آرایه(میکرواری) است که یک تصویر کلی از میزان بیان ژن را ارایه میدهد(8). تکنولوژی ریز آرایه که روشی بسیار قدرتمند است، امکان بررسی هم زمان بسیاری از فعل و انفعالات زیستی را فراهم میکند و انتظار میرود با تحلیل آماری تغییرات بیان هزاران ژن به طور هم زمان، بتوان ژنهای مؤثر در سرطان را شناسایی و در زمینه درمان این بیماری گامهای مهمی برداشت(15-9). این تکنولوژی در دو زمینه ژنومیکس(مطالعه مجموعه ژنهای موجود زنده) و پروتئومیکس(مطالعه مجموعه پروتئینهای موجود زنده) کاربردهای وسیعی دارد(8). در روش ریز آرایه هر توالی ژنی شناخته شده مورد نظر به عنوان یک پروب(Probe) روی یک آرایه (Array) شیشهای یا نایلونی چاپ میشود.mRNA از بافت یا نمونه خون با رنگهای فلورسنت علامتگذاری میشود و پروبها بر روی یک آرایه هیبرید میشود. به طور کلی برای تهیه آرایه DNA باید طبق مراحل زیر عمل کرد: نمونهگیری، خالصسازی نمونه، جداسازی mRNAها، انجام رونویسی معکوس و تهیه cDNA، متصل کردن cDNAبه رنگهای فلوئورسنت، ریختن محلول بر روی سطح ریز آرایه که از قبل توسط توالیهای ژن مورد نظر پوشیده شده است، انجام هیبریداسیون میان DNA ها و توالیهای سطح ریز آرایه، شستشو، بررسی و پردازش نتایج(16، 7). مهمترین کاربردهای ریز آرایه عبارتند از؛ بررسی بیان ژن و تغییرات آن در اثر عواملی مانند درمان، عوامل بیماریزا، آسیب سلول، هیبریدسازی مقایسهای ژنوم، تعیین محتوای ژنوم موجودات زنده، مقایسه آنها با یکدیگر، شناسایی چند شکلیهای تک نوکلئوتیدی، تشخیص بیماری و طبقه بندی سرطان(17). ابعاد بالا، تعداد نسبتاً کم نمونهها و تغییرپذیری ذاتی در فرآیندهای آزمایشگاهی و بیولوژیکی باعث ایجاد مشکلاتی در آنالیز دادههای ریزآرایه شده است، از این رو، اولین گام مهم در آنالیز دادههای ریز آرایه، کاهش تعداد ژنها یا به عبارتی انتخاب ژنهای متمایزکننده است و انجام این فرآیندها بدون کمک آنالیز آماری و روشهای هوشمند تحلیل اطلاعات ممکن نیست(18). الگوریتمهای مختلف داده کاوی و یادگیری ماشین (Machine learning) میتوانند در خوشهبندی و دستهبندی ژنها مورد استفاده قرار گیرند و این روشها کمک مؤثری در تصمیمگیری در مورد تشخیص بیماریها و شیوه درمان، ارایه میدهند(4). به کمک پیشرفتهای فناوری در بیوانفورماتیک و روشهای مولکولی، دادههای زیادی به دست آمده که در شناخت زودرس بیماری سرطان کمک خواهد کرد. هم چنین غربالگری به موقع برای بعضی از سرطانها، کمک مؤثری در تشخیص زودرس آن مینماید (2). مطالعههای متعددی توسط محققان بر روی مجموعه دادههای بیان ژن لوسمی با روشهای مختلف انجام گرفته است(21-19). با توجه به این که گرفتن تصمیم مناسب برای درمان انواع لوسمی از مهمترین فعالیتها بعد از تشخیص نوع سرطان است، هدف از انجام این مقاله، تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد با استفاده از انتخاب ژن دادههای ریز آرایه و الگوریتمهای داده کاوی بود.
مواد و روشها
مطالعه حاضر توصیفی و داده محور است و پایه اصلی آن داده کاوی و بررسی دادههای بیان ژن لوسمی میلوژنیک و لنفوسیتیک حاد میباشد که با استفاده از فناوری ریز آرایه به وجود آمده است. روشهای مختلفی برای پیاده سازی و اجرای پروژههای داده کاوی وجود دارد. در این مطالعه، مدلی جهت تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد بر اساس متدولوژیCRISP ارائه شده که شامل فازهای شناخت سیستم، شناخت دادهها، آمادهسازی دادهها، مدلسازی، ارزیابی و توسعه میباشد. در ادامه، مراحل مدل پیشنهادی شرح داده میشوند.
شناخت سیستم:
در مرحله شناخت سیستم، اهداف سیستم مورد نظر بررسی و مشخص میگردند. رشد گسترده لوسمی در جهان نیاز به سیستمی برای تشخیص آن را ضروری میسازد. یکی از دقیقترین روشها برای کشف و پیشبینی بیماری لوسمی، استفاده از DNA افراد و اطلاعات ژنتیکی آنها میباشد. تکنولوژی ریز آرایه، ابزاری برای بررسی بیان هزاران ژن در حداقل زمان ممکن است. هدف سیستم پیشنهادی، تشخیص هوشمند انواع لوسمی حاد با استفاده از مجموعه دادههای ریز آرایه و روشهای داده کاوی است.
شناخت دادهها:
مرحله شناخت دادهها شامل جمعآوری دادههای اولیه، توصیف دادهها و بازرسی و بررسی دادهها است. در این مطالعه از دادههای بیان 7129 ژن مربوط به 72 بیمار مبتلا به لوسمی میلوژنیک و لنفوسیتیک حاد استفاده شد که با کمک فناوری ریز آرایه به دست آمد و توسط گلوب و همکاران ارایه گردیده است(7). هر بیمار با بر چسب لوسمی میلوژنیک حاد یا لوسمی لنفوسیتیک حاد(ALL) مشخص گردید که نشاندهنده نوع لوسمی در وی بود. از 72 بیمار مذکور، 47 بیمار مبتلا به لوسمی لنفوسیتیک حاد و 25 بیمار مبتلا به لوسمی میلوژنیک حاد بودند. برای ارزیابی کارآیی و مقایسه الگوریتمهای داده کاوی باید دادهها به دو دسته آزمون و آزمایشی تقسیم شوند و تمام الگوریتمها با مجموعه آموزشی یکسانی آموزش داده شده و با مجموعه آزمون یکسانی مورد آزمایش قرار گیرند. دادههای بیان ژن مورد استفاده در این مطالعه قبلاً به دو دسته دادههای آموزشی و دادههای آزمون تقسیم شدند. دادههای آموزشی، بیان ژن 38 بیمار( شامل 27 بیمار مبتلا به لوسمی لنفوسیتیک حاد و 11 بیمار مبتلا به لوسمی میلوژنیک حاد) و دادههای آزمون بیان ژن 34 بیمار( شامل 20 بیمار مبتلا به لوسمی لنفوسیتیک حاد و 14 بیمار مبتلا به لوسمی میلوژنیک حاد) را مشخص نمودند.
آمادهسازی دادهها:
مرحله آمادهسازی دادهها جهت بهبود کیفیت دادههای واقعی برای داده کاوی لازم است و شامل انتخاب، پاکسازی، تبدیل دادهها و نرمالسازی دادهها است. انتخاب، تبدیل و تغییر شکل ویژگیها، مهمترین موضوعاتی هستند که کیفیت یک راه حل داده کاوی را تعیین میکنند. در دادههای به دست آمده توسط فناوری ریز آرایه که مربوط به بیان هزاران ژن هستند، یکی از مهمترین موضوعات، کاهش و انتخاب ژنها است. مسئله انتخاب ژن در واقع شناسایی و انتخاب یک زیر مجموعه مفید از ژنها است که حداکثر توان را در پیشگویی لوسمی میلوژنیک یا لوسمی لنفوسیتیک حاد دارا باشند. در مدل پیشنهادی این مطالعه برای انتخاب ژنها از روشهای انتخاب ویژگی زیر استفاده گردید.
1- انتخاب ژنها با استفاده از روش انتخاب ویژگی مبتنی بر ضریب همبستگی(Correlation Coefficient) دادهها با داده تصمیمگیری(برچسب کلاس)
2- انتخاب ژنها با استفاده از روش انتخاب ویژگی بهره اطلاعاتی (Information Gain)
3- انتخاب ژنها با استفاده از روش انتخاب ویژگی نسبت بهره (Gain Ratio)
4- انتخاب ژنها با استفاده از روش انتخاب ویژگی امتیاز Fisher (Fisher Score)
در مدل پیشنهادی با استفاده از روشهای فوق به رتبهبندی ژنها پرداخته و ژنهای مهم با بالاترین رتبه انتخاب و ژنهای دارای رتبه پایین حذف میشوند. معیار انتخاب زیر مجموعه ژنها در مدل پیشنهادی مطابق رابطه زیر تعریف میشود:
در این رابطه [S1, S2,…, Sd] بردار مرتب شده رتبهبندی ژنها به صورت نزولی است. از بردار مرتب شده رتبه ژنها زیر مجموعهای از ژنها شامل kژن انتخاب میشوند بـه طوری که جمع رتبههـای آنهـا (C)، درصد جمع رتبههای تمام ژنها باشد.
در این مطالعه، سه مقدار 01/0، 02/0 و 03/0 برای پارامتر C در نظرگرفته شدند.
مدلسازی:
در مرحله مدلسازی با استفاده از الگوریتمهای مختلف داده کاوی، به مدلسازی دادهها و پیدا کردن مدل بهینه پرداخته شد. برای مدلسازی از نرمفزار Matlab R2013a و ابزار دادهکاوی Weka استفاده میشود و روشهای جداکننده خطی، ماشین بردار پشتیبان (SVM-linear)، k نزدیکترین همسایه، بیزین ساده، شبکهی بیزین، نزدیکترین میانگین، رگرسیون لجستیک، شبکهی عصبی پرسپترون چند لایه و درخت تصمیم J48 برای مدلسازی دادهها به کار میروند.
در ادامه روشهای استفاده شده برای مدلسازی دادهها شرح داده میشوند:
- روش جداکننده خطی: روش جداکننده خطی فرض میکند که نمونههای یک کلاس به صورت خطی از نمونههای کلاس دیگر جداپذیرند. جدا بودن خطی نمونه های یک کلاس بدین معناست که بتوان با استفاده از یک رابطه خطی، نمونههای یک کلاس را از نمونههای کلاس دیگر جدا نمود.
- روش ماشین بردار پشتیبان (SVM): این روش با ساخت یک ابرسطح (که عبارت است از یک معادله خطی)، سعی دارد بهترین ابرسطحی را پیدا کند که با حداکثر فاصله ، دادههای مربوط به دو کلاس را از هم تفکیک کند.
- روش k نزدیکترین همسایه (KNN): این روش یک روش دستهبندی است که تصمیمگیری در مورد این که یـک نمونـه جدید در کــدام کلاس قرار گیرد با بررسی تعدادی (k) از شبیهترین نمونهها یا همسایهها انجام میشود. این روش برای یافتن شباهت بین نمونهها نیاز به یک معیار فاصله نظیر فاصله اقلیدسی یا فاصله منهتن
دارد.
- روش بیزین ساده: این روش مبتنی بر قانون بیزین است و فرض میکند ویژگیها از هم مستقل هستند. در روش بیزین ساده تنها نیاز است تا واریانس ویژگیها به ازای هر کلاس محاسبه شود و نیازی به محاسبه ماتریس کوواریانس نیست.
- شبکه بیزین: شبکه بیزین یک گراف جهتدار غیر حلقوی است که از گرهها برای نمایش ژنها و از کمانها برای نمایش روابط احتمالی مابین ژنها استفاده میکند. در این شبکـه، xi یـک ژن اسـت و گرههای والد این ژن
بـا Parent(xi) نشـان داده میشونـد و توزیع احتمال توأم مجموعهای از ژنها محاسبه میگردد.
- روش نزدیکترین میانگین: این روش بر اساس قانون بیزین است و فرض میکند ویژگیها از هم مستقل هستند. روش نزدیکترین میانگین فرض میکند که واریانس همه کلاسها و هم چنین احتمالهای پیشین تمام کلاسها مساوی هستند و نمونه جدید را به کلاسی با نزدیکترین میانگین اختصاص میدهد.
- رگرسیون لجستیک: رگرسیون لجستیک یکی از مدلهای خطی تعمیم یافته است که برای تحلیل رابطه یک یا چند متغیر اسمی بر متغیر پاسخ رستهای به کار میرود. رگرسیون لجستیک، شبیه رگرسیون خطی است با این تفاوت که نحوه محاسبه ضرایب در این دو روش یکسان نمیباشد. رگرسیون لجستیک، به جای حداقل کردن مجذور خطاها، احتمال وقوع یک واقعه را حداکثر میکند. رگرسیون لجستیک از آمارههای کای اسکوئر(c2) و والد استفاده میکند.
- شبکههای عصبی پرسپترون چند لایه: شبکههای عصبی مصنوعی از یک سری لایهها شامل اجزای سادهای به نام نرون تشکیل شدهاند که هماهنگ با هم برای حل مسائل به کار میروند. شبکههای عصبی پرسپترون از چند لایه شامل لایه ورودی، لایههای پنهان و لایه خروجی تشکیل شده است. در شبکه عصبی پرسپترون چند لایه، هر نرون در هر لایه به تمام نرونهای لایه قبل متصل است. لایه ورودی، یک لایه انتقال دهنده و لایه خروجی شامل مقادیر پیشبینی شده به وسیله شبکه است و لایههای پنهان که از نرونهای پردازشگر تشکیل شدهاند و محل پردازش دادهها هستند.
- درخت تصمیم J48 : درخت تصمیم، ساختاری شبیه به فلوچارت دارد که بالاترین گره، ریشه درخت است و گرههای برگ، دستهها یا توزیع دستهها را نشان میدهند. درخت تصمیم با مرتب کردن نمونهها در درخت از گره ریشه به سمت گرههای برگ آنها را دستهبندی میکند. الگوریتم J48 ، درخت تصمیم C4.5 است که توسط نرمافزار Weka ارایه میشود و از مفهوم آنتروپی اطلاعات استفاده میکند.
ارزیابی:
در این مرحله به ارزیابی نتایج حاصل از مدلسازی با استفاده از شاخصهای دقت، حساسیت و اختصاصیت پرداخته میشود. میزان دقت یک روش دستهبندی بر روی مجموعه دادههای آزمون، درصد مشاهداتی از مجموعه آزمون است که به درستی توسط مدل مورد استفاده دستهبندی شده است. حساسیت عبارت است از میزانی برای مشخصکردن توانایی سیستم در تشخیص و دستهبندی بیماران مبتلا به لوسمی میلوژنیک حاد که سیستم آنها را به صورت صحیح دستهبندی مینماید. اختصاصیت عبارت است از میزانی برای مشخصکردن توانایی سیستم در تشخیص و دستهبندی بیماران مبتلا به لوسمی لنفوستیک حاد که سیستم آنها را به صورت صحیح لوسمی لنفوستیک حاد تشخیص میدهد.
توسعه:
در مرحله توسعه، با توجه به نتایج به دست آمده در مرحله ارزیابی، مدلی که دارای عملکرد مناسبی است برای دستهبندی دادهها به کار میرود.
یافتهها
در این مطالعه، سه مقدار 01/0، 02/0 و 03/0 برای پارامتر C در نظر گرفته میشوند. تعداد ژنهای انتخاب شده توسط روشهای انتخاب ژن با مقادیر مختلف پارامتر C در جدول 1 نشان داده شده است.
همان گونه که در جدول 1 مشخص شده است، تعداد ژنها با استفاده از تمام روشهای انتخاب ژن به طور قابل توجهی کاهش یافته است. پس از انتخاب ژنها، روشهای جداکننده خطی، نزدیکترین میانگین، ماشینبردار پشتیبان (SVM-Linear) ، روش k نزدیکترین همسایه، شبکه بیـزین، بیزیـن ساده، رگرسیـون لجستیـک، شبکـه عصبـی پرسپترون چند لایه و درخت تصمیم J48 بر روی این دادهها اجرا میگردند. در روشهای دستهبندی ذکر شده، بهترین ژنها در هریک از روشهای انتخاب ژن (مقدار بهینه پارامتر C) با استفاده از روش اعتبارسنجی متقاطع با ده تکرار بر روی مجموعه آموزشی به دست آمده است. مقدار بهینه پارامتر k در روش k نزدیکترین همسایه نیز با استفاده از روش اعتبارسنجی متقاطع با ده تکرار بر روی مجموعه آموزشی به دست آمد. سپس آزمایشها را با استفاده از ژنهای انتخاب شده بر روی مجموعه دادههای آزمون انجام دادیم. نتایج بررسی روشهای گوناگون دستهبندی با استفاده از شاخصهای دقت، حساسیت و اختصاصیت با استفاده از روش انتخاب ژن ضریب همبستگی بر روی مجموعه دادههای آزمون نشان داده شد (جدول 2).
همان گونه که در جدول 2 مشاهده میشود، روش ماشینبردار پشتیبان با استفاده از 77 ژن انتخاب شده توسط ضریب همبستگی، دارای عملکرد بهتری در مقایسه با سایر روشها است و با دقت بالایی قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد است. روش درخت تصمیم J48 و رگرسیون لجستیک، دارای عملکرد نسبتاً ضعیفی در دستهبندی انواع لوسمی حاد میباشد.
جدول 1: تعداد ژنهای انتخاب شده توسط روشهای انتخاب ژن
روش انتخاب ژن |
مقدار پارامتر C |
تعداد ژنهای انتخاب شده |
ضریب همبستگی |
01/0 |
38 |
بهره اطلاعاتی |
01/0 |
45 |
نسبت بهره |
01/0 |
39 |
امتیاز Fisher |
01/0 |
10 |
ضریب همبستگی |
02/0 |
77 |
بهره اطلاعاتی |
02/0 |
87 |
نسبت بهره |
02/0 |
86 |
امتیاز Fisher |
02/0 |
24 |
ضریب همبستگی |
03/0 |
116 |
بهره اطلاعاتی |
03/0 |
133 |
نسبت بهره |
03/0 |
123 |
امتیاز Fisher |
03/0 |
41 |
جدول 2: نتایج عملکرد روشهای دستهبندی بر روی ژنهای انتخاب شده توسط ضریب همبستگی
نام روش |
تعداد ژن |
دقت |
حساسیت |
اختصاصیت |
جداکننده خطی |
77 |
71/64% |
20% |
33/83% |
نزدیکترین میانگین |
38 |
24/38% |
100% |
50/12% |
ماشینبردار پشتیبان |
77 |
06/97% |
100% |
83/95% |
k نزدیکترین همسایه (1= k) |
38 |
12/94% |
100% |
67/91% |
شبکیه بیزین |
38 |
24/38% |
100% |
50/12% |
بیزین ساده |
38 |
12/94% |
100% |
67/91% |
رگرسیون لجستیک |
116 |
47/26% |
50% |
67/16% |
شبکه عصبی پرسپترون |
38 |
18/91% |
100% |
50/87% |
درخت تصمیم 48 J |
116 |
47/26% |
90% |
0% |
جدول 3: نتایج عملکرد روشهای دستهبندی بر روی ژنهای انتخاب شده توسط بهره اطلاعاتی
نام روش |
تعداد ژن |
دقت |
حساسیت |
اختصاصیت |
جداکننده خطی |
87 |
53/73% |
20% |
83/95% |
نزدیکترین میانگین |
45 |
06/97% |
100% |
83/95% |
ماشینبردار پشتیبان |
87 |
100% |
100% |
100% |
k نزدیکترین همسایه(5 = k) |
45 |
06/97% |
100% |
83/95% |
شبکه بیزین |
45 |
24/38% |
100% |
50/12% |
بیزین ساده |
45 |
06/97% |
100% |
83/95% |
رگرسیون لجستیک |
45 |
12/44% |
100% |
83/20% |
شبکه عصبی پرسپترون |
133 |
100% |
100% |
100% |
درخت تصمیم 48J |
45 |
35/32% |
100% |
17/4% |
جدول 4: نتایج عملکرد روشهای دستهبندی بر روی ژنهای انتخاب شده توسط نسبت بهره
نام روش |
تعداد ژن |
دقت |
حساسیت |
اختصاصیت |
جداکننده خطی |
39 |
59/20% |
40% |
50/12% |
نزدیکترین میانگین |
39 |
100% |
100% |
100% |
ماشینبردار پشتیبان |
39 |
100% |
100% |
100% |
k نزدیکترین همسایه(5= k) |
39 |
100% |
100% |
100% |
شبکه بیزین |
86 |
06/97% |
100% |
83/95% |
بیزین ساده |
39 |
100% |
100% |
100% |
رگرسیون لجستیک |
39 |
06/97% |
100% |
83/95% |
شبکه عصبی پرسپترون |
39 |
100% |
100% |
100% |
درخت تصمیم 48 J |
39 |
35/32% |
100% |
17/4% |
جدول 5: نتایج عملکرد روشهای دستهبندی بر روی ژنهای انتخاب شده توسط نسبت امتیاز Fisher
نام روش |
تعداد ژن |
دقت |
حساسیت |
اختصاصیت |
جداکننده خطی |
10 |
12/44% |
90% |
25% |
نزدیکترین میانگین |
24 |
12/94% |
100% |
67/91% |
ماشینبردار پشتیبان |
41 |
06/97% |
100% |
83/95% |
k نزدیکترین همسایه(1= k) |
41 |
12/94% |
100% |
67/91% |
شبکه بیزین |
41 |
18/41% |
100% |
67/16% |
بیزین ساده |
24 |
06/97% |
100% |
83/95% |
رگرسیون لجستیک |
24 |
18/41% |
100% |
67/16% |
شبکه عصبی پرسپترون |
10 |
18/41% |
100% |
67/16% |
درخت تصمیم 48 J |
10 |
35/32% |
100% |
17/4% |
نتایج عملکرد روشهای دستهبندی گوناگون بر روی ژنهای انتخاب شده، توسط روش بهره اطلاعاتی بر روی مجموعه دادههای آزمون به دست آمد(جدول 3).
نتایج جدول 3 نشان میدهد که روشهای ماشینبردار پشتیبان و شبکه عصبی پرسپترون چند لایه با استفاده از ژنهای مناسب انتخاب شده، توسط بهره اطلاعاتی با دقت 100٪ قادر به تشخیص انواع لوسمی حاد هستند. روشهای نزدیکترین میانگین، k نزدیکترین همسایه و بیزین ساده نیز دارای عملکرد خوبی در تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند.
جدول 4، نتایج عملکرد روشهای دستهبندی گوناگون بر روی ژنهـای انتخـاب شـده توسـط روش نسبـت بهره
بر روی مجموعه دادههای آزمون را نشان میدهد.
همان گونه که در جدول 4 نشان داده شده است، روشهای نزدیکترین میانگین، ماشینبردار پشتیبان، k نزدیکترین همسایه، بیزین ساده و شبکه عصبی پرسپترون چند لایه با استفاده از ژنهای انتخاب شده توسط نسبت بهره با دقت 100٪ قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند.
روشهای شبکه بیزین و رگرسیون لجستیک نیز دارای عملکرد خوبی در تشخیص انواع لوسمی حاد هستند. نتایج عملکرد روشهای دستهبندی گوناگون با استفاده از روش انتخاب ژن بر روی مجموعه دادههای آزمون نشان داده شد(جدول 5).
جدول 6: 39 ژن انتخاب شده توسط معیار نسبت بهره
توصیف ژن |
شماره الحاق ژن |
توصیف ژن |
شماره الحاق ژن |
ADM Adrenomedullin |
D14874_at |
CYSTATIN A |
D88422_at |
SNRPN Small nuclear ribonucleoprotein polypeptide N |
J04615_at |
CPM Carboxypeptidase M |
J04970_at |
CATHEPSIN G PRECURSOR |
J04990_at |
SPTAN1 Spectrin, alpha, non-erythrocytic 1 (alpha-fodrin) |
J05243_at |
Tetracycline transporter-like protein mRNA |
L11669_at |
Inducible protein mRNA |
L47738_at |
MPO Myeloperoxidase |
M19507_at |
CST3 Cystatin C (amyloid angiopathy and cerebral hemorrhage) |
M27891_at |
CARCINOEMBRYONIC ANTIGEN PRECURSOR |
M29540_at |
PTX3 Pentaxin-related gene, rapidly induced by IL-1 beta |
M31166_at |
ALDH1 Aldehyde dehydrogenase 1, soluble |
M31994_at |
PPBP Connective tissue activation peptide III |
M54995_at |
FAH Fumarylacetoacetate |
M55150_at |
DF D component of complement (adipsin) |
M84526_at |
CCND3 Cyclin D3 |
M92287_at |
Azurocidin gene |
M96326_rna1_at |
Pre-B cell enhancing factor (PBEF) mRNA |
U02020_at |
Leukotriene C4 synthase (LTC4S) gene |
U50136_rna1_at |
Small GTP-binding protein mRNA |
U57094_at |
GB DEF = Homeodomain protein HoxA9 mRNA |
U82759_at |
LMP2 gene extracted from H.sapiens genes TAP1, TAP2, LMP2, LMP7 and DOB |
X66401_cds1_at |
CHRNA7 Cholinergic receptor, nicotinic, alpha polypeptide 7 |
X70297_at |
Gp25L2 protein |
X90872_at |
Zyxin |
X95735_at |
GPX1 Glutathione peroxidase 1 |
Y00433_at |
LEPR Leptin receptor |
Y12670_at |
P4HB Procollagen-proline, 2-oxoglutarate 4-dioxygenase (proline 4-hydroxylase), beta polypeptide (protein disulfide isomerase; thyroid hormone binding protein p55) |
J02783_at |
ZNF33B gene |
X68688_rna1_s_at |
KIT V-kit Hardy-Zuckerman 4 feline sarcoma viral oncogene homolog |
X06182_s_at |
P4HB Procollagen-proline, 2-oxoglutarate 4-dioxygenase (proline 4-hydroxylase), beta polypeptide (protein disulfide isomerase; thyroid hormone binding protein p55) |
X05130_s_at |
APLP2 Amyloid beta (A4) precursor-like protein 2 |
L09209_s_at |
TCRA T cell receptor alpha-chain |
M12959_s_at |
ELA2 Elastatse 2, neutrophil |
M27783_s_at |
MYL1 Myosin light chain (alkali) |
M31211_s_at |
Epb72 gene exon 1 |
X85116_rna1_s_at |
HOX 2.2 gene extracted from Human Hox2.2 gene for a homeobox protein |
X58431_rna2_s_at |
TCF3 Transcription factor 3 (E2A immunoglobulin enhancer binding factors E12/E47) |
M31523_at |
|
|
ADM Adrenomedullin |
D14874_at |
CYSTATIN A |
D88422_at |
SNRPN Small nuclear ribonucleoprotein polypeptide N |
J04615_at |
CPM Carboxypeptidase M |
J04970_at |
نتایج حاصل از ارزیابی روشهای گوناگون دستهبندی نشان میدهد که روش ماشینبردار پشتیبان با استفاده از تمام روشهای انتخاب ژن، دارای عملکرد بالایی در تشخیص انواع لوسمی حاد است.
روشهای نزدیکترین میانگین، ماشین بردار پشتیبان، k نزدیکترین همسایه، بیزین ساده و شبکه عصبی پرسپترون چند لایه با استفاده از 39 ژن انتخاب شده توسط نسبت بهره با دقت 100٪ ، قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند(جدول 6). هم چنین روش ماشینبردار پشتیبان با استفاده از 87 ژن انتخاب شده توسط بهره اطلاعاتی و روش شبکه عصبی پرسپترون چند لایه با استفاده از 133 ژن انتخاب شده، توسط بهره اطلاعاتی با دقت 100٪ قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند. روشهای درخت تصمیم 48J و جداکننده خطی با استفاده از ژنهای انتخاب شده توسط تمام روشهای انتخاب ژن دارای عملکرد ضعیفی هستند.
بحث
در این مطالعه دادههای حاصل از ریزآرایه بیماری لوسمی توسط روشهای نزدیکترین میانگین، ماشینبردار پشتیبان، k نزدیکترین همسایه، بیزین ساده و شبکه عصبی پرسپترون چند لایه با استفاده از 39 ژن انتخاب شده توسط نسبت بهره با دقت 100% قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد بودند. هم چنین روش ماشینبردار پشتیبان با استفاده از 87 ژن انتخاب شده توسط بهره اطلاعاتی و روش شبکه عصبی پرسپترون چند لایه با استفاده از 133 ژن انتخاب شده توسط بهره اطلاعاتی با دقت 100% قادر به تشخیص لوسمی میلوژنیک و لنفوسیتیک حاد هستند. لین و چن با روش شبکه عصبی BP به بررسی مجموعه دادههای بیان ژن لوسمی در سال 2011 پرداختند و با دقت 83/95% قادر به تشخیص انواع
سرطان بودند. همین محققان در سال 2011 با روش MTSVSL قادر به تشخیص انواع لوسمی با دقت 67/96% شدند(21). کای و همکاران در سال 2014 برای تشخیص لوسمی از روش I-RELIEF-NB استفاده کردند و با دقت 67/91% قادر به تشخیص انواع لوسمی شدند. این محققان در همان سال با استفاده از روش RELIEF-KNN برای تشخیص سرطان لوسمی به دقت 4/94% دست یافتند(22). هنگ و همکاران در سال 2012 با استفاده از روش BMSF-NB به تشخیص انواع لوسمی پرداختند و با دقت 25/96% قادر به تشخیص لوسمی ALL از AML شدند. همین محققان از روش Gene SrF-NB استفاده نمودند و قادر به تشخیص لوسمی با دقت 58/94% شدند(23). آزادی و همکاران در مطالعه با استفاده از دادههای بیان ژن و آزمایشهای آماری، ژنهای مسئول لوسمی حاد را تشخیص دادند و در پایان مطالعه گزارش کردند که شناخت این ژنها جهت درمان و حتی پیشگیری از آن میتواند بسیار مهم و حایز اهمیت باشد. هم چنین این محققان در مطالعه خود گزارش کردند با اطلاع از نحوه بیان این ژنها در افراد مبتلا، پزشکان قادر خواهند بود که با تجویز داروها و روشهای درمانی مناسب، میزان بیان آنها را کنترل نمایند و باعث کاهش مرگ و میر ناشی از این نوع بیماریها شود(24).
نتیجهگیری
نتایج این مطالعه نشان داد که انتخاب ژنها و الگوریتمهای داده کاوی قادر به تشخیص انواع لوسمی با دقت بسیار بالایی هستند، بنابراین با استفاده از تکنولوژی ریزآرایه و الگوریتمهای دادهکاوی با تشخیص دقیق انواع لوسمی، میتوان تصمیمات مناسبی در مورد نحوه تشخیص و درمان بیماران گرفت.
نوع مطالعه:
پژوهشي |
موضوع مقاله:
ژنتيك انتشار: 1394/10/15