IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی
IRE: Inductive Rule Extraction

IRE: Inductive Rule Extraction

استخراج قانون استقرائی

آموزش کار با سایت NCBI

بخش GENE یافتن اطلاعات کامل یک ژن

آسان و مرحله به مرحله سایت NCBIآموزش یافتن توالی ژن‌ها، ساختار سه‌بعدی پروتئین‌ها، جهش‌های موجود در ژن‌ها، شناسایی واریانت ها و  غیره 


 معرفی سایت NCBI

در نوامبر 1988 بخش جدیدی به کتابخانه پزشکی ملی آمریکا (NLM) افزوده شد تا روش‌های کامپیوتری پردازش اطلاعات جهت هدایت تحقیقات Biomedical ایجاد شود. این بخش مهم مرکز ملی اطلاعات بیوتکنولوژی یا NCBI  نام گرفت. کتابخانه ملی پزشکی آمریکا در سازمان ملی بهداشت آمریکا (NIH) قرارگرفته است. تجربه‌های موفق این کتابخانه در ایجاد و نگهداری پایگاه‌های داده در زمینه Biomedical و به‌عنوان بخشی از NIH باعث ایجاد یک برنامه تحقیقاتی در زمینه بیولوژی مولکولی کامپیوتری شده است. امروزه NCBI به‌عنوان بزرگترین مرکز تحقیقات Biomedical در دنیا شناخته شده است. انستیتوی NCBI جهت رسیدن به اهداف خود فعالیت‌های زیر را دنبال می‌کند:

1-    هدایت تحقیقاتی در زمینه مسائل اصولی Biomedical در سطح مولکولی با بهره‌گیری از روش‌های ریاضی و کامپیوتری

2-    همکاری با انستیتوهای دیگر NIH، دانشگاه‌ها، صنعت و دیگر سازمان‌های دولتی

3-    ایجاد ارتباط‌های علمی به وسیله برگزار کردن همایش‌ها، کارگاه‌های آموزشی و سلسله سخنرانی‌ها

4-    برنامه‌های تحصیلاتی برای دانشجویان در زمینه‌های بیولوژی کامپیوتری توسعه و انتشار نرم‌افزارها و پایگاه‌های داده مختلف.

آموزش کار با NCBI اطلاعاتی در مورد یک ژن

آسان‌ترین روش برای یافتن اطلاعات مربوط به یک ژن در پایگاه NCBI استفاده از موتور جستجوی این سایت به نام Entrez هست. اگر به صفحه اول سایت NCBI به آدرس https://www.ncbi.nlm.nih.g/  بروید با موتور جستجوی Entrez روبرو خواهید شد که امکان جستجو از بین چندین منبع داده را فراهم می‌آورد. برخی از این منابع به شرح زیر می‌باشند اما منابع مهم‌تر در ادامه آموزش ذکرشده است.

MEDLINE: اطلاعات مقالات چاپ شده

PubMed:  دریافت خلاصه مقالات

PubMed Central: مقالات رایگان بیولوژی و پزشکی

OMIM : اطلاعات‌های ژن‌های انسانی و ناهنجاری ژنتیکی (online mendelian inheritance in man)

OMIA: اطلاعات ژن‌ها و ناهنجاری ژنتیکی در حیوانات (online mendelian inheritance in animals)

Books: مجموعه ایی از کتابهای بیولوژی و پزشکی

Journals: دسترسی به‌عنوان مخفف و ISSN مجلات

MeSH: اطلاعات واژگان و معادل تخصصی واژه‌های علمی

Refseq : در مواردی که یک مولکول با چند توالی برای یک ارگانیسم در GenBank آورده شود NCBI تلاش می‌کند تا بهترین توالی را انتخاب کند و به‌عنوان رکورد Refseq معرفی نماید رکورد Refseq تا حد امکان به‌دوراز جهش، اشتباهات تعیین توالی، تغییرات ناشی از کلونینگ هست

dbEST: توالی‌های DNA کوتاهی هستند که معمولاً بین 300 تا 500 بازدارند و از تعیین ترادف یک یا هر دو انتهای بیان شونده ژن به وجود می‌آیند. از روی mRNA ابتدا CDNA ساخته می‌شود سپس کلون می‌شود برحسب اینکه کدام انتهای CDNA توالی یابی شود 3’EST یا 5’EST به دست می‌آید

GSS : شبیه EST است تفاوت GSS با EST در این است که منشأ GSS ژنومی است در حالیکه منشأ EST مولکول mRNA است

توالی‌های GSS کوتاه و تصادفی و معمولاً از انتهای کلون‌های کاسمید و BAC به دست می‌آیند.

آموزش سایت NCBI نحوه جستجوی یک ژن در سایت NCBI

شکل فوق: در کادر موجود اسم ژن موردنظر خود را بنویسید در اینجا CYP2C18 و از میان منابع all database را انتخاب نمایید. بعد از زدن گزینه search به صفحه زیر خواهید رفت که اطلاعات مربوط ژن در منابع مختلف ذکرشده است.

شکل فوق: در این صفحه با کلیک با بر روی هر منبع اطلاعات موجود برای این ژن به نمایش درخواهد آمد. باوجود سادگی این نوع جستجو دارای نواقصی نیز هست. به‌عنوان‌مثال شما می‌خواهید در مورد یک ژن انسانی تحقیق نمایید اما این روش جستجو اطلاعات مربوط به سایر گونه‌ها را نیز نمایش می‌دهد. علاوه براین اطلاعات مربوط به سایر ژن‌هایی که دارای تشابه اسمی با ژن موردنظر شما می‌باشند را نیز به نمایش درخواهد آورد. برای رفع این مشکل باید جستجوی تخصصی‌تری را انجام داد. برای این منظور از صفحه فوق بر روی گزینه gene کلیک کنید تا به صفحه پایین بروید.

شکل فوق: در این صفحه اگر در موتور Entrez منبع gene را انتخاب کنید و سپس ژن موردنظر را جستجو کنید به این صفحه وارد می‌شوید که مربوط به جستجوی اسم ژن شما در منبع GENE هست می‌توانید مشاهده کنید که زن های مربوط با سایر گونه‌ها و سایر ژن‌ها با اسامی مشابه نیز آورده شده است. در میان ژن‌های لیست شده ژن موردنظر خود را بیابید در اینجا گزینه اول که مربوط به انسان است توجه داشته باشید که در این صفحه برای هر ژن مکان آن بر روی کروموزوم‌ها و سایر اسامی همین ژن و توضیح مختصری در مورد آن ذکرشده است. بر روی ژن موردنظر خود کلیک کنید تا به صفحه پایین بروید.

آموزش سایت NCBI یافتن توالی یک ژن

اکنون هر چه اطلاعات در این صفحه موجود هست متعلق به یک ژن خاص در گونه انتخاب هست. در بالا اسم ژن، گونه دارای این ژن، سایر اسامی این ژن و توضیح مختصری در مورد عملکرد ژن ارائه می‌شود. در قسمت‌های پایین‌تر این صفحه تمام اطلاعاتی را که در شکل 2 و از منابع مختلف مشاهده نمودید را می‌توان به دست آورد.

در کادر شماره یک جدیدترین سازمان‌دهی ژن‌ها بر روی کروموزوم‌ها را مشاهده می‌نمایید در این شکل مدل 108 از مدل 105 جدیدتر هست بنابراین اطلاعات مربوط به ژن‌های بیشتری را در خود جای داده است. در کادر شماره 2 می‌توانید ژن‌های همسایه ژن موردنظر خود و جهت رونویسی از ژن‌ها را مشاهده فرمایید.

در شکل فوق در کادر شماره یک تعداد واریانت های بیانی این ژن در پایگاه داده NCBI را مشاهده می‌نمایید. اگزون ها به‌صورت خطوطی پررنگ دیده می‌شود. در کنار هر واریانت های بیانی یک شماره دسترسی برای آن تعیین‌شده است.

در این شکل در کادر شماره 2 تعداد واریانت های بیانی این ژن در پایگاه داده ensemble را مشاهده می‌نمایید. همان‌طور که مشاهده می‌شود بین واریانت های ارائه‌شده بین دو پایگاه داده مقداری تفاوت وجود دارد؛ بنابراین باید این واریانت ها در هر دو پایگاه موردبررسی قرا گیرند.

در کادر شماره 3، شماره جفت بازهایی که این ژن در آن گسترده شده است را مشاهده می‌نمایید.

کادر شماره 4: برای بزرگ‌نمایی و کوچک نمایی تصویر به کار می‌رود. برای مثال برای بزرگ‌نمایی بر روی یک اگزون خاص

کادر 5: نمایش‌دهنده جهش‌های موجود در این ژن بر اساس منابع مختلف هست. برای مشاهده اسم جهش‌ها باید در کادر شماره 4 میزان بزرگنمایی را افزایش داد.

آموزش NCBI یافتن اصلاحات کامل مربوط به یک ژن در NCBI

در کادر شماره 6 بخش Related information می‌توان اطلاعات بسیار مهمی در مورد ژن را به دست آورد. این اطلاعات به‌صورت زیر هست:

شماره 1: مشاهده ساختار سه‌بعدی پروتئین‌های این ژن

شماره 2: مشاهده دومین‌های موجود در پروتئین‌های این ژن

شماره 3: توالی‌های DNA کوتاهی هستند که معمولاً بین 300 تا 500 بازدارند و از تعیین ترادف یک یا هر دو انتهای بیان شونده ژن به وجود می‌آیند. از روی mRNA ابتدا CDNA ساخته می‌شود سپس کلون می‌شود برحسب این‌که کدام انتهای CDNA توالی یابی شود 3’EST یا 5’EST به دست می‌آید

شماره 4: مشاهده مقالات موجود برای این ژن در پایگاه PMC

شماره 5: مشاهده اطلاعات بیانی این ژن در بافت ها و یا موجودات و یا آزمایش‌های مختلف

شماره 6: مشاهده مکان این زن بر روی کروموزوم‌ها

شماره 7: مشاهده اطلاعات توالی‌های نوکلئوتیدی ژنومی و RNA های مربوط به این ژن

شماره 8: مشاهده اطلاعات توالی‌های پروتئینی مربوط به این ژن

9: مشاهده اطلاعات مربوط به توالی‌های کامل مربوط به پروتئین‌های کد شوند توسط این ژن

10: مشاهده اطلاعات مربوط به توالی‌های کامل واریانت های این ژن

شماره 11: مشاهده اطلاعات مربوط به لیست SNP های این ژن

شماره 12: مشاهده SNP ها در نقاط مختلف ژنوم و در واریانت های مختلف به تفکیک اینترون، اگزون و نواحی UTR به همراه فراوانی جهش‌ها.

آموزش کار با سایت NCBI یافتن ساختار سه‌بعدی پروتئین در NCBI

شکل فوق: با کلیک بر روی 3D structures   به این صفحه منتقل می‌گردید؛ که می‌توانید در آن ساختار سه‌بعدی پروتئین را مشاهده و ساختار آن را برای بررسی با سایر نرم‌افزارها دانلود نمایید. اگر ژن چند پروتئین داشته باشد در ابتدا یک لیست از پروتئین‌ها ارائه می‌گردد که می‌توانید ایزوفرم موردنظر را انتخاب نمایید.

شکل فوق: با کلیک بر روی گزینه Conserved Domains به این صفحه منتقل می‌گردید؛ که در آن دومین‌های مختلف در پروتئین این ژن نشان داده‌شده است. برای این ژن 28 دومین شناسایی‌شده است.

یافتن توالی مرجع یک پروتئین در سایت NCBI

با کلیک بر روی گزینه Refseq Proteins به این صفحه منتقل می‌گردید؛ که در آن تعداد ایزوفرم های پروتئینی هر ژن لیست می‌گردد. تفاوت Refseq Proteins  با قسمت Protein  در این است که قسمت Protein  توالی‌های ناکامل را نیز نشان می‌دهد که ممکن حاوی جهش نیز باشند اما قسمت Refseq Proteins  دارای توالی‌های مورد تأیید و کامل برای ایزوفرم ها هست. این ژن دارای دو ایزوفرم است با کلیک بر روی ایزوفرم موردنظر به صفحه زیر منتقل می‌گردید

کادر شماره 1: اطلاعاتی در مورد پروتئین

کادر شماره 2: با کلیک بر روی این کادر ساختار سه‌بعدی پروتئین نمایش داده خواهد شد.

کادر شماره 3: با کلیک بر روی این گزینه توالی پروتئین به فرمت FASTA به نمایش درخواهد آمد که از این فرمت می‌توانید برای مقایسه توالی پروتئین با سایر پروتئین‌ها و به‌عنوان بلاست کردن پروتئین و هم‌ردیف کردن توالی استفاده نمود.

کادر 4: اطلاعات مربوط به ساختار پروتئین به‌عنوان‌مثال از اسیدآمینه شماره 30 تا 431 دومین p450 قرارگرفته است. همچنین اگر پروتئین دارای سیگنال پپتید باشد در این قسمت به آن اشاره خواهد شد (اسیدآمینه شماره 1 تا 25).

کادر شماره 5: توالی پروتئین

به فرمت نمایش فوق که دارای تمام اصلاحات در مورد پروتئین و یا واریانت بیانی هست فرمت GenPet گویند. برای ذخیره اطلاعات فوق و بررسی آن به‌صورت آفلاین به طریقه زیر عمل کنید

فایلی که ذخیره می‌گردد را می‌توانید با نرم‌افزار word بازنمایید و مطالعه فرمایید برای ذخیره توالی به فرمت FASTA نیز به همین طریق می‌توان عمل نمود.

یافتن توالی مرجع ژن‌ها (refseq) در سایت NCBI

شکل فوق: با کلیک بر روی لینک Refseq RNAs  به این صفحه منتقل می‌شوید که transcription variant های مختلف یک ژن را نشان می‌دهد؛ و شما می‌توانید واریانت موردنظر را انتخاب کنید و یا بعد از تیک زدن هر دو واریانت و یا واریانت های دلخواه از طریق گزینه send to توالی هر دو واریانت را با فرمت fasta و یا GenBank ذخیره نمایید. فرمت GenBank معادل genpept برای پروتئین‌ها هست و اطلاعات ارائه‌شده در هر دو صفحه معادل یکدیگر هست. از فرمت fasta می‌توانید برای طراحی پرایمر و بلاست کردن و یا ترسیم درخت فیلوژنتیکی استفاده نمود.

در قسمت FEATURES فرمت GenBank می‌توانید اطلاعات مربوط به ساختار واریانت ها را مشاهده نمود مانند جایگاه اگزون ها و یا ناحیه کد کنند پروتئین CDS در این صفحه با کلیک بر روی هر ویژگی توالی مربوط به آن در صفحه به‌صورت هایلات شده درمی‌آید (شکل زیر).

آموزش سایت NCBI: شناسایی جهش‌های یک ژن (SNP) در NCBI

شکل فوق: با کلیک بر روی گزینه SNP به این صفحه منتقل می‌شوید که جهش‌های مرتبط با این آن به نمایش درخواهد آمد.

شکل فوق: با کلیک بر روی گزینهSNP: Gene View به این صفحه منتقل می‌شوید؛ که جهش‌ها را به تفکیک واریانت بیانی و در محل وقوع جهش نشان می‌دهد.

کادر شماره 1: انتخاب واریانت موردنظر

کادر شماره 2: انتخاب نوع SNP هایی که نمایش داده می‌شود.

In gene region  برای نمایش SNP ها بر روی ژن کامل شامل اینترون ها، اگزون ها، پروموتر و ناحیه‌های utr همه SNP های موجود

cSNP  برای نمایش SNP ها بر روی توالی mRNA در ناحیه کد کنند پروتئین‌ها شامل اگزون ها

شکل فوق نمایانگر جهش‌ها در حالت cSNP هست.

شماره 1: جایگاهی در mRNA که جهش در آن رخ می‌دهد

شماره 2: اسم جهش

شماره 3: میزان هتروزیگوسیتی آن جهش (فراوانی افراد هترویگوت دارای جهش)

شماره 4: فراوانی اللی که کمترین فراوانی را دارد (معمولاً اللی که کمترین فراوانی را دارد به‌عنوان الل موتانت در جهش می‌گیرند)

شماره 5: تغییری که جهش در توالی اسیدآمینه‌ها ایجاد می‌کند.

شماره 6: نوکلئوتیدی که در اثر جهش ایجاد می‌شود

شماره 7: اسیدآمینه‌ای که جهش در آن رخ می‌دهد

شماره 8: شماره کدونی که جهش در آن رخ می‌دهد

شماره 9: شماره نوکلئوتید در کدنی که جهش در آن رخ می‌دهد.

 

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد