معلومة

قم بتفجير تسلسل ضد قواعد بيانات متعددة

قم بتفجير تسلسل ضد قواعد بيانات متعددة


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أرغب في BLASTP بقائمة من تسلسلات البروتين بتنسيق Fasta مقابل قواعد بيانات بروتين متعددة. نظرًا لأنني مهتم فقط بالنتيجة الأولى لكل قاعدة بيانات ، فمن المحتمل أن تكون نتيجة BLAST بحاجة إلى التحليل.

هل تعلم ما إذا كانت هذه الإستراتيجية جيدة أم أنك تقترح عليّ أخرى؟

شكرا لمساعدتك. مع أطيب التحيات ، برناردو


لمسح قواعد بيانات متعددة: -

  1. قم بتنزيل جميع قواعد البيانات التي تنوي مطابقتها (سيكون لجميع قواعد البيانات خيار التنزيل)
  2. قم بتنزيل ملفات BLAST التنفيذية المستقلة من NCBI
  3. اجمع كل التسلسلات من قواعد البيانات المختلفة وقم بعمل قاعدة بيانات بلاست باستخدام البرنامجmakeblastdb(من الأفضل التحقق من التسلسلات الزائدة عن الحاجة وإزالتها لتحسين الأداء)
  4. يركضانفجارمع المعلمات المطلوبة مقابل قاعدة البيانات هذه
  5. ال الضربة الأولى لن يعني الكثير. استخدم عمليات القطعالقيمة الإلكترونيةأوعشرات بتأوهوية النسب

الآن ، إذا كان اللقاح يستهدف بروتينًا ، فمن الجيد دراسة الحفاظ على تسلسل البروتين. لا يعد BLAST خيارًا جيدًا حقًا لدراسة الحفظ من خلال مقارنة مختلف أطباء تقويم العظام. استخدم أدوات لمحاذاة تسلسل متعدد مثلكلوستالأوتي كوفي. في رأيي من الأفضل أيضًا استخدامهزهرةلتسجيل المحاذاة مقارنة بـبام.

قد يكون من المهم أيضًا إلقاء نظرة على هياكل البروتين. يمكنك المحاولة واسع اذا كان ممكنا.


إذا كان نوعًا به جينوم متسلسل بالفعل وكنت تستخدم نهجًا لرسم خرائط الجينوم ، فمن المحتمل أن تحصل على معرف الجين "تلقائيًا" أثناء تجميع النسخ.

إذا كانت طريقة de novo ، وكل ما تحصل عليه هو قائمة من التسلسلات ، فإن KAAS سيساعدك على تحديد الجينات المتعامدة المعروفة بالفعل في الجينومات البكتيرية الأخرى (ستجد هناك حتى مجموعات فرعية محددة مسبقًا من الجينومات للانفجار ضدها ، "بدائيات النوى" كونها واحدة منهم).


قم بتفجير تسلسل ضد قواعد بيانات متعددة - علم الأحياء

بحلول نهاية عام 2002 ، كانت قاعدة بيانات GenBank تحتوي على أكثر من 28 × 10 9 زوجًا أساسيًا من بيانات تسلسل الحمض النووي. تمت إضافة تعليق توضيحي على جزء من هذا ، ولكن الكثير منه إما لا يحتوي على تعليقات توضيحية أو أنه تم التعليق عليه بشكل غير صحيح. كيف يمكن للمرء أن يجد متواليات قد تكون ذات فائدة إذا لم تكن كذلك مشروح؟ تتمثل إحدى طرق العثور على تسلسلات مثيرة للاهتمام في البحث عن تسلسلات مشابهة لتسلسل معروف. تم تطوير العديد من خوارزميات البحث التي يمكنها البحث في قاعدة البيانات عن التسلسلات المشابهة لـ استفسار تسلسل.

من بين أهم الخوارزميات المستخدمة للبحث في قواعد بيانات التسلسل في الوقت الحاضر (2003) ، هناك عائلة من الخوارزميات تعتمد على BLAST ، أداة البحث عن المحاذاة المحلية & quotBasic. & quot ، تعمل BLAST بشكل جيد بشكل خاص مع تسلسل ترميز البروتين. قد يكون أداء خوارزمية ثانية ، أقدم قليلاً ، FASTA أفضل مع تسلسل الحمض النووي غير المشفر.

يعد البحث في قاعدة بيانات ذات تسلسل كبير مشكلة صعبة نظرًا لوجود العديد من الطرق الممكنة التي يمكن من خلالها محاذاة تسلسل الاستعلام مع قاعدة البيانات. لتسريع هذه العملية ، يبحث BLAST عن مناطق صغيرة من التطابق التام بين الاستعلام وتسلسلات الهدف ، ثم يفحص التسلسل الذي يربط هذه المناطق لمعرفة ما إذا كان هناك امتداد أطول يتطابق تمامًا.

تتمثل الخطوة الأولى في فهم هذه العملية في التعرف على الخصائص التجريبية لقواعد بيانات البحث باستخدام بلاست. الهدف من هذا التمرين هو استخدام متغيرات BLAST للبحث في GenBank ودراسة كيفية تصرفهم في ظل ظروف مختلفة.

ضع في اعتبارك تسلسل الحمض النووي التالي:

أتجاجكاتكاتجككتجكاكاكتككجاجاجاجكاككتكتككاتكجت
جاتتجكجككاتجتكجاكاجتجكاجكاككاكاكاججكجككتك أ
تكتكجاجكتكجتجككتككاجكجكجاكتجاكاجكتجاجا جي
GAGGCTGAGCGTCTTGGGAAAGGTTCTTTCGCCTTGCATTCTACATGGA
CCGGCAGAAGGAGGAGCGTGAGCGTGGGTGACCATCGCTTGCACCACG أ
أجاجتكتاكاككجاجاجتجكاكاكاكاكاتكاتكاتجكاككججك
كاككجتجاتتكاتكاجاكاتجاتكاكججتجكاتككاجكتجاتجت
كجكاككتكاتكاتجتكككجكاجاكججااكتكاكجاكاجاكاتكجككا
أججكاككاكاجكجكجججااتككاججككاجاككاجكاجكاتكك
كجكتكاتكاكتجكتجكجتجاجكاجاتكتجكاتجكجتجاكا
جاتجاكتجكجاكجكجكجاتاكاجكاجكككجتتاتجاتجاجاتج
كاتجاجاتجاجاجكاتجكتكجتجاانجتكججتجاجاجاجاكت
أتكجاجاااكاكاكككجتجاتجككاتكت

هذا هو تسلسل الحمض النووي الذي تم الحصول عليه عن طريق الفحص التعسفي لمكتبة (كدنا). نود معرفة المزيد عن التسلسل. تتمثل إحدى الطرق السهلة للحصول على نظرة ثاقبة في التسلسل في معرفة ما إذا كان يشبه التسلسل الذي تم الإبلاغ عنه بالفعل في دراسات أخرى أم لا. للقيام بذلك ، سنستخدم بلاست لمقارنة التسلسل بقاعدة بيانات GenBank التي تحتفظ بها NCBI (المركز الوطني لمعلومات التكنولوجيا الحيوية ، وهو فرع من مكتبة الطب الوطنية للمعاهد الوطنية للصحة). سنستخدم التسلسل أعلاه كتسلسل استعلام ، وسنستخدم بلاست لمقارنة تسلسل الاستعلام بقاعدة بيانات GenBank. سيتم إجراء التحليل الفعلي على كمبيوتر عملاق موازٍ بشكل كبير يتم تشغيله بواسطة NCBI كخدمة لمجتمع البحث. هناك عدة طرق لإرسال عمليات البحث إلى خادم التفجير ، سنبدأ بواجهة الويب.

ملحوظة! من الضروري أن تفهم كيف تتفاعل أجهزة الكمبيوتر المختلفة لإجراء التحليلات التي تجريها. عندما تستخدم مستعرض ويب للاتصال بموقع ويب ، فأنت تبدأ في تفاعل المضيف / العميل. كمبيوتر سطح المكتب الخاص بك هو العميل ، والكمبيوتر الذي يقوم بتشغيل برنامج مضيف الويب هو المضيف. في هذه الحالة ، ستقوم بتشغيل مهمة حسابية مكثفة على الكمبيوتر المضيف ، وبالتالي فإن السرعة الظاهرة التي يعمل بها التحليل ستكون دالة للحمل على الكمبيوتر المضيف (من بين عوامل أخرى).

أولاً ، انسخ التسلسل. ثم انتقل إلى موقع ويب NCBI (http://www.ncbi.nlm.nih.gov/ هذا موجود أيضًا في صفحة الفصل والاقتباسات & quot) ، واتبع الرابط الخاص بـ انفجار على الصفحة الرئيسية لـ NCBI ، ثم رابط الانفجار القياسي للنيوكليوتيدات النوكليوتيدية [blastn]. في المساحة المتوفرة ، الصق التسلسل ثم انقر فوق الزر الذي يشير إلى ذلك انفجار!

سيتم استبدال الصفحة بصفحة تسمى & quotformatting BLAST. & quot لاحظ أنها تزودك برقم معرف الانفجار ، وتقديرًا للوقت الذي ستستغرقه النتائج ، وبعض خيارات التنسيق.

أثناء انتظار إعادة نتائج الانفجار ، افتح نافذة متصفح أخرى وقم بتكبير الصفحة الرئيسية لـ NCBI. هناك العديد من الموارد المفيدة التي يوفرها NCBI ، وسوف تزور هذا الموقع بشكل متكرر. من المفيد أن تعرف طريق المرء من حوله. يجب عليك أيضًا قراءة نظرة عامة على الانفجار (http://www.ncbi.nlm.nih.gov/BLAST/blast_overview.html) والمعلومات الأخرى المرتبطة بصفحة الانفجار.

بعد الانتظار لفترة زمنية على ما يبدو ، ارجع إلى صفحة & quotformatting BLAST & quot وانقر على صيغة زر. سيتم عرض نتائج البحث الخاص بك على صفحة ويب جديدة. توجد معلومات حول كيفية الاستشهاد بهذا التحليل في المنشورات العلمية وطبيعة البحث الخاص بك ، تليها مجموعة من الخطوط الملونة التي توضح نتائج البحث ، ثم نص يصف نتائج البحث ، وأسفل ذلك المزيد من النص عرض أمثلة من أفضل التطابقات.

حرك الماوس فوق الخطوط الملونة ولاحظ كيف يتغير العرض. انظر إلى كيفية ارتباط هذه المعلومات بالنص الموجود أسفل الصفحة ، ولاحظ وجود روابط إلى التسلسلات التي تطابق تسلسل الاستعلام. خذ بعض الوقت هنا وحاول إلقاء نظرة على جميع الميزات الموجودة في صفحة الويب هذه. إذا فهمت هذه الموارد جيدًا ، فسيوفر لك الكثير من الوقت في المستقبل.

ما الاستدلالات حول هذا التسلسل التي يمكنك استخلاصها من هذه المعلومات؟

ما هي هوية التسلسل؟

ما الجين الذي تعتقد أنه يشفره؟

ما هو الكائن الذي تعتقد أنه يأتي منه؟

ما مدى موثوقية هذا الاستنتاج في رأيك؟ لماذا ا؟

تلميح: انظر إلى ملف النتيجة بت، في ال القيمة الإلكترونية، وفي المباريات الفردية (لاحظ أن هناك روابط يمكنك متابعتها).

تذكر أن التسلسل كان من مكتبة (كدنا). هذا يعني أنه ربما يكون تسلسلًا لترميز البروتين. يعتبر الانفجار أكثر حساسية للأنماط الدقيقة في تسلسل الأحماض الأمينية مقارنة بتسلسلات النيوكليوتيدات ، لذلك قد يكون من المفيد محاولة البحث الذي يستفيد من المعلومات التي تفيد بأن هذا تسلسل ترميز البروتين. لا نعرف ما إذا كان التسلسل في الإطار ، لذلك سنريد البحث عن ترجمة للتسلسل في جميع إطارات القراءة الستة الممكنة مقابل قاعدة بيانات البروتين.

نظرًا لأنك تعمل باستخدام تسلسل نيوكليوتيد ، فستحتاج إلى إجراء بحث مترجم. ارجع إلى صفحة بلاست الرئيسية (http://www.ncbi.nlm.nih.gov/BLAST/) وتحت عمليات البحث بلاست المترجمة تحديد الاستعلام عن النيوكليوتيدات - البروتين ديسيبل [بلاستكس].

لاحظ أن هناك عددًا من الخيارات الأخرى التي يمكنك تحديدها ، لكن لا تقم بتغيير أي منها.

قم بإرسال طلب البحث ، وتعلم المزيد من الموقع حتى يتم عرض النتائج.

ملاحظة: يتم إرسال عمليات البحث عن التفجير التي يتم إرسالها عبر موقع الويب إلى قائمة انتظار ، ويتم إعطاؤها أولوية تتمثل في عدد عمليات البحث التي ترسلها في نفس الوقت. إذا قمت بإرسال سلسلة من عمليات البحث من نفس جهاز الكمبيوتر ، فسيستغرق كل بحث وقتًا أطول بشكل تدريجي. إذا كنت ترغب في إرسال عمليات بحث متعددة ، فمن الأفضل عدم استخدام واجهة الويب لإرسال عمليات البحث. سنرسل عمليات البحث عبر البريد الإلكتروني في وقت لاحق من الفصل الدراسي ، ولكن إذا كنت حريصًا على إرسال عمليات البحث عبر البريد الإلكتروني ، فأرسل بريدًا إلكترونيًا يتكون من كلمة واحدة HELP إلى [email protected]

كيف تختلف النتائج عن البحث المتفجر؟

ما الاستدلالات التي يمكنك إجراؤها من النتائج المختلفة في عمليتي البحث

ما هي هوية التسلسل؟

ما الجين الذي تعتقد أنه يشفره؟

ما هو الكائن الذي تعتقد أنه يأتي منه؟

ما مدى موثوقية هذا الاستنتاج في رأيك؟ لماذا ا؟

لماذا تتصرف عمليات البحث عن الأحماض الأمينية والنيوكليوتيدات بشكل مختلف جدًا؟ كيف يختلف هذان النوعان من البيانات في الطريقة التي يحملان بها المعلومات؟ تذكر أن كل حمض أميني مشفر بثلاثة نيوكليوتيدات ، لكن تسلسل الأحماض الأمينية يتكون أيضًا من ثلث عدد الأحرف كتسلسل النوكليوتيدات المقابل.

ما هي النسبة المئوية للهوية التسلسلية التي تتوقعها في محاذاة (بدون فجوات) لتسلسل DNA العشوائيين؟

ماذا عن تسلسلين عشوائيين من الأحماض الأمينية؟

ضع في اعتبارك الخيارات المختلفة ، بما في ذلك المعلمات ، التي يمكن تعيينها من صفحة BLAST. هل يمكنك تحديد تأثير كل من هذه الأشياء؟ يتحكم البعض في الطريقة التي يتم بها تنسيق نتائج بلاست ، بينما يتحكم البعض الآخر في كيفية عمل الخوارزمية نفسها.

قم بتغيير حجم الكلمة من 11 إلى 7 وكرر بحث BLASTN. هل النتائج مطابقة للكلمة حجم البحث 11؟ كيف تختلف عمليتا البحث؟ ماذا يحدث إذا استخدمت كلمة بحجم 15؟

تتوفر تسلسلات إضافية غير معروفة من الواجبات المنزلية السابقة المرتبطة بالصفحة الرئيسية للفصل الدراسي. اختر أحد هذه التسلسلات وكرر عمليات البحث المذكورة أعلاه. ما هي الملاحظات التي يمكنك إجراؤها حول كيفية استخدام بلاست بشكل أكثر فاعلية؟

تشغيل بلاست من واجهة سطر الأوامر

يوفر NCBI عميل BLAST ، blastcl3 يمكن استخدامه لبدء عمليات بحث BLAST من جهاز كمبيوتر محلي دون استخدام واجهة ويب. على الرغم من أن هذا يتطلب مزيدًا من التفكير إلى حد ما أن استخدام واجهة الويب ، إلا أنه أسهل بكثير في التشغيل الآلي ، وبالتالي فهو مفضل لتحليلات التسلسلات المتعددة.

يعد NetBLAST ، وهو عميل BLAST ثانٍ ، جزءًا من الحزمة التحليلية GCG. سوف نستخدم هذا لاحقًا في الفصل الدراسي.


كيف يمكنني بلاست مقابل التسلسلات الخاصة بي أو قاعدة بيانات ليست جزءًا من NCBI؟

يمكنك إعداد قاعدة بيانات BLAST مخصصة باستخدام التسلسلات الموجودة لديك بالفعل في قاعدة بيانات Geneious ، أو من ملف FASTA للتسلسلات التي قمت بتنزيلها من مكان آخر. تحتاج أولاً إلى إعداد خدمة BLAST المخصصة ضمن أدوات ← إضافة / إزالة قواعد البيانات ← إعداد خدمات البحث. لإنشاء قاعدة بيانات مخصصة ، استخدم Tools → Add / Remove Databases → Add Sequence Database. يحتوي دليل مستخدم Geneious Prime على معلومات أكثر تفصيلاً حول كيفية إعداد هذا.

ملاحظة ، إذا كنت ترغب في إنشاء قواعد بيانات BLAST مُهيأة مسبقًا من ملفات fasta خارج Geneious ، فيمكنك أيضًا تشغيل ملفات BLAST + التنفيذية من سطر الأوامر باستخدام الأمر makeblastdb. ثم ضع ملفات قاعدة بيانات BLAST المنسقة التي تم إنشاؤها (ستكون هناك ملفات متعددة لكل قاعدة بيانات) في مجلد BLAST / البيانات الذي تم إنشاؤه في مجلد Geneious Data عند إعداد BLAST المخصص ، وإعادة تشغيل Geneious وستظهر قاعدة البيانات الجديدة عندما تقوم بتشغيل BLAST مخصص. ومع ذلك ، إذا تم تنسيق قاعدة البيانات يدويًا باستخدام makeblastdb ، فلن تكون هناك تعليقات توضيحية على المحاذاة الناتجة. إذا تم تنسيقه من داخل Geneious ، فسيتم إنشاء ملف إضافي مع التعليقات التوضيحية حتى يتمكن Geneious من إعادتها إلى المحاذاة بعد البحث.


قواعد بيانات بلاست

لا شك أن القراء المطلعين على بلاست كانوا فضوليين: ليس هناك قواعد بيانات من نوع ما تشارك في عمليات البحث بلاست؟ ليس بالضرورة. كما رأينا ، تكفي ملفات FASTA البسيطة لكل من الاستعلام ومجموعة الموضوع. ومع ذلك ، اتضح أنه من منظور حسابي ، لا يمكن البحث بسهولة عن ملفات FASTA البسيطة. وبالتالي ، يوفر BLAST + أداة تسمى makeblastdb تقوم بتحويل ملف FASTA للموضوع إلى نسخة مفهرسة وسريعة البحث (ولكن غير قابلة للقراءة البشرية) من نفس المعلومات ، مخزنة في مجموعة من الملفات ذات الأسماء المتشابهة (غالبًا ما تكون ثلاثة على الأقل تنتهي بـ .pin ، .psq و .phr لتسلسلات البروتين و .nin و .nsq و .nhr لتسلسلات النيوكليوتيدات). تمثل هذه المجموعة من الملفات "قاعدة البيانات" ، واسم قاعدة البيانات هو بادئة اسم الملف المشترك لهذه الملفات.

يعد تشغيل makeblastdb على ملف FASTA أمرًا بسيطًا إلى حد ما: makeblastdb -in & ltfasta file & gt -out & ltdatabase name & gt -dbtype & lttype & gt -title & lttitle & gt -parse_seqids ، حيث يكون & lttype & gt واحدًا من prot أو nuclable & title. من الضروري). تشير علامة -parse_seqids إلى أنه يجب تضمين معرّفات التسلسل من ملف FASTA في قاعدة البيانات بحيث يمكن استخدامها في المخرجات وكذلك بواسطة أدوات أخرى مثل blastdbcmd (تمت مناقشته أدناه).

بمجرد إنشاء قاعدة بيانات BLAST ، يمكن استخدام خيارات أخرى مع blastn et al:

  • -db & ltdatabase name & GT
    • اسم قاعدة البيانات المراد البحث عنها (على عكس استخدام-الموضوع).
    • استخدم نواة وحدة المعالجة المركزية & ltinteger & gt على نظام متعدد النواة ، إذا كانت متوفرة.

    عند استخدام الخيار -db ، ستبحث أدوات BLAST عن ملفات قاعدة البيانات في ثلاثة مواقع: (1) دليل العمل الحالي ، (2) دليلك الرئيسي ، و (3) المسارات المحددة في متغير البيئة $ BLASTDB.

    يمكن استخدام الأداة blastdbcmd للحصول على معلومات حول قواعد بيانات BLAST - على سبيل المثال ، باستخدام اسم قاعدة البيانات blastdbcmd -db & ltd & gt -info - ويمكنها إظهار قواعد البيانات في مسار معين باستخدام blastdbcmd -list & ltpath & gt (لذا ، ستظهر blastdbcmd -list $ BLASTDB قواعد البيانات الموجودة في مسارات البحث الافتراضية). يمكن أيضًا استخدام هذه الأداة لاستخراج تسلسلات أو معلومات عنها من قواعد البيانات بناءً على معلومات مثل المعرفات الواردة في ملفات الإخراج. كما هو الحال دائمًا ، يوصى بشدة بقراءة التعليمات والوثائق الخاصة ببرامج مثل BLAST.


    كيف يمكنني تفجير ملفات تسلسل متعددة في نفس المجموعة؟

    إنشاء أو فتح مجموعة من الملفات

    إضافة ملفات تسلسل إلى مجموعة جديدة أو موجودة. لمزيد من المعلومات ، راجع فتح مجموعة وإنشاء مجموعة جديدة وإضافة ملفات إلى مجموعة.

    حدد ملفات التسلسل إلى BLAST

    حدد ملفات متعددة في قائمة المجموعة باستخدام الضغط على مفتاح Shift أو النقر مع الضغط على مفتاح Ctrl (في نظام التشغيل Windows) / النقر مع الضغط على مفتاح Cmd (في نظام التشغيل macOS). لتحديد كافة الملفات ، انقر فوق يحرراختر الكل.

    ابدأ البحث بلاست

    استخدم ال أدوات القائمة لاختيار برنامج وقاعدة بيانات بلاست المناسبين. سيفتح SnapGene NCBI BLAST في متصفحك الافتراضي ويضيف تسلسلاتك إلى مربع تسلسل الاستعلام.

    إذا كان إرسال التسلسل المدمج كبيرًا ، فسيقوم SnapGene بإخطارك ، ونسخ التسلسلات المحددة إلى الحافظة ، ويطلب منك لصق محتويات الحافظة في مربع تسلسل الاستعلام على صفحة الويب NCBI BLAST.


    قم بتفجير تسلسل مقابل قواعد بيانات متعددة - علم الأحياء

    تم إنشاء ViroBLAST في مختبر مولينز بجامعة واشنطن لتوفير مقارنة التسلسل وفحص التلوث في الأبحاث الفيروسية. يعد ViroBLAST مفيدًا بسهولة لجميع مجالات البحث التي تتطلب وظائف BLAST وهو متاح كأرشيف قابل للتنزيل للتثبيت المستقل (الإصدار الحالي: viroblast-2.6 +). تنفذ ViroBLAST تطبيقات سطر أوامر NCBI C ++ Toolkit BLAST المشار إليها باسم تطبيقات BLAST +.

    مع الميزات المشتركة لأدوات Blast الأخرى ، يوفر ViroBLAST ميزات مثل:

    • قم بتفجير تسلسلات استعلام متعددة في وقت واحد عبر تسلسلات نسخ ولصق أو تحميل ملف fasta التسلسلي.
    • توفير خيار البريد الإلكتروني لتلقي النتيجة عبر البريد الإلكتروني.
    • الانفجار ضد مجموعة بيانات التسلسل الخاصة بالمستخدم إلى جانب قواعد البيانات العامة على ViroBLAST.
    • أطلق العنان لقواعد بيانات التسلسل المتعددة في وقت واحد (باستخدام مفتاح "Command" [Mac] أو مفتاح "Ctrl" [Windows] لتحديد قواعد بيانات متعددة أو إلغاء تحديد قاعدة البيانات).
    • تلخيص النتائج عن طريق الإخراج المجدول ويسمح بمزيد من التحليل.
    • تنزيل التسلسلات في قواعد البيانات التي تطابق تسلسلات استعلام المستخدم.

    الاقتباس:

    يرجى الاستشهاد بالورقة التالية إذا كنت تستخدم ViroBLAST: Deng W و Nickle DC و Learn GH و Maust B و Mullins JI. 2007. ViroBLAST: خادم ويب BLAST مستقل للاستعلامات المرنة لقواعد البيانات المتعددة ومجموعات بيانات المستخدم. المعلوماتية الحيوية 23 (17): 2334-2336.

    اتصل:

    لأية أسئلة وأخطاء واقتراحات ، يرجى إرسال بريد إلكتروني إلى [email protected] وتضمين بعض الجمل التي تصف باختصار طبيعة أسئلتك وتضمين معلومات الاتصال.

    ونسخة 2005-2010 جامعة واشنطن. كل الحقوق محفوظة. شروط الخدمة


    قواعد البيانات الوصفية هي قواعد بيانات لقواعد البيانات التي تجمع البيانات حول البيانات لتوليد بيانات جديدة. فهي قادرة على دمج المعلومات من مصادر مختلفة وإتاحتها في شكل جديد وأكثر ملاءمة ، أو مع التركيز على مرض أو كائن حي معين. معالجة البيانات. كلمة قاعدة البيانات الوصفية هي إضافة إلى القاموس]. في الأصل ، كانت البيانات الوصفية مجرد مصطلح شائع يشير ببساطة إلى بيانات حول البيانات مثل العلامات والكلمات الرئيسية ورؤوس العلامات.

      : قاعدة بيانات تفاعل وظيفي جزيئي ، تدمج المعلومات من 12 أخرى (المركز الوطني لمعلومات التكنولوجيا الحيوية) (جامعة كاليفورنيا ، سان دييغو): تدمج مئات من الموارد ذات الصلة بعلوم الأعصاب والعديد منها مذكور أدناه

    توفر قواعد بيانات الكائنات الحية النموذجية بيانات بيولوجية متعمقة لدراستها بشكل مكثف.

    تحرير قواعد بيانات الحمض النووي

    قواعد البيانات الأولية
    تتكون قاعدة بيانات تسلسل النيوكليوتيدات الدولية (INSD) من قواعد البيانات التالية.

    DDBJ (اليابان) ، GenBank (الولايات المتحدة الأمريكية) وأرشيف النوكليوتيدات الأوروبي (أوروبا) هي مستودعات لبيانات تسلسل النيوكليوتيدات من جميع الكائنات الحية. يقبل الثلاثة جميعًا عمليات إرسال تسلسل النوكليوتيدات ، ثم يتبادلون البيانات الجديدة والمحدثة على أساس يومي لتحقيق التزامن الأمثل بينهم. قواعد البيانات الثلاث هذه هي قواعد بيانات أولية ، لأنها تضم ​​بيانات التسلسل الأصلية. يتعاونون مع Sequence Read Archive (SRA) ، الذي يقوم بأرشفة القراءات الأولية من أدوات التسلسل عالية الإنتاجية.

      قاعدة بيانات (الوراثة المندلية على الإنترنت في الإنسان): الأمراض الوراثية: تم إطلاقها في يناير 2008. تم تحليل جينومات أكثر من ألف مشارك مجهول من عدد من المجموعات العرقية المختلفة وإتاحتها للجمهور. مورد تقويم هرمي ، وظيفيًا وتطورًا ، يعتمد على 5090 كائنًا و 2502 فيروسًا. يوفر محاذاة تسلسلية متعددة وأشجار ذات احتمالية قصوى ، بالإضافة إلى شرح وظيفي واسع. [4] [5]

    تحرير قواعد بيانات التعبير الجيني (معظمها بيانات ميكروأري)

    تقوم قواعد البيانات هذه بجمع تسلسل الجينوم ، والتعليق عليها وتحليلها ، وتوفر الوصول العام. يضيف البعض تنظيم الأدب التجريبي لتحسين التعليقات التوضيحية المحسوبة. قد تحتوي قواعد البيانات هذه على العديد من جينومات الأنواع ، أو جينوم كائن نموذج واحد.

    • ArrayExpress: [6] أرشيف بيانات الجينوم الوظيفي يخزن البيانات من تجارب الجينوم الوظيفية عالية الإنتاجية من EMBL: يوفر قواعد بيانات التعليقات التوضيحية التلقائية لجينومات الإنسان والماوس والفقاريات الأخرى وحقيقيات النوى: يوفر بيانات مقياس الجينوم للبكتيريا والطلائعيات والفطريات والنباتات والميتازوا اللافقارية ، من خلال مجموعة موحدة من الواجهات التفاعلية والبرمجية (باستخدام منصة برمجيات Ensembl): جينوم الكائن الحي النموذجي
    • Gene Expression Omnibus (GEO [7]): مستودع بيانات جينوم وظيفي عام من المعهد الوطني الأمريكي للسرطان (NCI) ، والذي يدعم البيانات المستندة إلى الصفيف والتسلسل. يتم توفير أدوات للاستعلام عن ملفات تعريف التعبير الجيني وتنزيلها. (HPA [8]): قاعدة بيانات عامة تحتوي على ملامح تعبيرية لجينات ترميز البروتين البشري على كل من الرنا المرسال ومستوى البروتين في الأنسجة والخلايا والمقصورات تحت الخلوية والأورام السرطانية. (LIS): قاعدة بيانات الجينوم لعائلة البقوليات [9]: الجينوم البشري لـ 100،000 متطوع من جميع أنحاء العالم
    • RGD (قاعدة بيانات جينوم الفئران): بيانات الجينوم والنمط الظاهري لـ Rattus norvegicus: [10] جينوم كائن نموذج الخميرة [11] (قاعدة فول الصويا): جينات فول الصويا وقاعدة بيانات الجينوم التابعة لوزارة الزراعة الأمريكية (فول الصويا): جينوم الأنواع المسببة للملاريا (المتصورة المنجلية وآخرون): جينوم الكائن الحي النموذجي Caenorhabditis elegans و WormBase ParaSite للأنواع الطفيلية: جينوم الكائن الحي النموذجي Xenopus Tropis و Xenopus laevis: جينوم هذا الكائن الحي السمكي النموذج

    تحرير قواعد بيانات النمط الظاهري

      : قاعدة بيانات تفاعل الممرض والمضيف. يربط معلومات الجينات بمعلومات النمط الظاهري من مسببات الأمراض الميكروبية على مضيفيهم. يتم تنسيق المعلومات يدويًا من الأدبيات التي راجعها الأقران.
  • قاعدة بيانات الجينوم RGD الجرذ: بيانات الجينوم والنمط الظاهري ل الجرذ النرويجي قاعدة البيانات: بيانات النمط الظاهري المنسقة يدويًا للخميرة شيزوساكارومايس بومب
  • تحرير قواعد بيانات RNA

    تحرير قواعد بيانات تسلسل البروتين

      : قاعدة بيانات للأدلة التجريبية للاضطراب في البروتينات (كلية الطب بجامعة إنديانا ، جامعة تمبل ، جامعة بادوا): تصنف البروتينات إلى عائلات وتتوقع وجود المجالات والمواقع: قاعدة بيانات الشرح التوضيحي لاضطراب البروتين الداخلي (جامعة بادوفا): مصدر المعرفة المرتكز على البروتين البشري: قاعدة بيانات عائلات البروتين للمحاذاة و HMMs (معهد سانجر): خلاصة وافية لبصمات البروتين من (جامعة مانشستر): قاعدة بيانات لعائلات ومجالات البروتين (المركز الطبي لجامعة جورج تاون [GUMC]): مكتبة HMMs تمثل العائلات الفائقة وقاعدة بيانات الشروح (الأسرة الفائقة والعائلة) لجميع الكائنات الحية المتسلسلة تمامًا: قاعدة معرفة البروتين (المعهد السويسري للمعلوماتية الحيوية): تسلسل البروتين وقاعدة المعرفة (المركز الوطني لمعلومات التكنولوجيا الحيوية)

    تحرير قواعد بيانات بنية البروتين

      (PDB) ، ويتألف من:
      • بنك بيانات البروتين في أوروبا (PDBe) [12]
      • ProteinDatabank في اليابان (PDBj) [13]
      • التعاون البحثي للمعلوماتية الحيوية الهيكلية (RCSB) [14]

      لمزيد من قواعد بيانات بنية البروتين ، راجع أيضًا قاعدة بيانات بنية البروتين.


      التوافقات

      قبل حساب تشابه تسلسلين ، يجب تحديد المحاذاة الصحيحة - وهي مشكلة دائرية بطبيعتها ، نظرًا لأن تقييم المحاذاة يتطلب حساب أوجه التشابه (الشكل 1). السؤال "ما مدى تشابه تسلسلين؟" ليس بهذه البساطة كما يبدو (انظر ، على سبيل المثال ، [13]). إنها ، في الواقع ، عدة أسئلة: هل هناك تطابق تام بين التسلسلين؟ إذا لم يكن هناك تطابق كامل ، فما هو أفضل محاذاة بين التسلسلين؟ كيف يجب أن تسجل المحاذاة؟ وإذا سمحت بالفجوات فكيف يتم تسجيلها؟ تتطلب الإجابة عن هذه الأسئلة ثلاثة أشياء: وسيلة لتسجيل المطابقات وعدم التطابق ، ووسيلة لتسجيل الفجوات ، وطريقة لاستخدام الاثنين لتقييم العديد من المحاذاة الممكنة.

      سبب أهمية المحاذاة ولماذا قد يكون تحديد أفضل محاذاة أمرًا صعبًا. تظهر عدة محاذاة مختلفة لمتسلسلين ، حيث يتم تسجيل عدم التطابق على أنه -1 ويتم تسجيل التطابق على أنه +1. تشير الخطوط العمودية إلى التطابقات التامة. (أ) محاذاة رهيبة مع خمسة حالات عدم تطابق ولا يوجد تطابق يعطي درجة -5. (ب) المحاذاة الضعيفة مع اثنين من حالات عدم التطابق وتطابق واحد يعطي درجة -1. (ج) المحاذاة المثالية لها عدم تطابق واحد وثلاث مطابقات ودرجة +2.

      مقاييس التهديف: إحصائية مقابل بيولوجية

      عند تقييم محاذاة التسلسل ، يود المرء أن يعرف مدى مغزى ذلك. يتطلب هذا مصفوفة تسجيل ، أو جدول قيم يصف احتمالية وجود أحماض أمينية ذات مغزى بيولوجي أو زوج بقايا نيوكليوتيد يحدث في محاذاة. عادةً ، عند مقارنة تسلسلين من النوكليوتيدات ، فإن كل ما يتم تسجيله هو ما إذا كانت قاعدتان في موضع معين متماثلتين أم لا. يتم منح جميع المباريات نفس النتيجة (عادةً +1 أو +5) ، كما هو الحال مع جميع حالات عدم التطابق (عادةً -1 أو -4). لكن الوضع مختلف مع البروتينات. تعتبر مصفوفات الاستبدال للأحماض الأمينية أكثر تعقيدًا وتأخذ في الاعتبار ضمنيًا كل ما قد يؤثر على تكرار استبدال أي حمض أميني بآخر ، مثل الطبيعة الكيميائية وتكرار حدوث الأحماض الأمينية. الهدف هو توفير عقوبة ثقيلة نسبيًا لمحاذاة اثنين من البقايا معًا إذا كان لديهم احتمالية منخفضة لكونهم متماثلين (محاذاة بشكل صحيح من خلال النسب التطوري). هناك قوتان رئيسيتان تدفعان معدلات استبدال الأحماض الأمينية بعيدًا عن التوحيد: لا تحدث جميع الاستبدالات بنفس التردد ، وبعض البدائل أقل تحملاً وظيفيًا من غيرها ، وبالتالي يتم اختيارها ضدها.

      تتضمن مصفوفات الاستبدال الشائعة استبدال الكتل (BLOSUM) [16] ومصفوفات الطفرة المقبولة بالنقطة (PAM) [17،18]. كلاهما يعتمد على أخذ مجموعات من المحاذاة عالية الثقة للعديد من البروتينات المتماثلة وتقييم ترددات جميع البدائل ، لكن يتم حسابها باستخدام طرق مختلفة. تم حساب مصفوفات PAM (الشكل 2 أ) بناءً على نموذج المسافة التطورية من محاذاة التسلسلات وثيقة الصلة (على الأقل 85 ٪ متطابقة) من 34 عائلة فائقة مجمعة في 71 شجرة تطورية وتحتوي على 1،572 تغييرًا ، أو طفرات نقطية. تم اختيار عتبة التشابه الصارمة لتقليل كل من الأخطاء في المحاذاة والطفرات المتزامنة. أعيد بناء أشجار النشوء والتطور لهذه التسلسلات لتحديد تسلسل الأسلاف لكل محاذاة. تم تدوين البدائل حسب النوع ، وتوحيدها على ترددات الاستخدام وتحويلها إلى سجل درجات الاحتمالات (انظر الشكل 2 وسيلة إيضاح). كانت تسمى المصفوفة الناتجة M1 أو PAM1 وتحدد وحدة التغيير التطوري: تمثل القيم الموجودة في مصفوفة M1 احتمال أن يخضع أحد الأحماض الأمينية في 100 للاستبدال. يؤدي ضرب مصفوفة PAM1 في حد ذاتها إلى إنشاء مصفوفات درجات للحصول على درجات اعتباطية من الارتباط بضربها في نفسها ن يعطي المرات مصفوفة تسجيل للبروتينات التي خضعت لها ن طفرات متعددة ومستقلة. تعتبر مصفوفة PAM120 مصفوفة تسجيل جيدة للتسلسلات وثيقة الصلة ، بينما تعتبر مصفوفة PAM250 أكثر ملاءمة للتتابعات ذات الصلة البعيدة. يضاعف الضرب أيضًا الخطأ المرتبط بكل تقدير لاحتمال استبدال الأحماض الأمينية ، لسوء الحظ ، مما يعني أن مصفوفات PAM ذات الترتيب الأعلى أكثر عرضة للخطأ.

      مصفوفة PAM250 مع الأحماض الأمينية مجمعة وفقًا لكيمياء السلسلة الجانبية. تشير الأرقام إلى كيفية تسجيل محاذاة أي حمض أميني معين (مأخوذ من محور واحد) مع أي حمض أميني آخر (مأخوذ من المحور الآخر). يتم حساب كل قيمة في المصفوفة عن طريق قسمة التردد الذي يُلاحظ أن أحد الأحماض الأمينية يتم استبداله بآخر في بروتينات مرتبطة مفصولة بخطوة تطورية واحدة (بناءً على أشجار النشوء والتطور) باحتمال أن نفس الأحماض الأمينية قد تتماشى مع الصدفة ، مع إعطاء ما يسمى درجة احتمالات الارتباط. كلما كانت الأحماض الأمينية أكثر شيوعًا في الزوج المحاذي ، زادت احتمالية الاصطفاف بالصدفة ، مما يشير إلى محاذاة أقل أهمية. يتم بعد ذلك تحويل النسبة إلى لوغاريتم (والذي يسمح بإضافة درجات الزوج الفردية في المحاذاة بدلاً من مضاعفتها) ويتم التعبير عنها على أنها ما يسمى سجل احتمالات نقاط. عادة ما يتم قياس مصفوفات PAM في 10 لوغاريتمات10 الوحدات ، والتي هي تقريبًا نفس وحدات البت الثالث. (ب) مصفوفة BLOSUM62 مع الأحماض الأمينية في الجدول مجمعة وفقًا لكيمياء السلسلة الجانبية ، كما في (أ). يتم حساب كل قيمة في المصفوفة بقسمة تكرار حدوث زوج الأحماض الأمينية في قاعدة بيانات BLOCKS ، المجمعة عند مستوى 62٪ ، مقسومة على احتمال محاذاة نفس الأحماض الأمينية بالصدفة. يتم تحويل النسبة بعد ذلك إلى لوغاريتم ويتم التعبير عنها في شكل سجل نقاط احتمالات ، كما هو الحال بالنسبة لـ PAM. عادة ما يتم قياس مصفوفات BLOSUM في وحدات نصف بت. تشير الدرجة صفر إلى أن التكرار الذي تم العثور على اثنين من الأحماض الأمينية في محاذاة في قاعدة البيانات كان كما هو متوقع بالصدفة ، بينما تشير النتيجة الإيجابية إلى أنه تم العثور على المحاذاة في كثير من الأحيان أكثر من الصدفة ، وتشير النتيجة السلبية إلى أن تم العثور على المحاذاة في كثير من الأحيان أقل من الصدفة.

      تم إنشاء مصفوفات BLOSUM (الشكل 2 ب) بطريقة مماثلة ، ولكن من تسلسلات تم اختيارها لتجنب حدوث تسلسلات متكررة ذات صلة عالية. تم اشتقاق البيانات الأساسية من قاعدة بيانات BLOCKS [19،20] ، وهي عبارة عن مجموعة من المحاذاة غير المقيدة للتسلسلات من عائلات البروتينات ذات الصلة. باستخدام حوالي 2000 كتلة من مقاطع التسلسل المحاذاة التي تميز أكثر من 500 مجموعة من البروتينات ذات الصلة ، تم فرز التسلسلات في كل كتلة إلى مجموعات مرتبطة ارتباطًا وثيقًا وترددات الاستبدالات بين هذه المجموعات داخل عائلة تستخدم لحساب احتمالية استبدال ذي مغزى. يشير الرقم المرتبط بمصفوفة BLOSUM (مثل BLOSUM62 أو BLOSUM80) إلى قيمة القطع لهوية تسلسل النسبة المئوية التي تحدد المجموعات. تسمح قيم القطع المنخفضة بمزيد من التسلسلات المتنوعة في المجموعات ، وبالتالي تكون المصفوفات المقابلة مناسبة لفحص العلاقات البعيدة.

      عند استخدام BLAST على موقع NCBI ، يمكن للمرء الاختيار من بين عدة مصفوفات مختلفة لتسجيل الأحماض الأمينية: PAM30 و PAM70 و BLOSUM45 و BLOSUM62 و BLOSUM80. تتوفر مجموعة كاملة من مصفوفات التسجيل ، تتراوح من PAM10 إلى PAM500 ، و BLOSUM30 إلى BLOSUM100 ، من موقع NCBI FTP [21] (انظر الجدول 2) ويمكن استخدامها مع التطبيق المستقل باستخدام م علم (انظر الجدول 3) يمكن تعديل نتائج تطابق النوكليوتيدات وعدم التطابق باستخدام -r و -Q الأعلام.

      عقوبات الثغرات

      لا تشمل الأحداث الطفرية الاستبدالات فحسب ، بل تشمل أيضًا عمليات الإدراج والحذف. تتمثل النتيجة فيما يتعلق بمحاذاة التسلسل والمقارنة في الحاجة إلى إدخال فجوات في أحد التسلسل أو كليهما من أجل إنتاج محاذاة مناسبة. يجب أن تكون عقوبة إنشاء فجوة كبيرة بما يكفي بحيث يتم إدخال الفجوات فقط عند الحاجة ، ويجب أن تأخذ عقوبة توسيع الفجوة في الاعتبار احتمالية حدوث عمليات الإدراج والحذف على العديد من المخلفات في وقت واحد. على سبيل المثال ، تميل بعض العناصر الهيكلية للبروتين إلى التطور كوحدة واحدة ، ولكن قد تتحرك العناصر بأكملها بالنسبة إلى بعضها البعض. عقوبات فجوة صغيرة ، والتي تفرض عقوبة "افتتاحية" للفجوة وغرامة "التمديد" التي تقلل العقوبة النسبية لكل منصب إضافي في فجوة مفتوحة بالفعل ، تعالج هاتين المسألتين.

      تسمح صفحة BLAST الخاصة بـ NCBI [2] للاختيار من بين عدة مجموعات مختلفة من المعلمات لتسجيل الفجوات (وجود عقوبات 7 و 8 و 9 مع عقوبة تمديد 2 ، وعقوبات وجود 10،11 و 12 مع عقوبة تمديد 1). يمكن تعديل هذه القيم باستخدام -جي و -E العلامات في الإصدار المستقل (انظر الجدول 3 لمزيد من التفاصيل حول معلمات وخيارات بلاست).

      البرمجة الديناميكية

      إن الحاجة إلى طريقة آلية لإيجاد التوافق الأمثل من بين البدائل العديدة واضحة ، ولكن يجب أن تكون الطريقة متسقة وذات مغزى بيولوجيًا. "ما يبدو بسيطًا من حيث المبدأ ليس بسيطًا على الإطلاق من الناحية العملية. اختيار محاذاة جيدة بالعين ممكن ، لكن الحياة أقصر من القيام بذلك أكثر من مرة أو مرتين." [8] To guarantee that you have the best alignment, many (but not all possible) alignments must be generated and evaluated. For two long sequences, doing this directly would take a considerable amount of time, even on the fastest computers. Examining the calculations in detail, however, one might notice that the vast majority of the time would be spent evaluating the same portions of the candidate alignments many times over. This redundant aspect of sequence comparison makes it amenable to a time-saving shortcut called dynamic programming.

      Dynamic programming methods were first described in the 1950s, outside the context of bioinformatics, and first applied in this context by Needleman and Wunsch in 1970 [22]. These methods find an optimal solution to a given problem by breaking the original problem into smaller and smaller subproblems until the subproblems have a trivial solution, and then using those solutions to construct solutions for larger and larger portions of the original problem. In sequence comparison, the overall problem is determining the optimal alignment of two sequences. This is broken down into smaller and smaller alignments of parts of one sequence with parts of another sequence to the smallest case, which is the alignment of a single residue from one sequence with a single residue from the other sequence. This solution to this smallest subproblem is known, and is taken from the scoring matrix.

      A generalization of the recursive dynamic programming approach, the Smith-Waterman algorithm [23] is an exhaustive, mathematically optimal method, which handles sequence comparisons in a single computation and is guaranteed to find the highest scoring alignment. The algorithm incorporates the concepts of mismatches and gaps, and identifies optimal local alignments. Local alignments, where parts of one sequence are aligned to parts of another are more biologically relevant than global alignments where entire sequences are aligned to each other, because long regions of high similarity are the exception, rather than the rule, for most biological applications.

      Heuristics: sensitivity versus speed

      As fast as computers are, and as efficient as the dynamic programming algorithms are, they are still far too slow to enable exhaustive searches of huge sequence repositories such as GenBank [24,25] or SWISS-PROT [26,27]. An exhaustive search of GenBank is still beyond the reach of most researchers' computer power - and with the growth of sequence databases outstripping increases in computation speed, this situation is not going to get better any time soon. This is where BLAST comes in. There are two primary methods for taking even shorter shortcuts by approximating the best local alignment: FASTA and BLAST. Neither is guaranteed to find the best local alignment, but they almost always do. As outlined above, this discussion will focus on BLAST.

      BLAST and FASTA are similar in that both operate on the assumption that true matches are likely to have at least some short stretches of high-scoring similarity, but where FASTA looks for exactly matching 'words' (strings of residues), BLAST uses a scoring matrix - BLOSUM62 for amino-acid sequences, by default - to find words that may not match exactly but are high-scoring nevertheless. These high-scoring 'hits' are used as 'seeds' for the slower, more sophisticated dynamic programming algorithm. BLAST also performs some pre-processing of the query sequence - to filter out low-complexity regions (such as CA repeats) and to discard words not likely to form high-scoring pairs. Like FASTA, BLAST does not allow gaps in the primary word-matching pass, but it does in the subsequent Smith-Waterman alignment stage. For this reason, BLAST, like FASTA, has the potential to miss significant similarities present in the database [15]. From a practical standpoint, BLAST is generally the way to go, not only because of its better accuracy, but also because of its availability and its wide acceptance as the standard.


      نتائج ومناقشة

      ك-mer to lowest common ancestor database

      At the core of Kraken is a database that contains records consisting of a ك-mer and the LCA of all organisms whose genomes contain that ك-مر. This database, built using a user-specified library of genomes, allows a quick lookup of the most specific node in the taxonomic tree that is associated with a given ك-مر. Sequences are classified by querying the database for each ك-mer in a sequence, and then using the resulting set of LCA taxa to determine an appropriate label for the sequence (Figure 1 and Materials and methods). Sequences that have no ك-mers in the database are left unclassified by Kraken. By default, Kraken builds the database with ك = 31, but this value is user-modifiable.

      The Kraken sequence classification algorithm. To classify a sequence, each ك-mer in the sequence is mapped to the lowest common ancestor (LCA) of the genomes that contain that ك-mer in a database. The taxa associated with the sequence’s ك-mers, as well as the taxa’s ancestors, form a pruned subtree of the general taxonomy tree, which is used for classification. In the classification tree, each node has a weight equal to the number of ك-mers in the sequence associated with the node’s taxon. Each root-to-leaf (RTL) path in the classification tree is scored by adding all weights in the path, and the maximal RTL path in the classification tree is the classification path (nodes highlighted in yellow). The leaf of this classification path (the orange, leftmost leaf in the classification tree) is the classification used for the query sequence.

      Simulated metagenome data

      Although genuine metagenomic reads might provide the most realistic test of performance, such data would not allow us to assess classification accuracy, because the true species in metagenomic data sets today are mostly unknown. We instead used two simulated metagenomes created by combining real sequences obtained from projects that sequenced isolated microbial genomes. When creating these simulated metagenomes, we used data sequenced by the Illumina HiSeq and MiSeq sequencing platforms, and thus we call these the HiSeq and MiSeq metagenomes, respectively (see Materials and methods). These metagenomes were constructed to measure classification speed and genus-level accuracy for data generated by current and widely used sequencing platforms.

      In addition to the two simulated metagenomes constructed with sequences from isolated genomes, we created a third metagenomic sample covering a much broader range of the sequenced phylogeny. This sample, featuring simulated bacterial and archaeal reads (called simBA-5), was created with an error rate five times higher than would be expected, to evaluate Kraken’s performance on data that contain many errors or have strong differences from Kraken’s genomic library (see Materials and methods).

      Classification accuracy

      Classifiers generally adopt one of two strategies: for example, PhymmBL and NBC classify all sequences as accurately as possible, while Kraken and Megablast leave some sequences unclassified if insufficient evidence exists. Because PhymmBL and NBC label everything, they will tend to produce more false positives than methods like Kraken. In turn, one can expect a selective classifier to have higher precision at some cost to sensitivity. Uniquely among metagenomics classifiers, PhymmBL supplies confidence scores for its classifications, which can be used to discard low-confidence predictions and improve accuracy. Using a lower bound of 0.65 for genus-level confidence, we created a selective classifier based on PhymmBL’s predictions that we denote as PhymmBL65.

      To compare Kraken’s accuracy to these of other classification methods, we classified 10,000 sequences from each of our simulated metagenomes and measured genus-level sensitivity and precision (Figure 2 and Table 1). Here, sensitivity refers to the proportion of sequences assigned to the correct genus. Precision, also known as positive predictive value, refers to the proportion of correct classifications, out of the total number of classifications attempted. Kraken’s sensitivity and precision are very close to that of Megablast. For all three metagenomes, Kraken’s sensitivity was within 2.5 percentage points of Megablast’s. The use of exact 31-base matches, however, appears to yield a higher precision for Kraken, as its precision was the highest of all classifiers for each of the three metagenomes. As may be expected, the nonselective classifiers were able to achieve slightly higher sensitivity than the selective classifiers, but at the cost of a significantly lower precision, approximately 80% versus close to 100% for Kraken.

      Classification accuracy and speed comparison of classification programs for three simulated metagenomes. For each metagenome, genus precision and sensitivity are shown for five classifiers, and speed is shown for five programs (PhymmBL65 is simply a confidence-filtered version of PhymmBL’s results, and MetaPhlAn only classifies a subset of reads that map to one of its marker genes, as it is an abundance estimation program). Results shown are for: (أ) the HiSeq metagenome, consisting of HiSeq reads (mean length ميكرومتر = 92 bp) in equal proportion from ten bacterial sequencing projects (ب) the MiSeq metagenome, consisting of MiSeq reads (ميكرومتر = 156 bp) in equal proportion from ten bacterial projects and (ج) the simBA-5 metagenome, consisting of simulated 100-bp reads with a high error rate from 1,967 bacterial and archaeal taxa. Note that the horizontal axes in all speed graphs have a logarithmic scale.

      We also note the recent publication of a method, LMAT [12], which uses a ك-mer indexing scheme similar to Kraken’s, but otherwise differs in its classification strategy. LMAT cannot easily be downloaded and run on our simulated data (see Additional file 1: Note 1) so instead we ran Kraken on a data set used for LMAT’s published results. For that data (the PhymmBL set), Kraken exceeded LMAT’s accuracy in both identifying read origin and identifying the presence of species in the sample. Both methods had essentially perfect (near 100%) precision, but Kraken correctly labelled the species of 89% of the reads while LMAT only did so for 74% of the reads. However, as we note, that data set does not provide a good basis for comparison because the reads are simulated without error from genomes included in both Kraken’s and LMAT’s databases.

      Classification speed

      Because of the very large size of metagenomic data sets today, classification speed is critically important, as demonstrated by the emergence of rapid abundance estimation programs such as MetaPhlAn. To evaluate classification speed, we ran each classifier, as well as MetaPhlAn, against each of the three metagenomes that we used to test accuracy (Figure 2).

      Kraken classified reads much faster than any other classifier, with performance ranging from 150 to 240 times faster than the closest competitor. Kraken processed data at a rate of over 1.5 million reads per minute (rpm) for the HiSeq metagenome, over 1.3 million rpm for the simBA-5 metagenome and over 890,000 rpm for the MiSeq metagenome. The next fastest classifier, Megablast, had speeds of 7,143 rpm for the HiSeq metagenome, 4,511 rpm for the simBA-5 metagenome and 2,830 rpm for the MiSeq metagenome. For all three metagenomes, PhymmBL classified at a rate of <100 rpm and NBC at <10 rpm. Kraken is also more than three times as fast as MetaPhlAn (which only classifies a subset of reads), which had speeds of 445,000 rpm, 371,000 rpm and 276,000 rpm for the HiSeq, simBA-5 and MiSeq metagenomes, respectively. These results are shown in Figure 2. As expected, all tools processed the longer MiSeq reads (mean length ميكرومتر = 156 bp) more slowly than the simBA-5 (ميكرومتر = 100 bp) or HiSeq (ميكرومتر = 92 bp) reads. We also performed a speed comparison against LMAT using one of the real samples discussed in LMAT’s published results on this sample Kraken was 38.82 times faster than LMAT and 7.55 times faster than a version of LMAT using a smaller database (Additional file 1: Note 1).

      Other variants of Kraken

      To obtain maximal speed, Kraken needs to avoid page faults (instances where data must be brought from a hard drive into physical memory), so it is important that Kraken runs on a computer with enough RAM to hold the entire database. Although Kraken’s default database requires 70 GB of RAM, we also developed a method to remove ك-mers from the database, which dramatically reduces the memory requirements. We call this version of Kraken, which uses a smaller database, MiniKraken. For our results here, we used a 4 GB database. Compared to Kraken, the ability of MiniKraken to recognize species from short reads is lower, with sensitivity for our real sequence metagenomes dropping approximately 11% (Figure 3 and Table 1). On the high-error simBA-5 metagenome, MiniKraken’s sensitivity was more than 25 percentage points lower than Kraken’s, indicating that for short reads, high error rates can cause substantial loss in sensitivity. However, for all three metagenomes, MiniKraken was more precise than Kraken.

      Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes. For each metagenome, genus precision and sensitivity are shown for five classifiers, and speed is shown for Kraken, along with a reduced memory version of Kraken (MiniKraken), quick execution versions of both (Kraken-Q and MiniKraken-Q), and Kraken run with a database containing draft and completed microbial genomes from GenBank (Kraken-GB). Results shown are for the same metagenomes used in Figure 2. Note that the scales of the axes differ from Figure 2, as the precision and speed of Kraken (and its variants) exceed that of the other classifiers used. (أ) HiSeq metagenome. (ب) MiSeq metagenome. (ج) simBA-5 metagenome.

      MiniKraken’s high precision demonstrates that in many cases we do not need to examine all ك-mers in a sequence to get the correct classification. Taking this idea to its extreme, we developed a ‘quick operation’ mode for Kraken (and MiniKraken), where instead of querying all ك-mers in a sequence against our database, we instead stop at the first ك-mer that exists in the database, and use the LCA associated with that ك-mer to classify the sequence. This operation mode (denoted by appending -Q to the classifier name) allows Kraken to skip tens or hundreds of ك-mer queries per sequence, significantly increasing its classification speed with only a small fall in accuracy (Figure 3 and Table 1). Because a database containing fewer ك-mers requires more queries from a sequence to find a hit, MiniKraken-Q is slower than Kraken-Q, even when MiniKraken is faster than Kraken.

      We also created a variant Kraken database that contains GenBank’s draft and completed genomes for bacteria and archaea, which we call Kraken-GB. The regular version of Kraken only includes RefSeq complete genomes, of which there are 2,256, while Kraken-GB contains 8,517 genomes. Our hypothesis was that Kraken-GB would have a higher sensitivity than standard Kraken for our metagenomes, by virtue of its larger database. Kraken-GB has a much higher sensitivity for the HiSeq and MiSeq metagenomes compared to Kraken (Figure 3 and Table 1), primarily due to the presence of two genomes in these simulated metagenomic samples that have close relatives only in Kraken-GB’s database (Materials and methods).

      Although Kraken-GB does have higher sensitivity than Kraken, it sometimes makes surprising errors, which we discovered were caused by contaminant and adapter sequences in the contigs of some draft genomes. These contaminant sequences come from other bacteria, viruses or even human genomes, and they result in incorrectly labelled ك-mers in the database. We attempted to remove these from Kraken-GB (Materials and methods), but some contaminants may still slip through any filters. Thus for now, the default version of Kraken uses only complete RefSeq genomes.

      Clade exclusion experiments

      An important goal of metagenomics is the discovery of new organisms, and the proper classification of novel organisms is a challenge for any classifier. Although a classifier cannot possibly give a novel species the proper species label, it may be able to identify the correct genus. To simulate the presence of novel organisms, we re-analyzed the simBA-5 metagenome after first removing organisms from the Kraken database that belonged to the same clade. That is, for each read, we masked out database hits for the species of the read’s origin, and evaluated Kraken’s accuracy at the higher ranks (e.g., genus and family). We continued this masking and evaluation process for clades of origin up to the phylum rank. This procedure approximates how Kraken would classify the metagenomic reads if that clade were not present in the database.

      Table 2 contains the results of this analysis. Kraken exhibited high rank-level precision in all cases where a clade was excluded, with rank-level precision remaining at or above 93% for all pairs of measured and excluded ranks. However, sensitivity was dramatically lower: at best, Kraken was able to classify approximately 33% of reads when their species has never been seen before. This is not surprising in light of Kraken's reliance on exact matches of relatively long ك-mers: sequences deriving from different genera rarely share long exact matches. Nonetheless, the high precision in this experiment indicates that when Kraken is presented with novel organisms, it is likely to either classify them properly at higher levels or not classify them at all.

      Human Microbiome Project data

      We used Kraken to classify reads from three saliva samples collected as part of the Human Microbiome Project. Because these samples were obtained from humans, we created a Kraken database containing bacterial, viral and human genomes to classify these reads. Combining the three samples together, we report the taxonomic distribution of the classified reads (Figure 4). An analysis of the classified reads from the combined samples reveals that a majority of those reads were classified into one of three genera: العقدية (30%), المستدمية (17%) and Prevotella (13%). Streptococcus mitis[13], Haemophilus parainfluenzae[14] and Prevotella melaninogenica[15], the most abundant species (by read count) of each of these three genera, are all known to be associated with human saliva. We also performed the classification on each sample separately (Additional file 1: Figures S1,S2,S3).

      Taxonomic distribution of saliva microbiome reads classified by Kraken. Sequences from saliva samples collected from three individuals were classified by Kraken. The distribution of those reads that were classified by Kraken is shown.

      Of note is that 68.2% of the reads were not classified by Kraken. To determine why these reads were not classified by Kraken, we aligned a randomly selected subset of 2,500 of these unclassified reads to the RefSeq bacterial genomes using BLASTN. Only 11% (275) of the subset of unclassified reads had a BLASTN alignment with E-value ≤ 10 −5 and identity ≥90%. This suggests that the vast majority of the reads not classified by Kraken were significantly different from any known species, and thus simply impossible to identify.


      Part 3 - BLAST'ing Genomes

      So far we have been using BLAST to search in the big broad databases that covers at huge set of sequence from a large range of organisms. In this final part of the exercise we will be doing some more focused searches in smaller databases by trageting specific genomes.

      Typically this will be useful if you have a gene of known function from one organism (say a cell-cycle controlling gene from Yeast, Saccharomyces cerevisiae ) and want to find the human homolog/ortholog to this gene (genes that control cell division are often involved in cancer).

      When you have been performing the BLAST searches, you have probably already noticed, that's it possible to search specifically in the Human and Mouse genomes (these database only contains sequences from Human/Mouse). It's also possible to restrict the output from searches in the large databases (e.g. NR) to specific organisms.

      A growing number of organisms have been fully sequenced, and the research teams resposible for a large scale genome project typically put up their own Web resouces for accessing the data. For example the Yeast genome is principally hosted in the Saccharomyces Genome Database (SGD - www.yeastgenome.org ) - it should be noted that SGD also offers BLAST as a means to search the database.

      For the purpose of this exercise we will be using the genome resources hosted at the NCBI (with a short digression to SGD):

        Let's do a small study of the relationship between the histones found in Yeast and in Human (evolutionary distance:

      Look up the HTA2 gene in SGD (use the Quick Search box). Notice that a brief description about the function of the gene and it's protein product is displayed (a huge amout of additional information can be found further down the page - much of it Yeast specific).

      QUESTION 11: What information is given about the relationship between this gene and the gene " HTA1 "?

      Browse the page and locate the link to the protein sequence - keep the window open, or save the sequence to a file, we'll need it in a moment.

      Notice that an overview of the organisms for which genomes are available is shown in a box to the right (section: " Organism-specific ") - for each organism the information available is shown using a single letter code (" B " = BLAST). You can use this to open a BLAST page dedicated to that specific genome (you can search both DNA and proteins translated from the genes).

      Before we start looking in the human genome, let's find out if we can locate the HTA2 gene in the NCBI version of the Yeast genome.

      • Go to the BLAST page for Yeast (Click " B ").
      • Choose "RefSeq protein" as the database
      • Use the HTA2 protein sequence as query.
      • How many high-confidence hits do we get?
      • Does the hits make sense, from what you have read about HTA2 at the SGD webpage?

        Choose "RefSeq protein" as the database.

        Notice: a larger number of databases are offered compared to Yeast. This is simply due to the fact that the identification of the genes in the human genome is much more troublesome than in Yeast - and therefore a number of alternative interpretations of the genome/proteome is offered. (In Yeast virtually all protein coding genes has been experimentally verfied).

      QUESTION 14: Do we get longer alignments this time?

      A further analysis could consist of a series of pairwise alignments (for finding out what is similar/different between pairs of sequences) or a multiple alignment which could form the basis of establishing the evolutionary relationship between the entire set of seqeunces.


      شاهد الفيديو: دورة قواعد البيانات Microsoft SQL Server 2008 R2 - الدرس الثاني- الجداول Tables (شهر نوفمبر 2022).