معلومة

كلوستال أوميغا - التحويل من مسافة إلى # من البدائل

كلوستال أوميغا - التحويل من مسافة إلى # من البدائل


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي مجموعة من متواليات النوكليوتيدات التي قمت بمحاذاتها باستخدام Clustal Omega. على وجه الخصوص ، قمت بإجراء محاذاة كاملة ، وحصلت على مصفوفة المسافة الكاملة.

تتراوح درجات مصفوفة المسافة بين 0 و 1. وأتطلع إلى استخدام هذه النتيجة لحساب عدد المواضع المختلفة الموجودة في المحاذاة. هل هذا ممكن؟ إذا كان ذلك ممكنًا ، فأنا أتطلع إلى تجنب استخدام الكود (الخاص بي أو غير ذلك) لإعادة حساب عدد المواضع المختلفة بين كل زوج من المقاطع ، وبدلاً من ذلك احتسابها مباشرةً من درجة المسافة.

إليك مثال لعبة على ما أتلقاه من ClustalOmega:

تسلسل 1 2 3 4 1 0 0.1 0.06 0.1 2 0 0.4 0.23 3 0 0.05 4 0

الأرقام هي "المسافات" حسب حساب ClustalOmega. وفقًا لملف README ، يتم حسابها بواسطة مقياس k-tuple. حاولت تحليل الورقة الأصلية (المنشورة عام 1983 في PNAS) ، لكنني لم أتمكن من معرفة كيفية حساب مسافات k-tuple ، ولم أتمكن من معرفة كيفية حساب قياس المسافة (كما ورد أعلاه) من k-tuple المسافات.

أود تحويل هذه الأرقام إلىعدد المواضع التي تختلف بين كل زوج من المتسلسلات عند محاذاة الاثنين. وهذا يشمل الاستبدالات ، والإدراج ، والحذف. أقوم بهذا حاليًا لـ 520 مجموعة من تسلسلات الفيروسات. هل هذا ممكن؟


يستخدم مصفوفة gonet لمقارنة كل من هذين التسلسلين. نظرًا لأنه يمكن أن يكون لديك إدخالات وإضافات بالإضافة إلى بدائل ، فإنها تصبح مشكلة مكونة من 3 معلمات. 1 * فتح + 6 * عقوبة + تعويض_عقوبة = X. يمكن حل X عن طريق مجموعة خطية من عقوبات الاستبدال والإضافات والإدخالات. لذلك أعتقد أن هذا سيكون صعبًا حقًا

بالإضافة إلى ما قيل. تنتج الكتلة محاذاة التسلسل المتعدد. لماذا لا تنظر فقط إلى التسلسل 1 والتسلسل 2 وترى ما هي عمليات الإدراج والاستبدال!


محاذاة تسلسل متعدد

محاذاة تسلسل متعدد (MSA) إلى العملية أو نتيجة محاذاة التسلسل لثلاثة متواليات بيولوجية أو أكثر ، بشكل عام بروتين أو DNA أو RNA. في كثير من الحالات ، يُفترض أن يكون لمجموعة الإدخال من تسلسلات الاستعلام علاقة تطورية يشتركون من خلالها في الارتباط وينحدرون من سلف مشترك. من MSA الناتج ، يمكن استنتاج تجانس التسلسل ويمكن إجراء تحليل النشوء والتطور لتقييم الأصول التطورية المشتركة للتسلسلات. توضح الصور المرئية للمحاذاة كما في الصورة الموجودة على اليمين أحداث الطفرات مثل الطفرات النقطية (تغيرات الحمض الأميني الفردي أو تغيرات النيوكليوتيدات) التي تظهر كأحرف مختلفة في عمود محاذاة واحد ، وطفرات الإدراج أو الحذف (indels أو الفجوات) التي تظهر على شكل واصلات في واحد أو أكثر من التسلسلات في المحاذاة. غالبًا ما تستخدم محاذاة التسلسل المتعدد لتقييم حفظ التسلسل لمجالات البروتين والتركيبات الثلاثية والثانوية ، وحتى الأحماض الأمينية الفردية أو النيوكليوتيدات.

تُستخدم الخوارزميات الحسابية لإنتاج وتحليل MSA نظرًا لصعوبة واستعصاء معالجة التسلسلات يدويًا نظرًا لطولها ذي الصلة بيولوجيًا. تتطلب MSAs منهجيات أكثر تعقيدًا من المحاذاة الزوجية لأنها أكثر تعقيدًا من الناحية الحسابية. تستخدم معظم برامج محاذاة التسلسل المتعددة طرقًا إرشادية بدلاً من التحسين الشامل لأن تحديد المحاذاة المثلى بين أكثر من عدد قليل من التسلسلات ذات الطول المعتدل يعد مكلفًا من الناحية الحسابية. من ناحية أخرى ، تفشل الأساليب الاستدلالية عمومًا في تقديم ضمانات على جودة الحل ، مع حلول إرشادية تظهر غالبًا أقل بكثير من الحل الأمثل في حالات القياس. [1] [2] [3]


التحالفات

LALIGN - (EMBnet) يجد العديد من الأجزاء الفرعية المتطابقة في تسلسلين. يوفر واحدًا بهوية ٪ لأجزاء فرعية مختلفة من التسلسل.

FFAS - نظام الطي وتخصيص الوظائف. يمكن الآن مقارنة ملف تعريف بروتين المستخدم بـ

20 قاعدة بيانات ملف تعريف إضافية. يمكن للمستخدم ، من خلال سلسلة من علامات التبويب ، التنقل بين صفحات نتائج متعددة ، ويتضمن أيضًا وظائف جديدة ، مثل عارض الرسم البياني النقطي ، وأدوات النمذجة ، وعارض محاذاة ثلاثية الأبعاد محسّن ، وروابط إلى قاعدة بيانات التشابه الهيكلي. (المرجع: Jaroszewski، L. et al. 2011. الأحماض النووية Res. 39(مشكلة خادم الويب): W38-44)

قارن بين متسلسلين مع LALIGN / PLALIGN ابحث عن تكرارات داخلية عن طريق حساب المحاذاة المحلية غير المتقاطعة للبروتين أو تسلسل الحمض النووي. تُظهر LALIGN درجات المحاذاة والتشابه ، بينما تقدم PLALIGN & quotdot-plot & quot مثل الرسم البياني.

SFESA (سhift إلى Fالتاسع الهيكل الثانوي هlementس في أlignments) - هو خادم ويب لتحسين المحاذاة الزوجية عن طريق التحولات الهيكلية الثانوية. تقوم FESA بتقييم متغيرات المحاذاة الناتجة عن التحولات المحلية واختيار أفضل متغير محاذاة الدرجات. (المرجع: Tong J et al (2015). Proteins. 83(3): 411-427).

LAST - يوفر قدرًا كبيرًا من التحكم في معالجة البيانات ، جنبًا إلى جنب مع النقاط النقطية والمحاذاة الملونة (المرجع: Kielbasa SM et al. Genome Res 21(3): 487-93).

الوسابي - (أندريس فيدينبيرج ، جامعة هلسنكي ، فنلندا) هو تطبيق قائم على المستعرض لتصور وتحليل بيانات التسلسل الجزيئي المحاذاة المتعددة.

تعد مقارنة محاذاة التسلسل المتعدد من VerAlign برنامج مقارنة يقوم بتقييم جودة محاذاة الاختبار مقابل نسخة مرجعية من نفس المحاذاة.

محاذاة تسلسل النوكليوتيدات الزوجي للتصنيف (EzBioCloud ، جامعة سيول الوطنية ، جمهورية كوريا) - بالنسبة لتسلسلات النوكليوتيدات & lt 5 كيلو بايت ، فإنه يعطي تكوينات لونية ودرجة تشابه بناءً على مايرز وميلر (المحاذاة العالمية)

جين وايز (EMBL-EBI) - يقارن تسلسل البروتين بتسلسل الحمض النووي الجيني ، مما يسمح بالإنترونات وأخطاء تغيير الإطارات.

SIM - أداة المحاذاة للبروتين (ExPASy ، سويسرا) يعطي محاذاة مجزأة مشابهة لـ LALIGN.

WebPRANK - يدعم الخادم محاذاة تسلسل الحمض النووي والبروتين والكودون بالإضافة إلى المحاذاة المترجمة للبروتين لـ cDNAs ، ويتضمن نماذج بنية مدمجة لمحاذاة التسلسلات الجينية. يمكن تصدير المحاذاة الناتجة في تنسيقات مختلفة تستخدم على نطاق واسع في تحليلات التسلسل التطوري. يشتمل خادم webPRANK أيضًا على متصفح محاذاة قوي قائم على الويب لتصور النتائج ومعالجتها لاحقًا في سياق مخطط cladogram المتعلق بالتسلسلات ، مما يسمح (على سبيل المثال) بإزالة أعمدة المحاذاة ذات الموثوقية الخلفية المنخفضة. بالإضافة إلى محاذاة de novo ، يمكن استخدام webPRANK لاستدلال تسلسل الأسلاف مع أنماط فجوة واقعية نسبيًا ، وللتعليق التوضيحي والمعالجة اللاحقة للمحاذاة الحالية. (المرجع: L & oumlytynoja، A.، & amp Goldman، N. 2010. BMC Bioinformatics 11: 579).

انفجار 2 (NCBI) - مفيد أيضًا لمقارنات تسلسل الحمض النووي. يوفر رسمًا صغيرًا لا يستخدم إلا مع البروتينات أو تسلسل الحمض النووي القصير.

تشابه تسلسل البروتين ودرجات الهوية:

EMBOSS supermatcher استخدم 10 و 0.5 كإعدادات افتراضية في عقوبة فتح الفجوة وعقوبة تمديد الفجوة ، على التوالي.
مُطابق EMBOSS - يجد أفضل المحاذاة المحلية بين تسلسلين

FOLDALIGN - تقوم بطيات ومحاذاة هياكل الحمض النووي الريبي (إجراء محاذاة قابلة للطي) بناءً على نموذج طاقة خفيف الوزن وتشابه التسلسل. يقوم الإصدار الحالي بمحاذاة طي الزوجي. (المرجع: J.H Havgaard et al. 2005. Bioinformatics 21: 1815 - 1824).

قارن بين التسلسلات المتعددة :

معلومات اساسية: هناك نوعان من مواقع المساعدة الجيدة على الإنترنت لـ CLUSTAL W. وهما (أ) المساعدة عبر الإنترنت لـ CLUSTAL (ويكي). و، (ب) محاذاة تسلسل متعدد ، (ويكي)

ClustalW - محاذاة تسلسل متعددة (EBI ، المملكة المتحدة). يوفر هذا عددًا من الخيارات لعرض البيانات ، ومصفوفات التماثل [BLOSUM (Henikoff) ، PAM (Dayhoff) أو GONNET ، وعرض أشجار النشوء والتطور (الجار - الانضمام ، Phylip أو المسافة). المواقع التي تقدم محاذاة ClustalW موجودة في جامعة كيوتو و chEMBLnet.org

Clustal Omega - هو برنامج جديد لمحاذاة التسلسل المتعدد يستخدم أشجار توجيه مصنفة وتقنيات ملف تعريف HMM لإنشاء محاذاة. (المرجع: Sievers، F. et al. 2011. Molecular Systems Biology 7 رقم المادة: 539)

MAFFT محاذاة التسلسل المتعدد ونسالة NJ / UPGMA - لقد حاولت مؤخرًا محاذاة ثلاثة عشر جينومًا للعاثيات بسعة 50 كيلو بايت باستخدام ClustalW ، ولم يكن ذلك ناجحًا ، فقد قدمت MAFFT المحاذاة بسرعة لا تصدق. لسوء الحظ فإنه لن يولد شجرة. تم فتح بيانات Clustal في ClustalX وتم حفظ الشجرة في الإعدادات الافتراضية وتم تصورها في FigTree (المرجع: Katoh، K. et al. 2002. Nucl. Acids Rese. 30 : 3059-3066).

DbClustal - (EMBL-EBI) محاذاة التسلسلات من بحث قاعدة بيانات BlastP مع تسلسل استعلام واحد. تعتمد خوارزمية المحاذاة على ClustalW2 المعدلة لتضمين بيانات المحاذاة المحلية في شكل نقاط ربط بين أزواج من التسلسلات. إخراج ملون جدا.

LALIGN - جزء من أدوات VISTA لعلم الجينوم المقارن

PROBCONS - هي أداة جديدة لتوليد محاذاة متعددة لتسلسل البروتين. باستخدام مجموعة من النمذجة الاحتمالية وتقنيات المحاذاة القائمة على الاتساق ، حققت PROBCONS أعلى درجات الدقة لجميع طرق المحاذاة حتى الآن. في قاعدة بيانات المحاذاة المعيارية BAliBASE ، تُظهر المحاذاة التي تنتجها PROBCONS تحسنًا مهمًا إحصائيًا مقارنة بالبرامج الحالية ، وتحتوي على متوسط ​​أعمدة متوائمة بشكل صحيح بنسبة 7٪ أكثر من تلك الخاصة بـ T-Coffee ، و 11٪ أعمدة تمت محاذاة بشكل صحيح أكثر من تلك الخاصة بـ CLUSTAL W ، و 14 ٪ أعمدة تمت محاذاتها بشكل صحيح أكثر من تلك الموجودة في DIALIGN. (المرجع: CB Do وآخرون 2005. Genome Res. 15: 330-340).

webPRANK - يدمج محاذاة التسلسل المتعدد المدرك للتطور ، والتصور والمعالجة اللاحقة في واجهة ويب سهلة الاستخدام. (المرجع: L & oumlytynoja، A.، & amp Goldman، N. 2010. BMC المعلوماتية الحيوية. 11:579).

التوجيه - ينفذ خوارزميتين مختلفتين لتقييم درجات الثقة: (1) طريقة الرأس أو الذيل (HoT) ، والتي تقيس عدم اليقين في المحاذاة بسبب الحلول المثلى (2) طريقة التوجيه ، والتي تقيس قوة المحاذاة مع عدم اليقين دليل شجرة. يعرض الخادم درجات الثقة على MSA ويشير إلى الأعمدة والتسلسلات التي لا يمكن الاعتماد عليها. يمكن إزالتها تلقائيًا استعدادًا لتحليلات المصب. ملحوظة. تحتاج على الأقل 8 متواليات (المرجع: Penn، O. 2010. Nucleic Acids Res. 38(مشكلة خادم الويب): W23-28).

SALIGN - يحدد تلقائيًا أفضل إجراء محاذاة بناءً على المدخلات ، مع السماح للمستخدم بتجاوز قيم المعلمات الافتراضية. يتم توجيه المحاذاة المتعددة بواسطة مخطط شجر محسوب من مصفوفة لجميع درجات المحاذاة الزوجية. عند محاذاة التسلسلات مع الهياكل ، تستخدم SALIGN معلومات البيئة الهيكلية لوضع الفجوات على النحو الأمثل. إذا تم إدخال اثنين من محاذاة التسلسل المتعدد للبروتينات ذات الصلة إلى الخادم ، يتم إجراء محاذاة الملف الشخصي (المرجع: Braberg، H. et al. 2012. Bioinformatics. 28(15):2072-2073).

AlignMe (لمحاذاة البروتينات الغشائية) هو برنامج مرن للغاية لمحاذاة التسلسل يسمح باستخدام مقاييس مختلفة للتشابه. تشمل مقاييس التشابه هذه: مصفوفات الاستبدال ، ومقاييس مقاومة الماء وأي نوع من الملامح (مثل تنبؤات البنية الثانوية أو تنبؤات الغشاء). (المرجع: Khafizov K et al. 2014. Nucl. Acids Res. 42 (W1) ، W246-W251)

PRALINE - هو برنامج محاذاة تسلسل متعدد مع العديد من الخيارات لتحسين المعلومات لكل تسلسل إدخال على سبيل المثال المعالجة المسبقة العالمية أو المحلية ، معلومات البنية الثانوية وقدرات التكرار المتوقعة. (المرجع: V.A. Simossis et al. (2005) Nucleic Acids Res. 33: 816-824). مثال على إخراج PRALINE:

أداة سياق الجينات - هي أداة رائعة لتصور سياق الجينوم لجين أو مجموعة من الجينات (التركيب). في الرسم البياني التالي تم تحليل بروتين RpoN (Sigma54). (المرجع: R. Ciria et al. (4004) المعلوماتية الحيوية 20: 2307-2308).

ConSurf هي أداة معلوماتية حيوية لتقدير الحفظ التطوري لمواضع الأحماض الأمينية / النووية في جزيء البروتين / الحمض النووي / الحمض النووي الريبي على أساس العلاقات النشوء والتطور بين المتواليات المتماثلة. تعتمد الدرجة التي يتم بها الحفاظ على موضع الحمض الأميني (أو النووي) تطوريًا بشدة على أهميتها الهيكلية والوظيفية التي تتطور بسرعة المواقف بينما يتم الحفاظ على المواقف التي تتطور ببطء. (المرجع: Ashkenazy، H. et al. 2010. Nucl. Acids Res. 38 (ملحق 2): W529-W533).

MultAlin - محاذاة تسلسل متعددة بواسطة فلورنس كوربت (المعهد الوطني للبحوث الزراعية (INRA) ، فرنسا). ملحوظة. النتائج معروضة بالألوان.

المحاذاة المتعددة - خدمة GeneBee (معهد بيلوزرسكي للبيولوجيا الفيزيائية الكيميائية ، جامعة موسكو الحكومية ، روسيا) . ملحوظة. توفر هذه الخدمة أيضًا تحليل نسبي للبيانات.

PROMALS3D - يبني محاذاة لتسلسلات و / أو هياكل متعددة للبروتين باستخدام معلومات من عمليات البحث في قاعدة بيانات التسلسل والتنبؤ بالهيكل الثانوي والمتماثلات المتاحة مع الهياكل ثلاثية الأبعاد والقيود التي يحددها المستخدم. (المرجع: Pei، J. et al. 2008. Nucleic Acids Res. 36(7): 2295-2300 ).

SANSparallel: بحث تجانس تفاعلي ضد Uniprot - يوفر خادم الويب عمليات بحث في قاعدة بيانات تسلسل البروتين مع استجابة فورية وتصور المحاذاة المهنية بواسطة برنامج تابع لجهة خارجية. الإخراج عبارة عن قائمة أو محاذاة زوجية أو محاذاة مكدسة للبروتينات المشابهة للتسلسل من Uniprot أو UniRef90 / 50 أو Swissprot أو بنك بيانات البروتين. يتم عرض المحاذاة المكدسة في Jalview أو كشعارات متسلسلة. يستخدم البحث في قاعدة البيانات طريقة البحث عن حي مصفوفة اللاحقة (SANS) ، والتي أعيد تنفيذها كخادم عميل ، وتم تحسينها وتوازيها. الطريقة سريعة للغاية وحساسة مثل BLAST فوق هوية التسلسل بنسبة 50 ٪. (المرجع: P. Somervuo & amp L. Holm. 2015. Nucl. Acids Res. 43 (W1): W24-W29).

ديالين (جامعة بيلفيلد ، ألمانيا) - & quotDIALIGN هو برنامج جديد للمحاذاة المتعددة تم تطويره بواسطة Burkhard Morgenstern et al. بينما تعتمد طرق المحاذاة القياسية على مقارنة المخلفات الفردية وفرض عقوبات الفجوة ، فإن DIALIGN يبني محاذاة زوجية ومتعددة من خلال مقارنة مقاطع كاملة من التسلسلات. & quot

مجموعة القهوة - T-Coffee (محاذاة DNA أو RNA أو البروتينات باستخدام T-Coffee الافتراضي) ، M-Coffee (محاذاة DNA أو RNA أو البروتينات من خلال الجمع بين إخراج المحاذاة الشائعة) ، R-Coffee (محاذاة تسلسل RNA باستخدام متنبأ ثانوي الهياكل) ، Expresso (محاذاة تسلسل البروتين باستخدام المعلومات الهيكلية) ، PSI-Coffee (محاذاة البروتينات ذات الصلة البعيدة باستخدام تمديد التماثل) و TM-Coffee (محاذاة بروتينات الغشاء باستخدام تمديد التماثل). (المرجع: Di Tommaso. P. et al. 2011. Nucleic Acids Res. 39(إصدار خادم الويب: W13-17 Chang، J.M. et al. 2012. BMC Bioinformatics. 13 ملحق 4: S1).

TM-Aligner - يوفر محاذاة تسلسل متعددة لبروتينات الغشاء (المرجع: Bhat B et al. (2017) التقارير العلمية 7: رقم المادة: 12543).

لوكارنا - مشديد أlignment من RNAs - هي أداة لمحاذاة متعددة لجزيئات الحمض النووي الريبي. يتطلب LocARNA تسلسلات RNA فقط كمدخلات وسيقوم في نفس الوقت بطي ومحاذاة تسلسل الإدخال. ينتج LocARNA محاذاة متعددة مع بنية إجماع. بالنسبة للطي ، فإنه يستخدم نموذج طاقة واقعي للغاية لـ RNAs كما هو الحال بواسطة RNAfold من حزمة Vienna RNA (أو Zuker & # 39s mfold). بالنسبة للمحاذاة ، فهي تتميز بتسجيل تشابه يشبه الريبوسوم وتكلفة فجوة واقعية. (المرجع: C. Smith et al. 2010. Nucl. Acids Res. 38: W373-377).

كارنا هي أداة لمحاذاة متعددة لجزيئات الحمض النووي الريبي. يتطلب CARNA تسلسل RNA فقط كمدخلات وسوف يحسب مصفوفات احتمالية الزوج الأساسي ومحاذاة التسلسلات بناءً على مجموعاتها الكاملة من الهياكل. بدلاً من ذلك ، يمكنك أيضًا توفير مصفوفات احتمالية الزوج الأساسي (المخططات النقطية بتنسيق .ps) أو الهياكل الثابتة (كتعليق توضيحي في محاذاة FASTA) للتسلسلات الخاصة بك. إذا قمت بتوفير هياكل ثابتة ، فسيتم محاذاة تلك الهياكل فقط وليس المجموعة الكاملة للهياكل الممكنة. على عكس LocARNA ، لا تختار CARNA بنية الإجماع الأكثر ترجيحًا ، ولكنها تحسب المحاذاة التي تناسب جميع الهياكل المحتملة في وقت واحد. ومن ثم ، فإن CARNA مفيدة بشكل خاص عند محاذاة RNAs مثل المحولات الريبية ، التي لها أكثر من بنية واحدة مستقرة. (المرجع: A. Dragos et al. 2012. Nucleic Acids Reseach 40: W49-W53)

Web-Beagle: خادم ويب للمحاذاة العمومية أو المحلية الزوجية لهياكل RNA الثانوية. (المرجع: E. Mattei وآخرون 2015. Nucl. Acids Res. 43 (W1): W493-W497).

عروض بديلة للمحاذاة:
صندوق - (هوفمان وأمبير بارون ، معهد باستور ، فرنسا) يقبل هذا الإصدار مجموعة متنوعة من تنسيقات الملفات ويسمح للطالب بمرونة كبيرة في تحديد مظهر الإخراج (اللون والترتيب بالإضافة إلى التنسيق).

برنامج ESPript 3.0 - (IUniversite Lyon ، فرنسا) - هو برنامج يعرض أوجه التشابه في التسلسل ومعلومات البنية الثانوية من التسلسلات المتوافقة لغرض التحليل والنشر. يتطلب ذلك حفظ المحاذاة كملف * .aln. يتوفر تحكم جيد في مظهر الإخراج وتنسيقه (ps و tiff و gif). (المرجع: Robert X. & amp Gouet P. 2014. Nucl. Acids Res. 42 (W1) ، W320-W324).

عرض المحاذاة المتعددة - (Bioinformatics.org/ The Open Lab University of Massachusetts Lowell) يسمح باختيار كبير في محاذاة التلوين.

مقارنة التسلسل بين جينومين:


الأسئلة الشائعة حول أدوات المعلوماتية الحيوية

كل أداة لها حدودها الخاصة ، يرجى الرجوع إلى نموذج الويب أو صفحة خدمات الويب ذات الصلة للأدوات الفردية. خدمة EBI لها حدود ، وبالتالي فإن عددًا أقل من التسلسلات الطويلة جدًا سيتوقف غالبًا قبل اكتمال المحاذاة. لا تهدف خوارزميات الأدوات الخاصة بنا إلى إنتاج خرائط تركيبية للجينوم.

ما هي تنسيقات الإدخال التي يمكنني استخدامها؟

لكل أداة متطلبات مختلفة ، ولكن يمكن استخدام تنسيقات GCG أو FASTA أو EMBL (النوكليوتيد فقط) أو GenBank أو PIR أو NBRF أو PHYLIP أو UniProtKB / Swiss-Prot (البروتين فقط) في غالبية الأدوات. يرجى الرجوع إلى صفحات إدخال الأداة الفردية. يعد تنسيق الإدخال غير الصحيح أحد أكثر الأسباب شيوعًا لفشل الوظيفة.

ما هو إخراج الأداة الذي يمكن أن أتوقع رؤيته؟

يرجى الرجوع إلى صفحات إخراج الأداة الفردية.

كيف أقوم بتنزيل محاذاة؟

أسرع طريقة لتنزيل المحاذاة هي النقر فوق الزر "تنزيل ملف المحاذاة" في علامة تبويب المحاذاة في النتائج. يمكنك عرض جميع الملفات التي تم إنتاجها في علامة التبويب "ملخص النتائج" ، والتي تتضمن إخراج الأداة وأي ملفات شجرة دليل بالإضافة إلى ملف المحاذاة.

كيف أحفظ محاذاة ملونة؟

هناك عدة طرق لحفظ ملف الألوان الخاص بك.

1. الأكثر وضوحًا هو فحص المحاذاة من الإخراج والطباعة إلى pdf أو حفظها كصورة عالية الدقة.
2. بمجرد حصولك على النتائج ، حدد ملخص النتائج وإذا كان متصفحك يسمح بالارتباط إلى Jalview ، فيمكنك استخدام هذه الأداة لتقديم العديد من تنسيقات الألوان وحفظها بتنسيق pdf و png وما إلى ذلك. إذا كان متصفحك لا يسمح بالارتباط ، فيمكنك انتقل إلى موقع Jalview الإلكتروني واستخدم الأداة من هناك.
3. تشتمل مجموعة أدوات EMBOSS على Prettyplot الذي يمكن استخدامه لتنزيل المحاذاة وتلوينها وحفظها إما بتنسيق pdf أو png. نحن لا نستضيف هذه الخدمة في EBI ولا يمكننا توفير دعم المستخدم لذلك.
4. لمزيد من خيارات التلوين يمكنك اختيار Mview

كيف يمكنني مشاهدة شجرة النشوء والتطور؟

يمكن حفظ بيانات الشجرة بالنقر فوق الزر "عرض ملف شجرة النشوء والتطور" أو بالنقر فوق ارتباط الشجرة في علامة التبويب "ملخص النتائج". باستخدام هذه البيانات ، يمكنك إعادة إنشاء الشجرة في أي برنامج عرض شجرة يأخذ بيانات شجرة تنسيق Newick.

لا يمكن حفظ صورة الشجرة مباشرة لأنها واجهة ديناميكية تعتمد على جافا ، ومع ذلك يمكنك التقاط لقطة شاشة ثم حفظها في برنامج تحرير الصور ، أو كما هو مذكور أعلاه ، استخدم بيانات الشجرة لإعادة إنشاء الشجرة في برنامج عرض شجرة آخر وحفظه من هناك.
قمة

كيف يمكنني مشاهدة شجرتى بعد تنزيلها؟

تتوفر بيانات الشجرة بتنسيق Newick المستخدم على نطاق واسع ، وهناك العديد من برامج عرض الشجرة المستقلة أو المتوفرة عبر الإنترنت والتي يمكنها أخذ ذلك وإعادة إنشاء الشجرة من هذه البيانات.

ما هي مصفوفة الإحالة؟

تصف مصفوفة الاستبدال المعدل الذي يتغير به حرف واحد في التسلسل إلى حالات الأحرف الأخرى بمرور الوقت ، شاهد المزيد

ما هي مصفوفة المسافة؟

تُستخدم مصفوفات المسافة في علم التطور العرقي كطرق مسافة غير بارامترية وتم تطبيقها في الأصل على البيانات الظاهرية باستخدام مصفوفة للمسافات الزوجية. ثم يتم التوفيق بين هذه المسافات لإنتاج شجرة (مخطط نسبي ، مع أطوال فرع مفيدة). شاهد المزيد.

ما هي مصفوفة المسافة / الاستبدال التي يجب علي استخدامها؟

هناك العديد من مصفوفات المسافات التي يمكن استخدامها (محددة) عند إجراء بحث متسلسل أو محاذاة التسلسل. مصفوفة المسافة (الاستبدال) الأكثر استخدامًا هي BLOSUM62 ، لكن مصفوفات PAM شائعة أيضًا. يصف المنشور التالي بالتفصيل العوامل التي يجب على المرء أخذها في الاعتبار عند اختيار مصفوفة الاستبدال:

بيرسون دبليو آر. اختيار المصفوفة الصحيحة للتشابه والتسجيل. البروتوكولات الحالية في المعلوماتية الحيوية. 201343: 3.5.1-3.5.9. دوى: 10.1002 / 0471250953.bi0305s43. http://europepmc.org/articles/PMC3848038

إلى ماذا تشير الهوية المئوية؟

قيمة هوية النسبة المئوية هي درجة رقمية مفردة يتم تحديدها لكل زوج من التتابعات المتوافقة. يقيس عدد المخلفات المتطابقة ("المطابقات") فيما يتعلق بطول المحاذاة. كما هو معروض في المصفوفة (PIM) ، تظهر الأرقام الحقيقية نقطتين عشريتين. يوضح الرقم النسبة المئوية للاختلاف بين تسلسلين (على الرغم من أن هذا قد يختلف بين عارضين مختلفين للشجرة). تعني الدرجة 0.01 أن هناك فرقًا بنسبة 1٪ بين تسلسلين.

يرجى ملاحظة أن برامج المحاذاة المختلفة قد تقوم بحساب هوية النسبة المئوية للتسلسل والإبلاغ عنها بطرق مختلفة. عادةً ما يكون لمطور / باحث البرنامج وجهة نظر معينة حول كيفية معالجة الفجوات والمناطق الأخرى من محاذاة التسلسل المتعدد. المنشور التالي من قبل Raghava and Barton ، 2006 (https://europepmc.org/abstract/MED/16984632) ، يحاول مناقشة كيف يمكن أن يكون هذا مشكلة عند تفسير نتائج PIM.

ما معنى الدرجات الموضحة في شجرة النشوء والتطور؟

الدرجات الموضحة في شجرة النشوء والتطور (أو مخطط الشجرة) التي تم إنتاجها كناتج لمحاذاة التسلسل المتعدد (MSA) ، تتوافق مع قياس مسافة التسلسل. بطريقة ما ، تحاول القيم الموضحة في شجرة النشوء والتطور (أيضًا) تمثيل & quotl length & quot للفروع ، مما يدل على المسافة التطورية بين التسلسلات.

بشكل عام ، الطريقة التي تعمل بها معظم خوارزميات MSA هي محاذاة كل زوج من تسلسلات الإدخال ، واستخدامها لحساب الهوية الزوجية للزوج. أثناء بناء الشجرة ، تأخذ الخوارزمية التسلسلات المحاذاة وتبني مصفوفة مسافة تسلسل تُستخدم بعد ذلك للوصول إلى & quot الأمثل & quot شجرة بطريقة التجميع ، عادةً ما تكون الجوار-الانضمام (NJ) أو UPGMA (طريقة مجموعة الأزواج غير الموزونة مع الحساب يقصد). يتم تحويل ثنايا التسلسل الأول إلى مقياس للمسافة. أخيرًا ، يتم تحويل مصفوفة المسافة إلى شجرة باستخدام طريقة التجميع (NJ أو UPGMA). بعد المحاذاة التدريجية ومن المحاذاة المتعددة النهائية ، يتم حساب الهويات الزوجية لكل زوج من التسلسلات مرة أخرى. ينتج عن هذا مصفوفة مسافة جديدة ، يتم من خلالها تقدير شجرة جديدة. غالبًا ما تكون خوارزمية التجميع المستخدمة مرتبطة بالجوار ، وهذه هي الشجرة التي يتم توفيرها كناتج. يتم اختبار موثوقية التجميع الذي يتم إجراؤه إحصائيًا من خلال عملية تسمى التمهيد ، حيث يتم تنفيذ التجميع 100 أو 1000 مرة ، مما يعيد قدرًا من الثقة.

ماذا تمثل الألوان في محاذاة البروتين؟

بقايالونملكية
AVFPMILW أحمر صغيرة (صغيرة + كارهة للماء (بما في ذلك العطرية- Y))
DE أزرق حمضي
RK أرجواني أساسي - H.
STYHCNGQ لون أخضر هيدروكسيل + سلفهيدريل + أمين + جي
آحرون رمادي الأحماض الأمينية / الإيمينية غير العادية إلخ

ماذا تمثل رموز الإجماع في محاذاة تسلسل متعدد؟

تشير * (علامة النجمة) إلى المواضع التي تحتوي على بقايا مفردة محفوظة بالكامل.

ج: (القولون) يشير إلى الحفظ بين مجموعات ذات خصائص متشابهة بشدة على النحو التالي - ما يعادل تقريبًا تسجيل و gt 0.5 في مصفوفة Gonnet PAM 250:

أ . (فترة) تشير إلى الحفظ بين مجموعات ذات خصائص متشابهة بشكل ضعيف على النحو التالي - مكافئ تقريبًا للتسجيل = & lt 0.5 و & gt 0 في مصفوفة Gonnet PAM 250:

لاحظ أن التلفزيون مدرج في مجموعات التسجيل الأضعف على الرغم من تسجيله 0.0 في مصفوفة PAM 250 ، وذلك لأنه بديل شائع إلى حد ما حيث أنهما متفرعان من بيتا. في المخلفات المدفونة بالكامل على حساب رابطة الهيدروجين. في الواقع ، لكونه لطيفًا نسبيًا ، فقد تم استخدام هذا الاستبدال في الماضي لصنع طفرات TS. (المعلومات مقدمة من توبي جيبسون).

تظهر نفس الرموز لمحاذاة DNA / RNA ، لذلك بينما لا تزال الأحرف * (علامة النجمة) مفيدة ، يجب تجاهل الأحرف الأخرى لمحاذاة DNA / RNA.

ماذا تمثل رموز الإجماع في المحاذاة الزوجية؟

يتم إنشاء محاذاة التسلسل الزوجي بواسطة أدوات مثل EMBOSS Needle و Water و Stretcher و Matcher. تبرز علامة المحاذاة المكان الذي تكون فيه التسلسلات غير متطابقة أو متقطعة أو متطابقة أو متشابهة.

بشكل عام ، يستخدم خط الترميز مساحة لعدم التطابق أو الفجوة ، "." لأي درجة إيجابية صغيرة ، ":" للتشابه الذي يسجل أكثر من 1.0 ، و "|" بالنسبة للهوية حيث يكون لكلا التسلسلين نفس البقايا بغض النظر عن درجتها ("W" مطابقة "W" تسجل أكثر بكثير من "L" مطابقة "L" لأن التربتوفان المحفوظ أكثر أهمية من الليوسين المحفوظ).

تستخدم مجموعة تنسيقات المحاذاة "markx" (التي تنتجها مجموعة برامج FASTA التي كتبها بيل بيرسون) "." للتشابه و ":" للهوية. "|" الحرف غير مستخدم. كان هذا قرار تصميم من قبل بيل بيرسون عندما كتب برامج FASTA.

يتم توفير نظرة عامة مفصلة عن التنسيقات المختلفة في وثائق EMBOSS ، والتي تتوفر على http://emboss.sourceforge.net/docs/themes/AlignFormats.html

ماذا تمثل الأحرف الكبيرة والصغيرة في نتائج الإجماع؟

يتم استخدام الأحرف الصغيرة للمخلفات غير المحاذاة. مزيد من المعلومات متوفرة في هذا المنشور.

كيف يمكنني عرض محاذاة التسلسل المتعدد الناتج (MSA) مع Jalview؟

تتوفر معلومات حول كيفية تحميل نتائج برامج MSA على Jalview في صفحة التوثيق التالية.

ماذا تتوافق عقوبات الثغرات (فتح الفجوة ، تمديد الفجوة ، وما إلى ذلك)؟

تشير عقوبات الفجوة عمومًا إلى العقوبة التي تم خصمها من درجة المحاذاة التي يتم حسابها أثناء ضبط محاذاة التسلسل كما تم تنفيذها بواسطة برامج محاذاة التسلسل المتعدد (MSA) ومحاذاة التسلسل الزوجي (PSA). على سبيل المثال ، تحدد Clustal Omega أن عقوبة فتح الفجوة لها عقوبة لفتح فجوة في المحاذاة ، مما يجعل الفجوات أقل تكرارًا لزيادة قيم فتح الفجوة. عقوبة تمديد الفجوة هي عقوبة تمديد الفجوة بمقدار واحد من البقايا. زيادة هذه القيمة سيجعل الفجوات أقصر. هناك بعض برامج MSA التي تحدد أيضًا عقوبات Terminal Gap (على سبيل المثال Kalign) ، والتي تتوافق مع عقوبة إضافة فجوات إضافية عند الطرف C أو N من التسلسلات. كل أداة لها حدود التنفيذ والعقوبات الخاصة بها ، يرجى الرجوع إلى نموذج الويب أو صفحة خدمات الويب ذات الصلة للأدوات الفردية.

ما هو الفرق بين المحاذاة العالمية وأدوات المحاذاة المحلية؟

تنشئ أدوات المحاذاة العامة محاذاة من طرف إلى طرف للتسلسلات المراد محاذاتها ، بينما تجد أدوات المحاذاة المحلية واحدًا أو أكثر من المحاذاة التي تصف المنطقة (المناطق) الأكثر تشابهًا داخل التسلسلات المراد محاذاتها.


محتويات

هناك العديد من الاختلافات في برنامج Clustal ، وكلها مذكورة أدناه:

  • كلوستال: البرنامج الأصلي لمحاذاة التسلسل المتعدد ، الذي أنشأه Des Higgins في عام 1988 ، كان يعتمد على اشتقاق أشجار النشوء والتطور من التسلسلات الزوجية للأحماض الأمينية أو النيوكليوتيدات. [3]
  • كلوستال: تم إصدار الجيل الثاني من برنامج Clustal في عام 1992 وكان إعادة كتابة لحزمة Clustal الأصلية. قدم إعادة بناء شجرة النشوء والتطور على المحاذاة النهائية ، والقدرة على إنشاء محاذاة من المحاذاة الحالية ، وخيار إنشاء الأشجار من المحاذاة باستخدام طريقة تسمى الجار الانضمام. [4]
  • كلوستال: الجيل الثالث ، الذي صدر عام 1994 ، تحسن بشكل كبير مقارنة بالإصدارات السابقة. لقد تم تحسينه بناءً على خوارزمية المحاذاة التدريجية بطرق مختلفة ، بما في ذلك السماح بوزن التسلسل الفردي لأسفل أو لأعلى وفقًا للتشابه أو الاختلاف على التوالي في محاذاة جزئية. كما تضمنت القدرة على تشغيل البرنامج في وضع الدُفعات من سطر الأوامر. [3]
  • كلوستال اكس: كان هذا الإصدار ، الذي تم إصداره في عام 1997 ، أول إصدار يحتوي على واجهة مستخدم رسومية. [5]
  • كلوستالو (أوميغا): الإصدار القياسي الحالي. [6] [7]
  • كلوستال 2: الإصدارات المحدثة من ClustalW و ClustalX بدقة وكفاءة أعلى. [8]

تم الاستشهاد بشدة بالأوراق البحثية التي تصف البرامج العنقودية ، واثنان منها من بين أكثر الأوراق التي تم الاستشهاد بها على الإطلاق. [9]

أحدث إصدار من البرنامج متاح لأنظمة Windows و Mac OS و Unix / Linux. يتم استخدامه أيضًا بشكل شائع عبر واجهة ويب على صفحته الرئيسية أو يستضيفه المعهد الأوروبي للمعلومات الحيوية.

أصل الاسم تحرير

تم إنشاء شجرة الدليل في البرامج الأولية عبر UPGMA الكتلةإيه وآلysis للمحاذاة الزوجية ، ومن هنا جاء اسم CLUSTAL. [10] راجع. [11] كانت النسخ الأربعة الأولى في عام 1988 تحتوي على أرقام عربية (من 1 إلى 4) ، بينما في النسخة الخامسة تحول ديس هيغينز إلى الرقم الروماني الخامس في عام 1992. [10] راجع. [12] [4] في عامي 1994 و 1997 ، للنسختين التاليتين ، تم استخدام الأحرف التي تلي الحرف V وجعلها تتوافق مع W للوزن و X لـ X Window. [10] راجع. [13] [5] تم اختيار اسم أوميغا للإشارة إلى تغيير عن السابق. [10]

تقوم جميع أشكال برنامج Clustal بمحاذاة التسلسلات باستخدام إرشادية تقوم بشكل تدريجي ببناء محاذاة تسلسل متعددة من سلسلة من المحاذاة الزوجية. تعمل هذه الطريقة من خلال تحليل التسلسلات ككل ، ثم استخدام طريقة UPGMA / Neighbor-Joining لإنشاء مصفوفة مسافة. ثم يتم حساب شجرة الدليل من درجات التسلسلات في المصفوفة ، ثم تُستخدم لاحقًا لبناء محاذاة التسلسل المتعدد عن طريق محاذاة التسلسلات تدريجياً بترتيب التشابه. [14] بشكل أساسي ، ينشئ Clustal محاذاة تسلسلية متعددة من خلال ثلاث خطوات رئيسية:

  1. قم بمحاذاة زوجية باستخدام طريقة المحاذاة التدريجية
  2. إنشاء شجرة دليل (أو استخدام شجرة معرفة من قبل المستخدم)
  3. استخدم شجرة التوجيه لإجراء محاذاة متعددة

يتم تنفيذ هذه الخطوات تلقائيًا عند تحديد "Do Complete Alignment". الخيارات الأخرى هي "Do Alignment from Guide tree and phylogeny" و "Produce guide only".

تحرير الإدخال / الإخراج

يقبل هذا البرنامج مجموعة كبيرة من تنسيقات الإدخال ، بما في ذلك NBRF / PIR و FASTA و EMBL / Swiss-Prot و Clustal و GCC / MSF و GCG9 RSF و GDE.

يمكن أن يكون تنسيق الإخراج واحدًا أو أكثر مما يلي: Clustal أو NBRF / PIR أو GCG / MSF أو PHYLIP أو GDE أو NEXUS.

بدرجة أكبر من 0.5 في مصفوفة PAM 250

بدرجة أقل من أو تساوي 0.5 في مصفوفة PAM 250

يتم عرض نفس الرموز لكل من محاذاة DNA / RNA ومحاذاة البروتين ، لذلك في حين أن رموز * (علامة النجمة) مفيدة لكليهما ، يجب تجاهل رموز الإجماع الأخرى لمحاذاة DNA / RNA.

تحرير الإعدادات

يمكن تعديل العديد من الإعدادات لتكييف خوارزمية المحاذاة مع الظروف المختلفة. المعلمات الرئيسية هي عقوبة فتح الفجوة ، وعقوبة تمديد الفجوة.

ملخص موجز تحرير

تم تطوير البرنامج الأصلي في سلسلة برامج Clustal في عام 1988 كوسيلة لإنشاء محاذاة تسلسل متعددة على أجهزة الكمبيوتر الشخصية. تم إصدار ClustalV بعد 4 سنوات وتم تحسينه بشكل كبير على النسخة الأصلية ، مضيفًا بعض الميزات الرئيسية وتعديلها ، بما في ذلك التبديل إلى الكتابة بلغة C بدلاً من Fortran مثل سابقتها.

تحرير الخوارزمية

يستخدم كلا الإصدارين نفس الخوارزمية التقريبية السريعة لحساب درجات التشابه بين التسلسلات ، والتي تنتج بدورها المحاذاة الزوجية. تعمل الخوارزمية عن طريق حساب درجات التشابه مثل عدد مباريات k-tuple بين تسلسلين ، وهو ما يمثل عقوبة محددة للفجوات. كلما كانت التسلسلات أكثر تشابهًا ، كلما زادت النقاط ، وكلما زاد التباين ، انخفضت الدرجات. بمجرد تسجيل التسلسلات ، يتم إنشاء مخطط شجر من خلال UPGMA لتمثيل ترتيب محاذاة التسلسل المتعدد. تتم محاذاة مجموعات التسلسلات الأعلى مرتبة أولاً ، متبوعة بالباقي بترتيب تنازلي. تسمح الخوارزمية بمجموعات بيانات كبيرة جدًا وتعمل بسرعة. ومع ذلك ، فإن السرعة تعتمد على النطاق الخاص بمطابقات k-tuple المختارة لنوع التسلسل المحدد. [15]

تحرير تحسينات ملحوظة ClustalV

بعض الإضافات الأكثر بروزًا في ClustalV هي محاذاة الملف الشخصي وخيارات واجهة سطر الأوامر الكاملة. تسمح القدرة على استخدام محاذاة ملف التعريف للمستخدم بمحاذاة اثنين أو أكثر من المحاذاة أو التسلسلات السابقة لمحاذاة جديدة ونقل التسلسلات غير المحاذية (منخفضة الدرجات) إلى أسفل ترتيب المحاذاة. يمنح هذا المستخدم خيار إنشاء محاذاة تسلسل متعددة تدريجيًا ومنهجيًا بمزيد من التحكم عن الخيار الأساسي. [14] يعمل خيار التشغيل من سطر الأوامر على تسريع عملية محاذاة التسلسل المتعدد بشكل كبير. يمكن تشغيل التسلسلات بأمر بسيط ،

وسيحدد البرنامج نوع التسلسل الذي يقوم بتحليله. عند اكتمال البرنامج ، ينتقل إخراج المحاذاة التسلسلية المتعددة وكذلك مخطط الأسنان إلى الملفات ذات الامتدادات .aln و. dnd على التوالي. تستخدم واجهة سطر الأوامر المعلمات الافتراضية ، ولا تسمح بخيارات أخرى. [15]

ملخص موجز تحرير

يستخدم ClustalW مثل أدوات Clustal الأخرى لمحاذاة متواليات النيوكليوتيدات أو البروتينات المتعددة بطريقة فعالة. يستخدم طرق المحاذاة التدريجية ، والتي تحاذي أكثر التسلسلات تشابهًا أولاً وتعمل في طريقها إلى التسلسلات الأقل تشابهًا حتى يتم إنشاء محاذاة عالمية. ClustalW هي خوارزمية قائمة على المصفوفة ، في حين أن أدوات مثل T-Coffee و Dialign تعتمد على الاتساق. لدى ClustalW خوارزمية فعالة إلى حد ما تتنافس بشكل جيد مع البرامج الأخرى. يتطلب هذا البرنامج ثلاثة تسلسلات أو أكثر من أجل حساب المحاذاة العامة ، من أجل محاذاة التسلسل الزوجي (تسلسلان) استخدم أدوات مشابهة لـ EMBOSS ، LALIGN.

تحرير الخوارزمية

يستخدم ClustalW طرق المحاذاة التدريجية كما هو مذكور أعلاه. في هذه ، يتم محاذاة التسلسلات التي تحتوي على أفضل نقاط محاذاة أولاً ، ثم يتم محاذاة مجموعات التسلسلات الأكثر بعدًا بشكل تدريجي. هذا النهج التجريبي ضروري بسبب الوقت والذاكرة المطلوبة لإيجاد الحل الأمثل العالمي. تتمثل الخطوة الأولى للخوارزمية في حساب مصفوفة المسافة التقريبية بين كل زوج من المتتاليات ، والمعروفة أيضًا باسم محاذاة التسلسل الزوجي. الخطوة التالية هي طريقة ربط الجوار التي تستخدم تجذير النقطة الوسطى لإنشاء شجرة دليل شاملة. [16] العملية التي تستخدمها للقيام بذلك موضحة في الرسم التخطيطي المفصل للطريقة الموجودة على اليمين. ثم يتم استخدام شجرة الدليل كقالب تقريبي لإنشاء محاذاة عامة.

الوقت المعقد تحرير

يحتوي ClustalW على تعقيد زمني لـ O (N 2) )> بسبب استخدامه لطريقة ربط الجوار. في الإصدار المحدث (ClustalW2) ، يوجد خيار مدمج في البرنامج لاستخدام UPGMA وهو أسرع مع أحجام إدخال كبيرة. علامة سطر الأوامر لاستخدامها بدلاً من الانضمام إلى الجوار هي:

على سبيل المثال ، على سطح مكتب قياسي ، سيؤدي تشغيل UPGMA على 10000 تسلسل إلى الحصول على نتائج في أقل من دقيقة بينما يستغرق الانضمام إلى الجار أكثر من ساعة. [17] من خلال تشغيل خوارزمية ClustalW مع هذا التعديل ، فإنها توفر قدرًا كبيرًا من الوقت. يحتوي ClustalW2 أيضًا على خيار لاستخدام المحاذاة التكرارية لزيادة دقة المحاذاة. في حين أنه ليس بالضرورة أسرع أو أكثر كفاءة من حيث التعقيد ، فإن الزيادة في الدقة ذات قيمة ويمكن أن تكون مفيدة لأحجام البيانات الأصغر. هذه هي أعلام سطر الأوامر المختلفة لتحقيق ذلك:

يعمل خيار سطر الأوامر الأول على تحسين المحاذاة النهائية. يدمج الخيار الثاني المخطط في خطوة المحاذاة التدريجية للخوارزمية. يحدد الثالث عدد دورات التكرار حيث يتم تعيين القيمة الافتراضية على 3. [17]

الدقة وتحرير النتائج

توفر الخوارزمية التي يستخدمها ClustalW نتيجة قريبة من المثالية في كل مرة تقريبًا. ومع ذلك ، فإنه يعمل بشكل جيد للغاية عندما تحتوي مجموعة البيانات على تسلسلات بدرجات متباينة من الاختلاف. هذا لأنه في مجموعة بيانات مثل هذه ، تصبح شجرة الدليل أقل حساسية للضوضاء. كانت ClustalW واحدة من أولى الخوارزميات التي جمعت بين المحاذاة الزوجية والمحاذاة العالمية في محاولة لتحقيق الكفاءة في السرعة ، وقد نجحت ، ولكن هناك خسارة في الدقة لا تمتلكها البرامج الأخرى بسبب ذلك.

ClustalW ، عند مقارنتها بخوارزميات MSA الأخرى ، كان يؤديها كواحدة من أسرع الخوارزميات مع الحفاظ على مستوى من الدقة. [18] لا يزال هناك الكثير للتحسين مقارنة بالمنافسين الذين يعتمدون على التناسق مثل T-Coffee. كانت دقة ClustalW عند اختبارها ضد MAFFT و T-Coffee و Clustal Omega وتطبيقات MSA الأخرى أقل دقة للتسلسلات كاملة الطول. كانت تحتوي على أقل خوارزمية تتطلب ذاكرة RAM من بين جميع الخوارزميات التي تم اختبارها في الدراسة.[18] بينما سجلت ClustalW أدنى مستوى من الدقة بين منافسيها ، إلا أنها لا تزال تحافظ على ما قد يراه البعض مقبولًا. كانت هناك تحديثات وتحسينات على الخوارزمية الموجودة في ClustalW2 والتي تعمل على زيادة الدقة مع الحفاظ على سرعتها القيمة للغاية. [17]

ملخص موجز تحرير

كلوستالو (بدلاً من ذلك يكتب كـ كلوستال أو و أوميغا كلوستال) هو برنامج سريع وقابل للتطوير مكتوب بلغة C و C ++ يستخدم لمحاذاة التسلسل المتعدد. يستخدم أشجار التوجيه المصنفة ومحرك HMM جديدًا يركز على ملفين جانبيين لإنشاء هذه المحاذاة. [19] [20] يتطلب البرنامج ثلاثة متواليات أو أكثر من أجل حساب المحاذاة المتعددة للتسلسل ، وبالنسبة لتسلسلتين ، استخدم أدوات محاذاة التسلسل المزدوج (EMBOSS ، LALIGN). تعتمد Clustal Omega على الاتساق ويُنظر إليها على نطاق واسع باعتبارها واحدة من أسرع التطبيقات عبر الإنترنت لجميع أدوات محاذاة التسلسل المتعددة ولا تزال تحتل مرتبة عالية من حيث الدقة ، بين كل من الخوارزميات المستندة إلى الاتساق والقائمة على المصفوفة.

تحرير الخوارزمية

يحتوي Clustal Omega على خمس خطوات رئيسية لتوليد محاذاة التسلسل المتعدد. الأول هو إنتاج محاذاة زوجية باستخدام طريقة k-tuple ، والمعروفة أيضًا باسم طريقة الكلمات. هذه ، باختصار ، طريقة إرشادية غير مضمونة للعثور على حل محاذاة مثالي ، ولكنها أكثر كفاءة بشكل ملحوظ من طريقة البرمجة الديناميكية للمحاذاة. بعد ذلك ، يتم تجميع التسلسلات باستخدام طريقة mBed المعدلة. [21] تحسب طريقة mBed المسافة الزوجية باستخدام التضمين المتسلسل. هذه الخطوة متبوعة بطريقة التجميع k-mean. بعد ذلك ، يتم إنشاء شجرة الدليل باستخدام طريقة UPGMA. يظهر هذا كخطوات متعددة لشجرة الدليل تؤدي إلى بناء شجرة دليل نهائي واحد بسبب الطريقة التي تعمل بها خوارزمية UPGMA. في كل خطوة ، (كل ماسة في المخطط الانسيابي) يتم دمج أقرب مجموعتين وتتكرر حتى يمكن تقييم الشجرة النهائية. في الخطوة الأخيرة ، يتم إنشاء محاذاة التسلسل المتعدد باستخدام حزمة HHAlign من HH-Suite ، والتي تستخدم ملفي تعريف HMM. ملف التعريف HMM عبارة عن آلة حالة خطية تتكون من سلسلة من العقد ، كل منها يتوافق تقريبًا مع موضع (عمود) في المحاذاة التي تم بناؤها منها. [22]

الوقت المعقد تحرير

الطريقة الدقيقة لحساب المحاذاة المثلى بين ن التسلسلات لها تعقيد حسابي لـ O (L N) )> لـ ن تسلسل الطول إل مما يجعلها ممنوعة حتى لأعداد صغيرة من التسلسلات. تستخدم Clustal Omega نسخة معدلة من mBed والتي لها تعقيد O (N log ⁡ N) < displaystyle O (N log N)> ، [21] [23] وتنتج أشجار توجيه دقيقة تمامًا مثل تلك الموجودة في الأساليب التقليدية. تُعزى سرعة ودقة أشجار الدليل في Clustal Omega إلى تنفيذ خوارزمية mBed المعدلة. كما أنه يقلل من الوقت الحسابي ومتطلبات الذاكرة لإكمال المحاذاة على مجموعات البيانات الكبيرة.

الدقة والنتائج تحرير

إن دقة Clustal Omega على عدد صغير من التسلسلات ، في المتوسط ​​، تشبه إلى حد بعيد ما يعتبر مصفوفات تسلسل عالية الجودة. يأتي الاختلاف عند استخدام مجموعات كبيرة من البيانات بمئات الآلاف من التسلسلات. في هذه الحالات ، يتفوق Clustal Omega على الخوارزميات الأخرى في جميع المجالات. وقت الانتهاء والجودة الشاملة أفضل باستمرار من البرامج الأخرى. [24] إنه قادر على تشغيل أكثر من 100000 تسلسل على معالج واحد في غضون ساعات قليلة.

تستخدم Clustal Omega حزمة HHAlign الخاصة بـ HH-Suite ، والتي تعمل على محاذاة اثنين من نماذج Hidden Markov للملف الشخصي بدلاً من مقارنة الملف الشخصي. هذا يحسن جودة الحساسية والمحاذاة بشكل كبير. [24] هذا ، جنبًا إلى جنب مع طريقة mBed ، يعطي Clustal Omega ميزته على غيره من أدوات تقويم التسلسل. النتائج في نهاية المطاف دقيقة للغاية وسريعة للغاية وهو الوضع الأمثل.

في مجموعات البيانات ذات القواعد الطرفية غير المحفوظة ، قد تكون Clustal Omega أكثر دقة من Probcons و T-Coffee على الرغم من حقيقة أن كلاهما خوارزميات قائمة على الاتساق ، على عكس Clustal Omega. في اختبار الكفاءة مع البرامج التي تنتج درجات عالية الدقة ، كان MAFFT هو الأسرع ، يليه كلوستال أوميغا. كلاهما كان أسرع من T-Coffee ، ومع ذلك ، تطلب MAFFT و Clustal Omega ذاكرة أكبر للتشغيل. [18]

Clustal2 هو الإصدار المحزم لكل من سطر الأوامر ClustalW و Clustal X الرسومي. وليست أدوات جديدة ، ولكن يتم تحديثها وإصدارات محسّنة من التطبيقات السابقة المذكورة أعلاه. يتم تجميع كلا التنزيلين مسبقًا للعديد من أنظمة التشغيل مثل Linux و Mac OS X و Windows (كلاهما XP و Vista). تم تصميم هذا الإصدار لجعل موقع الويب أكثر تنظيماً وسهولة في الاستخدام ، بالإضافة إلى تحديث أكواد المصدر إلى أحدث إصداراتها. Clustal2 هو الإصدار 2 من كل من ClustalW و ClustalX ، حيث حصل على اسمه. لا يزال من الممكن العثور على الإصدارات السابقة على موقع الويب ، ومع ذلك ، فإن كل تجميع مسبق مُحدَّث الآن.


عرض محاذاة متعددة طويلة

إذا كنت ترغب في عرض محاذاة متعددة طويلة ، فمن الملائم عرض المحاذاة المتعددة في كتل.

ستعمل الدالة R & # 8220printMultipleAlignment () & # 8221 أدناه على القيام بذلك نيابة عنك:

كمدخلات لها ، تأخذ الدالة & # 8220printMultipleAlignment () & # 8221 محاذاة الإدخال وعدد الأعمدة المراد طباعتها في كل كتلة.

على سبيل المثال ، لطباعة المحاذاة المتعددة للبروتينات الفوسفاتية الفيروسية (التي قمنا بتخزينها في متغير الفيروس، انظر أعلاه) في كتل من 60 عمودًا ، نكتب:


نتائج

مجموعات بيانات التسلسل المحاكاة

قمنا بمحاكاة مجموعات بيانات تسلسل البروتين في إطار مجموعة متنوعة من السيناريوهات التطورية الواقعية باستخدام مجموعة من معلمات المحاكاة المتعددة. أنشأنا أولاً مجموعة من أشجار النشوء والتطور تحت عملية الولادة متفاوتة 1) ارتفاع الشجرة ، 2) جزء أخذ العينات ، و 3) عدد الأصناف. بعد هانسون سميث وآخرون. (2010) ، اخترنا الأشجار فائقة القياس لإضافة مزيد من التحكم في ظروف ASR ، وتجنب التحيزات الناتجة عن أطوال الفروع المختلفة نظرًا لأن الفروع الأقصر يمكن أن تحيز إعادة بناء حالة الأجداد. هذا يزيل عدم اليقين من المشكلة ويجعل التأثيرات على أعماق مختلفة في الأشجار أكثر قابلية للتفسير. يؤثر اختلاف جزء أخذ العينات على شكل الشجرة (كما هو موضح في الشكل التكميلي S1 ، المواد التكميلية عبر الإنترنت) ويمكن اعتباره بمثابة انقراض نمذجة ، مثل أن جزء العينة هو احتمال بقاء أي نوع على قيد الحياة من الانقراض (Yang and Rannala 1997) ، أو نموذج إستراتيجية محقق لأخذ العينات (ني وآخرون 1994). تم اختيار قيم الكسر لأخذ العينات لتمثيل مجموعة متنوعة من أشكال الأشجار التي تغطي حالات واقعية. ينتج جزء أخذ العينات الأقل المزيد من الطوبولوجيا "الشبيهة بالنجوم". يمثل ارتفاع الشجرة العدد المتوقع من البدائل لكل موقع من الجذر إلى الحافة ، اخترنا ارتفاع الشجرة 0.8 لتعكس حالات واقعية من تقديرات شجرة السلى (مشتقة من Ensembl Compara، Vilella et al. 2009) ، ودرسنا أيضًا ارتفاعات أكبر لإظهار الطرق أداء يتجاوز هذه الحالة.

في كل شجرة ، تمت محاكاة تطور تسلسل البروتين وفقًا لنموذج WAG (Whelan and Goldman 2001) باستخدام معدلين مختلفين من indel. تم اختيار قيم المعلمات من الدراسات السابقة لتمثيل سيناريوهات واقعية لتطور البروتين (Whelan et al. 2003 Whelan et al. 2006 Levy Karin et al. 2015 Md Mukarram Hossain et al. 2015 راجع المواد والطرق للحصول على التفاصيل). اختبرنا معدلات indel من 0.01 و 0.05 ، مستوحاة من الملاحظات في السلى (Westesson وآخرون. 2012) وجينات الثدييات (Cooper et al. 2004). لكل محاكاة ، سجلنا التسلسلات المحاكاة في النصائح ، والمحاذاة الحقيقية ، وتسلسل الأسلاف الحقيقي لكل عقدة داخلية.

يوضح الجدول 2 نطاق قيم معلمات المحاكاة المستخدمة. في المجموع ، تم تحليل 72 سيناريو (36 تكوينًا للشجرة بمعدلين من indel) ، تتضمن تدرجًا للصعوبة لـ MSA.

معلمات لمحاكاة البيانات.

معامل . قيمة .
عدد الأصناف أ 16 | 32 | 64
جزء أخذ العينات الشجري أ 0.01 | 0.25 | 0.99
ارتفاع الشجرة أ 0.8 | 1.0 | 1.2 | 2.0
معدلات شجرة الولادة والوفاة أ الميلاد: ٦ حالات الوفاة: ٣
معدل Indel ب ، ج 0.01 | 0.05
طول الجذر ب 408 أأ
نموذج الاستبدال ب WAG + Γ (α = 1.8 ، 4 فئات) د
توزيع الطول Indel ب قانون القوة بعامل ثابت 1.7 وأقصى طول 20
معامل . قيمة .
عدد الأصناف أ 16 | 32 | 64
جزء أخذ العينات الشجري أ 0.01 | 0.25 | 0.99
ارتفاع الشجرة أ 0.8 | 1.0 | 1.2 | 2.0
معدلات شجرة الولادة والوفاة أ الميلاد: ٦ حالات الوفاة: ٣
معدل Indel ب ، ج 0.01 | 0.05
طول الجذر ب 408 أأ
نموذج الاستبدال ب WAG + Γ (α = 1.8 ، 4 فئات) د
توزيع الطول Indel ب قانون القوة بعامل ثابت 1.7 وأقصى طول 20

ملاحظة - تم إجراء عمليات محاكاة البيانات باستخدام 72 مجموعة من المعلمات المعطاة. المعلمات مفصولة بعلامة "|" تمثل القيم المستخدمة في مجموعات مختلفة. لكل مجموعة ، تم إنشاء عشر أشجار باستخدام evolver (Yang 2007) ، ولكل شجرة ، تم إنشاء عشر مجموعات بيانات متسلسلة باستخدام INDELible (Fletcher and Yang 2009).

معلمات كثافة نواة BD لمحاكاة شجرة النشوء والتطور (متطور).

معلمات لمحاكاة تسلسل البروتين (غير واضح).

معدلات الإدراج والحذف مرتبطة بمتوسط ​​معدل إحلال 1. معدلات الإدراج والحذف متساوية.

+: بما في ذلك تغير المعدل كما هو موضح في توزيع جاما (يانغ 1994).

معلمات لمحاكاة البيانات.

معامل . قيمة .
عدد الأصناف أ 16 | 32 | 64
جزء أخذ العينات الشجري أ 0.01 | 0.25 | 0.99
ارتفاع الشجرة أ 0.8 | 1.0 | 1.2 | 2.0
معدلات شجرة الولادة والوفاة أ الميلاد: ٦ حالات الوفاة: ٣
معدل Indel ب ، ج 0.01 | 0.05
طول الجذر ب 408 أأ
نموذج الاستبدال ب WAG + Γ (α = 1.8 ، 4 فئات) د
توزيع الطول Indel ب قانون القوة بعامل ثابت 1.7 وأقصى طول 20
معامل . قيمة .
عدد الأصناف أ 16 | 32 | 64
جزء أخذ العينات الشجري أ 0.01 | 0.25 | 0.99
ارتفاع الشجرة أ 0.8 | 1.0 | 1.2 | 2.0
معدلات شجرة الولادة والوفاة أ الميلاد: ٦ حالات الوفاة: ٣
معدل Indel ب ، ج 0.01 | 0.05
طول الجذر ب 408 أأ
نموذج الاستبدال ب WAG + (α = 1.8 ، 4 فئات) د
توزيع الطول Indel ب قانون القوة بعامل ثابت 1.7 وأقصى طول 20

ملاحظة - تم إجراء عمليات محاكاة البيانات باستخدام 72 مجموعة من المعلمات المعطاة. المعلمات مفصولة بعلامة "|" تمثل القيم المستخدمة في مجموعات مختلفة. لكل مجموعة ، تم إنشاء عشر أشجار باستخدام evolver (Yang 2007) ، ولكل شجرة ، تم إنشاء عشر مجموعات بيانات متسلسلة باستخدام INDELible (Fletcher and Yang 2009).

معلمات كثافة نواة BD لمحاكاة شجرة النشوء والتطور (متطور).

معلمات لمحاكاة تسلسل البروتين (لا يمكن تصديقه).

معدلات الإدراج والحذف مرتبطة بمتوسط ​​معدل إحلال 1. معدلات الإدراج والحذف متساوية.

+: بما في ذلك تغير المعدل كما هو موضح في توزيع جاما (يانغ 1994).

تقديرات MSA وتسلسل الأجداد

لقد قمنا بمحاذاة تسلسل الأطراف من مجموعات البيانات المحاكاة أعلاه باستخدام كل أداة MSA مدرجة في الجدول 1. بالإضافة إلى ذلك ، تم تقييم المحاذاة التي تسمح بأشجار الدليل المحددة من قبل المستخدم باستخدام هذا الخيار باستخدام الشجرة الحقيقية. نشير إلى هذا الاستخدام لشجرة دليل اختيارية بعلامة النجمة (على سبيل المثال ، PAGAN *).

تمت إعادة بناء حالات الحرف في عقد الأجداد من MSA لكل جهاز محاذاة باستخدام FastML (Ashkenazy et al. 2012). تم استخدام المحاذاة الحقيقية للتسلسلات في النصائح ، كما تمت محاكاتها ، لإنشاء خط أساس. نحدد الشجرة الحقيقية ونموذج الاستبدال والمعدلات المستخدمة في المحاكاة أثناء إعادة الإعمار من أجل عزل تأثير أدوات MSA وتجنب التحيزات الناتجة عن ، على سبيل المثال ، عدم الدقة في طرق الاستدلال الوراثي (لاحظ أن هذا مستقل عن استخدام صحيح شجرة كشجرة إرشادية في أدوات MSA ، والتي يتم تقييمها بشكل منفصل).

دقة إعادة الإعمار على سيناريوهات مختلفة

تم قياس دقة التسلسل المعاد بناؤه للعقدة الداخلية إلى تسلسلها الحقيقي المقابل باستخدام درجة بناءً على طريقة Paten et al. (2008). تتراوح الدرجة من صفر إلى واحد ، وهو ما يمثل نسبة المواقع المحاذاة بشكل زوجي والتي تمت محاذاتها بشكل صحيح ، فإن المطابقة الكاملة لها درجة واحدة (انظر المواد والطرق لمزيد من التفاصيل).

قمنا أولاً بتحليل اتجاهات الدقة الشاملة لكل أداة MSA لكل سيناريو. يوضح الشكل 1 توزيعات الدقة لارتفاعات الأشجار 0.8 و 1.0 ، المسجلة لكل أداة على جميع العقد الداخلية التي أعيد بناؤها بما في ذلك جميع التسلسلات ومضاعفات الأشجار (100 نسخة متكررة لكل سيناريو ، تشتمل على عشر مكررات شجرية مع عشرة محاذاة لكل شجرة). لذلك ، فإن عدد العقد في كل توزيع يساوي عدد العقد الداخلية في شجرة الجذور (# taxa - 1) مضروبًا في 100. لقد وجدنا العديد من الشروط حيث تم تسجيل ASR بدقة عالية (التوزيعات مركزة إلى اليمين على x-المحور) وقليل من الاختلافات بين الطرق. عند أخذ العينات من الكسر 0.99 ، تتمتع جميع الطرق بأداء ممتاز ومتساوي تقريبًا (ص value & lt 0.01 ، الجدول التكميلي S1 ، المواد التكميلية عبر الإنترنت). يؤدي تقليل جزء أخذ العينات إلى 0.25 إلى تقليل الدقة الإجمالية بشكل طفيف ، لكن النتائج لا تزال متشابهة مقارنة بخط الأساس (إعادة البناء باستخدام المحاذاة الحقيقية). تصبح الاختلافات واضحة مع جزء أخذ العينات البالغ 0.01 ، ومعدل indel 0.05 ، وارتفاع الشجرة 1.0 ، وخاصة عندما يتم الجمع بين هذه الظروف الصعبة. في مثل هذه الحالات ، نبدأ في ملاحظة اختلافات واضحة بين الأدوات ، مع دقة من MSA المقدرة أقل بكثير من المحاذاة الحقيقية ، وبعض الأدوات تقدم دقة منخفضة بشكل خاص لبعض العقد السلفية ، وخاصة FSA.

دقة إعادة البناء لأدوات MSA للسيناريوهات المحاكاة تحت ارتفاع الأشجار من 0.8 و 1.0. تُظهر المخططات توزيع الدقة الإجمالي لكل مجموعة معلمة باستخدام ارتفاعات شجرة تبلغ 0.8 و 1.0. تشير النقاط الزرقاء إلى الوسيط ، وتشير النقاط الحمراء إلى المتوسط.

دقة إعادة البناء لأدوات MSA للسيناريوهات المحاكاة تحت ارتفاع الأشجار من 0.8 و 1.0. تُظهر المخططات توزيع الدقة الإجمالي لكل مجموعة معلمة باستخدام ارتفاعات شجرة تبلغ 0.8 و 1.0. تشير النقاط الزرقاء إلى الوسيط ، وتشير النقاط الحمراء إلى المتوسط.

في ظل ظروف محاكاة أكثر تحديًا ، لاحظنا تكثيف الاتجاهات التي تسببها كل أداة من أدوات MSA. يوضح الشكل 2 توزيعات الدقة لعمليات المحاكاة بارتفاع الشجرة 1.2 و 2.0 ، حيث نجد طرقًا تؤدي أداءً ضعيفًا. في أصعب الحالات (على سبيل المثال ، معدل indel 0.05 ، ارتفاع الشجرة 2.0 ، وكسر أخذ العينات 0.01) ، نرى دقة أقل بشكل عام من 0.3 لجميع طرق MSA ، أقل بكثير من القيم الأساسية التي تم الحصول عليها باستخدام المحاذاة الحقيقية (ص value & lt 0.01 ، الجدول التكميلي S1 ، المواد التكميلية عبر الإنترنت). بشكل عام ، نلاحظ أن عمليات المحاكاة باستخدام جزء عينات يبلغ 0.99 (اختلافات لاحقة) يمكن حلها بسهولة أكبر: حتى في المواقف الأكثر صعوبة (معدل indel 0.05 وارتفاع الشجرة & gt 1.0) ، تكون دقة إعادة البناء عالية (& gt0.7 في المتوسط). ينتج عن معدل indel المنخفض البالغ 0.01 أيضًا أداء جيد (باستثناء عندما يقترن بأصعب ارتفاع للشجرة يبلغ 2.0 وكسر أخذ العينات 0.01) ، كما يفعل ارتفاع الشجرة المنخفض. تؤدي زيادة عدد الأصناف إلى تحسن متواضع في الدقة بشكل عام.

دقة إعادة بناء أدوات التحليل الفسيولوجي (MSA) لسيناريوهات محاكاة تحت ارتفاعات الأشجار 1.2 و 2.0. تُظهر المخططات توزيع الدقة الإجمالي لكل مجموعة معلمة باستخدام ارتفاعات الشجرة 1.2 و 2.0. تشير النقاط الزرقاء إلى الوسيط ، وتشير النقاط الحمراء إلى المتوسط. المخطط المميز (المربع الأحمر) يشير إلى السيناريو مع 64 شجرة من الأصناف ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ، ومعدل indel 0.05 ، الذي تم استكشافه بمزيد من التفصيل في الأشكال 4-6 و 8.

دقة إعادة بناء أدوات التحليل الفسيولوجي (MSA) لسيناريوهات محاكاة تحت ارتفاعات الأشجار 1.2 و 2.0. تُظهر المخططات توزيع الدقة الإجمالي لكل مجموعة معلمة باستخدام ارتفاعات الشجرة 1.2 و 2.0. تشير النقاط الزرقاء إلى الوسيط ، وتشير النقاط الحمراء إلى المتوسط. المخطط المميز (المربع الأحمر) يشير إلى السيناريو مع 64 شجرة من الأصناف ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ، ومعدل indel 0.05 ، الذي تم استكشافه بمزيد من التفصيل في الأشكال 4-6 و 8.

تظهر الدقة كدالة لخيارات المعلمات الفردية ، والتي تم تلخيصها في جميع الشروط الأخرى وجميع أدوات التقويم ، في الشكل التكميلي S3 ، المواد التكميلية عبر الإنترنت. إذا أخذناها مع الشكلين 1 و 2 ، فإنهما يؤكدان توقعاتنا بشأن الميزات التي تجعل مشكلة ASR المعينة أكثر صعوبة. بالنظر إلى المعلومات المتزايدة المتاحة من وجود المزيد من التسلسلات الموجودة ، فإن الأشجار التي تحتوي على عدد أكبر من الأصناف تعرض دقة إعادة بناء أعلى قليلاً. يؤثر جزء العينات بشكل كبير على الدقة ، مع وجود جزء أعلى (تباينات لاحقة) ينتج عنه عمليات إعادة بناء أكثر دقة. هذا يعكس تقارب العقد الداخلية وتسلسل الأوراق مما يجعل المحاذاة أسهل. يعد ارتفاع الشجرة أيضًا متغيرًا مهمًا ، حيث تقدم الأشجار الأطول (تسلسل أكثر تباينًا) سيناريوهات أكثر صعوبة ودقة إعادة بناء أقل. أنتج معدل indel المنخفض البالغ 0.01 دقة أعلى من معدل 0.05: من الواضح أن المتواليات التي تحتوي على عدد قليل من indels أسهل في المحاذاة ، مما يؤدي بدوره إلى أداء ASR أفضل.

سمحت لنا المقارنات الزوجية بين طرق MSA بحساب عدد السيناريوهات التي تختلف فيها أدوات MSA اختلافًا كبيرًا ، مما يوفر نظرة عامة على أدائها عبر ظروف متعددة (الشكل 3). في الحالات التي لوحظت فيها الاختلافات ، أدت عمليات إعادة البناء باستخدام المحاذاة الحقيقية (خط الأساس) إلى نتائج أفضل (دقة متوسطة أعلى) من أدوات MSA (الشكل 3 ، الصف العلوي). من بين أدوات MSA ، حقق PRANK باستخدام شجرة الدليل (PRANK * و PRANK + F *) أفضل النتائج من خلال هذا المقياس ، مع إظهار اختلافات كبيرة عند مقارنتها بخط الأساس في 48 من 72 سيناريو تمت محاكاتها (67٪). PRANK بدون شجرة دليل (PRANK و PRANK + F) وأداء تقويمات MAFFT بشكل مشابه لمتغيرات PRANK *. كان أداء Clustal Omega أسوأ أداء ، حيث أظهر اختلافات في 57 من 72 سيناريو (79٪) أعطت FSA و PAGAN و MUSCLE نتائج مماثلة لـ Clustal.

عدد السيناريوهات التي تحتوي على فروق ذات دلالة إحصائية في الدقة الإجمالية بين كل MSA. تمت مقارنة دقة إعادة البناء التي تم الحصول عليها بواسطة كل أداة MSA في 72 سيناريو بتكوينات متغيرة متغيرة باستخدام اختبار Mann-Whitney-Wilcoxon. يوضح الشكل عدد السيناريوهات ذات الاختلافات الكبيرة (تعديل FDR ص القيمة & lt 0.01) ، حيث يتم الإدخال في أناالصف السادس و ييظهر العمود -th عدد مرات الأسلوب أنا كان أفضل من الطريقة ي (دقة متوسطة أعلى).

عدد السيناريوهات التي تحتوي على فروق ذات دلالة إحصائية في الدقة الإجمالية بين كل MSA. تمت مقارنة دقة إعادة البناء التي تم الحصول عليها بواسطة كل أداة MSA في 72 سيناريو بتكوينات متغيرة متغيرة باستخدام اختبار Mann-Whitney-Wilcoxon. يوضح الشكل عدد السيناريوهات ذات الاختلافات الكبيرة (تعديل FDR ص القيمة & lt 0.01) ، حيث يتم الإدخال في أناالصف السادس و ييظهر العمود -th عدد مرات الأسلوب أنا كان أفضل من الطريقة ي (دقة متوسطة أعلى).

أشار تطبيق نفس المقارنات بين النتائج من MSAs المختلفة إلى أن الطرق كانت أكثر تشابهًا مع بعضها البعض مما كانت عليه في إعادة بناء خط الأساس باستخدام المحاذاة الحقيقية (الشكل 3). تميل المتغيرات المختلفة لنفس أداة MSA إلى الأداء بشكل مشابه (على وجه الخصوص ، يختلف PRANK * و PRANK + F * في سيناريو واحد فقط ، و MUSCLE و MUSCLE * في 2 فقط). وجدنا أيضًا أوجه تشابه بين الأدوات على سبيل المثال ، أظهر MAFFT E-INS-i دقة مختلفة بشكل كبير عن PRANK + F في 19 سيناريو فقط (∼26٪). ومع ذلك ، عندما كانت هذه الاختلافات موجودة ، كان MAFFT أفضل في 18 منهم. لوحظ نفس الشيء مع مجموعات أخرى. بشكل عام ، كان أداء متغيرات INS-i و PRANK من MAFFT أفضل من أداء أدوات FSA الأخرى بشكل أسوأ. أخيرًا ، أظهرت بعض الأدوات اتجاهات متوازنة على سبيل المثال ، كانت MAFFT FFT-NS-2 و MUSCLE مختلفة بشكل كبير في 34 سيناريو (∼47٪) ، وكانت كل أداة أفضل في نصفها.

تباين دقة إعادة الإعمار على طول الأشجار

لمزيد من استكشاف أداء الطريقة ، ركزنا على مجموعة واحدة من ظروف المحاكاة التي أظهرت نتائج متناقضة ، مع بعض عمليات إعادة البناء الجيدة ولكن الاختلافات الجوهرية بين أدوات MSA. درسنا عمليات المحاكاة باستخدام أشجار 64 صنفاً ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ، ومعدل indel 0.05 (الشكل 2 ، قطعة الأرض المميزة). يوضح الشكل 4 دقة إعادة الإعمار كما في مخطط الملخص المقابل في الشكل 2 ، ولكن الآن مقسم على طول الشجرة الحقيقية ، وفقًا لمسافة كل عقدة من الجذر (تتوفر الأرقام المقابلة لظروف المحاكاة الأخرى في الملف الإضافي التكميلي S1 ، المواد التكميلية عبر الانترنت). عند تحليل دقة جميع العقد الداخلية التي أعيد بناؤها (الشكل 4 أ) ، لاحظنا أن FSA و PRANK + F و PRANK و PAGAN و MAFFT FFT-NS-2 أظهروا أعلى تباين في دقة إعادة البناء مع مزيد من الدقة المشتتة على طول الأشجار (الجدول التكميلي S2 ، المواد التكميلية على الإنترنت). أدى توفير الشجرة الحقيقية كشجرة توجيه للأدوات التي تسمح بهذا الخيار (PRANK * و PRANK + F * و PAGAN * و Clustal Omega * و MUSCLE *) إلى تقليل هذا الاختلاف.

دقة إعادة الإعمار من خلال المسافة إلى الجذر. دقة إعادة البناء على مسافات مختلفة من الجذر باستخدام معلمات المحاكاة لـ 64 تصنيفًا وارتفاع الشجرة 1.2 وكسر أخذ العينات 0.01 ومعدل indel 0.05. (أ) دقة القطع المبعثرة لكل MSA. (ب) مخطط مُجمع يُظهر تجانس مخطط الانتشار الموزون محليًا (LOESS) لمتوسط ​​دقة إعادة الإعمار حسب المسافة إلى الجذر لكل أداة MSA.

دقة إعادة الإعمار من خلال المسافة إلى الجذر. دقة إعادة البناء على مسافات مختلفة من الجذر باستخدام معلمات المحاكاة لـ 64 تصنيفًا وارتفاع الشجرة 1.2 وكسر أخذ العينات 0.01 ومعدل indel 0.05. (أ) دقة القطع المبعثرة لكل MSA. (ب) مخطط مُجمع يُظهر تجانس مخطط الانتشار الموزون محليًا (LOESS) لمتوسط ​​دقة إعادة الإعمار حسب المسافة إلى الجذر لكل أداة MSA.

بمقارنة متوسط ​​الدقة على طول الشجرة لكل أداة MSA (الشكل 4 ب) ، لاحظنا أنه ، باستثناء FSA ، كان أداء جميع أدوات المحاذاة جيدًا بشكل مماثل للأسلاف القريبة من أطراف الشجرة (على يمين x-محور) مقارنة بإعادة الإعمار باستخدام المحاذاة الحقيقية (خط الأساس). تقلل الدقة من التحرك على طول الشجرة (تتحرك يسارًا على x-المحور ، أي نحو الجذر) - يصعب إعادة بناء الأسلاف العميقة بدقة - ولكنها تميل إلى الزيادة مرة أخرى بالقرب من الجذر (باستثناء Clustal Omega * و PAGAN *). تفسر هذه الزيادة من خلال تأثير المعلومات التي تنقلها العقد ذات العينات الأكثر كثافة والمركزة في منطقة الجذر ، والتي تنتج عن جزء أخذ العينات البالغ 0.01 (لمعدلات أخذ العينات من 0.25 و 0.99 ، انخفضت الدقة بشكل رتيب بالقرب من الجذر انظر الشكل التكميلي S4 ، المواد التكميلية على الإنترنت).

بشكل عام ، أظهرت الاختلافات بين أدوات MSA التي لوحظت في الشكل 4B أن MAFFT E-INS-i و MAFFT L-INS-i يتمتعان بأفضل أداء في العقد القريبة من الجذر بدقة تقارب 0.8 MUSCLE * و MUSCLE و PRANK * و PRANK + F * لها دقة حوالي 0.7 PRANK و PRANK + F و Clustal Omega و MAFFT FFT-NS-2 بدقة قريبة من 0.6. بالنسبة لعقد العمق الوسيطة (منطقة تغيير المنحدر ، حول المسافة 0.4) ، نرى دقة تتراوح من 0.5 إلى أكثر من 0.6 لمعظم أدوات MSA ، باستثناء FSA (دقة حوالي 0.2) و PAGAN (0.4) و MAFFT FFT-NS- 2 (حوالي 0.45). بالنسبة للعقد القريبة من الأطراف (المسافة إلى الجذر 1.0-1.2) ، كان أداء جميع الأدوات تقريبًا جيدًا وبدقة أعلى من 0.8. كانت متغيرات MUSCLE أسوأ قليلاً ، حيث كانت الدقة أقل بحوالي 0.05 من الأدوات الأخرى في هذه المنطقة ، وحققت FSA أسوأ النتائج ، حيث انخفضت الدقة بسرعة إلى أقل من 0.6. لا تظهر هذه الاختلافات فقط كيفية تصرف كل أداة فيما يتعلق بالخطأ التراكمي المقدم في كل مستوى على طول الشجرة (من الجذر إلى الحافة ، على طول x- محور التين. 4) ، ولكن أيضًا إمكانية التصحيح من طريقة إعادة الإعمار في المراحل النهائية عندما يتوفر المزيد من المعلومات. على الرغم من الأداء العام المتشابه في العقد الأولية بالقرب من النصائح ، فإن التناقض الذي تسببه أداة MSA في معظم العقد السلفية يظهر أنه كبير.

أدى استخدام الشجرة الحقيقية كشجرة إرشادية لـ MSA إلى نتائج مثيرة للاهتمام. بالنسبة لمتغيرات PRANK ، أدى استخدام شجرة التوجيه باستمرار إلى تحسين الدقة على طول جميع الأشجار (Mann – Whitney-Wilcoxon، ص القيمة & لتر 0.01). في المقابل ، أعطت MUSCLE و MUSCLE * نفس النتائج تقريبًا ، ولم تظهر أي اختلافات كبيرة عند استخدام شجرة الدليل. بالنسبة إلى Clustal و PAGAN ، أدى استخدام شجرة التوجيه إلى تحسين الدقة في جميع المناطق تقريبًا ، ولكنه أدى إلى تدهور الأداء بشكل كبير للعقد القريبة من الجذر.

التحيزات للإدراج والحذف في التسلسلات المعاد بناؤها

قمنا بتحليل مساهمة أخطاء الإدراج والحذف في قياس الدقة لاكتشاف التحيزات المحددة في أدوات MSA. يتم تضمين أخطاء الإدراج والحذف في قياس الدقة (انظر المواد والطرق) وتمثل النسبة المئوية للمخلفات الموجودة (الإدراج) أو غير الموجودة (الحذف) في عقدة الأسلاف المعاد بناؤها مقارنة بالتسلسل الحقيقي. تذكر أن ASR الصحيح سيؤدي إلى درجات خطأ في الإدراج والحذف تبلغ 0 (انظر أعلاه). مرة أخرى ، مع التركيز على ظروف المحاكاة حيث كانت لطرق MSA نتائج متناقضة (64 تصنيفًا ، ارتفاع الشجرة 1.2 ، جزء أخذ العينات 0.01 ، ومعدل indel 0.05) ، اكتشفنا التحيزات في جميع الأدوات ، بما في ذلك عمليات إعادة البناء على أساس المحاذاة الحقيقية (الشكل 5) . أخطاء الحذف (المرسومة على ملف ذ-axis) منخفضًا لمعظم الأدوات ، مع ظهور متغيرات PRANK أسوأ النتائج. كان لدى PRANK + F نسبة مئوية أعلى قليلاً من الخطأ المنسوب إلى عمليات الحذف مقارنةً بـ PRANK ، وأدى استخدام شجرة الدليل إلى توزيعات مماثلة. أظهر PAGAN * أيضًا أخطاء في الحذف أعلى بشكل هامشي من الأدوات الأخرى ، ولكن أقل من PRANK.

توزيعات مقاييس خطأ الإدراج والحذف. تُظهر مخططات التشتت مقاييس خطأ الإدراج والحذف لطرق MSA المختلفة ، بناءً على معلمات المحاكاة: 64 تصنيفًا ، ارتفاع الشجرة 1.2 ، كسر أخذ العينات 0.01 ، ومعدل indel 0.05. يتم عرض الإدخالات على x-المحور ، والحذف على ذ-محور. يتم أيضًا رسم توزيع الكثافة لكل محور.

توزيعات مقاييس خطأ الإدراج والحذف. تُظهر مخططات التشتت مقاييس خطأ الإدراج والحذف لطرق MSA المختلفة ، بناءً على معلمات المحاكاة: 64 تصنيفًا ، ارتفاع الشجرة 1.2 ، كسر أخذ العينات 0.01 ، ومعدل indel 0.05. يتم عرض الإدخالات على x-المحور ، والحذف على ذ-محور. يتم أيضًا رسم توزيع الكثافة لكل محور.

لأخطاء الإدراج (الشكل 5 ، x-محور) ، لاحظنا تحيزات كبيرة في بعض الأدوات. من خلال هذا المقياس ، أظهرت متغيرات PRANK + F * و PRANK * و PRANK + F ومتغيرات MUSCLE ومتغيرات INS-i من MAFFT أفضل النتائج ، وكلها مع أخطاء إدراج عامة أقل من 0.2 (مع وجود اختلافات في التشتت). أظهرت أدوات MSA الأخرى تحيزًا قويًا تجاه عمليات الإدراج ، خاصةً FSA ، والتي أسفرت عن أخطاء إدراج تبلغ & gt0.8 (أي 80 ٪ من طول المحاذاة الزوجية التي تتكون من فجوات في التسلسل الحقيقي).

يؤدي التحيز تجاه عمليات الإدخال إلى تسلسل أطول معاد بناؤه (الشكل 6 أ). ومع ذلك ، بالنظر إلى أطوال المحاذاة المتعددة من كل أداة من جميع السيناريوهات المكررة (100 مكرر: عشرة أشجار ، وعشرة متواليات لكل شجرة) ، فإن تأثير أي توازن بين أخطاء الإدراج والحذف غير واضح (الشكل 6 ب). على الرغم من أن جميع أدوات MSA تقريبًا تبالغ في تقدير عدد عمليات الإدراج مقارنة مع عمليات الحذف ، إلا أن أطوال المحاذاة لا تظهر ارتباطًا بأطوال تسلسل الأسلاف. بشكل عام ، لم تحفز المحاذاة الأقصر من المتوقع ، مثل تلك من Clustal و MUSCLE و MAFFT ، عمليات إعادة بناء أقصر. قد تكون هذه الاختلافات ناتجة عن ميل طريقة معينة لتحقيق التوازن بين نوعين من الأخطاء: عدد كبير جدًا من عمليات الإدراج والمحاذاة الزائدة. في ظل هذه الظروف ، من المتوقع حدوث محاذاة متفرقة (انظر المحاذاة الحقيقية ، الشكل التكميلي S5 ، المواد التكميلية عبر الإنترنت) وعرض PRANK و PAGAN و FSA هذه الخاصية. ومع ذلك ، قد تكون مناطق فجوة FSA نتيجة للكيفية التي تعاقب بها على الاصطفافات الزائدة. نظرًا لأن FSA (افتراضيًا) يتوقف عن محاذاة الأحرف عندما يكون احتمال محاذاة الحرف مساويًا لاحتمالية الفراغ ، فإنه يؤدي إلى وضع indel غير الصحيح (مما يؤدي إلى عدم المحاذاة). في هذا السياق ، كانت المحاذاة من المتغيرات PRANK أكثر اتساقًا مع عمليات المحاكاة.

أطوال التسلسل المعاد بناؤها وأطوال المحاذاة. توزيعات التسلسل وأطوال المحاذاة لكل طريقة محاذاة (معلمات المحاكاة: 64 تصنيفًا ، ارتفاع الشجرة 1.2 ، جزء أخذ العينات 0.01 ، معدل إينديل 0.05). (أ) توزيع النسب المعاد بناؤها إلى أطوال التسلسل الحقيقي المقاسة لجميع العقد المعاد بناؤها. تمثل القيم الأعلى من واحد تسلسلات أعيد بناؤها أطول من المتوقع. (ب) يتم تكرار توزيعات أطوال MSA لكل طريقة تم قياسها لكل سيناريو (100: عشرة أشجار ، وعشرة محاذاة لكل شجرة).

أطوال التسلسل المعاد بناؤها وأطوال المحاذاة. توزيعات التسلسل وأطوال المحاذاة لكل طريقة محاذاة (معلمات المحاكاة: 64 تصنيفًا ، ارتفاع الشجرة 1.2 ، جزء أخذ العينات 0.01 ، معدل إينديل 0.05). (أ) توزيع النسب المعاد بناؤها إلى أطوال التسلسل الحقيقي المقاسة لجميع العقد المعاد بناؤها. تمثل القيم الأعلى من واحد تسلسلات أعيد بناؤها أطول من المتوقع. (ب) يتم تكرار توزيعات أطوال MSA لكل طريقة تم قياسها لكل سيناريو (100: عشرة أشجار ، وعشرة محاذاة لكل شجرة).

على الرغم من أن طول المحاذاة قد يعطي بعض الأفكار حول الأداء والمنفعة للتحليلات النهائية لطرق MSA المختلفة ، إلا أن تقديره الدقيق ليس له قيمة معينة بحد ذاته. بدلاً من ذلك ، فإن قدرة متغيرات MAFFT INS-i و PRANK و MUSCLE على إعطاء متواليات أسلاف فردية مستنبطة بأطوال أقرب إلى القيم الحقيقية هي مقياس مهم لأدائها المتفوق.

مقارنة بين دقة إعادة الإعمار ومقاييس جودة MSA

قارنا دقة إعادة الإعمار بمقاييس جودة MSA. تم حساب مقاييس جودة MSA باستخدام دتطور قياس من فلز (Blackburne and Whelan 2012) والنتائج التالية من Q-Score (Edgar 2004): درجة المطور (تسمى أيضًا درجة SP ، لمجموع الأزواج) ، درجة مصمم النماذج ، مجموع نقاط العمود ، ودرجة Cline Shift. مثل فلز تمثل النتيجة مقياس خطأ (يتراوح من 0 ، لا يمثل أي خطأ ، إلى 1 ، الحد الأقصى للخطأ) ، تم طرح القيم من 1 لإنتاج مقياس دقة ، أكثر ارتباطًا بالمقاييس الأخرى. يوضح الشكل 7 مخططات دقة إعادة الإعمار مقابل مقاييس جودة MSA لجميع ظروف المحاكاة الـ 72. لكل سيناريو ، أخذنا في الاعتبار متوسط ​​دقة إعادة الإعمار (التي تغطي جميع العقد في جميع تكرارات السيناريو) ومتوسط ​​جودة MSA لجميع التكرارات. بشكل عام ، أنتجت مقاييس جودة MSA نتائج مماثلة ، مما يدل على وجود علاقة جيدة مع دقة إعادة الإعمار مع معامل قيم التحديد (ص 2 ) عادة أعلى من 0.75 لمعظم أدوات ومقاييس الجودة MSA. كان الاستثناء هو درجة TC ، والتي أظهرت ارتباطًا أقل (ص 2 حوالي 0.60) عند مقارنتها بمقاييس الجودة الأخرى.

العلاقة بين دقة إعادة الإعمار ومقاييس جودة MSA. متوسط ​​دقة إعادة الإعمار ومتوسط ​​درجات جودة MSA المحسوبة لكل سيناريو محاكى (72 سيناريو) باستخدام كل أداة MSA. يتم حساب مقاييس جودة MSA الموضحة في النص من خلال مقارنة MSA مع المحاذاة المحاكية الحقيقية. فلز تم استخدامه تحت دتطور المقياس الذي يتوافق مع درجة الاختلاف ، لذلك تم طرح القيم من 1 لسهولة المقارنة. (ص: ارتباط بيرسون ص 2: معامل التحديد).

العلاقة بين دقة إعادة الإعمار ومقاييس جودة MSA. متوسط ​​دقة إعادة الإعمار ومتوسط ​​درجات جودة MSA المحسوبة لكل سيناريو محاكى (72 سيناريو) باستخدام كل أداة MSA. يتم حساب مقاييس جودة MSA الموضحة في النص من خلال مقارنة MSA مع المحاذاة المحاكية الحقيقية. فلز تم استخدامه تحت دتطور المقياس الذي يتوافق مع درجة الاختلاف ، لذلك تم طرح القيم من 1 لسهولة المقارنة. (ص: ارتباط بيرسون ص 2: معامل التحديد).

لوحظت اختلافات طفيفة فقط في أدوات تقويم معينة. وأبرز هذه النقاط هي درجة مصمم النماذج ، والتي أسفرت عن قيم عالية بشكل غير طبيعي لـ FSA عند مقارنتها بالمقاييس والمحاذاة الأخرى (الشكل 7 ، مخطط FSA). هذا التناقض المحدد هو نتيجة لكيفية تطبيع درجة عارض النماذج ، لصالح حالات عدم المحاذاة وإهمال مناطق indel للتطبيع. نظرًا لأن FSA ينتج محاذاة طويلة ومتفرقة ، فإن حتى عدد قليل من التماثلات المستنتجة بشكل صحيح ، عند تقسيمها على عدد قليل من المناطق المتوافقة ، تؤدي إلى درجات أعلى. لهذا السبب ، عادةً ما يتم دمج درجة عارض النماذج مع درجة SP (المطور) (Wang and Dunbrack 2004).

على الرغم من الارتباطات العامة الجيدة بشكل عام بين مقاييس جودة MSA ودقة إعادة الإعمار ضمن أدوات MSA المحددة ، فإن المقارنة بين المقاييس عبر أدوات المحاذاة المختلفة ، لا سيما في السيناريوهات المتناقضة ، تُظهر بعض مقاييس جودة المحاذاة المتعامدة مع إعادة الإعمار الموثوقة. يوضح الشكل 8 متوسط ​​دقة إعادة الإعمار ومقاييس جودة MSA لعمليات المحاكاة باستخدام أشجار 64-تصنيفًا ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ومعدل indel 0.05 (نفس المعلمات التي تمت دراستها سابقًا ، التين 4-6). لاحظنا أن الاختلافات في دقة إعادة الإعمار بين الأدوات (باللون الأزرق) لم يتم التقاطها لبعض مقاييس الجودة (باللون الوردي). بخلاف التناقض بين مصمم النماذج / FSA ، يمكن تمييز اختلافات أخرى ، لا سيما درجة TC التي تقدم نتائج غير متوقعة للعديد من أدوات MSA. توضح هذه الاختلافات مدى قدرة كل مقياس جودة على التقاط الاختلافات الملحوظة مع دقة إعادة الإعمار. وبالتالي ، في ظل ظروف المحاكاة هذه (التي تعتبر صعبة لإعادة الإعمار) ، تنتج درجة TC أسوأ تنبؤات دقة ASR (ارتباط 0.26) ، في حين أن فلز (1 − دتطور) وكان أداء مقاييس نقاط SP أفضل أداء (الارتباط & GT 0.85).

درجات جودة MSA مقارنة بدقة إعادة البناء على أدوات MSA المختلفة. الاختلافات في مقاييس الجودة بين أدوات MSA تحت معلمات المحاكاة لـ 64 تصنيفًا ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ، ومعدل indel 0.05. تمثل درجات جودة MSA (باللون الوردي) قيمًا لكل سيناريو يتم تكرارها (عشرة أشجار وعشرة محاذاة لكل شجرة). في جميع المخططات ، تم عرض دقة إعادة الإعمار (باللون الأزرق) للمقارنة ، وتمثل السلوك المتوقع من حيث الفروق بين الأدوات. تم قياس قيم دقة إعادة الإعمار كمتوسطات لكل دقة العقدة التي أعيد بناؤها في كل تكرار ، وهي نفسها في كل مخطط. يتم ترتيب أدوات MSA حسب وسائل دقة إعادة البناء (الأفضل إلى الأسوأ). يتم عرض ارتباطات Spearman rho بين درجات جودة MSA ودقة إعادة الإعمار لكل مقياس. فلز يتم عرض الدرجات على أنها 1 - دتطور، لإنتاج مقياس تشابه.

درجات جودة MSA مقارنة بدقة إعادة البناء على أدوات MSA المختلفة. الاختلافات في مقاييس الجودة بين أدوات MSA تحت معلمات المحاكاة لـ 64 تصنيفًا ، وارتفاع الشجرة 1.2 ، وكسر أخذ العينات 0.01 ، ومعدل indel 0.05. تمثل درجات جودة MSA (باللون الوردي) قيمًا لكل سيناريو يتم تكرارها (عشرة أشجار وعشرة محاذاة لكل شجرة). في جميع المخططات ، تم عرض دقة إعادة الإعمار (باللون الأزرق) للمقارنة ، وتمثل السلوك المتوقع من حيث الفروق بين الأدوات. تم قياس قيم دقة إعادة الإعمار كمتوسطات لكل دقة العقدة التي أعيد بناؤها في كل تكرار ، وهي نفسها في كل مخطط. يتم ترتيب أدوات MSA حسب وسائل دقة إعادة البناء (الأفضل إلى الأسوأ). يتم عرض ارتباطات Spearman rho بين درجات جودة MSA ودقة إعادة الإعمار لكل مقياس. فلز يتم عرض الدرجات على أنها 1 - دتطور، لإنتاج مقياس تشابه.

معلمات Indel البديلة

في تحليلنا الأساسي ، قمنا بمحاكاة التسلسلات باستخدام معلمات معدل indel من 0.01 و 0.05. ومع ذلك ، تشير تحليلات أخصائيي تقويم الثدييات والبكتيريا من قواعد بيانات OrthoMam (Douzery et al. 2014) و COG (Tatusov et al. 2003) إلى معدل indel يبلغ 0.02 وثابت توزيع قانون الطاقة يبلغ 1.125 لبروتينات الثدييات. تشير التقديرات من COG إلى معدل indel 0.125 وثابت توزيع قانون الطاقة 1.3 (Levy Karin et al. 2015). لذلك ، قمنا بمحاكاة البيانات بمعدلات indel هذه على أشجار 32 صنفاً ، وارتفاع شجرة 1.0 وكسر أخذ العينات 0.01 و 0.99 (مادة تكميلية - ملف إضافي S2 ، مواد تكميلية عبر الإنترنت). كان الحد الأقصى لطول indel المسموح به هو 50 من بقايا الأحماض الأمينية. كانت النتائج لمعدلات الثدييات مماثلة لتلك التي تم الحصول عليها بمعلمات معدل إينديل 0.05 ، مع دقة أفضل قليلاً. تمثل معلمات indel المقدرة من أطباء تقويم العظام ظروفًا أكثر صعوبة. لم تحقق أي أداة MSA دقة إعادة بناء جيدة باستخدام قيمة معلمة indel الأعلى (0.125) ، مع دقة في معظم العقد القديمة أقل من 0.2. تم الحصول على عمليات إعادة بناء دقيقة بالقرب من النصائح. يمكن أن يرجع معدل indel المرتفع الذي استنتجته COG إلى جانبه العام ، والذي يتضمن ، بحكم التعريف ، عدة مجموعات من أخصائيي تقويم العظام (Trachana et al. 2011 Douzery et al. 2014). لذلك ، فإن عمليات إعادة البناء الموثوقة لمعظم العقد السلفية غير ممكنة ، وهذا لا يمثل حالة قابلة للتطبيق لـ ASR للبروتينات.


مراجع

Needleman SB ، Wunsch CD: طريقة عامة تنطبق على البحث عن أوجه التشابه في تسلسل الأحماض الأمينية لبروتينين. J مول بيول. 1970 ، 48 (3): 443-453. 10.1016 / 0022-2836 (70) 90057-4.

سميث تي إف ، ووترمان إم إس ، فيتش دبليو إم: مقاييس التتابع الحيوي المقارنة. J مول إيفول. 1981 ، 18 (1): 38-46. 10.1007 / BF01733210.

Feng DF ، Doolittle RF: محاذاة التسلسل التدريجي كشرط أساسي لتصحيح أشجار النشوء والتطور. J مول إيفول. 1987 ، 25 (4): 351-360. 10.1007 / BF02603120.

Thompson JD و Higgins DG و Gibson TJ: CLUSTAL W: تحسين حساسية المحاذاة التدريجية للتسلسل المتعدد من خلال ترجيح التسلسل وعقوبات الفجوة الخاصة بالموضع واختيار مصفوفة الوزن. الدقة الأحماض النووية. 1994 ، 22 (22): 4673-4680. 10.1093 / nar / 22.22.4673.

Subramanian AR ، Kaufmann M ، Morgenstern B: DIALIGN-TX: نهج جشع وتقدمي لمحاذاة تسلسل متعدد قائم على المقطع. خوارزميات مول بيول. 2008، 3: 6-10.1186 / 1748-7188-3-6.

Notredame C ، Higgins DG ، Heringa J: T-coffee: طريقة جديدة لمحاذاة تسلسل متعددة سريعة ودقيقة. J مول بيول. 2000 ، 302 (1): 205-217. 10.1006 / جمبي.2000.4042.

Do CB ، Mahabhashyam MS ، Brudno M ، Batzoglou S: الاحتمالات: محاذاة تسلسل متعددة قائمة على الاتساق الاحتمالي. الدقة الجينوم. 2005 ، 15 (2): 330-340. 10.1101 / غرام 2821705.

روشان يو ، Livesay DR: Probalign: محاذاة تسلسل متعدد باستخدام الاحتمالات الخلفية لوظيفة التقسيم. المعلوماتية الحيوية. 2006 ، 22 (22): 2715-2721. 10.1093 / المعلوماتية الحيوية / btl472.

Sievers F و Wilm A و Dineen D و Gibson TJ و Karplus K و Li W و Lopez R و McWilliam H و Remmert M و Söding J و Thompson JD و Higgins DG: توليد سريع وقابل للتطوير لمحاذاة تسلسل متعدد للبروتين عالي الجودة باستخدام كلوستال أوميغا. مول سيست بيول. 2011 ، 7: 539-

Lee C و Grasso C و Sharlow MF: محاذاة تسلسل متعددة باستخدام رسوم بيانية بترتيب جزئي. المعلوماتية الحيوية. 2002 ، 18 (3): 452-464. 10.1093 / المعلوماتية الحيوية / 18.3.452.

Gotoh O: تحسن كبير في دقة محاذاة تسلسل البروتين المتعدد عن طريق الصقل التكراري كما تم تقييمه بالرجوع إلى المحاذاة الهيكلية. J مول بيول. 1996 ، 264 (4): 823-838. 10.1006 / جمبي.1996.0679.

Edgar RC: MUSCLE: طريقة محاذاة متعددة التسلسل مع تقليل الوقت وتعقيد المكان. BMC Bioinforma. 2004، 5: 113-10.1186 / 1471-2105-5-113.

Katoh K، Misawa K، Kuma K، Miyata T: MAFFT: طريقة جديدة لمحاذاة تسلسلات متعددة سريعة تعتمد على تحويل فورييه السريع. الدقة الأحماض النووية. 2002 ، 30 (14): 3059-3066. 10.1093 / nar / gkf436.

Hirosawa M، Totoki Y، Hoshida M، Ishikawa M: دراسة شاملة حول الخوارزميات التكرارية لمحاذاة التسلسل المتعدد. تطبيق Comput Biosci. 1995 ، 11 (1): 13-18.

Katoh K، Kuma K، Toh H، Miyata T: MAFFT الإصدار 5: تحسين دقة محاذاة التسلسل المتعدد. الدقة الأحماض النووية. 2005 ، 33 (2): 511-518. 10.1093 / nar / gki198.

Thompson JD، Koehl P، Ripp R، Poch O: BAliBASE 3.0: أحدث التطورات لمعيار محاذاة التسلسل المتعدد. البروتينات. 2005 ، 61 (1): 127-136. 10.1002 / حماية. 20527.

Bahr A و Thompson JD و Thierry JC و Poch O: BAliBASE (قاعدة بيانات المحاذاة المعيارية): تحسينات للتكرارات وتسلسلات الغشاء والتبديلات الدائرية. الدقة الأحماض النووية. 2001 ، 29 (1): 323-326. 10.1093 / nar / 29.1.323.

Perrodou E و Chica C و Poch O و Gibson TJ و Thompson JD: معيار عزر خطي بروتيني جديد لبرنامج محاذاة التسلسل المتعدد. BMC Bioinforma. 2008 ، 9: 213-10.1186 / 1471-2105-9-213.

Lassmann T، Sonnhammer EL: تقييم جودة برامج المحاذاة المتعددة. FEBS ليت. 2002 ، 529 (1): 126-130. 10.1016 / S0014-5793 (02) 03189-7.

Thompson JD، Plewniak F، Poch O: مقارنة شاملة لبرامج محاذاة التسلسل المتعددة. الدقة الأحماض النووية. 1999 ، 27 (13): 2682-2690. 10.1093 / nar / 27.13.2682.

Blackshields G و Wallace IM و Larkin M و Higgins DG: تحليل ومقارنة المعايير لمحاذاة التسلسل المتعدد. في Silico Biol. 2006 ، 6 (4): 321-339.

Nuin PA و Wang Z و Tillier ER: دقة العديد من برامج محاذاة التسلسل المتعددة للبروتينات. BMC Bioinforma. 2006، 7: 471-10.1186 / 1471-2105-7-471.

مايرز إي دبليو ، ميلر دبليو: محاذاة مثالية في الفضاء الخطي. تطبيق Comput Biosci. 1988 ، 4 (1): 11-17.

Edgar RC: تحسين اختيار مصفوفة الاستبدال ومعلمات الفجوة لمحاذاة التسلسل. BMC Bioinforma. 2009، 10: 396-10.1186 / 1471-2105-10-396.

Katoh K ، Toh H: التطورات الأخيرة في برنامج محاذاة التسلسل المتعدد MAFFT. موجز Bioinform. 2008 ، 9 (4): 286-298. 10.1093 / مريلة / bbn013.

Katoh K ، Toh H: موازاة برنامج محاذاة التسلسل المتعدد MAFFT. المعلوماتية الحيوية. 2010 ، 26 (15): 1899-1900. 10.1093 / المعلوماتية الحيوية / btq224.

Blackshields G و Sievers F و Shi W و Wilm A و Higgins DG: تضمين التسلسل لبناء سريع لأشجار التوجيه لمحاذاة تسلسل متعدد. خوارزميات مول بيول. 2010، 5: 21-10.1186 / 1748-7188-5-21.


يمكننا تحميل نتيجة بلاست المحفوظة على النحو التالي.

دعونا نتحقق من النتائج التي تم إرجاعها. نظرًا لأننا حصلنا على إخراج BLAST بتنسيق XML ، يمكننا تحليل النتيجة باستخدام NCBIXML. استخدمنا هنا تسلسل استعلام واحد وبالتالي نحصل على سجل واحد فقط.

يمكنك الحصول على المحاذاة من blast_record.alignments.

يمكنك سرد السمات المختلفة لكل كائن باستخدام وظيفة dir ().

إذا كان لديك تسلسلات استعلام متعددة ، فيمكنك تحليل النتيجة على النحو التالي.

يمكنك استخدام حلقة for للوصول إلى السجلات على النحو التالي.

يمكنك قراءة المزيد حول كيفية استخدام Biopython مع BLAST من Biopython Tutorial and Cookbook.


الشكل 3

الشكل 3. النماذج التنبؤية للركائز س- ميتولاكلور والألاكلور. يتم استخدام النشاط المقاس لكل مخطط معلومات لتوليد نموذج (A1 ، B1) يعين وزنًا (A2 ، B2) لكل متغير فردي (استبدال) يصف تأثيره على النشاط. A1 و A2 هو نموذج وتخصيص الوزن على التوالي سميتولاكلور. B1 و B2 هما نموذج ووزن الألاكلور على التوالي. يشير شريط التوزيع لكل متغير إلى التوزيع الغوسي للوزن المحسوب ضمن 1000 bootstraps لأخذ العينات الفرعية كما هو موضح في النص. يُظهر الرسم البياني Instick في A1 و B1 نموذجًا إذا كان ترتيب العينة عشوائيًا (عبر التحقق من 0.04 و 0.17 على التوالي).


شاهد الفيديو: فوائد الاوميغا 3 - اين توجد الاحماض الدهنية اوميغا 3 (ديسمبر 2022).