معلومة

تخصيب الحمض النووي الريبي الفيروسي مقابل تصفية القراءات

تخصيب الحمض النووي الريبي الفيروسي مقابل تصفية القراءات


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أرى الكثير من الإعلانات عن مجموعات التخصيب الفيروسي ، على سبيل المثال المستحضرات الهجينة لـ Twist Biosciences ، والتي ينبغي أن تسمح "بصيد" الحمض النووي الفيروسي في المختبر. الآن هناك طريقة أخرى تم استغلالها بواسطة ورقة تستند إلى التسلسل الميتاجينومي والترشيح للقراءات الفيروسية في السيليكو. عندما أرى بوضوح ميزة الطريقة الثانية في عدم الاضطرار إلى شراء مجموعة تخصيب ، ما الذي يمكن أن يتحدث عن التخصيب في المختبر باستخدام مجموعة؟


مقارنة بين RNA-Seq عن طريق التقاط بولي (A) ، ونضوب الحمض النووي الريبي الريبوزومي ، ومصفوفة دقيقة للحمض النووي لتحديد ملامح التعبير

غالبًا ما يستخدم تسلسل الحمض النووي الريبي (RNA-Seq) للتنميط النسخي وكذلك تحديد النصوص الجديدة وأحداث الربط البديلة. عادةً ، يتم إعداد مكتبات RNA-Seq من إجمالي RNA باستخدام إثراء بولي (A) من mRNA (mRNA-Seq) لإزالة الحمض النووي الريبي (rRNA) ، ومع ذلك ، تفشل هذه الطريقة في التقاط نسخ غير بولي (A) أو تدهورت جزئيًا مرناس. ومن ثم ، لن يكون بروتوكول mRNA-Seq متوافقًا للاستخدام مع RNAs القادمة من عينات الفورمالين الثابتة وعينات البارافين المضمنة (FFPE).

نتائج

لمعالجة الرغبة في أداء RNA-Seq على مواد FFPE ، قمنا بتقييم بروتوكولين مختلفين لإعداد المكتبة يمكن أن يكونا متوافقين للاستخدام مع أجزاء RNA الصغيرة. لقد حصلنا على أزواج Fresh Frozen (FF) و FFPE RNAs من أورام متعددة وقمنا بتعريضها لطرق مختلفة لتنميط التعبير الجيني. اختبرنا 11 عينة من ورم الثدي البشري باستخدام: (أ) FF RNAs بواسطة microarray و mRNA-Seq و Ribo-Zero-Seq و DSN-Seq (نوكلياز مزدوج محدد) و (ب) FFPE RNAs بواسطة Ribo-Zero-Seq و DSN -مكافئ. أجرينا أيضًا بروتوكولات RNA-Seq المختلفة باستخدام 10 أورام TCGA كمجموعة تحقق.

أظهرت البيانات المأخوذة من عينات الحمض النووي الريبي المقترنة توافقًا عاليًا في القياس الكمي للنسخ عبر جميع البروتوكولات وبين الحمض النووي الريبي FF و FFPE. في كل من FF و FFPE ، قام Ribo-Zero-Seq بإزالة الرنا الريباسي بكفاءة مماثلة مثل mRNA-Seq ، وقدم تغطية مكافئة أو أقل تحيزًا على نهايات الجين 3. مقارنةً بـ mRNA-Seq حيث تم تعيين 69 ٪ من القواعد إلى النسخة النصية ، احتوى DSN-Seq و Ribo-Zero-Seq على عدد أقل بكثير من القراءات التي تعين تعيين النسخ (20-30 ٪) في بروتوكولات RNA-Seq هذه ، العديد منها إن لم يكن معظمها يقرأ تعيين مناطق intronic. ما يقرب من 14 مليون قراءة في mRNA-Seq و 45-65 مليون قراءة في Ribo-Zero-Seq أو DSN-Seq كانت مطلوبة لتحقيق نفس مستويات الكشف عن الجينات مثل ميكروأري الحمض النووي الريبي القياسي.

الاستنتاجات

توضح نتائجنا أنه بالمقارنة مع mRNA-Seq والمصفوفات الدقيقة ، يوفر Ribo-Zero-Seq كفاءة إزالة الرنا الريباسي المكافئة ، وتوحيد التغطية ، والقراءات المعينة على أساس الجينوم ، والقياس الكمي عالي الجودة للنصوص باستمرار. علاوة على ذلك ، يمتلك Ribo-Zero-Seq و DSN-Seq تقديرًا كميًا ثابتًا للنسخ باستخدام FFPE RNAs ، مما يشير إلى أنه يمكن استخدام RNA-Seq مع RNAs المشتقة من FFPE لتوصيف التعبير الجيني.


خلفية

على مدى السنوات القليلة الماضية ، أصبح تسلسل الجيل التالي (NGS) تقنية معتمدة على نطاق واسع في العديد من جوانب الاكتشاف والبحث التحويلي ، نظرًا لقدرتها على الحصول على معلومات التسلسل والقياس الكمي في نفس الوقت [1 ، 2]. من بين العديد من التطبيقات التي تستخدم NGS ، يعد تحليل متغير الحمض النووي الجيني وتحليل تعبير RNA الأكثر شيوعًا. يمكن أن يكون نطاق هذه التحليلات إما عريضًا مثل الجينوم بأكمله والنسخة ، أو مركزة مثل مناطق محددة ولوحات الجينات.

يعد التسلسل المستهدف مفيدًا بشكل خاص في تحقيق تغطية عالية جدًا للمنطقة محل الاهتمام (ROI) مع الحفاظ على إمكانية التحكم في تكلفة التسلسل وتعقيد تفسير البيانات. يعد الحصول على تغطية تسلسلية عالية جدًا أمرًا مهمًا بشكل خاص لاكتشاف طفرات السرطان الموجودة في الكسور المنخفضة. على سبيل المثال ، عادة ما يكون متوسط ​​عمق التسلسل لـ & gt1000 قراءة مطلوبًا للكشف عن متغيرات النوكليوتيدات المفردة (SNVs) الموجودة عند كسر بنسبة 5 ٪ بثقة جيدة [3]. هناك حاجة إلى عمق تسلسل أعلى بكثير لاكتشاف SNVs بأقل من 5 ٪ كسر. في تحليل الحمض النووي الريبي ، يمكن أن يوفر النهج المستهدف مزيدًا من الأدلة على نصوص التعبير المنخفض ، لأنه في تسلسل النسخ يتم استهلاك معظم قراءات التسلسل من خلال النصوص ذات الوفرة المتوسطة والعالية ، وبالتالي غالبًا ما يترك تغطية غير كافية للنصوص ذات الوفرة المنخفضة [4].

هناك طرق متعددة لإثراء منطقة مستهدفة قبل NGS. الأساليب الأكثر استخدامًا هي 1) التقاط التهجين من مكتبات التسلسل باستخدام تحقيقات محددة مستهدفة [5] و 2) تضخيم تفاعل البوليميراز المتسلسل مباشرة من عينة الحمض النووي باستخدام بادئات محددة الهدف [6]. على الرغم من الحاجة إلى مزيد من الجهد في تصميم التمهيدي الأمامي وتحسين الكيمياء ، لا يزال العديد من الأشخاص يستخدمون الإثراء المستند إلى PCR amplicon لأنه ، بشكل عام ، عملية PCR أسهل في التعامل معها ، وتتطلب وقتًا إجماليًا أقل ، وتكون أكثر تحديدًا من حيث إثراء التسلسل المستهدف ويمكن تستوعب بسهولة مدخلات أقل بكثير من الحمض النووي. مع ظهور PCR عالي تعدد الإرسال ، يمكن الآن تضخيم مئات إلى آلاف الأمبليكون في وقت واحد في تفاعل واحد ، مما يجعل تغطية مناطق كبيرة جدًا مريحة [7].

يستخدم الإثراء المستهدف الحالي ، وإعداد المكتبة ، وخطوات التسلسل جميعًا عمليات بوليميريز الحمض النووي والتضخيم ، والتي تقدم تحيزًا كبيرًا (تضخيمًا غير منتظم) والتحف (أخطاء البوليميراز التي تولد تغييرات تسلسلية غير موجودة في العينات الأصلية). يؤثر تحيز تضخيم PCR بشكل كبير على دقة القياس الكمي ، لأن أعداد قراءة التسلسل النهائي قد لا تمثل بدقة الوفرة النسبية لشظايا DNA و RNA الأصلية. من المرجح أن تؤدي القطع الأثرية للبوليميراز التي تم إنشاؤها أثناء دورات PCR إلى العديد من متغيرات التسلسل "الخاطئة" الموجودة في الكسور المنخفضة في قراءات التسلسل النهائي. تسبب هذه المتغيرات "الخاطئة" منخفضة المستوى صعوبة في تحديد الطفرات الجسدية الحقيقية الموجودة عند نسبة منخفضة جدًا (على سبيل المثال أقل من 2٪) في العينة. السبب الجذري لهذه المشاكل هو عدم القدرة على التمييز بين أخذ العينات الأولية للجزيئات الأصلية المختلفة من إعادة أخذ عينات من نفس الجزيء بواسطة بادئات أثناء عملية تفاعل البوليميراز المتسلسل. تتفاقم مثل هذه المشاكل عندما تكون هناك حاجة إلى المزيد من دورات PCR للتعامل مع الحمض النووي منخفض المدخلات أو الحمض النووي الرديء الجودة. يكون الإثراء المستهدف المستند إلى PCR amplicon أكثر عرضة لهذه المشاكل من الإثراء القائم على التقاط التهجين للأسباب التالية. عملية القص أو الوسم العشوائي قبل التقاط التهجين تخلق نهايات شظية عشوائية ومتنوعة ، والتي يمكن استخدامها كمعرف فريد لكل جزيء DNA مبتدئ [8]. توفر هذه المعرفات الفريدة قدرة محدودة لتتبع جزيئات البداية المختلفة وإزالة نسخ PCR وما يرتبط بها من آثار تضخيم. يفقد التخصيب المستند إلى PCR amplicon هذه القدرة لأن جميع جزيئات البدء يتم إثرائها بنفس نهايات التسلسل لمضخة معينة مستهدفة معينة.

للتخفيف من مشاكل تكرار PCR والتضخيم المتحيز في تحليل NGS ، أبلغ الباحثون عن تضمين عدد معروف من الجزيئات المعيارية الداخلية الاصطناعية لتحسين دقة تقدير NGS الكمي [9]. تتضمن المناهج الأخرى استخدام الباركود الجزيئي الخارجي (أو العلامات الجزيئية) [8 ، 10 ، 11]. لا ينبغي الخلط بين هذا وبين عينة الرموز الشريطية المستخدمة بشكل شائع في مهام سير عمل NGS الحالية. مفهوم الترميز الجزيئي هو أن كل جزيء أصلي من DNA أو RNA مرتبط برمز شريطي فريد من نوعه. قراءات التسلسل التي تحتوي على رموز شريطية مختلفة تمثل جزيئات أصلية مختلفة ، في حين أن قراءات التسلسل التي لها نفس الرمز الشريطي هي نتائج تكرار PCR من جزيء أصلي واحد. على الرغم من أن التشفير الشريطي الجزيئي لا يمكن أن يمنع حدوث ازدواجية PCR ، إلا أنه يوفر حلاً جيدًا لتتبع التكرارات ومعالجتها بشكل مختلف لتحليل المصب. من خلال استخدام الباركود الجزيئي ، يمكن تمييز القطع الأثرية للبوليميراز التي تم إنشاؤها أثناء تفاعل البوليميراز المتسلسل عن متغيرات التسلسل الموجودة في الجزيئات الأصلية. هذا الرمز الشريطي لديه القدرة على زيادة دقة الكشف عن الطفرات بنسبة 1٪ أو أقل عن طريق إزالة الإيجابيات الزائفة منخفضة المستوى [8 ، 12 ، 13]. يمكن أيضًا تحقيق التقدير الكمي المستهدف بشكل أفضل من خلال حساب عدد الرموز الشريطية الجزيئية الفريدة في القراءات بدلاً من حساب إجمالي عدد القراءات ، حيث من المرجح أن يكون إجمالي عدد القراءة منحرفًا للأهداف عن طريق التضخيم غير المنتظم [10 ، 14 ، 15] .

تم تطبيق العديد من أشكال الباركود الجزيئي بنجاح في تطبيقات NGS. تم دمج الرموز الشريطية الجزيئية في محولات الربط أثناء خطوة إنشاء المكتبة لتسلسل الجينوم [13] وتسلسل النسخ [15]. في دراسة أخرى ، تم دمج الرموز الشريطية في تحقيقات الانعكاس الجزيئي لاكتشاف الطفرات الجسدية المستهدفة [12]. يمكن أيضًا دمج الرموز الشريطية في بادئات PCR محددة الهدف (في شكل امتداد قصير من القواعد العشوائية) في تسلسل PCR amplicon [8 ، 10] ، وبالتالي القضاء على أوجه القصور الكبيرة في تسلسل amplicon كما ذكر سابقًا. في هذا الجانب ، ارتبطت جميع الحالات المبلغ عنها حتى الآن بتضخيم واحد أو عدد قليل من الأمبليكون بواسطة بادئات تحتوي على رموز شريطية جزيئية ، مثل تحليل الجين الفيروسي في دراسة مقاومة فيروس نقص المناعة البشرية [16] ، وتحليل جين 16srRNA في دراسة ميكروبيوتا الأمعاء البشرية [17] ، وتحليل السلسلة الثقيلة IG في تنميط ذخيرة المناعة [18]. ونتيجة لذلك ، اقتصرت جميع هذه التحليلات على مناطق صغيرة جدًا فقط. وبالتالي ، سيكون من المفيد إذا كان من الممكن أيضًا تطبيق الرموز الشريطية الجزيئية في تسلسل أمبليكون PCR متعدد الإرسال. من أجل تحقيق ذلك ، يجب التغلب على بعض العقبات التقنية ، على سبيل المثال كيفية تجنب إعادة تشكيل الباركود وكيفية قمع ثنائيات التمهيدي في ظروف PCR عالية تعدد الإرسال.

لقد قمنا بتطوير وتحسين عملية تسلسل أمبليكون PCR متعددة الإرسال عالية ، والتي يمكن أن تستوعب مئات من البادئات المستهدفة المحددة التي تحتوي على رموز شريطية جزيئية في تفاعل واحد. بالإضافة إلى ذلك ، يلغي البروتوكول الجديد الحاجة إلى إنشاء مكتبة قائمة على الربط ، عن طريق إضافة محولات التسلسل أثناء تضخيم تعدد الإرسال PCR. باستخدام هذا البروتوكول ، قمنا ببناء لوحات amplicon من عدة أحجام لإثبات ما يلي: 1) الأداء في اكتشاف SNVs بنسبة 1 ٪ باستخدام مواد مضافة من المواد المرجعية من معهد Coriell 2) الأداء في تحديد نصوص الحمض النووي الريبي منخفضة الوفرة باستخدام ERCC spike-in الضوابط و 3) القدرة على إثراء مناطق كبيرة واكتشاف الطفرات الجسدية غير المعروفة في عينات FFPE. أكدت بياناتنا الأداء المتفوق لعد الرموز الشريطية الجزيئية على قراءات تسلسل العد في تسلسل أمبليكون متعدد الإرسال عالي. نوضح أن البروتوكول الجديد يجمع بين بساطة تسلسل أمبليكون PCR ودقة الرموز الشريطية الجزيئية ، ويمكن أن يوفر تغطية عميقة لمنطقة كبيرة جدًا ، وسيكون إضافة مفيدة لحلول التخصيب المستهدفة الحالية.


مقدمة

داخل مياه الصرف الصحي الخام ، يتم خلط البراز والبول والسوائل البيولوجية الأخرى من آلاف البشر مع الطعام والنفايات المنزلية والنفايات الصناعية ومياه الجريان السطحي. يساهم كل فرد متصل بشبكة الصرف بميكروباته الخاصة [1] ، بما في ذلك مسببات الأمراض المعدية [2]. وهذا يجعل مياه الصرف الصحي مصفوفة جذابة للدراسات الوبائية [3] ، وتتبع المصادر الجرثومية [4] ، وللتحكم في فعالية إزالة مسببات الأمراض في محطات معالجة مياه الصرف الصحي [5،6]. ثبت أن مياه الصرف الصحي تؤوي مجموعة متنوعة من الفيروسات بما في ذلك الفيروسات المعوية والجهاز التنفسي والفيروسات المسببة للأورام [7]. إن التنوع الفيروسي العالي والطفرة المستمرة للأنواع الفيروسية تجعل التعرف على الأساليب التقليدية أمرًا صعبًا ويستغرق وقتًا طويلاً ، لذلك تحولت العديد من الدراسات إلى مناهج تسلسل الجيل التالي (NGS) بدلاً من ذلك [7-9]. يعتبر التسلسل الميتاجينومي للأحماض النووية المرتبطة بالفيروس نهجًا غير متحيز يمكّن من اكتشاف جميع الأنواع الفيروسية المعروفة ، فضلاً عن اكتشاف الأنواع الجديدة والناشئة [10]. توجد ثلاثة تحديات رئيسية أمام علم الجينات الجينية لمياه الصرف الصحي الفيروسية. أولاً ، جزء صغير فقط من إجمالي الأحماض النووية ذات أصل فيروسي معروف ، وبالتالي هناك حاجة غالبًا إلى تنقية الفيروس الميكانيكية والإنزيمية [9]. ثانيًا ، تتطلب الوفرة المنخفضة للجسيمات الفيروسية في العينات استخدام طرق التركيز الفيروسي قبل استخلاص الحمض النووي [11] وغالبًا ما يتم دمجها مع تضخيم الحمض النووي العشوائي اللاحق [12]. ثالثًا ، يجب أن يغطي إجراء استخراج الحمض النووي التنوع الكبير في الهياكل الفيروسية وأنواع الجينوم. للتغلب على هذه التحيزات ، تم تطوير طرق مختلفة لتركيز الفيروسات من عينات المياه ، بما في ذلك: ترسيب البولي إيثيلين جلايكول (PEG) [8] ، FeCl3 الترسيب [13] ، تلبد الحليب منزوع الدسم (SMF) [14] ، ترشيح الصوف الزجاجي (GW) [15] أو ترشيح الامتزاز الأحادي (MAF) [16]. تم تقييم تأثير طريقة التركيز على الانتعاش الفيروسي على مياه البحر [17] ، ومياه الصنبور المسننة [15 ، 18] ومياه الصرف الصحي الخام [19] ، مع التنبيه إلى التحيزات المرتبطة بالطريقة. على حد علمنا ، لم يتم إجراء دراسات مقارنة رئيسية باستخدام الميتاجينوميات مع مياه الصرف الصحي.

تم توثيق التحيزات التي تسببها مجموعات استخلاص الحمض النووي جيدًا لكل من البكتيريا [20،21] والفيروسات [22،23]. بالإضافة إلى ذلك ، تم العثور على الملوثات في كل مكان في بعض مجموعات الاستخراج [24] وكواشف المختبر [25] ، مما قد يؤدي إلى نتائج إيجابية خاطئة [26 ، 27]. إن الفهم الأفضل للتحيزات المرتبطة بطريقة معينة ، فيما يتعلق بميتاجينوميات مياه الصرف الصحي الفيروسية ، من شأنه أن يجعل تقييم الأدبيات الحالية أسهل ، ويساعد في توجيه الدراسات المستقبلية.

في هذه الدراسة ، قمنا بتقييم أربع طرق تركيز منشورة مسبقًا ، PEG و MAF و SMF و GW ، بالإضافة إلى أربع مجموعات استخراج ، Nucleospin RNA XS (NUC) ، QIAamp Viral RNA Mini Kit (QIA) ، NucliSENS ® miniMAG ® (MIN) ، أو PowerViral ® Environmental RNA / DNA Isolation Kit (POW) ، من أجل الميتاجينوميات الفيروسية لمياه الصرف الصحي ، في تصميم عاملي كامل ينتج عنه 16 مجموعة من الإجراءات. تضمنت الجوانب المدروسة تكوين المجتمع الفيروسي ، والانتقائية الفيروسية ، والثراء الفيروسي ، واكتشاف مسببات الأمراض الفيروسية ، والملوثات الفيروسية. تم تضخيم النيوكليوتيدات المستخرجة باستخدام PCR وتسلسلها باستخدام منصة Illumina MiSeq.


فهم التقنيات الجديدة لعزل / استخراج الحمض النووي الريبي

أدى البحث عن علاجات جديدة للأمراض الفيروسية ومجموعات الاختبار إلى تركيز أكبر على عزل واستخراج الحمض النووي الريبي. تم إدخال تقنيات جديدة تقدم أكبر
البساطة ، وتوفير التكاليف ، وتوافر المنتج على الأطقم التجارية ، مع تحقيق جودة وكمية مكافئة للحمض النووي الريبي. تستخدم هذه التقنيات أجهزة فردية بالإضافة إلى بقايا المختبر أو مجموعات الكاشف المفضلة.

يمكن أن توفر إحدى هذه التقنيات ، وهي لوحة مرشح استخراج الحمض النووي ، عزلًا عالي الجودة وتنقية للحمض النووي الريبي والحمض النووي الجيني من خلايا الثدييات بإنتاجية عالية دون التضحية بالنتائج. في الحالات التي تتطلب فيها مستحضرات الحمض النووي إنتاجية منخفضة إلى متوسطة ، يجب على المستخدمين في كثير من الأحيان استخدام مجموعات تحتوي على أجهزة طرد مركزي باهظة الثمن تولد نفايات كاشف متبقية. يمكن لتقنية جديدة أخرى ، وهي عمود الدوران لاستخراج الحمض النووي ، أن تمكن جهازًا واحدًا من إجراء هذه التجارب باستخدام الكواشف الخاصة بالمختبر.

تنقية RNA عالية الإنتاجية باستخدام لوحة تصفية استخراج الحمض النووي

يعد نسخ الجينات إلى الحمض النووي الريبي خطوة مهمة في تخليق منتجات الجينات الوظيفية ، والتي يمكن أن تكون أنواعًا وظيفية من الحمض النووي الريبي نفسها أو منتجات بروتينية تكونت بعد ترجمة الحمض النووي الريبي المرسال.

في العديد من دراسات تحليل التعبير الجيني عالية الإنتاجية ، تتعرض خلايا الثدييات المستزرعة لظروف نمو مختلفة. يستخدم PCR الكمي للنسخ العكسي (RT-qPCR) لقياس تأثير الظروف المختلفة على التعبير عن الجينات ذات الأهمية. يعد عزل واستخراج الحمض النووي الريبي الفيروسي ضروريًا قبل RT-qPCR في اكتشاف الفيروس في العينة.

يتم تنفيذ سير العمل هذا بشكل شائع في تطوير اللقاحات ومجموعات الاختبار للأمراض الفيروسية. يتم دعم الدراسات بشكل كبير من خلال توافر ألواح ترشيح استخراج الحمض النووي متعدد المستويات مع وسائط تعتمد على السيليكا والتي تسمح بعزل إجمالي RNA عالي الإنتاجية بطريقة قوية.

قيمت دراستنا أداء لوحات مرشح الاستخراج مقابل مجموعات عزل الحمض النووي الريبي المتاحة تجارياً. تحتوي لوحة الترشيح على وسائط من ألياف زجاجية كوارتز قائمة على السيليكا لعزل إجمالي الحمض النووي الريبي من خلايا ورم البطانة للماوس bEnd.3.

تم إظهار متانة لوح ترشيح استخلاص الحمض النووي كوسيط لعزل الحمض النووي الريبي من خلال استخدام بروتوكول يعتمد على الكواشف القياسية التي تم الحصول عليها بسهولة وتحضيرها داخليًا بواسطة الباحث بطريقة مواتية اقتصاديًا. تم تنفيذ البروتوكول الأخير أيضًا في عملية صناعية لعزل الحمض النووي الريبي منه
الخلايا الليفية الجنينية الفأرية في مجموعة من تركيزات الخلايا ، وإلى
إخضاع هذا الحمض النووي الريبي لفحوصات RT-qPCR من خطوة واحدة لثلاثة جينات.

نتائج لوحة التصفية

تم تقييم أداء عزل الحمض النووي الريبي من خلايا الورم البطاني للماوس bEnd.3 على نطاق من كميات الخلايا باستخدام بروتوكولين عزل: الأول مع الكواشف التجارية والثاني مع الكواشف القياسية المحضرة في المنزل.

يتم عرض نتائج قياسات تركيز الحمض النووي الريبي باستخدام مقايسة Quant-iT RiboGreen RNA في شكل 1. تشير النتائج إلى أنه بغض النظر عما إذا كانت الكواشف التجارية أو الكواشف القياسية قد استخدمت مع لوحة مرشح استخراج الحمض النووي ، فإن إنتاجية الحمض النووي الريبي كانت مماثلة لتلك التي تم الحصول عليها باستخدام المجموعة التجارية.

الشكل 1. تم تحديد تركيزات الحمض النووي الريبي للعينات المعزولة من 3.1 - 400 × 10 3 خلايا عن طريق مقايسة Quant-iT RiboGreen RNA. تم عزل العينات باستخدام لوحة مرشح استخراج الحمض النووي باستخدام إما بروتوكول كاشف تجاري (مربعات زرقاء) أو بروتوكول كاشف قياسي (مثلثات زرقاء) أو باستخدام مجموعة لوحة مجمعة / كاشف متوفرة تجارياً (مربعات حمراء).

تم فصل عينات الحمض النووي الريبي المعزولة باستخدام لوحة مرشح استخراج الحمض النووي على DNA 5K / RNA / CZE LabChip في أداة LabChip GX II Touch HT لتحديد سلامة العينة. قام برنامج GX Touch الخاص بالأداة بتقييم سلامة الحمض النووي الريبي (RNA) من خلال إجراء تحليل مسحة لتتبع الرسم الكهربائي. تم استخدام خوارزمية داخلية لحساب رقم تكامل الحمض النووي الريبي (RIN). أظهر الرسم البياني الكهربائي قمتين متميزتين من RNA تقابلان 18S و 28S rRNA مع القليل من الأدلة على وجود مسحة للإشارة إلى تدهور الحمض النووي الريبي (RNA) (الشكل 2 أ). بالنسبة للعينات المستمدة من 100-400 × 10 3 خلايا ، تراوحت أرقام RIN من 8.0 إلى 9.6 (الشكل 2 ب) ، مما يشير إلى أن الحمض النووي الريبي كان ذا جودة عالية.

الشكل 2. تحليل LabChip الذي يوضح جودة bEnd.3 RNA المعزول مع لوحة تصفية استخراج الحمض النووي.(أ) مخطط كهربية LabChip للـ RNA من 100-400 × 103 خلية معزولة إما باستخدام بروتوكول الكاشف التجاري أو بروتوكول الكاشف القياسي. (ب) رقم سلامة الحمض النووي الريبي.

لا تضمن سلامة الحمض النووي الريبي وحدها تضخيمًا ناجحًا في تطبيق RT-qPCR حيث يمكن لمثبطات copurified أن تعيق النسخ العكسي و / أو كفاءة PCR. تتميز خلايا Mouse bEnd.3 بالتعبير عن VCAM-1 (جزيء التصاق الخلايا الوعائية 1 ، والذي يتم ترميزه بواسطة جين Vcam-1). أظهر متوسط ​​قيم Ct أ
علاقة عكسية خطية مع زيادة أرقام خلايا bEnd.3. في العينات
معزول مع أي بروتوكول أو لوحة ، وكلاهما وفير GADPH (بروتين التدبير المنزلي glyceraldehyde-3-phosphate dehydrogenase ، والذي يتم ترميزه بواسطة جابده) وتم الكشف عن رسالة VCAM-1 الأقل وفرة. كانت منحدرات المنحنيات عبر نقاط عينات الحمض النووي الريبي المعزولة من أعداد متزايدة من الخلايا متساوية ، مما يشير إلى عدم وجود
المكونات المثبطة.

الشكل 3. التعبير عن GAPDH و VCAM-1 في خلايا الماوس bEnd.3 كما هو محدد عبر RT-qPCR. تم تنفيذ RT-qPCR بخطوة واحدة للكشف عن الرسائل المشفرة بواسطة الجينات Gapdh و Vcam-1. تم اشتقاق عينات الحمض النووي الريبي للخلايا المكونة من 3 خلايا من 3.1 إلى 400 × 10 3 خلايا وعزلها باستخدام ألواح ترشيح لاستخراج الحمض النووي ، إما باستخدام بروتوكول كاشف تجاري (مربعات زرقاء) أو بروتوكول كاشف قياسي (مثلثات زرقاء) ، أو باستخدام بروتوكول كواشف تجاري. تتوفر مجموعة الألواح / الكواشف المجمعة (المربعات الحمراء).

كانت الأحماض النووية المحضرة بتقنية لوحة مرشح الاستخلاص ذات جودة عالية ومناسبة لأنشطة المصب الشائعة مثل RT-qPCR ، والهضم التقييد ، والتسلسل (الشكل 3).

تنقية الحمض النووي الريبي منخفضة إلى متوسطة الإنتاجية باستخدام عمود دوران لاستخراج الحمض النووي

يعمل عمود الدوران لاستخراج الحمض النووي على تنقية الحمض النووي الريبي والدنا الجيني والبلازميد من البكتيريا والخميرة والخلايا المزروعة في الثدييات والنباتات. إنه مُجهز بمصفوفة مبتكرة من الألياف الزجاجية كوارتز ، تعتمد على السيليكا ، والتي تتيح استخدامها مع المخازن المؤقتة المتوفرة في معظم المجموعات التجارية المتاحة حاليًا.

يسمح استخراج المرحلة الصلبة مثل الطريقة القائمة على عمود الدوران للحمض النووي بالارتباط بمصفوفة المرحلة الصلبة ، 1،2 الحد من المشاكل المرتبطة بالسائل السائل
استخلاص. 3 يُسهل استخراج المرحلة الصلبة عملية استخلاص الحمض النووي ، مما يجعلها سريعة وفعالة وقابلة للتكاثر مقارنة بالطرق التقليدية. 2،3 يستعيد جهاز الاستخراج شظايا الحمض النووي الريبي التي يتراوح حجمها من 50 نقطة أساس إلى 10000 نقطة أساس.

نتائج عمود الدوران

تم استخدام الكواشف من المجموعات المتاحة تجاريًا (CK1) ، وتم استخدام RNA من الإشريكية القولونية تم استخلاص المزارع البكتيرية ، والخلايا المستزرعة للثدييات (CHO) ، وأوراق النبات (الريحان) وتنقيتها باستخدام عمود الدوران. كما هو موضح في شكل 4، كانت غلات الحمض النووي المسترجعة مع عمود الدوران للاستخراج مماثلة لتلك التي تم الحصول عليها باستخدام أجهزة الدوران من المجموعات المتاحة تجاريًا.

تُظهر البيانات أن عمود الدوران لاستخراج الحمض النووي يستخرج وينقي بشكل فعال الحمض النووي الريبي والحمض النووي الجيني من مواد البداية الشائعة (الجدول 1).

تم اختبار عمود الدوران بدقة لتقييم الأداء مع استخراج وتنقية الحمض النووي الريبي من مواد بدء مختلفة. إنه يثبت أن الحمض النووي الريبي (والحمض النووي الجيني) من البكتيريا وخلايا الثدييات والنباتات يمكن تنقيته باستخدام هذا الجهاز الفردي.

علاوة على ذلك ، تمت معالجة الأحماض النووية المنقاة في تطبيقات البيولوجيا الجزيئية الأكثر شيوعًا. أظهرت النتائج أن الأحماض النووية المنقاة بجهاز الاستخراج الدوراني تلبي متطلبات المحصول والنقاء لتطبيقات المصب.

الاستنتاجات

توفر لوحة مرشح استخلاص الحمض النووي وعمود الدوران لاستخراج الحمض النووي خيارات تكميلية لتنقية الأحماض النووية عالية ومنخفضة الإنتاجية. إنها بدائل قائمة بذاتها ومنخفضة التكلفة لشراء مجموعات تجارية كاملة. تمكن التقنيات المختبرات من إجراء استخراج وعزل الحمض النووي الريبي باستخدام الكواشف الخاصة بها وتلقي كمية ونوعية الحمض النووي الريبي المرتبط بالمجموعات التجارية. هذه الخيارات جذابة للغاية في الوقت الذي وضع فيه البحث والتطوير الفيروسي
علاوة على توافر المواد.

لوري أويلر ([email protected]) هي مديرة المنتج للمحفظة الجزيئية في Pall.

1. علي N، Rampazzo RCP، Costa ADT، Krieger MA. طرق استخراج الحمض النووي الحالية وآثارها على التشخيص في نقطة الرعاية. بيوميد. الدقة. كثافة العمليات 2017 2017: 9306564. DOI: 10.1155/2017/9306564.

2. Zwir-Ferenc A، Biziuk M. تقنية استخراج الطور الصلب: الاتجاهات والفرص والتطبيقات. بول. J. Env. عشيق. 2016 15 (5): 677-690.

3. تان سك ، ياب. استخراج الحمض النووي والحمض النووي الريبي والبروتين: الماضي والحاضر. J. بيوميد. التكنولوجيا الحيوية. 2009 2009: 574398. DOI: 10.1155 / 2009/574398.


المواد والأساليب

ثقافة الخلية وترنسفكأيشن البلازميد.

تم الحصول على خلايا HEK293T من ATCC (CRL-3216) وتم تربيتها في DMEM مكملًا بنسبة 10 ٪ FBS معطل بالحرارة (HyClone SH30396.03) و 2 ملي مولار الجلوتامين (MP Biomedicals IC10180683) باتباع طريقة ATCC. تم الحصول على خلايا Calu3 من ATCC (HTB-55) وتم تربيتها في EMEM (ATCC 30-2003) مكملًا بنسبة 10 ٪ من FBS المعطل بالحرارة (HyClone SH30396.03) باتباع طريقة ATCC.

كانت البلازميدات لتعبير LINE1 البشري ، pBS-L1PA1-CH-mneo (CMV-LINE-1) ، هدية من أستريد روي-إنجل ، مركز العلوم الصحية بجامعة تولين ، نيو أورلينز ، لوس أنجلوس (Addgene plasmid # 51288 http: // addgene .org / 51288 RRID: Addgene_51288) (65) EF06R (5′UTR-LINE-1) كانت هدية من Eline Luning Prak ، جامعة بنسلفانيا ، فيلادلفيا ، بنسلفانيا (Addgene plasmid # 42940 http://addgene.org/42940 RRID: Addgene_42940) (66). تم إجراء ترنسفكأيشن باستخدام Lipofectamine 3000 (Invitrogen L3000001) باتباع بروتوكول الشركة المصنعة.

عدوى السارس- CoV-2.

تم الحصول على SARS-CoV-2 USA-WA1 / 2020 (GenBank: MN985325.1) من BEI Resources وتم توسيعه وتثبيته على خلايا Vero. تم إصابة الخلايا في DMEM بالإضافة إلى 2 ٪ FBS لمدة 48 ساعة باستخدام تعدد العدوى (MOI) من 0.5 لإصابة خلايا HEK293T و MOI من 1 أو 2 لخلايا Calu3. تم إجراء جميع عمليات معالجة العينات والحصاد بالفيروس المعدي في منشأة BSL3 في معهد راغون.

استخراج الأحماض النووية ومقايسة PCR.

تم استخراج الحمض النووي الخلوي باستخدام طريقة منشورة (31). لتنقية الحمض النووي الجيني ، تم تجزئة الحمض النووي الخلوي الكلي على 0.4 ٪ (وزن / حجم) agarose / 1 × TAE gel لمدة 1.5 ساعة بجهد 3 فولت / سم ، مع λ DNA-HindIII Digest (NEB N3012S) كعلامات حجم . تم قطع شظايا كبيرة (& gt23.13 كيلو بايت) ، وتجميدها في درجة حرارة -80 درجة مئوية ، ثم سحقها بطرف ماصة. تمت إضافة ثلاثة أحجام (حجم / وزن) من محلول T-E عالي (10 ملي مولار تريس - 10 ملي مولار EDTA ، درجة الحموضة 8.0) ، ثم تمت إضافة كلوريد الصوديوم لإعطاء تركيز نهائي قدره 200 ملي مولار. تم تسخين محلول الهلام عند 70 درجة مئوية لمدة 15 دقيقة بخلط ثابت ثم استخلاصه بالفينول: كلوروفورم: كحول أيزو أميلي (25: 24: 1 ، حجم / حجم / حجم) (تقنيات الحياة 15593031) وكلوروفورم: كحول أيزو أميلي 24: 1 (سيجما C0549-1PT). تم ترسيب الحمض النووي بإضافة أسيتات الصوديوم وكحول الأيزوبروبيل. بالنسبة للعينات ذات التركيز المنخفض للحمض النووي ، تمت إضافة الجليكوجين (تقنيات الحياة 10814010) كناقل للمساعدة في الترسيب.

تم إجراء استخراج الحمض النووي الريبي باستخدام RNeasy Plus Micro Kit (Qiagen 74034) باتباع بروتوكول الشركة المصنعة.

للكشف عن نسخ الحمض النووي لتسلسل SARS-CoV-2 ، اخترنا أربع مجموعات من البادئ PCR لاستهداف الجينات NC تُستخدم في اختبارات COVID-19 [الملحق SI، التين. S1أ، مصدر تمهيدي من منظمة الصحة العالمية (67) ، تم تعديله لمطابقة نسخة الجينوم الخاصة بـ NC_045512.2]. ارى الملحق SI، الجدول S4 لتسلسل PCR التمهيدي المستخدمة في هذه الدراسة. تم إجراء PCR باستخدام AccuPrime Taq DNA Polymerase ، بدقة عالية (Life Technologies 12346094). تم تشغيل منتجات PCR على 1٪ أو 2٪ (وزن / حجم) هلام agarose لإظهار التضخمات.

تسلسل وتحليل DNA Nanopore.

تم استخدام ما مجموعه 1.6 ميكروغرام من الحمض النووي المستخرج من خلايا HEK293T المنقولة باستخدام البلازميد pBS-L1PA1-CH-mneo (CMV-LINE-1) والمصاب بـ SARS-CoV-2 لإنشاء مكتبة تسلسل مع مجموعة SQK-LSK109 (Oxford Nanopore Technologies) والمتسلسلة على خلية تدفق R9 PromethION (FLO-PRO002) لمدة 3 د و 5 دقائق. تم استدعاء بيانات التسلسل باستخدام Guppy 4.0.11 (Oxford Nanopore Technologies) باستخدام نموذج عالي الدقة.

تم تعيين قراءات Nanopore باستخدام minimap2 (68) (الإصدار 2.15) مع المعلمات "-p 0.3 -ax map-ont" وملف fasta يحتوي على تسلسل الجينوم البشري من إصدار ENSEMBL 93 (ftp://ftp.ensembl.org/pub /release-93/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz) المتسلسلة مع تسلسل SARS-CoV-2 ، معرف GenBank: MN988713.1 ، "فيروس كورونا المتلازمة التنفسية الحادة الوخيمة 2 يعزل السارس- CoV-2 / human / USA / IL-CDC-IL1 / 2020 ، جينوم كامل. " من ملف SAM ، اخترنا جميع التسلسلات التي تم تعيينها للجينوم الفيروسي وقمنا بتقسيمها إلى مجموعات بناءً على الكروموسومات البشرية التي تم تعيينها لها. لقد قمنا بتفجير التسلسلات المحددة ، باستخدام blastn ، ضد قاعدة بيانات BLAST مصنوعة من تسلسل الإنسان والفيروس الموصوف أعلاه. قمنا بتحليل ناتج الانفجار في ملف نصي يحتوي على صف واحد لكل زوج مقطع عالي الدرجات (HSP) مع برنامج نصي perl مخصص. قمنا أيضًا بتصفية هذا الملف ، لكل تسلسل ، عن طريق اختيار جميع HSPs الفيروسية وأهم ثلاثة HSPs بشريين. قمنا بفحص هذه الملفات بصريًا لتحديد التسلسلات التي تحتوي على تقاطعات بشرية - فيروسية - بشرية أو بشرية - فيروسية. بالنسبة إلى عدد قليل من المتواليات ، أطول من 30 كيلو بايت ، قمنا بفحص أفضل 15 شخصًا عالي الحساسية. بالإضافة إلى ذلك ، قمنا بفحص جميع القراءات التي تم تحديدها والتي تحتوي على متواليات بشرية وفيروسية بصريًا بواسطة أداة BLAT (69) بجامعة كاليفورنيا ، سانتا كروز (UCSC). بسبب الأخطاء في تسلسل Nanopore و / أو استدعاء القاعدة ، توجد "تسلسلات هجينة" مصطنعة في مجموعة فرعية من هذه القراءات ، أحيانًا مع وجود خيوط Watson و Crick من نفس جزء DNA الموجود في نفس القراءة. لذلك ، ركزنا فقط على التسلسلات الكيميرية التي تُظهر تقاطعات الفيروسية البشرية الواضحة وقمنا بتحليل ميزات رجعية LINE1 المعروفة مثل تكرار الموقع المستهدف وتسلسل التعرف على نوكلياز LINE1 للحصول على دليل على التكامل.

إثراء موقع التكامل بوساطة العلامات Tn5.

استخدمنا طريقة قائمة على العلامات لإثراء مواقع التكامل الفيروسي (47 ​​، 48). باختصار ، استخدمنا ترانسبوزيز Tn5 (Diagenode C01070010) لتوصيف الحمض النووي الخلوي عشوائيًا باستخدام المحولات (المحول A ، نظام Illumina Nextera). تم إجراء العلامات باستخدام 100 نانوغرام من الحمض النووي لمدة 10 دقائق عند 55 درجة مئوية ، متبوعًا بنزع Tn5 transposase من الحمض النووي باستخدام SDS. استخدمنا تمهيديًا عكسيًا يستهدف ما يقرب من 5 نهاية جين SARS-CoV-2 NC (CCA AGA CGC AGT ATT ATT GGG TAA A) أو تمهيدي أمامي يستهدف الطرف القريب من 3 من جينوم SARS-CoV-2 (CTT GTG CAG AAT GAA TTC TCG TAA CT) لتضخيم (PCR0 ، 45 دورة) شظايا الحمض النووي ذات العلامات التي تحتوي على تسلسلات فيروسية. أخذنا نتاج PCR0 وقمنا بتضخيم شظايا الحمض النووي التي تحتوي على محول وتسلسلات فيروسية (مواقع تكامل محتملة) باستخدام 15-20 دورة من PCR1 ، باستخدام جهاز تمهيدي Nextera (i5) ذو الرمز الشريطي (AAT GAT ACG GCG ACC ACC يشير GAG ATC TAC ACN NNN NNN NTC GTC GGC AGC GTC، NNNNNNNN إلى الرمز الشريطي) مقابل تسلسل المحول وبادئ الفيروس. تم تصميم التمهيدي الفيروسي إما لاستهداف ما يقرب من 5 درجات من جين SARS-CoV-2 NC (GTC TCG TGG GCT CGG AGA TGT GTA TAA GAG ACA G GCC GAC GTT GTT TTG ATC G ، تسلسل فيروسي تحته خط) أو استهدف ما يقرب من 3 نهاية جينوم SRAS-CoV-2 (GTC TCG TGG GCT CGG AGA TGT GTA TAA GAG ACA G CGC GGA GTA CGA TCG AGT G ، تسلسل فيروسي مسطر). احتوى التمهيدي الفيروسي أيضًا على تسلسل محول لمزيد من تضخيم PCR. قمنا بتضخيم منتج PCR1 بمقدار 15-20 دورة من PCR2 ، باستخدام جهاز تمهيدي قصير (AAT GAT ACG GCG ACC ACC GA) مقابل تسلسل i5 Nextera التمهيدي (i7) Nextera التمهيدي (CAA GCA) يشير GAA GAC GGC ATA CGA GAT NNN NNN NNG TCT CGT GGG CTC GG ، NNNNNNNN إلى الرمز الشريطي) مقابل تسلسل المحول الذي قدمه التمهيدي الفيروسي في PCR1. تم تجزئة المنتج النهائي لتضخيم PCR2 على هلام agarose بنسبة 1.5٪ (Sage Science HTC1510) باستخدام PippinHT (Sage Science HTP0001) وتم اختيار قطع من 500 إلى 1000 زوج قاعدي لتسلسل Illumina المقترن بنهاية. تم تنفيذ جميع خطوات PCR الثلاث (PCR0 – PCR2) باستخدام KAPA HiFi HotStart ReadyMix (KAPAKK2602).

تسلسل وتحليل DNA Illumina.

قمنا ببناء مكتبات لتسلسل الجينوم الكامل لخلية HEK293T باستخدام مجموعة Illumina DNA Prep المستندة إلى Tn5 (Illumina 20018704). تعرضت مكتبات تسلسل الجينوم الكامل أو المكتبات من إثراء موقع التكامل بوساطة Tn5 بعد التحجيم (الموصوف أعلاه) لتسلسل Illumina. تم استخدام qPCR لقياس تركيزات كل مكتبة باستخدام مجموعة أدوات مكتبة KAPA qPCR وفقًا لبروتوكول الشركة المصنعة. تم بعد ذلك تجميع المكتبات بتركيزات متساوية ، لكل حارة ، بناءً على تركيزات qPCR. تم تغيير طبيعة المكتبات المجمعة باستخدام بروتوكول Illumina. تم تحميل المكتبات المشوهة على خلية تدفق SP على Illumina NovaSeq 6000 وتشغيلها لمدة 2 × 150 دورة وفقًا لتعليمات الشركة المصنعة. تم إنشاء ملفات Fastq وفك تعدد إرسالها باستخدام برنامج التحويل bcl2fastq (Illumina).

لتحديد قراءات الحمض النووي الوراثي البشري-SARS-CoV-2 ، تمت محاذاة قراءات التسلسل الخام مع STAR (70) (الإصدار 2.7.1 أ) إلى جينوم بشري بالإضافة إلى SARS-CoV-2 المصنوع من ملف فاستا يحتوي على نسخة تسلسل الجينوم البشري hg38 مع عدم وجود كروموسومات بديلة متسلسلة مع تسلسل SARS-CoV-2 من التسلسل المرجعي للمركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) NC_045512.2. تم استخدام معلمات STAR التالية لاستدعاء قراءات خيالية: –alignIntronMax 1 –chimOutType Junctions SeparateSAMold withinBAM HardClip –chimScoreJunctionNonGTAG 0 –alignSJstitchMismatchNmax -1–1 -1–1- SortMegmentMinMin 25 hang. استخرجنا القراءات الفيروسية من ملف BAM الذي تم إنشاؤه بواسطة samtools (71) (الإصدار 1.11) باستخدام الأمر: samtools view -b Aligned.sortedByCoord.out.bam NC_045512v2 & gt NC_Aligned.sortedByCoord.out.bam. استخرجنا القراءات الوهمية البشرية الفيروسية باستخدام أسماء القراءة من ملف Chimeric.out.junction الذي تم إنشاؤه من STAR للحصول على محاذاة القراءة من ملف STAR الذي تم إنشاؤه Chimeric.out.sam بواسطة Picard (http://broadinstitute.github.io/ picard) ، باستخدام الأمر: java -jar picard.jar FilterSamReads I = Chimeric.out.sam O = hv-Chimeric.out.sam READ_LIST_FILE = hv-Chimeric.out.junction.ids FILTER = includeReadList. أكدنا أيضًا على كل من القراءات الوهمية وقمنا بتصفية أي قراءات غير مقنعة (قصيرة جدًا أو محاذاة لمواقع متعددة من الجينوم البشري) عن طريق الفحص البصري باستخدام أداة UCSC BLAT (69). لقد قمنا أيضًا بتحميل ملف STAR الذي تم إنشاؤه Aligned.sortedByCoord.out.bam أو ملف NC_Aligned.sortedByCoord.out.bam الذي يحتوي على قراءات فيروسية مستخرجة إلى مستعرض UCSC SARS-CoV-2 genome (NC_045512.2) للبحث عن قراءات خيالية إضافية ذلك طريقة الاتصال الوهمي STAR. لإنشاء ملف تغطية الجينوم ، استخدمنا bamCoverage من مجموعة deepTools (72) (الإصدار 3.5.0) لتحويل ملف STAR الذي تم إنشاؤه Aligned.sortedByCoord.out.bam إلى ملف bigwig مجمّع في 10 bp ، باستخدام الأمر: bamCoverage - ب Aligned.sortedByCoord.out.bam -o Aligned.sortedByCoord.out.bw – binSize 10.

تسلسل الحمض النووي الريبي والتحليل.

لتحديد القراءات الوهمية البشرية-SARS-CoV-2 ، تم تنزيل بيانات RNA-seq المنشورة من Gene Expression Omnibus (GEO) مع أرقام الانضمام GSE147507 (50) ، GSE153277 (51) ، GSE156754 (52) ، GSE157852 (53) ، GSE153684 (54) و GSE154998 (55) (ملخصة في الملحق SI، التين. S5ج). تمت محاذاة قراءات التسلسل الخام مع STAR (70) (الإصدار 2.7.1a) مع جينوم SARS-CoV-2 البشري بالإضافة إلى نسخة من ملف fasta يحتوي على نسخة تسلسل الجينوم البشري hg38 مع عدم وجود كروموسومات بديلة مرتبطة بـ SARS-CoV- تسلسل 2 من التسلسل المرجعي NCBI NC_045512.2 ، وملف gtf يحتوي على تعليقات الجينات البشرية من إصدار ENSEMBL GRCh38.97 المتسلسل إلى تعليقات الجين SARS-CoV-2 من NCBI (//hgdownload.soe.ucsc.edu/ goldenPath / wuhCor1 / bigZips / الجينات /). تم استخدام معلمات STAR التالية (56) لاستدعاء القراءات الوهمية ما لم ينص على خلاف ذلك (الملحق SI، التين. S5ج): - تقاطعات chimOutType SeparateSAMold withinBAM HardClip –chimScoreJunctionNonGTAG 0 –alignSJstitchMismatchNmax -1–1 -1–1 –chimSegmentMin 50 –chimJunctionOverhangMin 50.

لتحليل تقطّع السلاسل RNA-seq ، أنشأنا بيانات RNA-seq باستخدام RNA من خلايا Calu3 المصابة بـ SARS-CoV-2. تم إنشاء مكتبات تقطعت بهم السبل باستخدام مجموعة Kapa mRNA HyperPrep (Roche 08098115702). تم تطوير المكتبات باستخدام مجموعة أدوات مكتبة KAPA qPCR وفقًا لبروتوكول الشركة المصنعة. تم بعد ذلك تجميع المكتبات بتركيزات متساوية ، لكل حارة ، بناءً على تركيزات qPCR. تم تغيير طبيعة المكتبات المجمعة باستخدام بروتوكول Illumina. تم تحميل المكتبات المشوهة على HiSeq 2500 (Illumina) وتسلسلها لمدة 120 دورة من أحد طرفي الأجزاء. تم إجراء مكالمات Basecall باستخدام المتصل الأساسي غير المتصل بشبكة Illumina (OLB) ثم فك تعدد الإرسال. قمنا بتنزيل بيانات RNA-seq المنشورة (مكتبات تقطعت بهم السبل) من GEO بأرقام الانضمام GSE147507 (50) (Calu3 ، الملحق SI، الجدول S1) ، GSE148697 (58) (عضويات الرئة ، الملحق SI، الجدول S1) ، و GSE150316 (60) (أنسجة FFPE للمريض ، الملحق SI، الجدول S2). تمت محاذاة قراءات RNA-seq الخام كما هو موضح أعلاه ، باستخدام المعلمات – chimSegmentMin 30 –chimJunctionOverhangMin 30 لاستدعاء القراءات الوهمية. استخرجنا القراءات الفيروسية الكلية والقراءات الوراثية البشرية والفيروسية كما هو موضح أعلاه. نقوم بتحويل ملفات BAM للقراءة الفيروسية إلى ملفات Bed باستخدام الأداة المساعدة bamToBed في BEDTools (73). ثم قمنا بعد ذلك بحساب إجمالي أرقام القراءة التي تقطعت بها السبل في ملفات BED المحولة.

تم تنزيل بيانات تسلسل الحمض النووي الريبي أحادية الخلية المنشورة من GEO برقم الانضمام GSE145926 (61) (عينات BALF للمريض ، الملحق SI، الجدول S3). للتحليل المجمع ، تمت إزالة القراءات المكررة بنفس تسلسل read1 (UMI) و read2 في ملفات fastq الأولية بواسطة dedup_hash (https://github.com/mvdbeek/dedup_hash). ثم تمت محاذاة مجموعة read2 كما هو موضح أعلاه ، باستخدام المعلمات –chimSegmentMin 30 –chimJunctionOverhangMin 30 لاستدعاء القراءات الوهمية. تم تحليل قراءة تقطعت بهم السبل كما هو موضح أعلاه. لتحليل خلية واحدة ، أنشأنا جينومًا مخصصًا بواسطة Cell Ranger (10 × Genomics Cell Ranger 3.0.2) (74) mkref ، باستخدام ملف fasta يحتوي على تسلسل الجينوم البشري من إصدار ENSEMBL 93 (ftp: //ftp.ensembl .org / pub / release-93 / fasta / homo_sapiens / dna / Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz) متسلسلًا مع تسلسل SARS-CoV-2 ومعرف GenBank: MN988713.1 وملف gtf يحتوي على إنسان والتعليقات التوضيحية الفيروسية. تم إجراء قراءة التعيين ، وتعيين القراءات إلى الرموز الشريطية الخلوية وإزالة نسخ PCR المكررة باستخدام Cell Ranger (10 × Genomics Cell Ranger 4.0.0) (74) ، باستخدام الجينوم المخصص الموصوف أعلاه. قمنا بمعالجة التهم باستخدام Seurat (الإصدار 3.2.2) (75).أزلنا الخلايا التي كان بها أقل من 200 جين تم اكتشافها أو أكثر من 20٪ من أعداد النسخ المشتقة من الميتوكوندريا. لكل خلية ، قمنا بحساب عدد القراءات التي تعين الخيط الفيروسي الموجب أو السلبي.


المواد والأساليب

إنشاء مكتبات مجموعة الجينات الأولية TF-Target ChEA3

يحتوي ChEA3 على ست مكتبات مجموعة جينات مرجعية أولية تم إنشاؤها من موارد متعددة. يوجد أدناه وصف موجز لكل مكتبة وإجراء المعالجة لإنشاء المكتبة من كل مورد. لمواءمة أسماء الجينات عبر المكتبات ، تم تعيين جميع رموز الجينات إلى رموز الجينات المعتمدة من HGNC لعام 2019 (21) باستخدام حزمة R قمنا بتطويرها للمشروع المسمى genesetr (https://github.com/MaayanLab/genesetr). تم تجاهل الرموز الجينية التي لا يمكن تعيينها باستخدام المرادفات أو الأسماء المستعارة. تم تحديد مجموعة من 1634 من عوامل النسخ الخاصة بالموقع البشري والقابلة للتعيين في HGNC والتي تم استخدامها مسبقًا بواسطة Lambert وآخرون. ( 1).

التعبير المشترك لـ GTEx

تم تنزيل جميع عينات RNA-seq على مستوى أعداد القراءة مع البيانات الوصفية المرتبطة بها من بوابة GTEx في 6 يناير 2018 (12). تم تطبيع العينات. تمت إزالة الجينات المكررة عن طريق الاحتفاظ بالجينات ذات التباين الأعلى. لكل TF ، تم تكوين مجموعة الأهداف المفترضة من خلال الاحتفاظ بـ 300 جين مع أكبر معامل ارتباط Pearson المطلق بين TF والجين المستهدف المفترض.

التعبير المشترك ARCHS4

تم اختيار 50000 عينة من البشر بشكل عشوائي لإنشاء مصفوفة التعبير المشترك من مورد ARCHS4 (20). تم تنزيل أعداد القراءة والبيانات الوصفية من موقع ARCHS4 في 27 أبريل 2018. تمت معالجة هذه العينات على النحو الموصوف أعلاه لبيانات GTEx.

ENCODE ChIP-seq

تم إنشاء مكتبة مجموعة الجينات المستهدفة ENCODE (22) TF مبدئيًا لـ Enrichr (23 ، 24) باستخدام تجارب ENCODE TF ChIP-seq المعاد معالجتها بشكل موحد. تم تطبيق استدعاء الذروة على الملفات المحاذية مع MACS (25). ثم تم فرز القمم حسب المسافة إلى موقع بدء النسخ (TSS). تم الاحتفاظ بأعلى 2000 جين مستهدف مع أقرب القمم إلى TSS الخاصة بهم لكل تجربة. تتوافق كل مجموعة جينية مع حالة تجريبية محددة لـ ChIP-seq. لذلك ، هناك مجموعات جينية متعددة تتوافق مع بعض من نفس TFs.

مجموعات الجينات من المنشورات الفردية الخاصة بـ ChIP-seq

تم اشتقاق مكتبة الهدف ChIP-seq TF المستندة إلى الأدبيات من تجارب TF ChIP-seq و ChIP-chip المستخرجة من المنشورات الموجودة في أدبيات البحوث الطبية الحيوية. تم استخدام الإصدارات السابقة من هذه المكتبة في ChEA (16) و ChEA2 (17) و Enrichr (23 ، 24). تتضمن البيانات الوصفية لمكتبة مجموعة الجينات TF الذي تم وصفه ، ومعرف PubMed للنشر الذي نشأت منه التجربة ، بالإضافة إلى الأنواع ونوع الفحص ونوع الخلية أو الأنسجة. إذا تم توفير ملف BED فقط من قبل مؤلفي الدراسة الأصلية ، فقد تم تعيين القمم للجينات باستخدام نص مخصص. تتوافق كل مجموعة جينية مع حالة تجريبية محددة لـ ChIP-seq في دراسة محددة. لذلك ، هناك مجموعات جينية متعددة تتوافق مع بعض من نفس TFs.

ReMap ChIP-seq

تم تنزيل ملفات BED من مورد ReMap دفعة واحدة إلى خادم محلي (26). درجة الذروة سأنا ، ي ، ك تم إنشاؤه لكل قمة ChIP-seq أنا الموافق TF ي ضمن نافذة 50 كيلو بايت حول TSS ك أين سأنا ، ي ، ك = 1 - المسافةأنا ، ك/ 50000. نترك المسافةأنا ، ك تكون مسافة الذروة أنا قمة من TSS ك. لكل TSS ك و TF ي الزوج ، تم جمع درجات الذروة لإنتاج النتيجة ري ، ك لكل TSS لكل فريق عمل. تم بعد ذلك تعيين أهداف TF إلى أعلى 5٪ من درجات TSS غير الصفرية بحد أقصى 1500 هدف أعلى لكل TF.

استفسارات Enrichr

تم التخلص من القوائم المقدمة من المستخدم إلى أداة Enrichr (23 ، 24) من قاعدة بيانات Enrichr في 27 أكتوبر 2017. بلغ مجموع مجموعة الاستفسارات 1097157 قائمة فريدة. القوائم المستخدمة للاختبار الداخلي ، والقوائم التي تحتوي على جينات & gt2000 ، والقوائم التي تحتوي على أقل من جينين ، والقوائم من عناوين IP التي تم إرسالها وقوائم gt1000 تم تجاهلها. تم إجراء تحليل التكرار على القوائم 293747 المتبقية على النحو التالي: لكل فريق تمويل أنا، احتمال التواجد المشترك لعامل النسخ TFأنا بجين زي، P (TFأنازي) ، لجميع الجينات في G. أفضل 300 جينة متزامنة مع كل TFأنا تم استخدام TF المفترضأنا الأهداف.

تحليل إثراء عامل النسخ

يتم حساب أهمية التداخل بين مجموعتين من الجينات باستخدام FET. يتم تعيين الخلفية افتراضيًا على 20000 جين. تم اختيار هذه القيمة كتقدير لتعكس العدد النموذجي للجينات في معظم التحليلات. كما أنه ينتج قدرًا معقولًا من الصناديق التي تتجاوز عتبة كبيرة. رقم الخلفية لا يؤثر على ترتيب النتائج ولكن له تأثير على ص-القيم. لا يقبل ChEA3 سوى رموز الجينات المعتمدة من منظمة الجينوم البشري (HUGO) من لجنة تسمية الجينات (HGNC). لذلك ، يقبل ChEA3 الجينات من الأنواع الأخرى التي لديها تقويم العظام برموز جينية ترتبط مباشرة برموز الجينات البشرية. يتم حساب معدلات الاكتشاف الخاطئ باستخدام طريقة تصحيح Benjamini-Hochberg لكل مكتبة على حدة. يتم إنشاء تصنيف عدد صحيح لكل مجموعة جينية في مكتبة ، حيث يشير الرقم 1 إلى أن مجموعة الجينات في المكتبة تحتوي على أدنى معدل FET مصحح ص-value و ك هي رتبة الجينات المحددة في المكتبة ذات أعلى مرتبة ص-قيمة أين ك هو عدد الصناديق الفريدة في المكتبة. يتم قطع العلاقات عن طريق التخصيص العشوائي. بالنسبة لتلك المكتبات التي تحتوي على مجموعات جينية متعددة تتوافق مع نفس TF ، فإن الجين الذي يحتوي على أقل عدد ممكن ص-يتم استخدام القيمة. يتم حساب الرتبة المتدرجة بقسمة كل رتبة عدد صحيح على ك. لذلك ، لاستعلام واحد ، هناك تصنيف واحد لمجموعة جينات TF لكل مكتبة مجموعة جينات في ChEA3. تم دمج المجموعات الست من تصنيفات مجموعة الجينات TF بطريقتين: MeanRank و TopRank. بالنسبة لـ MeanRank ، فإن متوسط ​​رتبة كل TF عبر جميع المكتبات التي تحتوي على TF هو الدرجة التي يتم من خلالها إعادة ترتيب قائمة مركبة من TFs. بالنسبة إلى TopRank ، يتم استخدام أفضل تصنيف تم قياسه لكل TF عبر جميع المكتبات كنقطة يتم من خلالها إعادة تصنيف قائمة مركبة من TFs.

توليد مجموعات البيانات المعيارية

تم تنظيم تجارب الاضطراب الفردي TF ، بما في ذلك الضربات القاضية ، والضربات القاضية ، والإفراط في التعبير ، والتثبيط الكيميائي متبوعًا بتوصيف ميكروأري على مستوى الجينوم من قبل الحشد لمورد CREEDS (18). لم يتم استخدام توقيعات CREEDS المستخرجة تلقائيًا في قياس أداء ChEA3. تم حساب التوقيعات الكاملة كما هو موضح في وانغ وآخرون. (18) باستخدام طريقة التوجيه المميز (27). من بين 786 تجربة TF LOF / GOF من CREEDS ، 283 من البشر و 503 من الفئران. تحتوي هذه التوقيعات البالغ عددها 786 على 275 صندوقًا فريدًا خاصًا بالموقع. تم تنظيم 160 تجربة إضافية من تجارب RNA-seq لاضطراب TF الفردي البشري يدويًا من Gene Expression Omnibus (GEO) عن طريق البحث أولاً برمجيًا في البيانات الوصفية لمورد ARCHS4 للدراسات المحتملة التي تحتوي على التوقيعات ذات الصلة بـ TF. تم الاحتفاظ فقط بالدراسات التي تحتوي على عينتين على الأقل من الاضطرابات وعينتي تحكم على الأقل. تم تنزيل عينات GEO المعاد معالجتها بشكل موحد من ARCHS4 ، وتم تطبيعها الكمي وتم إنشاء التوقيعات باستخدام طريقة الاتجاه المميز (27).

لقد أنشأنا ثلاثة أنواع من مجموعات جينات الاستعلام المعيارية من 946 توقيعًا تم إنشاؤها من CREEDS و ARCHS4: (1) مجموعات الجينات التي تحتوي على أفضل 600 جينة معبر عنها تفاضليًا إما من CREEDS أو ARCHS4 (أعلى 300 جينة منتظمة وأعلى 300 جينة منظمة) ، والتي نطلق عليها اسم TFpertGEOupdn (2) مجموعات الجينات التي تحتوي فقط على الجينات المنتظمة من TFpertGEOupdnالذي نسميه TFpertGEOup و (3) مجموعات الجينات التي تحتوي فقط على الجينات الخاضعة للتنظيم من TFpertGEOupdnالذي نسميه TFpertGEOdn. تم تحديد الجينات الأعلى والأسفل في هذه المجموعات من معاملات طريقة الاتجاه المميز. لفحص تأثير حجم مجموعة الجينات على الأداء ، قمنا أيضًا بإنشاء TFpertGEO200 و TFpertGEO1000 بنفس الطريقة مثل TFpertGEOupdn، ولكن مع أحجام مجموعة الجينات 200 و 1000 ، على التوالي. قمنا بفصل TFpertGEOupdn مجموعة المقارنة المعيارية في مجموعات قياس الأداء البشري والفأري: hsTFpertGEOupdn و mmTFpertGEOupdn. أخيرًا ، نشير إلى 443 توقيعًا كاملاً لـ TF LOF / GOF أحاديًا من الإنسان والتي تم استخدامها لقياس أدوات التنبؤ TF الأخرى مثل hsTFpertGEOsig. ال TFpertGEO تحتوي مجموعات البيانات المعيارية على 443 تجربة بشرية من تجارب TF LOF / GOF و 503 من تجارب TF LOF / GOF.

بالإضافة الى TFpertGEO مجموعات البيانات المعيارية ، تم اشتقاق مجموعة بيانات قياس أخرى من كوزانوفيتش وآخرون. (2). من بين 59 ضربة قاضية لـ TFs ومعدلات الكروماتين المتوفرة في مجموعة البيانات هذه ، كان 49 منها قابلاً للتعيين إلى مجموعة TFs الخاصة بالموقع داخل ChEA3. لتوليد كوزانوفيتش مجموعة البيانات المعيارية ، والتقديرات على مستوى التحقيق (سجل2-transformed) من GSE50588 تم تنزيله من GEO (2). تم بعد ذلك تعيين مجسات Illumina إلى رموز الجينات المعتمدة من HGNC باستخدام حزمة illuminaHumanv4.db R. لتعيين المجسات إلى نفس الجين ، تم الاحتفاظ بالمسبار ذو التباين الأعلى عبر العينات. ثم تم تطبيع البيانات عبر العينات. تم إنشاء تسعة وأربعين توقيعًا لـ TF shRNA مقابل توقيعات التحكم بواسطة اختبار t وفقًا لمقالة حزمة VIPER R. مجموعة البيانات هذه من التوقيعات الجينية الكاملة ، والتي نطلق عليها سيغ كوسانوفيتشتم استخدامه لقياس معيار خلية VIPER B المنشور والمتوفر في حزمة viperbcell R ونظام الخلية B الذي أنشأناه من مجموعة بيانات تعبير GSE50588 باستخدام ARACNe-AP (28). أعلى 300 جينة منتظمة وأعلى 300 جينة خاضعة للتنظيم من كل منهما سيغ كوسانوفيتش تم استخدام التوقيع لتوليد مجموعات الجينات المرتبطة بـ TF shRNA لـ مجموعةكوزانوفيتش مجموعة بيانات معيارية ، والتي تم استخدامها لقياس ChEA3 للمقارنة مع أنظمة VIPER B-cell regulons.

مقاييس المقارنة المعيارية

كل مجموعة مورثة من TFpertGEOupdn ، TFpertGEOup ، TFpertGEOdn ، hsTFpertGEOupdn ، mmTFpertGEOأوبدن و مجموعةكوزانوفيتش تم تقديم مجموعات البيانات المعيارية إلى ChEA3. تم تصنيف عوامل النسخ داخل كل مكتبة وفقًا لـ FET المُعاد ص-القيم. تم بعد ذلك قياس الرتب داخل كل مكتبة بين 1 / n و 1 ، حيث n هو عدد TFs الفريدة في المكتبة ، لاستيعاب أحجام المكتبة المختلفة. تم استخدام حزمة R PRROC لحساب المنطقة الواقعة تحت منحنى خاصية تشغيل جهاز الاستقبال (ROC) ومنحنى Precision-Recall (PR) لكل مكتبة. تتكون الطبقة الإيجابية من صفوف TF المضطرب. تتكون الفئة السلبية من رتب جميع TFs الأخرى التي لم تتعرض للاضطراب في التجربة. لإنشاء منحنيات PR ومنحنيات ROC ، قمنا باختبار عينات من الفئة السلبية بنفس حجم الفئة الإيجابية ، على غرار الطريقة التي وصفها Garcia-Alonso. وآخرون. (7). تحتوي كل مكتبة على عدد مختلف من الصناديق وبالتالي يكون لها منحنى علاقات عامة مختلف "مصنف عشوائي". من خلال أخذ العينات من الفئة السلبية إلى نفس حجم الفئة الإيجابية ، فإن المصنف العشوائي سيكون له قيمة PR AUC تبلغ 0.5. من أجل الاتساق ، قمنا أيضًا بتخفيض عينات الفئة السلبية بنفس الطريقة لإنشاء منحنيات ROC. تم تمهيد منحنيات ROC و PR بهذه الطريقة 5000 مرة ثم تم الإبلاغ عن متوسط ​​ROC و PR AUCs. تم استخدام دالة R الأساسية تقريبًا () للتحويل الخطي بين جميع النقاط من منحنيات 5000 ROC ومنحنيات 5000 PR من أجل إنشاء منحنيات ROC و PR المركبة لكل مكتبة وأداة للتصور. استخدمنا أيضًا مقياسًا إضافيًا للأداء على النحو التالي. تم تحديد مجموعة قيم الترتيب لعوامل النسخ المضطربة لجميع استعلامات مجموعة الجينات. ثم قمنا بفحص دالة التوزيع التراكمي لهذه المجموعة من الرتب ، د(ص). إذا كانت الصناديق المضطربة لا تعرض رتبًا منخفضة أو عالية بشكل تفضيلي ، فإننا نتوقع توزيعًا موحدًا د(ص) = ص. لذلك نحن نفحص د(ص) – ص لانحرافات كبيرة عن الصفر من أجل تقييم المكتبات والأساليب المختلفة. تم استخدام اختبارات Anderson-Darling لتقييم فرضية العدم ، د(ص) = ص، وتم إجراؤها باستخدام حزمة R الرائعة.

قياس الأدوات الموجودة

لإنشاء تنبؤات TF من BART ، تم الحصول على ملفات تعريف رابطة الدول المستقلة التنظيمية لكل مجموعة جينات عن طريق إرسال كل مجموعة جينية في TFpertGEOupdn قياس مجموعة البيانات إلى MARGE (14) التي تعمل على Python 3. ثم تم تحويل تنبؤات المُحسِّن هذه إلى BART الذي يعمل على Python 3 لإنشاء تنبؤات TF لكل مجموعة جينية. تم تصنيف جميع الصناديق الخاصة بالموقع وفقًا للترتيب الذي صنفته BART ، والذي يعتمد على النتيجة المركبة.

TFEA.ChIP

مجموعات الجينات من TFpertGEOupdn تم الاستعلام عنها وفقًا لمثال المقالة القصيرة لحزمة TFEA.ChIP R. تم تصنيف جميع الصناديق الخاصة بالموقع وفقًا لـ ص-القيم.

فيبر

تم قياس أداء VIPER باستخدام التوقيعات الكاملة من التوقيعكوزانوفيتش قياس مجموعة البيانات وفقًا لمصغر حزمة VIPER R. تم استخدام كائني إدخال منظم: نظام VIPER للخلايا B المنشور والمتوفر في حزمة bcellviper R ، و a كوزانوفيتش التنظيم الخاص بمجموعة البيانات الذي أنشأناه. ال كوزانوفيتش تم إنشاء شبكة تنظيمية خاصة بمجموعة البيانات في ARACNe-AP باستخدام جميع عينات GSE50588 200 مع ص- قيمة عتبة 1 × 10 −8. تم تحديد قائمة البروتينات التنظيمية التي تم إدخالها إلى ARACNE-AP من قبل لامبرت وآخرون. (1) التي كانت موجودة أيضًا في مجموعة التحقيق الخاصة بـ Cusanovich وآخرون. (2) ، والتي بلغ مجموعها 731 TFs. تم دمج مائة أداة تمهيد لتشكيل الشبكة النهائية. تم استخدام حزمة VIPER R لإنشاء كائن Regulon من شبكة ARACNe التي تم إنشاؤها وفقًا لمثال الحزمة المصغرة. تم إجراء تحليل استدلال المنظم الرئيسي VIPER (MARINA) لكل من توقيعات TF shRNA البالغ عددها 49 توقيعًا. تم استخدام ألف تباديل في البيانات لإنشاء نموذج فارغ. تم تصنيف جميع الصناديق الخاصة بالموقع وفقًا لـ ص-القيم. تم اختبار VIPER أيضًا مع hsTFpertGEOsig التوقيعات باستخدام شبكة ARACNe-AP التنظيمية التي تم إنشاؤها من بيانات GTEx. تم إنشاء شبكة GTEx ARACNe باستخدام 200 عينة عشوائية مقيَّمة من بيانات GTEx RNA-seq مع ص- قيمة عتبة 1 × 10 −8. تتألف مجموعة الصناديق التنظيمية الممنوحة إلى ARACNe من 1607 صناديق تمويل قابلة للتعيين من HGNC حددها لامبرت وآخرون. (1) التي كانت موجودة أيضًا في بيانات GTEx RNA-seq. تم إجراء MARINA لكل من 443 توقيعًا في مجموعة بيانات hsTFpertGEOsig. تم تصنيف جميع الصناديق الخاصة بالموقع وفقًا للقيمة المطلقة لدرجات التخصيب الطبيعية (NES).

دو روثيا

تم إجراء VIPER MARINA مع hsTFpertGEOsig التوقيعات باستخدام كائنات DoRoTHEa v2 A و B و C و D و E و TOP10score Regulon R المتاحة على https://github.com/saezlab/DoRothEA (7). تم تصنيف جميع الصناديق الخاصة بالموقع وفقًا للقيمة المطلقة لـ NES الخاصة بهم.

السحر

الجميع TFPertGEOupdn تم تقديم مجموعات الجينات إلى MAGICACT (11) القابل للتنفيذ لنظام MacOSX. تم تصنيف جميع TFs الخاصة بالموقع وفقًا لنتائجها المركبة التي تم إرجاعها بواسطة MAGICACT.

تحديد ما إذا كان TF هو منشط أو مثبط

لمقارنة تحليلنا بمصدر مستقل ، قمنا بتنزيل تفاعلات الهدف TF للبشر والفأر من قاعدة بيانات TRRUST. تم تعيين جينات الماوس و TFs إلى الرموز المعتمدة من HGNC ، وتم دمج بيانات الإنسان والفأر. تم تجاهل تفاعلات TF – target ذات الاتجاه غير المعروف. تم الاحتفاظ بـ TFs التي لديها ما لا يقل عن 20 هدفًا مع الاتجاه المعروف للتحليل.

تطبيق خادم الويب ChEA3

تمت كتابة جانب الخادم من ChEA3 بلغة Java ويعمل على Tomcat 9. تعالج Java servlets عمليات إرسال قائمة الجينات من الواجهة الأمامية. يتم تنفيذ واجهة المستخدم الخاصة بـ ChEA3 مع jQuery (29) ، وتطبيق القوالب Mobirise 4.8.1 ، و Bootstrap v4 (30). يتم تنفيذ تصور شبكة TF التفاعلية باستخدام D3.js v4 (31). يتم تجميع المكونات الأمامية والخلفية وتجميعها معًا في ملف JAR. يعمل تطبيق الويب في حاوية Docker (32) ويتم إيداع صورة Docker في Docker Hub (https://hub.docker.com/r/maayanlab/chea3). يوفر ChEA3 أيضًا وصول API إلى الخدمة. يتم عرض النتائج من API بتنسيق JavaScript Object Notation (JSON). رمز خدمة الويب ChEA3 الكامل متاح على GitHub على https://github.com/maayanlab/chea3web.

تصور شبكة تعايش عامل النسخ

لإنشاء رؤية عالمية تفاعلية لشبكة تنظيم TF البشرية ، تم تطبيق تحليل شبكة التعبير المشترك للجين الموزون (WGCNA) (33) على بيانات تعبير GTEx (12) و ARCHS4 (20) و TCGA. تمت تصفية مجموعة بيانات التعبير الجيني GTEx المقيسة بالكمية لتشمل فقط TFs. تم تطبيق WGCNA على مصفوفة TF GTEx المخفضة باستخدام حزمة WGCNA R مع المعلمات الافتراضية. وبالمثل ، تم سحب 100 عينة عشوائية من الحمض النووي الريبي لكل نوع من أنواع الأنسجة الـ 18 من قاعدة بيانات ARCHS4 وتم تطبيعها كميا. تمت تصفية مجموعة بيانات التعبير لتشمل TFs فقط ، وتم تطبيق WGCNA مع المعلمات الافتراضية. لإنشاء شبكة TCGA ، تم أخذ عينات عشوائية من عينات الورم الأولي لـ TCGA بحيث حصلنا على مجموعة من 26 نوعًا من السرطان مع 100 عينة لكل نوع. تم تطبيع مجموعة بيانات التعبير كميا ، وتصفيتها لتشمل فقط TFs ، وتم تطبيق WGCNA مع المعلمات الافتراضية. تم تصور الشبكات الثلاث الناتجة باستخدام Cytoscape (34) مع المكون الإضافي Allegro Edge-Repulsive Strong Clustering. تم تصدير مواضع العقدة من Cytoscape وتم عرضها على صفحة نتائج ChEA3 باستخدام D3.js.

للتعليق على شبكة GTEx ، تم ربط وحدات eigengenes بملصقات عينات الأنسجة GTEx. تم تلوين العقد من خلال ارتباط الأنسجة الأكثر أهمية بالوحدة الأم. تم إجراء تخصيب GO Biological Pathway على أعضاء جينات الوحدة النمطية للشبكة باستخدام حزمة topGO R (35) مع مجموعة TFs باعتبارها الخلفية الجينية للكون. تم تلوين العقد بأهم نتيجة من تحليل التخصيب هذا. لتوضيح شبكة TCGA ، تم ربط eigengenes الوحدة النمطية بأنواع عينات الورم TCGA. تم تلوين العقد من خلال ارتباط الورم الأكثر أهمية بالوحدة الأم. لتوضيح شبكة ARCHS4 ، تم ربط وحدات eigengenes بملصقات عينة نسيج ARCHS4. تم تلوين العقد من خلال ارتباط الأنسجة الأكثر أهمية بالوحدة الأم.

تصور شبكة التنظيم المشترك عامل النسخ

تم إنشاء شبكة تنظيمية مشتركة لعامل النسخ من جميع تفاعلات TF-TF التي وصفتها مكتبات ChEA3 الأولية الست. تم الاحتفاظ بالحواف التي كانت مدعومة بأدلة من مكتبتين مختلفتين أو أكثر في الشبكة. يتم توجيه الحواف حيث يدعم دليل ChIP-seq التفاعل ولا يتم توجيهه في حالة التواجد المشترك أو دليل التعبير المشترك فقط. الشبكة عبارة عن مجموعة فرعية بناءً على نتائج TF الأعلى من استعلام المستخدم ويتم تصورها باستخدام D3.js.

التصور Clustergrammer

من نتائج كل استعلام ، يتم ملء مصفوفة ثنائية مع أعلى 5 TFs تم إرجاعها بواسطة كل مكتبة على الأعمدة وجينات الاستعلام في الصفوف وفقًا لما إذا كان جين الاستعلام يظهر ضمن مجموعة الجينات المستهدفة في مكتبة TF.يتم تقديم هذه المصفوفة إلى Clustergrammer API (36) والتي ترجع عنوان URL إلى مجموعة تفاعلية للمصفوفة. يتم عرض عنوان URL هذا في إطار iframe كجزء من تصورات نتائج ChEA3.


دراسة فيروم الأمعاء البشرية

قد تكون الدراسة المكثفة للبكتيريا التي حدثت خلال السنوات القليلة الماضية بسبب وجود علامات تطور عالمية مثل جين الرنا الريباسي 16S. على عكس البكتيريا ، تفتقر الفيروسات إلى مثل هذه العلامة العالمية. لذا ، فإن دراسة الفيروس يتطلب مناهج التسلسل الميتاجينومي (MGS) على نطاق واسع (الشكل 3). ومع ذلك ، هناك العديد من التحديات التي يجب التغلب عليها في عملية توليد البيانات الفيروسية وتحليلها. فيما يلي نعرض الخطوط العريضة للتحديات الشائعة ونناقشها في الأساليب المستخدمة على نطاق واسع لدراسة الفيروس الفيروسي ، بالإضافة إلى الحلول الممكنة لها. يرد ملخص لتحديات دراسات الفيروسات وطرق معالجتها في الجدول 2.

خطوات الدراسة الميتاجينومية للفيروم. استخراج الحمض النووي: يمكن دراسة الفيروس عن طريق استخراج الأحماض النووية من كلا الجزأين من المجتمع الميكروبي الكلي الذي يشمل البكتيريا والفيروسات (اليسار) والجسيمات الشبيهة بالفيروسات المنقى (VLPs حق) ، ويمكن تطبيق أنواع مختلفة من تقنيات إثراء VLP للحصول على الجزء الأخير (انظر النص الرئيسي للحصول على التفاصيل). إعداد مكتبة الجينوم: المادة الوراثية الفيروسية المستخرجة تخضع للتسلسل بعد إعداد مكتبة الجينوم. يمكن أن يؤثر اختيار تقنية إعداد مكتبة الجينوم وتغطية التسلسل على تمثيل أعضاء معينين من المجتمع الفيروسي في العينة (انظر المناقشة في النص الرئيسي). رقابة جودة: يتم قطع قراءات التسلسل الخام بشكل أكبر من محولات التسلسل ، ويتم تجاهل القراءات منخفضة الجودة والممثلة بشكل زائد. شرح فيروم: هناك طريقتان رئيسيتان لدراسة المجتمعات الفيروسية - قراءة الخرائط لقواعد البيانات المرجعية المغلقة أو التجميع الجديد للجينومات الفيروسية مع التحقق الاختياري ، ولكن ينصح به ، من contigs عبر قواعد البيانات المرجعية

جمع العينات وتخزينها

يتمثل التحدي الأول في الدراسات المتعلقة بالميكروبيوم المعوي في العدد المحدود للعينات التي يمكن للفرد تقديمها ، لا سيما في إطار البنوك الحيوية والدراسات واسعة النطاق. علاوة على ذلك ، في عينات الكتلة الحيوية المنخفضة مثل المجتمعات الفيروسية من بعض النظم البيئية والعينات ذات الصلة بالبشر ، يحتاج الباحثون إلى توخي الحذر الشديد من التلوث البيئي من المجموعات والكواشف [105].

بعد أخذ العينات ، تظل البكتيريا والعاثيات على اتصال مع بعضها البعض وستستمر في التفاعل البيئي ، مما يعني أن الحضانة المطولة للعينات في درجة حرارة الغرفة يمكن أن تؤثر على نسبة الميكروبات إلى الحد الذي لم تعد تمثل فيه الظروف في الموقع [ 78]. يتطلب التغلب على هذه المشكلة استخراج المادة الوراثية الفيروسية فور جمعها (إن أمكن) أو تجميد العينات بسرعة عند - 80 درجة مئوية.

استخراج الحمض النووي

على غرار دراسات ميكروبيوم الأمعاء ، تبدأ دراسات القناة الهضمية بعزل المادة الوراثية من العينات المعوية (الشكل 3). بالنظر إلى الغلبة المتصورة لفيروسات الحمض النووي في البراز البشري [14 ، 15] ، تستخدم دراسات الفيروسات الحالية بشكل أساسي استخراج الحمض النووي من عينات البراز [78،79،80]. ومع ذلك ، فإن المفهوم الحالي لتكوين القناة الهضمية قد يقلل من وفرة فيروسات الحمض النووي الريبي. على سبيل المثال ، يستخدم RNase I بشكل شائع في بروتوكولات عزل VLP لإزالة الحمض النووي الريبي الحر غير المحمي من أصل غير فيروسي [78 ، 79]. ومع ذلك ، فقد ظهر مؤخرًا أن RNase I يؤثر أيضًا على جزء الحمض النووي الريبي للفيروم [84]. للحصول على تقدير حقيقي لفيروسات الحمض النووي الريبي في العينة ، يحتاج المرء إلى تقييد استخدام RNase I ، على الرغم من أن هذا قد يأتي على حساب زيادة التلوث (الجدول 2).

ومع ذلك ، فإن العقبة الرئيسية في دراسة الفيروس هي الطبيعة الطفيلية للعاثيات. تؤدي قدرتهم على الاندماج في الجينوم البكتيري المضيف إلى التقسيم الاسمي للفيروم إلى كسور نشطة (عاثيات حلزونية) وصامتة (نفاذية) (الجدول 2). اعتمادًا على الجزء المستهدف من الفيروس ، قد تختلف بروتوكولات استخراج الحمض النووي بشكل كبير. على سبيل المثال ، يتم دراسة الفيروس النشط بشكل أساسي من خلال استخراج الحمض النووي من VLPs التي تم الحصول عليها عن طريق الترشيح ، والترسبات الكيميائية المختلفة [14 ، 15 ، 29 ، 47] ، و / أو الطرد المركزي (الفائق) [106 ، 107]. على النقيض من دراسة الفيروس النشط ، فإن الاستهداف المتزامن لكل من الفيروس الصامت والنشط (ما يسمى ب "إمكانات الفيروس") يتطلب عزل الحمض النووي الكلي (TNAI) من جميع البكتيريا والفيروسات في العينة [56،57،58) ]. في حين أن كلا النهجين لهما إيجابيات وسلبيات (الجدول 2) ، فإن الجمع بينهما أمر مرغوب فيه ، وإن كان مكلفًا ، لأن هذا سيعطي الصورة الكاملة لمجتمعات الميكروبيوم.

بالإضافة إلى استبعاد فيروسات الحمض النووي الريبي أثناء عزل المادة الوراثية في بعض بروتوكولات الاستخراج الشائعة ، يمكن أيضًا التغاضي عن فيروسات ssDNA. يعد تسلسل جينومات فيروس ssDNA أمرًا صعبًا بسبب العدد المحدود من مجموعات إعداد مكتبة الجينوم التي تسمح بالتمثيل في الموقع لفيروسات ssDNA دون تحيز التضخيم (الجدول 2) [77]. وبالتالي ، فإن المفهوم الحالي بأن الفيروس المعوي يتكون في الغالب من فيروسات dsDNA قد يكون متحيزًا بالسهولة النسبية لمعالجة dsDNA.

إعداد مكتبة الجينوم

في خطوة إعداد المكتبات الجينومية ، تشكل الكتلة الحيوية الفيروسية المنخفضة تحديًا جديدًا لأن العديد من مجموعات إعداد مكتبة الجينوم الحالية تتطلب مدخلات تصل إلى ميكروغرام من الحمض النووي ، وهي كميات نادرًا ما تكون متاحة لعينات الفيروس. مع الأخذ في الاعتبار الغلبة المتصورة للعاثيات في البراز البشري (انظر قسم "السمات الرئيسية لفيروم الأمعاء البشرية") ، يمكن تقدير كمية الإدخال النموذجية للحمض النووي بعد خطوة الاستخراج على النحو التالي: عدد العاثيات في 1 غرام من الإنسان البراز هو 10 9 [108،109،110] ومتوسط ​​حجم جينوم العاثية هو 40 كيلو بايت في الثانية [111] (الشكل 2) ، وبالتالي فإن الكمية الإجمالية من DNA العاثية في 1 جرام من براز الإنسان هي 40 × 10 9 كيلو بايت في الثانية بوزن 43.6 نانوغرام وبالتالي ، اعتمادًا على حجم الشطف (عادةً 50-200 ميكرولتر) ، فإن أي بروتوكول لعزل VLP للبراز سينتج عنه تركيز ضئيل من DNA البكتيريا: [0.22–0.87] نانوغرام / ميكرولتر. هذا هو النطاق الملاحظ أيضًا في قياس بروتوكولات استخراج VLP ، على الرغم من وجود اختلافات يمكن أن تصل إلى ترتيب من حيث الحجم في بعض الحالات [78،79،80]. لذلك ، هناك حاجة إلى تطبيق مجموعات أكثر حساسية تمكن من التعامل مع النانو والبيكوجرام من مدخلات الحمض النووي [77] أو تضخيم الجينوم الكامل (الفوقي) (WGA) (الجدول 2). على الرغم من أن WGA قد ثبت أنه أداة قوية لدراسة الفيروس المعوي البشري [19 ، 20] ، فإن بعض تقنيات WGA ، حتى الطرق غير القائمة على تفاعل البوليميراز المتسلسل مثل تضخيم الإزاحة المتعددة (MDA) ، تضخم بشكل غير متساو شظايا الجينوم الخطي وقد تقدم التحيزات في تمثيل الفيروسات الدائرية ssDNA [82 ، 85]. لذلك ، في وجود MDA ، قد يقتصر التحليل النهائي لتكوين المجتمع الفيروسي على إحصائيات غياب الحضور لأن الوفرة النسبية قد تكون منحازة نحو فيروسات معينة. يُفضل نوع آخر من WGA ، وهو تضخيم رابط التكييف (A-LA) ، لدراسة فيروسات وفيرة بشكل تفاضلي لأنه يحافظ عليها قابلة للقياس الكمي ويسمح بالتمثيل غير المتحيز [77]. علاوة على ذلك ، يسمح A-LA بدراسة كل من فيروسات ssDNA و dsDNA مقارنة بطرق WGA الكمية الأخرى مثل تضخيم الرابط البديل (LA) والعلامات (TAG) ، والتي تركز في الغالب على فيروسات dsDNA [77 ، 85].

في خطوة التسلسل ، يشكل اختيار قطع التغطية تحديًا إضافيًا (الجدول 2). بشكل عام ، كمجتمع معقد للغاية ومتنوع ، فإن الفيروس يتطلب تسلسلًا شديد العمق [47] ، على الرغم من أن مثل هذا التسلسل قد يعقد أيضًا تحليل المصب [112]. بشكل عام ، تؤدي زيادة التغطية إلى زيادة عدد القراءات المكررة مع أخطاء التسلسل. قد تتماشى هذه القراءات المكررة مع بعضها البعض وتخلق توابع زائفة تمنع تجميع contigs الأطول [112 ، 113].

رقابة جودة

بعد التغلب على الحواجز التي تواجه في عزلة وتسلسل المجتمعات الفيروسية ، يجب التغلب على تحديات جديدة في تحليل البيانات. في البداية ، من الضروري التخلص من قراءات المضيف البشري والبكتيريا المضيفة التي قد تؤدي إلى التحيز في تنميط المجتمع الفيروسي. في حين أن هناك الآن العديد من الأدوات التي تزيل جميع القراءات المتعلقة بالبشر تقريبًا ، فقد يكون ترشيح القراءات البكتيرية أمرًا صعبًا نظرًا لوجود نفاثات داخل الجينوم البكتيري. نظرًا لأن النبوات المحفزة والخفية تلعب دورًا مهمًا في النظام البيئي للأمعاء [16 ، 17] ، فمن الضروري تصفية القراءات البكتيرية بعناية لأنها قد تحتوي على تسلسلات جينوم prophage يجب أن تؤخذ في الاعتبار أثناء تحليل الفيروس. يوجد الآن العديد من الأدوات التي يمكنها تحديد تسلسل النبضة في بيانات MGS (الجدول 2).

تحليل البيانات

بعد ذلك تخضع قراءة التسلسل التي تمر بمراقبة الجودة إلى التنميط الفيروسي. يوجد حاليًا استراتيجيتان عامتان للتنميط الفيروسي استنادًا إلى بيانات MGS: (1) رسم خرائط القراءة المستند إلى المرجع و (2) التنميط المستند إلى التجميع de novo (الشكل 3). تواجه كلتا الاستراتيجيتين تحديات في توصيف المجتمع الفيروسي (الجدول 2). إن نهج رسم الخرائط المستند إلى المرجع ، والذي يستخدم على نطاق واسع في دراسات الميكروبيوم ، محدود بسبب ندرة الجينومات الفيروسية المشروحة [114]. ومع ذلك ، فإن التنوع الفيروسي الهائل والتنوع الوراثي الدقيق الفيروسي سيعقد أيضًا التجميع الجديد للميتاجينومات [115 ، 116] (الجدول 2).

التطور السريع ، وهو سمة فطرية للفيروسات تسمح لها بالعيش في كل مكان بيئي تقريبًا ، يؤدي إلى تباعد كبير بين الأنواع [117]. على الرغم من أن الفيروس المعوي البشري قد ثبت أنه مستقر بمرور الوقت ، ويرجع ذلك جزئيًا إلى الطابع المعتدل لغالبية فيروسات الأمعاء البشرية ، يمكن لبعض أعضاء فيروم الأمعاء البشرية أن تتطور بسرعة. على سبيل المثال ، تم عرضه على عاثيات ssDNA lytic من Microviridae يسكن الأمعاء البشرية أن فترة 2.5 سنة هي وقت كافٍ لتطور أنواع فيروسية جديدة [26]. قد يحد هذا من استخدام الأساليب المستندة إلى المرجع في دراسة الفيروس ، على الرغم من أن بعض الدراسات قد استخدمت بنجاح هذه الطريقة للتعليق التوضيحي للفيروم بالاشتراك مع طريقة التجميع القائمة على de novo [55 ، 118] (الجدول 2).

لا يعتمد تجميع de novo للميتاجينومات الذي تم استخدامه بنجاح لاكتشاف CrAssphage [28] على قواعد البيانات المرجعية. لذلك ، تقدم الأساليب القائمة على التجميع في de novo تقديرًا أكثر شمولاً لتعقيد المجتمعات الفيروسية والمادة المظلمة الفيروسية (متواليات ميتاجينومية غير مميزة تنشأ من الفيروسات) (الشكل 3) [119]. ومع ذلك ، فإن نتيجة تجميع الميتاجينوم تعتمد بشكل كبير على تغطية القراءة [113] نظرًا لأن سير عمل التجميع الافتراضي يفترض توزيعًا متساويًا للتغطية لكل جينوم [99]. قد تؤثر بعض التحيزات التي تم إدخالها أثناء معالجة العينة على توزيع التغطية وبالتالي تعرقل تجميع de novo من حيث اكتمال الجينومات وتجزئة التجميع. تتضمن مصادر هذا التحيز مدخلات منخفضة من الحمض النووي لإعداد مكتبة الجينوم [94 ، 95] ، واستخدام A-LA [94 ، 96] ، ومحتوى GC المتحرك المرتبط بـ MDA [97]. بالإضافة إلى ذلك ، فقد ثبت أن اختيار تقنية التسلسل له تأثير ضئيل على نتيجة التجميع de novo [95] ، بينما يؤثر اختيار برنامج التجميع بشكل حاسم على النتائج [104] (الجدول 2).

بغض النظر عن الطريقة المختارة للتعليق التوضيحي الفيروسي ، تأتي المزيد من التحديات في خطوة تعيين التصنيف إلى التسلسلات الفيروسية. حاليًا ، تم وصف 5560 نوعًا فيروسيًا وإيداعها لدى اللجنة الدولية لتصنيف الفيروسات (ICTV) [31]. على الرغم من النمو السريع لقاعدة بيانات ICTV بعد أن سمحت بترسيب التسلسلات الفيروسية المجمعة de novo التي لم يتم استزراعها أو تصويرها [120] وتطبيق شبكات مشاركة الجينات على التسلسلات الفيروسية لتخصيص التصنيف [121] ، فإن المستويات فوق الجنس هي لا يزال غير متاح للعديد من الفيروسات المعروفة. ومع ذلك ، هناك أسباب تدعو للتفاؤل. قررت لجنة ICTV مؤخرًا توسيع التصنيف التصنيفي للفيروسات إلى مستويات أعلى من الرتبة والترتيب [122] ، وقد تم بالفعل الإبلاغ عن أول حق اللجوء الفيروسي [123]. يمكن توقع المزيد من الرتب الأعلى نظرًا لارتفاع وتيرة وتوحيد الجينومات الفيروسية الجديدة المودعة [124].


4. مناقشة

في هذه الدراسة ، أوضحنا أنه يمكن استخدام الجزء غير المتعارف عليه من شظايا MBD-seq لتحديد الفيروسات. بالنظر إلى الأهمية المتزايدة لطرق التسلسل ، يمكن أن توفر هذه الاستراتيجية أدلة رئيسية فيما يتعلق بتورط فيروسات معينة في الأمراض بأقل تكلفة إضافية. نظرًا لأدوار مثيلة الحمض النووي في بيولوجيا الفيروس ، فإن خط الأنابيب المحدد قادر على إنشاء فرضيات قيمة من البيانات غير المستخدمة. نظرًا لأن التطبيق الموضح له أيضًا العديد من العيوب (انظر أدناه) ، يجب بالطبع التحقق من صحة الفرضيات الناتجة عن طريق أحدث الأساليب. محتوى CpG المرصود في العديد من عينات عنق الرحم ، مقارنةً بـ De Meyer et al. (2013) ، يشير إلى أن معظم الأجزاء المعينة الفيروسية ميثلة. وتجدر الإشارة إلى أن الشظايا الفيروسية غير الميثيل التي تم التقاطها كـ & # x0201cnoise & # x0201d قد تكون ذات صلة أيضًا ، ولكن من المرجح أن تكون حساسية هذه الأجزاء منخفضة جدًا لربطها بعلم الأمراض المحدد قيد الدراسة.

في الآونة الأخيرة ، حققت بعض الدراسات بالفعل تحديد الفيروس في تجارب RNA-seq بطرق مماثلة (Chen et al. ، 2013 Salyakina and Tsinoremas ، 2013). يمكن أن تجد هذه الدراسات وجودًا كبيرًا لفيروسات الأورام من خلال نسخها. ومع ذلك ، قد تكون الفيروسات المتكاملة صامتة مؤقتًا ، غالبًا عن طريق مثيلة الحمض النووي ، مما يجعل المنهجية المقترحة مكملاً جيدًا لـ RNA-seq لتحديد الفيروس حيث سيتم أيضًا اكتشاف الفيروسات التي تم إسكاتها. علاوة على ذلك ، فهو قادر على الكشف عن المعلومات اللاجينية حول بيولوجيا الفيروس السريرية. طريقتنا عامة ويمكن استخدامها مع تقنيات NGS الأخرى. ومع ذلك ، لا يأخذ FR-HIT في الحسبان أحداث التضفير التي قد تقيد قابليتها للتطبيق على بيانات RNA-seq.

تم استخدام النهج الموضح في عينات عنق الرحم من أصل مختلف ، من الناحية النسيجية والدراسة ، وتم اكتشاف فيروسات متعددة. ليس بشكل غير متوقع ، فقد لوحظت الأجزاء الناشئة من HERV-K في كل عينة ، والتي يمكن اعتبارها عنصر تحكم إيجابي لأن HERV-K هو فيروس قهقري داخلي (Hohn et al. ، 2013). يمكن ملاحظة المزيد من شظايا HERV-K في عينات زراعة الخلايا مقابل الأنسجة الطبيعية ، CIN2 / 3 والسرطانات ، والتي قد تعكس اختلافات المثيلة بين ثقافة الخلية والعينات الأولية (Smiraglia ، 2001 Varley et al. ، 2013). لذلك توفر هذه النتيجة أول مؤشر على أن المقارنة الكمية لبيانات عدد الفيروسات قد تسفر عن معلومات ذات صلة. تشمل الاكتشافات المتوقعة الأخرى Phage PhiX174 DNA من Illumina spike-ins و CMV التي نشأت من PCDNAI neo plasmid في عينات زراعة الخلايا. في الواقع ، لقد ثبت أن البلازميدات ميثلة ، والتي يمكن أن تتداخل مع تجارب محددة (Hong et al. ، 2001).

ومن المثير للاهتمام أننا اكتشفنا العديد من فيروسات الأورام في عينات عنق الرحم إلى جانب فيروس الورم الحليمي البشري. تم العثور على خلية ميركل polyomavius ​​، المعروف أنها تسبب ساركوما خلية ميركل ، في عينتين CIN2 / 3 (Feng et al. ، 2008). فيروس الورم الآخر الذي تم تحديده هو فيروس Epstein-Barr. على الرغم من أنه ليس مهمًا ، إلا أن الارتباط الواضح بين وجود فيروس Epstein-Barr والمجموعة النسيجية يلمح إلى دوره في تكوين الأورام في سرطان عنق الرحم كما ورد في (Szostek et al. ، 2009). ومع ذلك ، نظرًا لأن أعداد Epstein-Barr منخفضة ، فإن الشظايا الفيروسية الناشئة عن تسلل الخلايا الليمفاوية هي على الأقل بديل مكافئ (Grywalska et al. ، 2013). تشير نتائج هذه الدراسة إلى أنه يجب إجراء بحث إضافي فيما يتعلق بتأثير فيروس Epstein-Barr وعدوى الفيروس التورامي لخلايا ميركل في CIN2 / 3 والسرطانات ، ويفضل أن يكون ذلك في مجموعات أكبر بكثير.

ومع ذلك ، كان فيروس الورم الأكثر انتشارًا ، كما هو متوقع ، هو فيروس الورم الحليمي البشري. نظرًا لأن انتشار فيروس الورم الحليمي البشري في عنق الرحم ودوره السببي في سرطان عنق الرحم موثق جيدًا ، فإن كفاءة الكشف عن الفيروسات للمنهجية المقترحة تتحقق من قدرات طريقتنا (Clifford et al. ، 2005 Armstrong ، 2010). تم عرض دور فيروس الورم الحليمي البشري في سرطان عنق الرحم من خلال مقارنتين. أولاً ، هناك ارتباط كبير بين حدوث فيروس الورم الحليمي البشري والمجموعة النسيجية. ثانيًا ، في العينات الإيجابية لفيروس الورم الحليمي البشري ، لاحظنا زيادة كبيرة في إجمالي شظايا فيروس الورم الحليمي البشري لكل عينة في مزرعة الخلية أو سرطان أو عينات CIN2 / 3 مقابل العينات العادية. يمكن أن تكون الملاحظة الأخيرة بسبب المزيد من فيروس الورم الحليمي البشري و / أو المزيد من مثيلة فيروس الورم الحليمي البشري. يتوافق المزيد من مثيلة الحمض النووي لجينوم فيروس الورم الحليمي البشري في الأورام السرطانية وفقًا لملاحظات HPV16 و HPV18 كما أفاد فرنانديز وآخرون. (2009).

ومع ذلك ، لاحظ أن التقييم الكمي للفيروسات الميثيلية قد يتأثر أيضًا بحالة المثيلة الجينومية العالمية. قد يؤدي فرط الميثيل الجينومي ، كما لوحظ غالبًا في سلالات الخلايا (Smiraglia ، 2001) ، إلى كبح التقديرات الفيروسية حيث قد تنخفض وفرتها النسبية في الجزء الميثلي الكلي. من ناحية أخرى ، قد يؤدي أيضًا فرط الميثيل الكلي بشكل مباشر إلى زيادة المثيلة الفيروسية ، وبالتالي حساسية أعلى للالتقاط المستند إلى MBD. قد يكون هناك تفكير مشابه مناسبًا لعينات الورم ، والتي قد تتميز بخصائص الميثيل العالمية (Li et al. ، 2014). بعبارة أخرى ، سيكون لحالة المثيلة الكلية تأثير مهم ، لكن التأثير الدقيق يعتمد على مقدار المثيلة الفيروسية نفسها أو الكشف عن المثيلة التي تتأثر بها.

تم الكشف عن العاثيات في العينات الأولية من مجموعتي العينات وكانت غائبة في جميع عينات زراعة الخلايا. هذا ليس غير متوقع لأن الجهاز التناسلي الأنثوي يتميز بالنباتات الميكروبيولوجية المعقدة وجينومات العاثيات التي تم الإبلاغ عنها منذ فترة طويلة أنها ميثلة (Kr & # x000fcger and Bickle ، 1983 Martin et al. ، 2012). يمكن تفسير وجود فيروسات غدية بشرية بالتلوث. من المعروف أن كلا من الفيروسين الغديين B و C البشريين يلعبان دورًا في أمراض الجهاز التنفسي ، مما قد يفسر طريقة محتملة للتلوث (جونز وآخرون ، 2007). يعزز الاختلاف الملحوظ في حدوث جزء الفيروس الغدي البشري بين مجموعات العينات هذه الفرضية. يمكن تفسير ملاحظة فيروس الورم الحليمي البشري في عينة واحدة من الكريات البيض بالتلوث أيضًا.

ومن ثم ، لاكتشاف الفيروس مع عدد شظايا منخفضة ، ينبغي للمرء أن يكون حذرًا في استنتاج وجود الفيروس. ستؤدي الحساسية العالية لـ NGS إلى النتائج المتعلقة بالوجود أو عدم التأثر بسهولة بالتلوث Yozwiak et al. (2012). على سبيل المثال ، تم الكشف عن فيروس الورم الحليمي البشري 39 عدة مرات عند انخفاض عدد الأجزاء في العينات التي تم تشغيلها في نفس حارة محلل الجينوم من Illumina كعينة واحدة مع عدد شظايا HPV39 مرتفع بشكل ملحوظ. أيضًا ، يبدو أن الكمية العالية من العينات الإيجابية لفيروس الورم الحليمي البشري تنحرف عن انتشاره المنخفض نسبيًا في أوروبا ، وهذا على النقيض من أنواع فيروس الورم الحليمي البشري الأخرى (16 ، 18 ، 31) (كليفورد وآخرون ، 2005). تم تصنيف هذه الأجزاء على الأرجح في عينة خاطئة بسبب الترحيل المرتبط بعدم الدقة الشائعة في تسلسل تعدد إرسال Illumina (Kircher et al. ، 2012).من غير المرجح أن تكون التعريفات غير الصحيحة بسبب التعيين الخاطئ أقل احتمالا حيث تم تمثيل الجينومات الفيروسية ذات التشابه العالي بجينوم مرجعي واحد فقط لكل مجموعة. علاوة على ذلك ، قمنا بفحص بعض زيارات فيروس الورم الحليمي البشري المنفردة عن طريق تفجيرها إلى أرشيف نوكليوتيد NCBI الذي أعطانا أفضل النتائج لفيروس الورم الحليمي البشري الذي تم العثور عليه. لذلك قد يفسر التلوث جزئيًا المعدل المرتفع على ما يبدو للعدوى لأنواع فيروس الورم الحليمي البشري. لذلك قد يختار المرء فقط استدعاء وجود الفيروس عند التعرف على الحد الأدنى من عدد الشظايا ، على سبيل المثال 10 (كما اقترح أيضًا Yozwiak et al.، 2012 and Salyakina and Tsinoremas، 2013). بالإضافة إلى ذلك ، سيؤدي استخدام الفهرسة المزدوجة أثناء تسلسل Illumina متعدد الإرسال إلى إزالة مصدر تجريبي رئيسي للتلوث المرحل (كيرشر وآخرون ، 2012). على سبيل المثال ، يمكن التحقق من اكتشافات فيروس الورم الحليمي البشري في عينات المجموعة 1 التي تحتوي على أكثر من 10 شظايا باستثناء اثنتين. بدلاً من ذلك ، بجانب التلوث ، قد يتم تمييز MBD-seq أيضًا بحساسية أعلى بسبب التخصيب من أجل المثيلة ، مقارنةً بطرق التحقق الساذجة من المثيلة. ومع ذلك ، فإنه من المحتمل ألا يكتشف الفيروسات التي لا يوجد منها الحمض النووي الميثلي.

يتمثل أحد القيود الأخرى لهذا النهج الذي يعتمد على أفضل الخرائط في أنه يعتمد بشكل معوي على الجينومات الفيروسية المعروفة الموجودة. في هذه الدراسة ، تم استخدام الجينومات الكاملة فقط لـ NCBI و ENA. ومع ذلك ، نظرًا لأن جزء الجينوم المتسلسل (6433 في مجموعة البيانات الخاصة بنا) محدود للغاية مقارنة بكمية فيروسات الثدييات المقدرة بـ 320.000 (أنتوني وآخرون ، 2013) ، فمن المحتمل جدًا أن يتم إغفال العديد من الفيروسات بهذه الطريقة. يمكن اكتشاف الفيروسات ذات الصلة عن طريق تقليل تشابه التسلسل. ومع ذلك ، فإن هذا يشير إلى صعوبة متزايدة في التمييز بين الأنواع الفيروسية. سيكون من الصعب أيضًا التمييز بين الأنواع الفيروسية المميزة عندما تزداد مجموعة الجينومات المرجعية مع دخول المزيد من الجينومات المتشابهة. يمكن حل هذه المشكلة عن طريق تجميع وإزالة الجينومات المماثلة أو عن طريق التقدم التكنولوجي الذي يزيد من طول القراءات المتسلسلة. أخيرًا ، قد يؤدي أيضًا نقل الجينات الأفقي أو التكامل الفيروسي للأسلاف إلى نتائج إيجابية خاطئة. من جديد يتجنب تجميع الفيروسات باستخدام شظايا غير مخططة إلى حد كبير الاعتماد على المعرفة الحالية ومشاكل رسم الخرائط ، ولكنه سيتطلب تغطية كبيرة للحصول على كميات كافية من الشظايا الفيروسية وستعيقها مناطق غير ميثلة من الجينوم الفيروسي.

بشكل عام ، يمكننا أن نستنتج أن هذه الطريقة فعالة في الكشف عن أجزاء من الحمض النووي الفيروسي الميثلي. يمكن التحقق من ذلك عن طريق الكشف عن فيروس الورم الحليمي البشري في دراسة حالة عنق الرحم ، مما يدل على (1) ارتباط وجود فيروس الورم الحليمي البشري والمجموعة النسيجية (2) الكميات التفاضلية لشظايا فيروس الورم الحليمي البشري في العينات الإيجابية لفيروس الورم الحليمي البشري بين العينات العادية والسرطان أو عينات CIN2 / 3 (3) النوع الكشف مع التوافق الجيد كما تم التحقق منه بواسطة طرق مستقلة. بعبارة أخرى ، إذا كان تأثير فيروس الورم الحليمي البشري في سرطان عنق الرحم غير معروف ، فربما تم التقاطه من خلال النهج المحدد ، على الرغم من أن التحقق الإضافي كان ضروريًا للغاية بالطبع. لذلك من الواضح أن المنهجية يمكن أن تولد معرفة جديدة فيما يتعلق بوجود الفيروسات في المرض ، وأن العيوب المتأصلة تفوقها إلى حد بعيد الفائدة الرئيسية للحصول على معلومات بشأن وجود أي فيروس متسلسل في البيانات التي يتم تجاهلها عادةً.


مناقشة

لقد قمنا بفهرسة أكثر من 100 indels في جينوم SARS-CoV-2 ، وهو نوع من الطفرات التي تم تجاهلها إلى حد كبير في التحليل المبكر للتاريخ التطوري لـ SARS-CoV-2. من خلال متواليات إجماع GISAID ، والقراءات الأولية المتاحة للجمهور ، والبيانات النصية العميقة المقروءة منذ فترة طويلة ، وهيكل RNA المحاكى ، نعرض العديد من الأدلة المستقلة التي تشير إلى أن هذه indels هي قطع أثرية لإعادة التركيب ، وأن SARS-CoV-2 يحتوي على العديد من إعادة التركيب. نقاط الجذب.

ومن المثير للاهتمام ، باستخدام مناهج اكتشاف إعادة التركيب القائمة على التسلسل ، أن الدراسات السابقة قد حددت العديد من النقاط الساخنة لإعادة التركيب المفترضة لدينا كنقاط توقف لإعادة التركيب في SARS-CoV-2 وفيروسات كورونا الأخرى ذات الصلة. لاو وآخرون. وجدت دليلاً على أن بروتينات N و ORF8 الخاصة بالسارس يتم الحصول عليها من إعادة التركيب بين فيروسات خفاش حدوة الحصان. حددوا نقاط توقف إعادة التركيب عند 20900 ، و 26100 ، و 27128 ، و 28635 [6] - والتي تتوافق جيدًا مع النقاط الساخنة الخاصة بنا D و E و F. Hom et al. حدد أيضًا نقطة توقف محتملة لإعادة التركيب حوالي عام 21495 في تتبع السارس من فيروسات الخفافيش التاجية [7] ، المقابلة للمنطقة المخصبة بالإنديل D. Lam et al. حدد مخطط إعادة تركيب محتمل لـ SARS-CoV-2 من فيروسات البنجلولين الملايو وفيروسات الخفافيش بنقاط توقف حول 11000 و 21000 و 23000 و 24000 [10] ، والتي تتوافق مع المناطق المخصبة بـ C و D و E. حدد تحليل أصول فيروس الساربيك المؤتلف لـ SARS-CoV-2 نقاط توقف محتملة لإعادة التركيب في 1684 و 3046 و 9237 و 11885 و 21753 و 22773 و 24628. [47]. يقترب عام 1684 من 1605 ، حيث يحتوي 332 تسلسل GISAID الذي قمنا بتحليله على حذف 3 قواعد طويلة. تقع نقاط التوقف الأربعة الأخيرة بالقرب من أو داخل مناطق indel المخصبة التي تم تحديدها C و D و E. ونرى أيضًا العديد من عمليات الحذف بين 2500-3500 (ربما تكون مرتبطة بنقطة التوقف الساخنة عند 3046) ، على الرغم من أننا لا نرى indels ضمن 500b من 9237.

على الصعيد العالمي ، يبدو أن المناطق المخصبة لـ indels ونقاط التوقف النسخية تقع على "أذرع" جزيء RNA المطوي المحاكى. نحن نفترض أنه نظرًا لأن هذه المناطق من جزيء الحمض النووي الريبي هي امتدادات من العمود الفقري ، فيمكن الوصول إليها بسهولة وبالتالي يمكن لـ RdRp "القفز" بين جزيئات النسخ المتماثلة المتوافقة بشكل متجانس. نلاحظ أن هذا تمثيل خام لبنية الحمض النووي الريبي الثانوية ، فهو يتجاهل التفاعلات بين الجينوم والنيوكليوكابسيد ، ويستخدم فقط التسلسل المرجعي ولا يلتقط كيف يمكن للطفرات تغيير بنية الحمض النووي الريبي المطوي في سلالات مختلفة ، ويتجاهل عقدة psueodknots ، ويظهر فقط أضعاف الإجماع الأولي. علاوة على ذلك ، خوارزميات تنبؤ طي الحمض النووي الريبي (RNA) لها تاريخياً انخفاض الأداء على جزيئات الحمض النووي الريبي الأطول [38]. ومع ذلك ، نظرًا لأن كلا من RNAfold و mxfold أظهر كلاهما إثراءًا كبيرًا في هياكل الحلقة ، يبدو من الممكن أن بنية RNA المحفوظة تلعب دورًا ما في تفكك RdRp. يجب القيام بعمل إضافي لتحديد ما إذا كان هناك تسلسل محلي إضافي أو أشكال هيكلية توجه تفكك RdRp.

هناك العديد من التفسيرات البديلة لهذه المناطق عالية التخصيب من indels ، لكننا نعتقد أنها غير مدعومة بالأدلة المجمعة في متواليات GISAID والقراءات الأولية وبيانات النسخ. بادئ ذي بدء ، بمعالجة الاحتمال الواضح للتسلسل المنهجي أو خطأ المحاذاة ، لا نرى أي علامات في بيانات القراءة الأولية على أن indels ترجع إلى أنواع الأخطاء هذه. تحدث indels في العديد من عينات Illumina ، والتي ليست عرضة لأخطاء التسلسل المنتظم ، والعديد من العينات بها ما يقرب من 100 ٪ من المكالمات المتجانسة لـ indel معين. تحتوي العديد من القراءات غير المتجانسة على ترددات متغيرة بديلة عالية جدًا بحيث لا تتوافق مع ملفات تعريف أخطاء Illumina [48 ، 49].

نظرية أخرى هي أنه ربما يحدث indels في مواقع مفرطة التغير داخل الجينوم ، وإما عن طريق الصدفة أنها تبدو متجمعة في عدة مناطق ، أو الضغط الانتقائي يزيل indels في مناطق أخرى من الجينوم. ومع ذلك ، تذكر أن هذه المناطق يتم إثرائها أيضًا لنقاط 5 'و 3' في النسخة النصية ، والتي حسبناها فقط من خلال النظر في القراءات مع الحذف وقواعد gt100. إذا كانت هذه المواقع في الواقع قابلة للتغير بشكل مفرط ، فإنها أيضًا قابلة للتغير بشكل مفرط بالنسبة إلى indels الأكبر حجمًا ، كما أن الضغط الانتقائي لن يعمل على النسخ بهذه الطريقة. يبدو أنه من الممكن ، مع ذلك ، أنه قد تكون هناك نقاط ساخنة إضافية لتبديل القوالب يمكن رؤيتها في النسخ المتقطعة ، ولكن ليس في مناطق تخصيب indel لأن الضغط الانتقائي يجعل SARS-CoV-2 غير قادر على التعامل مع indels في هذه المنطقة. [50] على سبيل المثال ، يبدو أن هناك إثراءًا لـ 5 'نقاط توقف في النسخة غير المستمرة بين الموقعين 8000 و 9000 ، ومع ذلك لم نعثر على indels في تلك المنطقة (انظر الشكل 3) ربما يؤدي indel في هذه المنطقة إلى النمط الظاهري المختل.

أخيرًا ، قد تكون هذه indels نتيجة لفصل RdRp وإعادة الارتباط من موقع إلى آخر على نفس خيط RNA ، بدلاً من خيط قالب إلى خيط ناشئ من تكاثر فيروسي. قد يعني هذا أن هذه indels لم يتم إنشاؤها من تبديل القالب بين خيطين فيروسيين منفصلين ، ولكن من فصل RdRp وإعادة الارتباط على نفس الشريط الفيروسي. هذا ممكن ومع ذلك فمن المحتمل أنه إذا كانت المنطقة هي نقطة ساخنة لـ RdRp للقفز داخل نفس الشريط ، فهي بالتالي نقطة ساخنة لقالب RdRp للتبديل بين سلسلتين مختلفتين للقالب. يمكن التحقق من إعادة التركيب بين اثنين أو أكثر من سلاسل قوالب SARS-CoV-2 تجريبيًا عن طريق قياس معدلات إعادة التركيب بين السلالات الفيروسية الطافرة ، أو عن طريق الحساب عن طريق العثور على مريض مصاب بشكل مشترك من قبل سلالتي SARS-CoV-2 مختلفتين مع طفرات ملحوظة على على جانبي نقطة توقف إعادة التركيب. قد يكون هذا التحقق الحسابي صعبًا لأنه سيتطلب عدوى مشتركة في المريض ، ووجود كلا السلالتين داخل نفس الخلية ، وإعادة التركيب ، والنسب المؤتلف لجعله في قراءات التسلسل.

نؤكد على مدى قيمة القراءات الأولية أو المتوافقة لفهم ديناميكيات تطورية SARS-CoV-2 بشكل أفضل. على الرغم من أن تسلسلات الإجماع مثل تلك الموجودة على GISAID توفر بعض المعلومات حول أنماط الطفرات وديناميكيات التطور ، إلا أن هناك العديد من أوجه القصور في تسلسل الإجماع التي يمكن للقراءات الأولية معالجتها. كما أوضحنا ، باستخدام القراءات الأولية ، يمكننا تحديد قابلية التغيير الخاصة بالموقع. يعد تقدير التباين لكل موقع ، لكل من تعدد الأشكال و indels ، ضروريًا لبناء أشجار سلالة دقيقة [51 ، 52] ، والتي يمكن استخدامها بعد ذلك لتتبع انتشار SARS-CoV-2 وتحديد الطفرات المتكررة أو المواقع الموجودة تحت ضغط انتقائي عالي [53]. علاوة على ذلك ، مع استمرار SARS-CoV-2 في الانتشار وإعادة الاتحاد بشكل حتمي إما مع نفسه في شكل سلالة مختلفة ، أو فيروس كورونا آخر ، أو جزيء RNA آخر ، فإن القراءة الأولية توفر فهمًا أوضح لأنماط إعادة التركيب أكثر من التسلسل الإجماعي.

لذلك نحث المجتمع العلمي على إتاحة قراءاتهم الأولية للجمهور إن أمكن. في حين أن هناك مخاوف محتملة تتعلق بالخصوصية فيما يتعلق بتلوث الحمض النووي البشري أو الحمض النووي الريبي في البيانات ، فإن معظم خطوط الأنابيب التي تولد تسلسلاً للإجماع تتضمن تصفية قراءاتنا لتتماشى مع الجينوم البشري ، وبالتالي الحفاظ على الخصوصية وتقليل الحواجز أمام الوصول المفتوح إلى المجتمع العلمي.

في الختام ، قمنا بفهرسة أكثر من 100 indels الموجودة في التاريخ التطوري لـ SARS-CoV-2 حتى الآن وأظهرنا عدة أدلة مستقلة على أن هذه المجموعات من indels تشير إلى نقاط ساخنة لإعادة التركيب. سيؤدي الفهم المحسن للتنوع الهيكلي وكذلك إعادة التركيب في فيروسات كورونا إلى تحسين إعادة البناء النشئي للتاريخ التطوري لـ SARS-CoV-2 وفيروسات كورونا الأخرى ، وهو خطوة أقرب إلى فهم الأسئلة المعلقة المحيطة بآلية تحويل قالب RdRp في فيروسات RNA .


شاهد الفيديو: الاحماض النووية DNA-RNA -صف (شهر نوفمبر 2022).