معلومة

تحويل نسب الأرجحية إلى SNP آخر مع LD عالية؟

تحويل نسب الأرجحية إلى SNP آخر مع LD عالية؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لدي نسب الأرجحية (OR) لأليل مخاطرة معين في SNP (سأسميها SNP1). لسوء الحظ ، لم يكن هذا SNP منقوصًا وراثيًا في بياناتي ، لكنني لا أريد التخلص منه. لقد بحثت عن SNP على LDLink و SNP آخر (سأسميه SNP2) يعاني من اختلال توازن عالي الارتباط مع SNP1 (R2 = 0.94).

كيف يمكنني نقل OR من أليل SNP1 إلى أليل SNP2 المقابل؟

أعلم أنه شيء مشابه لتسجيل (OR) * sqrt (R2) لكنني لست متأكدًا تمامًا. هل يمكن لشخص ما أن يوضح ما إذا كانت هذه هي الصيغة الصحيحة؟


التوقيع الجينومي للمتغيرات المرتبطة بالسمات

حددت دراسات الارتباط على مستوى الجينوم الآلاف من متغيرات SNP المرتبطة بمئات من الأنماط الظاهرية. بالنسبة لمعظم الجمعيات ، تظل المتغيرات السببية والآليات الجزيئية الكامنة وراء التسبب في المرض غير معروفة. ألقى استكشاف التعليقات التوضيحية الوظيفية الأساسية للمواقع المرتبطة بالسمات بعض الضوء على أدوارها المحتملة في التسبب في المرض. ومع ذلك ، هناك بعض أوجه القصور في الأساليب المستخدمة حتى الآن ، والتي قد تقوض الجهود المبذولة لتحديد أولويات المتغيرات لمزيد من التحليلات. هنا ، نقدم طرقًا جديدة ونطبقها لتحديد فئات التعليقات التوضيحية بدقة لإثراء أو استنفاد المتغيرات المرتبطة بالسمات مع مراعاة الارتباطات الأساسية بسبب التواجد المشترك للتعليقات التوضيحية الوظيفية المختلفة واختلال التوازن في الارتباط.

نتائج

قمنا بتقييم إثراء واستنفاد المتغيرات في فئات التعليقات التوضيحية المتاحة للجمهور مثل المناطق الجينية والميزات التنظيمية وتدابير الحفظ وأنماط تعديلات هيستون. استخدمنا الانحدار اللوجستي لبناء نموذج متعدد المتغيرات حدد التعليقات التوضيحية الوظيفية الأكثر تأثيرًا لحالة ارتباط السمات للمتغيرات المهمة على مستوى الجينوم. كان تعدد أشكال النيوكلوتايد المرتبطة بجميع التعليقات التوضيحية أكثر عرضة بمقدار 8 مرات لأن تكون متغيرات مرتبطة بالسمات من تعدد أشكال تعدد الأشكال التي تم شرحها بدون أي منها. كانت التعليقات التوضيحية المرتبطة بحالة الكروماتين جنبًا إلى جنب مع المعرفة المسبقة بوجود تعبير محلي QTL (eQTL) من أهم العوامل في نموذج الانحدار اللوجستي النهائي. من المثير للدهشة ، على الرغم من الاستخدام الواسع النطاق للحفظ التطوري لتحديد أولويات المتغيرات للدراسة ، فإننا نجد فقط إثراءًا متواضعًا للنيوكلوتايد النيتروجين المرتبط بالسمات في المناطق المحفوظة.

استنتاج

لقد أنشأنا نسب الأرجحية للتعليقات التوضيحية الوظيفية التي من المرجح أن تحتوي بشكل كبير على تعدد الأشكال المرتبطة بالسمات ، بغرض تحديد أولويات نتائج GWAS لإجراء مزيد من الدراسات. بالإضافة إلى ذلك ، قمنا بتقدير التأثير النسبي والمجمع للتعليقات التوضيحية الجينومية المختلفة ، والتي قد تسهل طرق تحديد الأولويات المستقبلية عن طريق إضافة معلومات جوهرية.


مقدمة

سرطان الثدي مرض وراثي جزئيًا. الطفرات في العديد من الجينات عالية الاختراق بما في ذلك BRCA1 [1, 2], BRCA2 [3] ، وأخرى [4] ترتبط بارتفاع مخاطر الإصابة بسرطان الثدي بين حامليها وتفسر جزءًا بسيطًا من التوريث. حددت دراسات الارتباط على مستوى الجينوم (GWAS) أكثر من 180 تعدد أشكال النوكليوتيدات المفردة الشائعة (SNPs) المرتبطة بخطر الإصابة بسرطان الثدي [5،6،7،8،9،10،11،12،13،14،15،16، 17،18،19،20]. تم التعرف على غالبية هذه الأشكال المتعددة الأشكال في أصل أوروبي ومجموعات من أصول شرق آسيوية ، على الرغم من تحديد بعض أشكال تعدد الأشكال الفريدة في السكان الأمريكيين من أصل أفريقي [21] وفي سكان لاتينا [22 ، 23].

حددت العديد من دراسات GWAS تعدد أشكال النيوكلوتايد في 6q25 المرتبطة بمخاطر الإصابة بسرطان الثدي [13 ، 18 ، 20 ، 23 ، 24 ، 25 ، 26 ، 27] وكثافة التصوير الشعاعي للثدي [23 ، 27 ، 28 ، 29 ، 30]. حدد التقرير الأولي SNP في المنطقة بين الجينات ESR1 و CDCC170 في سكان شرق آسيا [24]. ثم تم تأكيد الموقع في مجموعات سكانية أخرى وتم تحديد العديد من المتغيرات الإضافية [11 ، 18 ، 25 ، 26 ، 31]. في الآونة الأخيرة ، حدد نهج لرسم الخرائط والوظيفية في هذا الموقع خمسة متغيرات مشتركة متميزة مرتبطة بخطر الإصابة بأنواع فرعية مختلفة من سرطان الثدي [27].

السكان اللاتينيون / اللاتينيون هم ثاني أكبر مجموعة عرقية في الولايات المتحدة [32] ومع ذلك لم يتم دراستهم في GWAS [33]. اللاتينيون هم مجموعة من أصول مختلطة مع مساهمات أسلاف أوروبيين وأمريكيين أصليين وأفارقة [34،35،36،37]. نظرًا لعدم وجود دراسات كبيرة عن سرطان الثدي لدى السكان الأمريكيين الأصليين ، فقد تحدد الدراسات في اللاتينيين المتغيرات الجديدة المرتبطة بسرطان الثدي التي تكون فريدة من نوعها أو أكثر شيوعًا في هذه الفئة من السكان. لقد استخدمنا سابقًا طريقة رسم الخرائط المختلطة للبحث عن مواقع التأثر بسرطان الثدي في اللاتينيات وحددنا منطقة كبيرة في 6q25 حيث ارتبط أصل أمريكي أصلي بانخفاض خطر الإصابة بسرطان الثدي [22]. بعد ذلك ، حددنا SNP (rs140068132) الذي كان شائعًا (تردد أليل ثانوي

0.1) فقط في اللاتينيات ذات الأصول الأمريكية الأصلية وكان مرتبطًا بانخفاض خطر الإصابة بسرطان الثدي ، وخاصة سرطان الثدي السلبي لمستقبلات هرمون الاستروجين (ER) ، وبكثافة تصوير الثدي الشعاعي المنخفضة [23]. ومع ذلك ، فإن المتغير الذي حددناه لم يفسر تمامًا المخاطر المرتبطة بالأصل الخاص بالمكان في 6q25 في اللاتينيات ، مما يشير إلى أن المتغيرات الأخرى قد تكون مسؤولة عن هذا الخطر. شرعنا في رسم خريطة دقيقة وتحديد المتغيرات الإضافية في 6q25 المرتبطة بخطر الإصابة بسرطان الثدي بين اللاتينيات.


نتائج

نظرة عامة على الطرق

يترك ذ تكون مسؤولية المرض على مقياس اللوغاريتم ، x تكون عامل خطر في وحدات الانحراف المعياري (SD) و ض يكون النمط الجيني لـ SNP (مشفر على أنه 0 أو 1 أو 2). تقدير MR للتأثير السببي لعامل الخطر على المرض 9 هو ( قبعة ب_ = قبعة ب_/ قبعة ب_) ، أين ب زي هو تأثير ض تشغيل ذ على مقياس اللوغاريتم (لوغاريتم نسبة الأرجحية ، logOR) ، ب zx هو تأثير ض تشغيل x، و ب س ص هو تأثير x تشغيل ذ خالية من الخلط من العوامل غير الوراثية (لاحظ ذلك ب س ص يمكن تفسيرها تقريبًا على أنها logOR انظر أدناه). SMR هو نهج MR مرن وقوي قادر على تقدير واختبار أهمية ب س ص باستخدام تقديرات ب zx و ب زي من عينات مستقلة 17. إذا كان هناك العديد من النيوكلوتايد (SNPs) المستقلة (أو شبه المستقلة) المرتبطة x وتأثير x تشغيل ذ سببية ، فكل شيء x- النيوكلوتايد المرتبطة بها تأثير على ذ عبر x (الشكل 1 أ). في هذه الحالة، ب س ص في أي من x-من المتوقع أن تكون SNPs المرتبطة متطابقة في حالة عدم وجود تعدد الأشكال 13،16،22 حيث أن جميع تأثيرات SNP على ذ بوساطة x (الشكل 1 ب). لذلك ، يمكن تحقيق زيادة القوة الإحصائية من خلال دمج تقديرات ب س ص من كل x- SNPs المرتبطة باستخدام نهج المربعات الصغرى المعمم (GLS) (الطرق). تطبق طريقة GSMR بشكل أساسي تحليل SMR لكل أداة SNP على حدة ، ثم تدمج ب س ص تقديرات جميع أدوات SNP بواسطة GLS ، مع مراعاة تباين أخذ العينات في كليهما ( hat b_) و ( قبعة ب_) لكل SNP و LD بين SNPs. من المهم ملاحظة أنه وفقًا لأحد الافتراضات الأساسية لـ MR 9 ، يجب استخدام SNPs المرتبطة بقوة بعامل الخطر كأدوات لتحليلات MR بما في ذلك GSMR. نوضح باستخدام عمليات المحاكاة (الملاحظة التكميلية 1) أنه إذا استخدمنا تعدد الأشكال المستقل المرتبط بالتعرض عند ص & lt 5 × 10 −8 ، لا يوجد تضخم في إحصائيات اختبار GSMR تحت الفرضية الصفرية التي ب س ص = 0 (الشكل التكميلي 1 أ) ، أن تقدير ب س ص بواسطة GSMR غير متحيز بموجب الفرضية البديلة ب س ص≠ 0 (الجدول التكميلي 1) ، وذلك ب س ص يساوي تقريبًا logOR (حيث OR هو تأثير عامل الخطر على المرض في الدراسة القائمة على الملاحظة دون التباس) (الشكل التكميلي 2). حسابات GSMR لـ LD إذا لم تكن أدوات SNP مستقلة تمامًا. يتضح هذا من خلال المحاكاة أنه في وجود LD ، تتم معايرة إحصاء الاختبار جيدًا تحت الصفر (الشكل التكميلي 1 ب) وأن تقدير ب س ص غير متحيز بموجب البديل (الجدول التكميلي 1). بالمقارنة مع الطرق الحالية التي تستخدم البيانات الموجزة لعمل الاستدلال السببي 12،13،16،18 ، فإن GSMR أكثر قوة كما هو موضح من خلال المحاكاة (الشكل التكميلي 3) لأن GSMR يفسر تباين أخذ العينات في كليهما ( hat b_) و ( قبعة ب_) بينما تفترض المناهج الأخرى ذلك ب zx يقدر بدون خطأ.

الاستفادة من عدة أدوات وراثية مستقلة (ض) لاختبار السببية. يظهر في اللوحة أ هو مثال تخطيطي إذا كان التعرض (x) له تأثير على النتيجة (ذ) ، أي أدوات (SNPs) مرتبطة سببيًا بها x سيكون لها تأثير على ذ، وتأثير x تشغيل ذ (ب س ص) في أي من SNPs من المتوقع أن تكون متطابقة. تم توضيح هذا بشكل أكبر في مثال لعبة على اللوحة ب أنه بموجب نموذج سببي ، بالنسبة للنماذج المتعددة النوكليوتيدات المرتبطة بـ x، التأثير المقدر لـ ض تشغيل ذ ( ( قبعة ب_)) يجب أن يتناسب خطيًا مع التأثير المقدر لـ ض تشغيل x ( ( قبعة ب_)) والنسبة بين الاثنين هي تقدير لتأثير الوساطة x تشغيل ذ، على سبيل المثال ، ( قبعة ب_ = قبعة ب_/ قبعة ب_)

تعدد الأشكال عامل محتمل مهم للارتباك يمكن أن يؤدي إلى تحيز التقدير وغالبًا ما ينتج عنه إحصاء اختبار متضخم في تحليل MR 9،10،13،19. نقترح طريقة (تسمى HEIDI-outlier) لاكتشاف تعدد الأشكال النيوكلوتايدية التي تكون فيها تقديرات ب س ص تختلف اختلافًا كبيرًا عن المتوقع في ظل النموذج السببي ، وإزالتها من تحليل GSMR (الطرق). تعتمد قوة اكتشاف SNP متعدد الاتجاهات على أحجام عينات مجموعات بيانات GWAS وانحراف ( hat b_) المقدرة في SNP متعدد الاتجاهات من النموذج السببي. لقد أظهرنا من خلال المحاكاة بناءً على نموذج سببي مع تعدد الأشكال أن قوة HEIDI-outlier عالية خاصة عندما تكون التأثيرات متعددة الاتجاهات كبيرة (الشكل التكميلي 4 أ). هناك بالتأكيد قيم شاذة متعددة الاتجاهات (على سبيل المثال ، تلك ذات التأثيرات الصغيرة جدًا) لم يتم اكتشافها بواسطة HEIDI-outlier. ومع ذلك ، لا يبدو أن هذه التأثيرات متعددة الاتجاهات غير المكتشفة تحيز تقدير GSMR (الشكل التكميلي 4 ب) ، على عكس التحيز الصغير في التقدير من انحدار Egger (MR-Egger) الذي يُعتقد أنه خالٍ من الخلط من تعدد الأشكال 13. تظهر نتائج المحاكاة أيضًا أن تقدير GSMR يبلغ ب س ص لا يختلف اختلافًا كبيرًا عن الصفر في نموذج متعدد الاتجاهات بدون تأثير سببي في وجود أو عدم وجود صعوبة في التعلم (الجدول التكميلي 2).

نقوم أيضًا بتطوير طريقة تقريبية (تسمى عناوين URL لـ mtCOJO) والتي تتطلب فقط بيانات موجزة لإجراء تحليل GWAS للنمط الظاهري المشروط على أنماط ظاهرية متعددة المتغيرات المشتركة (الطرق). الغرض من تطوير هذه الطريقة هو تقدير تأثير عامل الخطر على تعديل المرض لعوامل الخطر الأخرى (طرق الملاحظة التكميلية 2 الشكل التكميلي 5) ، مما يساعد على استنتاج ما إذا كان التأثير الهامشي لعامل الخطر على المرض يعتمد على عوامل أخرى. عوامل الخطر ، والتنبؤ بالتأثير المشترك لعوامل الخطر المتعددة على المرض. تجدر الإشارة إلى أن mtCOJO خالي من التحيز بسبب التأثير البيئي أو الجيني المشترك بين النمط الظاهري والمتغير المشترك كما هو موضح في Aschard et al. 23 (الشكل التكميلي 6).

آثار سبعة عوامل خطر صحية على الأمراض الشائعة

طبقنا الطرق لاختبار الارتباطات السببية بين سبعة عوامل خطر صحية والأمراض الشائعة باستخدام بيانات من دراسات كبيرة متعددة. عوامل الخطر هي مؤشر كتلة الجسم ، ونسبة الخصر إلى الورك المعدلة لمؤشر كتلة الجسم (WHRadjBMI) ، وكوليسترول HDL (HDL-c) ، و LDL-c ، والدهون الثلاثية (TG) ، وضغط الدم الانقباضي (SBP) ، وضغط الدم الانبساطي (DBP) . اخترنا عوامل الخطر هذه بسبب توافر بيانات GWAS على مستوى الملخص من عينات كبيرة (ن = 108،039–322،154) (الجدول التكميلي 3). وصلنا إلى بيانات BMI و WHRadjBMI و HDL-c و LDL-c و TG من GWAS 24،25،26 وبيانات SBP و DBP من المجموعة الفرعية لـ UK Biobank (UKB) 27 مع بيانات التنميط الجيني التي تم إصدارها في عام 2015. نحن تحديد SNPs على مستوى أهمية الجينوم على نطاق واسع (صGWAS & lt 5 × 10 –8) باستخدام خوارزمية التكتل (ص 2 عتبة = 0.05 وحجم النافذة = 1 ميجا بايت) المطبقة في PLINK 28 (الطرق). لاحظ أن طريقة GSMR تحسب LD المتبقية التي لم تتم إزالتها بواسطة تحليل التجميع. كانت هناك م = 84 و 43 و 159 و 141 و 101 و 28 و 29 SNPs لمؤشر كتلة الجسم و WHRadjBMI و HDL-c و LDL-c و TG و SBP و DBP ، على التوالي ، بعد التكتل. تعتبر أدوات SNP هذه مستقلة تقريبًا كما يتضح من توزيع درجات LD المحسوبة من الأدوات لكل سمة (الشكل التكميلي 7). قمنا فقط بتضمين التحليل SNPs شبه المستقلة لسهولة المقارنة المباشرة للنتائج من GSMR مع تلك من الطرق الأخرى التي لا تأخذ في الحسبان LD (على سبيل المثال ، MR-Egger). تشير نتيجة المحاكاة لدينا إلى أن اكتساب الطاقة من خلال تضمين تعدد الأشكال في LD محدود (الشكل التكميلي 8). علاوة على ذلك ، على الرغم من أن نهج GSMR يفسر صعوبة التعلم ، إلا أن تضمين العديد من أشكال تعدد الأشكال في متوسط ​​إلى مرتفع LD غالبًا ما ينتج عنه الخامس المصفوفة غير قابلة للعكس (طرق).

تم حساب بيانات GWAS على مستوى الملخص للأمراض من دراستين مجتمعتين مستقلتين مع أنماط وراثية على المستوى الفردي SNP ، أي أبحاث الوبائيات الوراثية حول صحة البالغين والشيخوخة 29 (GERA) (ن = 53991) والمجموعة الفرعية لـ UKB 27 (ن = 108،039). أدرجنا في التحليل 22 مرضًا شائعًا على النحو المحدد في بيانات GERA ، وأضفنا نمطًا ظاهريًا إضافيًا متعلقًا بالمراضة المشتركة عن طريق حساب عدد الأمراض التي تؤثر على كل فرد (أي عدد الأمراض) كمؤشر خام لقياس الحالة الصحية العامة لـ فرد (الجدول التكميلي 4). أجرينا تحليلات الارتباط على مستوى الجينوم للأنماط الظاهرية للمرض البالغ عددها 23 في GERA و UKB بشكل منفصل (الطرق). قمنا بتقييم عدم التجانس الجيني لمرض ما بين المجموعتين من خلال الارتباط الجيني (صز) تحليل باستخدام نهج انحدار درجات صعوبة التعلم ثنائي المتغير (LDSC) 30. تقديرات صز عبر جميع الأمراض تفاوتت من 0.75 إلى 0.99 بمتوسط ​​0.91 (الجدول التكميلي 4) ، مما يشير إلى تداخلات وراثية قوية للأمراض بين المجموعتين. لذلك قمنا بتحليل البيانات الخاصة بالمجموعتين لتعظيم الطاقة باستخدام نهج التحليل التلوي للتباين العكسي 31. نظرًا لخلو OR من تحيز التأكيد في دراسة الحالة والشواهد ، يمكن تقريب حجم تأثير SNP على المرض في عموم السكان من خلال دراسة الحالة والشواهد التي تفترض أن المرض في دراسة الحالة والشواهد يتم تعريفه بالمثل كما هو الحال في عامة السكان. لذلك ، يمكن تطبيق GSMR على البيانات التي تحتوي على تأثيرات SNP على عامل الخطر من دراسة قائمة على السكان وتأثيرات SNP على المرض من دراسة الحالة والشواهد المؤكدة ، ويجب تفسير التأثير المسبب التقديري لعامل الخطر على المرض على أنه في عموم السكان. لذلك قمنا بتضمين البيانات الموجزة للتحليل لـ 11 مرضًا من دراسات الحالات والشواهد المنشورة (ن = 18،759–184،305) (الجدول التكميلي 5). لم تكن تأثيرات SNP المقدرة والأخطاء القياسية (SE) للتنكس البقعي المرتبط بالعمر (AMD) متاحة في البيانات الموجزة 32 ، والتي تم تقديرها من ض- الإحصاء باستخدام نهج تقريبي (الملاحظة التكميلية 3).

طبقنا نهج HEIDI-outlier لإزالة تعدد الأشكال الذي أظهر تأثيرات متعددة الاتجاهات على كل من عامل الخطر والمرض ، انحرفًا بشكل كبير عن النموذج السببي (الطرق). تم تقدير ارتباطات LD بين تعدد الأشكال الزوجي من مخاطر تصلب الشرايين في المجتمعات (ARIC) 33 (ن = 7703 أفراد غير مرتبطين) يُنسب إلى 1000 جينوم (1000 جم). باستخدام مجموعات البيانات الكبيرة الموضحة أعلاه ، حددنا من تحليلات GSMR 45 ارتباطًا سببيًا مهمًا بين عوامل الخطر والأمراض (البيانات التكميلية 1 الشكل 2). لقد تحكمنا في معدل الخطأ العائلي (FWER) عند 0.05 بواسطة تصحيح Bonferroni لـ 231 اختبارًا (صGSMR العتبة = 2.2 × 10 4). لمقارنة الطرق ، أجرينا أيضًا التحليلات باستخدام MR-Egger 13 والطرق في Pickrell et al. 16 (البيانات التكميلية 2).

الارتباطات السببية المفترضة بين سبعة عوامل خطر قابلة للتعديل والأمراض الشائعة. تظهر نتائج تحليلات GSMR مع بيانات المرض أ من التحليل التلوي لدراستين مجتمعتين (GERA و UKB) و ب من دراسات الحالات والشواهد المستقلة المنشورة. تمثل الألوان أحجام التأثير (كما تم قياسها بنسب الأرجحية ، نسب الأرجحية) لعوامل الخطر على الأمراض ، واللون الأحمر لتأثيرات الخطر والأزرق للتأثيرات الوقائية. الآثار الهامة بعد التصحيح لـ 231 اختبارًا (صGSMR & lt 2.2 × 10 4) مع ORs (ص-القيم). التأثيرات ذات الأهمية الاسمية (صGSMR & lt 0.05) بعلامة "*"

السمنة والأمراض الشائعة

أظهرت نتائج تحليلات البيانات المجتمعية أن مؤشر كتلة الجسم كان له تأثيرات مخاطر على T2D (نسبة الأرجحية ، OR = 3.29) ، مرض ارتفاع ضغط الدم (OR = 1.85) ، فطار جلدي (أي سعفة) (OR = 1.67) ، أمراض الأوعية الدموية الطرفية ( PVD) (OR = 1.59) ، هشاشة العظام (OR = 1.50) ، عسر شحميات الدم (OR = 1.37) ، الربو (OR = 1.35) ، والأمراض القلبية الوعائية (OR = 1.30). تم تأكيد تأثيرات مخاطر مؤشر كتلة الجسم على T2D و CVD وأمراض ارتفاع ضغط الدم بواسطة RCT 35 (البيانات التكميلية 1) ، مما يوفر إثبات صحة من حيث المبدأ. تفسير OR(مؤشر كتلة الجسم → T2D) = 3.29 هو أن الأشخاص الذين يكون مؤشر كتلة الجسم لديهم 1 SD (SD = 3.98 لمؤشر كتلة الجسم لدى الرجال الأوروبيين المقابل لـ

12 كجم من الوزن للرجال بقامة 175 سم ، انظر الجدول التكميلي 6 للحصول على SD لعوامل الخطر) فوق المتوسط ​​السكاني سيكون له زيادة 3.29 مرة في خطر الإصابة بـ T2D مقارنة بانتشار السكان (

8٪ في الولايات المتحدة). من المثير للاهتمام أن نلاحظ أن تقدير ب س ص في ال TCF7L2 انحرف الموضع بشدة عن تلك الموجودة في المواقع الأخرى (الشكل 3) ، مما يشير إلى أن TCF7L2 SNP له تأثيرات متعددة الاتجاه على مؤشر كتلة الجسم و T2D. ال TCF7L2 تم اكتشاف SNP على أنه خارج عن طريق طريقة HEIDI-outlier وإزالته من تحليل GSMR.بالإضافة إلى ذلك ، فإن تأثير خطر مؤشر كتلة الجسم على الربو يتماشى مع نتيجة دراسة حديثة بالرنين المغناطيسي (باستخدام درجة الأليل الجيني المرجح كأداة) التي تشير إلى أن ارتفاع مؤشر كتلة الجسم يزيد من خطر الإصابة بالربو في مرحلة الطفولة 36. علاوة على ذلك ، حددنا التأثير الوقائي لمؤشر كتلة الجسم ضد هشاشة العظام (OR = 0.68) ، بما يتوافق مع الارتباطات المرصودة في الدراسات السابقة 37 ، 38. كان تأثير المخاطر المقدرة لمؤشر كتلة الجسم على T2D في بيانات المجتمع (OR = 3.29) مشابهًا لتلك الموجودة في بيانات التحكم في الحالة (OR = 3.12 ، الشكل 2 ب والبيانات التكميلية 1). لاحظنا أيضًا تأثير خطر قوي لمؤشر كتلة الجسم على مرض الشريان التاجي (CAD) في بيانات الحالة والشواهد (OR = 1.70) ، بما يتماشى مع تأثير خطر مؤشر كتلة الجسم على الأمراض القلبية الوعائية (OR = 1.30) في بيانات المجتمع.

تحليل GSMR لاختبار تأثير مؤشر كتلة الجسم على T2D مع وبدون ترشيح القيم المتطرفة متعددة الاتجاهات. تظهر في أ و ب هي مؤامرات أحجام التأثير والارتباط ص- قيم جميع الأدوات الجينية من GWAS لمؤشر كتلة الجسم مقابل تلك الخاصة بـ T2D. تظهر في ج هي مؤامرة ب س ص مقابل GWAS ص- قيمة مؤشر كتلة الجسم عند كل متغير جيني. تظهر في د, ه، و F هي المخططات للأدوات بعد إزالة القيم المتطرفة متعددة الاتجاهات بواسطة نهج HEIDI-outlier (انظر طرق للحصول على تفاصيل نهج HEIDI-outlier). أشرطة الخطأ في أ و د تمثل الأخطاء المعيارية. الخطوط المتقطعة في ب و ه تمثل عتبة GWAS ص-قيمة 5 × 10 −8. الإحداثيات في ب, ج, ه، و F يتم اقتطاعها عند 50 للحصول على عرض بياني أفضل

تعتبر زيادة الوزن عامل خطر للنتائج الصحية العامة كما يتضح من تأثيرها الخطير على عدد الأمراض ( ( hat b_)) = 0.41 )) في بيانات المجتمع. السؤال إذن كيف ب س ص يجب تفسير عدد الأمراض. لقد أظهرنا في الشكل التكميلي 9 أن تقدير ب س ص بالنسبة لحالة المرض (النمط الظاهري ثنائي التفرع للإشارة إلى ما إذا كان الفرد مصابًا بأي من الأمراض الـ 22) كان مشابهًا جدًا لذلك الخاص بعدد الأمراض. على الرغم من أن حالة المرض وعدد الأمراض هما نمطين ظاهريين متميزين وأن تحليل عدد الأمراض أكثر قوة ، لسهولة التفسير ، ب س ص يمكن تفسير عدد الأمراض تقريبًا على أنه logOR لحالة المرض. ومن ثم ، ( قبعة ب_ = 0.41 ) بالنسبة إلى عدد الأمراض يكافئ تقريبًا OR = 1.51 لحالة المرض ، مما يعني أن زيادة مؤشر كتلة الجسم بمقدار 1 SD ستزيد من احتمالية التأثر بأي من الأمراض الـ 22 بعامل

1.5 بالإضافة إلى ذلك ، وجدنا أن تأثيرات WHRadjBMI ومؤشر كتلة الجسم على المرض كانت متوافقة إلى حد كبير (الشكل التكميلي 10 أ ، الملاحظة التكميلية 4).

مستويات الكوليسترول في الدم والأمراض الشائعة

LDL-c هو عامل خطر مسبب معروف لـ CAD كما أكدته تجارب معشاة ذات شواهد 6،7. وجدنا أن LDL-c له تأثير خطر كبير على عسر شحميات الدم (OR = 3.36) و CVD (OR = 1.22) في بيانات المجتمع ، و CAD (OR = 1.50) في بيانات الحالة والشواهد (الشكل 2). كان لـ TG تأثير خطر كبير على عسر شحميات الدم (OR = 2.09) ، ومرض ارتفاع ضغط الدم (OR = 1.24) و CVD (OR = 1.14) في بيانات المجتمع ، و CAD (OR = 1.33) في بيانات الحالة والشواهد (الشكل 2) ). كانت تأثيرات TG على الأمراض متوافقة إلى حد كبير مع تلك الخاصة بـ LDL-c (الشكل التكميلي 10 ب) ، على الرغم من الارتباط المظهري المتواضع بين السمتين (ص ص = 0.19 في بيانات ARIC). كان لكل من LDL و TG تأثيرات خطر كبيرة على عدد الأمراض في معطيات المجتمع (الشكل 2).

كان هناك مثال آخر حيث كشف نهج HEIDI-outlier عن تأثيرات قوية بسبب تعدد الأشكال. كان تأثير LDL-c على مرض الزهايمر (AD) مهمًا للغاية دون تصفية HEIDI الخارجية (OR = 1.35 و صGSMR = 7.8 × 10 16) (الشكل 4). أشار تحليل HEIDI-outlier إلى 16 SNPs ، 12 منها تقع في APOE منطقة الجينات (LD ص 2 من بين هذه SNPs & lt 0.05) وكلها لها تأثيرات معنوية عالية على كل من LDL-c و AD. يؤدي استبعاد SNPs هذه إلى إجراء اختبار GSMR أكثر تحفظًا لأنه إذا كانت هناك علاقة سببية حقيقية لزيادة LDL-c مع AD ، فيجب أن يظل اختبار GSMR مهمًا استنادًا إلى أدلة من LDL-c الأخرى المرتبطة SNPs. في الواقع ، بعد إزالة 16 تعدد الأشكال SNPs ، لم يكن التأثير المقدر لـ LDL-c على AD مهمًا (OR = 1.03 ، صGSMR = 0.47). ومع ذلك ، تتجمع الإشارات متعددة الاتجاهات في APOE يستحق الموضع مزيدًا من التحقيق (الشكل التكميلي 11).

تحليل GSMR لاختبار تأثير LDL-c على مرض الزهايمر (AD) مع القيم الشاذة متعددة الاتجاهات وبدونها. تظهر في أ و ب هي المؤامرات ذات الأحجام والتأثيرات ص- قيم مجموعة الأدوات الأصلية من GWAS لـ LDL-c مقابل تلك الخاصة بـ AD. تظهر في ج هي مؤامرة ب س ص مقابل GWAS ص- قيمة LDL-c في كل متغير جيني. تظهر في د, ه، و F هي المخططات للأدوات بعد إزالة القيم المتطرفة متعددة الاتجاهات بواسطة نهج HEIDI-outlier (انظر طرق للحصول على تفاصيل نهج HEIDI-outlier). أشرطة الخطأ في أ و د تمثل الأخطاء المعيارية. الخطوط المتقطعة في ب و ه تمثل عتبة GWAS ص-قيمة 5 × 10 −8. الإحداثيات في ب, ج, ه، و F يتم اقتطاعها عند 50 للحصول على عرض بياني أفضل

حددنا تأثيرًا وقائيًا كبيرًا لـ LDL-c ضد T2D (OR = 0.84 ، صGSMR = 1.1 × 10 4) في بيانات الحالة والشواهد ، والتي قد تفسر الملاحظة من دراسة سابقة أن خفض LDL-c باستخدام العلاج بالستاتين يرتبط بزيادة طفيفة في خطر الإصابة بـ T2D 39. لم يكن التقدير كبيرًا في بيانات المجتمع (على الأرجح بسبب نقص الطاقة) ولكن في اتجاه ثابت (OR = 0.95 ، صGSMR = 0.08). بالنظر إلى الارتباط الجيني القوي بين مجموعتي بيانات T2D (صز = 0.98 ، SE = 0.062) كما تم تقديره بواسطة تحليل LDSC ثنائي المتغير 30 ، قمنا بتحليل مجموعتي البيانات باستخدام نهج التباين العكسي ، وقمنا بإجراء تحليل GSMR لإعادة تقدير تأثير LDL-c على T2D باستخدام بيانات التحليل التلوي T2D. كان حجم التأثير معنويًا للغاية (OR = 0.88 ، صGSMR = 3.0 × 10 −7 ).

عواقب HDL-c على النتائج الصحية مثيرة للجدل 40. تشير الدراسات القائمة على الملاحظة إلى أن HDL-c يرتبط بانخفاض خطر الإصابة بـ CAD 41 ، في حين تُظهر الدراسات الجينية أن تأثير HDL-c على CAD ليس مشروطًا بشكل كبير على LDL-c و TG 20،21. وجدنا أن HDL-c له تأثيرات وقائية ضد T2D (OR = 0.83) ، وأمراض ارتفاع ضغط الدم (OR = 0.88) ، وأمراض القلب والأوعية الدموية (OR = 0.88) وعدد الأمراض (OR = 0.94) في بيانات المجتمع ، و T2D (OR = 0.81) ) و CAD (OR = 0.84) في حالة بيانات التحكم. ومع ذلك ، لم تظل أي من هذه التأثيرات مشروطة بشكل كبير على عوامل الخطر الأخرى ، مما يشير إلى أن التأثيرات الهامشية لـ HDL-c على الأمراض تعتمد على عوامل الخطر الأخرى (انظر أدناه للحصول على تفاصيل النتائج من التحليلات الشرطية). تأثير HDL-c على عسر شحميات الدم سلبي ( ( قبعة ب_). = - 0.21 ) و OR = 0.81) ، وهو أمر واضح لأن أحد المعايير التشخيصية لخلل شحميات الدم هو انخفاض مستوى HDL-c بشكل غير طبيعي. بالإضافة إلى ذلك ، كان هناك تأثير خطر كبير (OR = 1.36) من HDL-c على الضمور البقعي المرتبط بالعمر (AMD) في بيانات الحالة والشواهد ، بما يتفق مع نتيجة دراسة MR الحديثة 42. إن الارتباطات بين الدهون و AMD مثيرة للجدل والنتائج من الدراسات القائمة على الملاحظة غير متسقة 43. تدعم نتائجنا الملاحظات التي تشير إلى أن زيادة HDL-c مرتبطة بزيادة مخاطر الإصابة بـ AMD 43،44،45. وتجدر الإشارة إلى أن LDL-c و TG يبدو أنهما مرتبطان أيضًا بـ AMD قبل ترشيح HEIDI-outlier لكن التأثيرات لم تكن مهمة بعد ترشيح HEIDI الخارجي (الشكل التكميلي 12) ، مما يعني أن الارتباط المرصود بين LDL-c ( أو TG) و AMD في الدراسات الوبائية 43 قد يكون بسبب تعدد الأشكال.

ضغط الدم والأمراض الشائعة

حددنا آثار مخاطر كبيرة لـ SBP على مرض ارتفاع ضغط الدم (OR = 4.38) ، وعسر شحميات الدم (OR = 1.50) ، وأمراض القلب والأوعية الدموية (OR = 1.40) وعدد الأمراض (OR = 1.43) في بيانات المجتمع ، و CAD (OR = 1.73) في بيانات التحكم في الحالة. كانت نتائج SBP و DBP متوافقة للغاية (الشكل 2 التكميلي الشكل 10 ج). من المعروف أن تأثير خطر ضغط الدم على أمراض القلب التاجية سببي كما أكدته التجارب المعشاة ذات الشواهد 46،47. لاحظ أنه من المحتمل أن تكون قوة تحليل GSMR لضغط الدم محدودة نظرًا لقلة عدد الأدوات المستخدمة (م & اللفتنانت 30).

التأثيرات المشروطة لعوامل الخطر على الأمراض

لقد حددنا (من التحليلات أعلاه) 45 ارتباطًا سببيًا مهمًا بين عوامل الخطر الصحية والأمراض (الشكل 2). نظرًا لأن عوامل الخطر ليست مستقلة ، فقد سعينا أيضًا لتقدير تأثير عامل الخطر على تعديل المرض لعوامل الخطر الأخرى. للقيام بذلك ، قمنا أولاً بالتحقيق في الارتباطات السببية بين عوامل الخطر. اكتشفنا 19 ارتباطًا مهمًا من خلال تحليل GSMR من بين عوامل الخطر السبعة بمعدل FWER قدره 0.05 (صGSMR & lt 1.2 × 10 −3) (الشكل التكميلي 13). على سبيل المثال ، كان لمؤشر كتلة الجسم تأثير سلبي كبير على HDL-c ( ( hat b_ = - 0.29 )) ، وتأثيرات إيجابية على TG ( ( hat b_) = 0.28 )) و DBP ( ( hat b_ = 0.15) ).

لقد طورنا نهجًا يسمى mtCOJO (عناوين URL للتحليل الشرطي والمشترك متعدد السمات) لإجراء تحليل GWAS لتكييف السمات على السمات الأخرى باستخدام بيانات ملخص GWAS (الطرق التكميلية الشكل 5). ثم أعدنا تشغيل تحليل GSMR باستخدام بيانات ملخص GWAS المعدلة من تحليل mtCOJO (الطرق). يتطلب تحليل mtCOJO تقديرات ب س ص من عوامل الخطر المتغيرة على عامل الخطر المستهدف والمرض ، صز من بين عوامل الخطر المتغيرة ، التوريث القائم على SNP ( (h _ << mathrm>> ^ 2 )) لعوامل الخطر المتغيرة ، وتباين أخذ العينات بين تأثيرات SNP المقدرة من العينات المتداخلة ، والتي يمكن حسابها كلها من البيانات الموجزة (الطرق التكميلية الجداول 7-10). بالنظر إلى نتائج GSMR المماثلة بين مؤشر كتلة الجسم و WHRadjBMI وبين SBP و DBP (الشكل التكميلي 10) ، لم نقم بتضمين DBP و WHRadjBMI في التحليل الشرطي لتجنب التصحيح الزائد.

كانت نتائج التحليلات الشرطية متوافقة إلى حد كبير مع تلك التي تم الحصول عليها من التحليلات غير المشروطة (الشكل 5 ، الجدول التكميلي 11) ، مما يشير إلى أن معظم التأثيرات الهامشية مستقلة عن عوامل الخطر الأخرى التي تم تحليلها في هذه الدراسة. التكييف على عوامل الخطر الأخرى ، كان SBP و LDL-c ومؤشر كتلة الجسم عوامل الخطر الرئيسية الثلاثة لـ CAD ، وكان مؤشر كتلة الجسم لا يزال عامل خطر كبير لـ T2D والتأثير الوقائي لـ LDL-c على T2D ظل دون تغيير إلى حد كبير (الشكل التكميلي 14). ). نوضح أعلاه أن تحليلات GSMR حددت تأثيرات وقائية كبيرة لـ HDL-c ضد CVD و CAD و T2D وارتفاع ضغط الدم (الشكل التكميلي 15). ومع ذلك ، أصبحت جميع التأثيرات تكييفًا غير مهم على المتغيرات المشتركة (على سبيل المثال ، مؤشر كتلة الجسم ، LDL-c ، TG ، و SBP) ، مما يشير إلى أن التأثيرات الهامشية لـ HDL-c على الأمراض ليست مستقلة عن المتغيرات المشتركة بسبب ثنائية الاتجاه الارتباطات المسببة بين HDL-c وعوامل الخطر الأخرى كما هو موضح في الشكل التكميلي 13. من الصعب التمييز فيما إذا كانت تأثيرات HDL-c على الأمراض تتوسطها أو تحركها المتغيرات المشتركة (الشكل التكميلي 16) بسبب شبكة ارتباط معقدة بين عوامل الخطر والأمراض (الشكل التكميلي 14). ومع ذلك ، قد يكون هناك استثناء ، أي الارتباط بين HDL-c و AMD ، لأن HDL-c هو الخطر الوحيد الذي أظهر تأثيرًا كبيرًا على AMD (OR = 1.36 مع صGSMR = 5.9 × 10 −16) وظل حجم التأثير دون تغيير إلى حد كبير وتكييف شديد الأهمية على المتغيرات المشتركة (OR الشرطي = 1.36 مع صGSMR = 5.1 × 10 13). نستنتج أن HDL-c من المحتمل أن يكون عامل خطر مباشر لـ AMD وأن حجم التأثير مستقل عن عوامل الخطر المتغيرة التي تم تحليلها في هذه الدراسة.

GSMR مقابل GSMR المشروط. معروضة نتائج تحليلات GSMR مقارنةً بتحليلات GSMR الشرطية. في تحليل GSMR الشرطي ، تم تقدير حجم تأثير كل عامل خطر على المرض على عوامل الخطر الأخرى (انظر طرق للحصول على تفاصيل الطريقة الشرطية). "المجتمع": بيانات GWAS المرضية من التحليل التلوي للدراستين المجتمعية. "مراقبة الحالة": بيانات GWAS المرضية من دراسات الحالة والشواهد المنشورة المستقلة. باللون الرمادي هي الجمعيات التي لا تمر بامتداد ص- عتبة القيمة 2.2 × 10 4 في التحليل الشرطي

بالنظر إلى التقديرات من تحليلات GSMR المشروطة (الشكل 5 الجدول التكميلي 11) ، يمكننا استخدام نهج تقريبي لحساب التأثير الكلي لعوامل الخطر المتعددة على المرض ، أي ( سجل يسار (<< mathrm)>> right) = <[x_i log left (<< mathrm> _i> right)]> ). هنا مثال افتراضي. إذا زادت جميع عوامل الخطر بمقدار 1 SD (أي ،

19 مم زئبق لـ SBP) ، سيكون لدينا خطر متزايد من

2.3 أضعاف إلى T2D (ه 1.01 - 0.17) ، و 4.5 أضعاف إلى CAD (ه 0.41+0.47+0.14+0.48 ).

تأثيرات الأنماط الظاهرية الأخرى على الأمراض

بعد تحديد عدد من الارتباطات السببية بين سبعة عوامل خطر قابلة للتعديل والأمراض الشائعة ، سعينا بعد ذلك إلى اختبار ما إذا كانت هناك ارتباطات مسببة بين الأنماط الظاهرية والأمراض الأخرى. قمنا بتضمين سمتين في التحليل ، الطول 48 وسنوات الدراسة 49 (EduYears) ، حيث كان هناك عدد كبير من الأدوات نظرًا لأحجام عينة GWAS الكبيرة. اخترنا 811 و 119 تعدد الأشكال شبه المستقلة على مستوى الجينوم (GWS) للارتفاع و EduYears ، على التوالي ، باستخدام تحليل التكتل (الطرق). العتبة صGSMR بعد تصحيح Bonferroni كان تصحيح 7.6 × 10 4 لـ 66 اختبارًا. أعطانا العدد الكبير من أدوات الارتفاع قوة كافية لاكتشاف تأثير صغير (الشكل 6 ، الجدول التكميلي 12 ، الملاحظة التكميلية 5).

آثار الطول والتحصيل العلمي على الأمراض الشائعة. تظهر نتائج تحليلات GSMR مع بيانات المرض أ من التحليل التلوي لدراسات GERA و UKB و ب من دراسات الحالات والشواهد المستقلة المنشورة. تمثل الألوان أحجام التأثير (كما تم قياسها بنسب الأرجحية ، نسب الأرجحية) لعوامل الخطر على الأمراض ، واللون الأحمر لتأثيرات الخطر والأزرق للتأثيرات الوقائية. الآثار الهامة بعد التصحيح للاختبارات المتعددة (صGSMR & lt 7.6 × 10 4) مع ORs (ص-القيم). التأثيرات ذات الأهمية الاسمية (صGSMR & lt 0.05) بعلامة "*"

أظهرت نتائجنا أيضًا أن EduYears كان له تأثيرات وقائية ضد جميع الأمراض تقريبًا (الشكل 6 والجدول التكميلي 12). أظهر تأثيرًا وقائيًا ضد PVD (OR = 0.54) ، وأمراض ارتفاع ضغط الدم (OR = 0.62) ، و T2D (OR = 0.64) ، وخلل شحميات الدم (OR = 0.71) و CVD (OR = 0.73) في بيانات المجتمع ، و RA (OR = 0.44) ، AD (OR = 0.61) و CAD (OR = 0.63) في حالة بيانات التحكم. كما أظهر تأثيرًا وقائيًا مهمًا على عدد الأمراض (OR = 0.74) ، مما يشير إلى أن التحصيل العلمي يحمي النتائج الصحية العامة. يتوافق التأثير الوقائي لـ EduYears ضد AD مع الارتباط الملحوظ من الدراسات الوبائية 50. من ناحية أخرى ، أظهر EduYears تأثيرًا قويًا للمخاطر على اضطراب طيف التوحد (OR = 2.30) (الملاحظة التكميلية 6) ، والذي لا يتأثر بقيم SNP المتطرفة (الشكل التكميلي 17) ويتوافق مع التقدير الإيجابي للارتباط الجيني (ص ز = 0.28، SE = 0.038) من تحليل انحدار درجات صعوبة التعلم ثنائي المتغير 30.

تحليل GSMR العكسي

من المهم ملاحظة أنه من غير المحتمل تفسير الارتباطات المسببة المحددة من تحليلات GSMR أعلاه من خلال السببية العكسية لسببين. أولاً ، كان الأفراد المستخدمون في GWAS لعوامل الخطر مستقلين عن الأفراد المستخدمين في GWAS للأمراض (الاستثناء الوحيد هو أن مجموعة بيانات GWAS لضغط الدم كانت جزءًا من بيانات GWAS للأمراض المجتمعية). ثانيًا ، إذا كانت الارتباطات المعروضة أعلاه مدفوعة بالسببية العكسية ، فإننا نتوقع رؤية إشارات ارتباط قوية للأدوات مع الأمراض ، وهو ما لا يحدث كما هو موضح في الشكل التكميلي 18 ، وهي فكرة لا تختلف كثيرًا عن تحليل عدم التماثل التي تم استخدامها لاستنتاج السببية في دراسة سابقة 16،22. ومع ذلك ، من المثير للاهتمام التحقيق في التغيرات في عوامل الخطر بعد تطور الأمراض. للقيام بذلك ، اخترنا أدوات الأمراض من بيانات GWAS الخاصة بالمرض (أي GWS SNPs للمرض ، ومن ثم كانت الأدوات المستخدمة في تحليل GSMR العكسي مختلفة عن تلك المستخدمة في تحليل GSMR الأمامي). يتم معايرة المعدل الإيجابي الخاطئ لـ GSMR العكسي جيدًا كما يتضح من المحاكاة تحت الصفر أنه لا يوجد تأثير عكسي (الشكل التكميلي 19). أجرينا تحليل GSMR العكسي لعوامل الخطر والأمراض التي كان لها ارتباط كبير في تحليل GSMR الأمامي أعلاه (الملاحظة التكميلية 7). حددنا 10 تأثيرات عكسية كبيرة (أي تأثير المرض على عامل الخطر) في بيانات المجتمع و 4 في بيانات الحالات والشواهد بمعدل FWER قدره 0.05 (صعكس- GSMR & lt 1.0 × 10 −3) (الجدول التكميلي 13). كانت تقديرات التأثيرات العكسية صغيرة جدًا مقارنةً مع تلك الخاصة بالتأثيرات المستقبلية. لتجنب اختبار ضعيف القوة ، قمنا بتقييد تحليل GSMR العكسي للأمراض التي تحتوي على أكثر من 10 أدوات. بالنظر إلى حقيقة أن بعض التقديرات الصغيرة للتأثيرات العكسية كانت كبيرة للغاية (الجدول التكميلي 13) ، فمن غير المحتمل أن يكون الاختلاف الكبير في حجم التأثير المقدر بين التحليلين الأمامي والعكس بسبب نقص القوة في التحليل العكسي . أكدنا كذلك عن طريق المحاكاة أن تقدير GSMR لـ ب س ص غير متحيز بغض النظر عن حجم العينة للتعرض (الشكل التكميلي 20). ومن المثير للاهتمام ، أنه كانت هناك حالتان حيث كانت التأثيرات المقدرة للأمام والعكس في اتجاهين متعاكسين ، أي ( hat b_<>> إلى < mathrm> 2 < mathrm>)> = 1.19 ) و ( قبعة ب_<>> 2 < mathrm> إلى < mathrm>)> < mathrm <= >> -0.07 يسار (

> حق) ) ( قبعة ب_<>> إلى < mathrm>)> = 0.32 ) و ( قبعة ب_<>> إلى < mathrm>)> = - 0.03 ) ( يسار (

> right) ) ، مما يعني أنه على الرغم من أن مؤشر كتلة الجسم هو عامل خطر للمرضين ، فإن المرضى الذين أصيبوا بالمرضين قد يميلون إلى فقدان الوزن.


2 المعالجة المسبقة للبيانات

  • ملفات .ped and.map: يحتوي ملف The.ped على معلومات عن كل مشارك في الدراسة بما في ذلك معرف العائلة ومعرف المشارك ومعرف الأب ومعرف الأم والجنس والنمط الظاهري والنمط الجيني الكامل المكتوب. هنا ، كل SNP ثنائي الأليلات (على سبيل المثال ، لوحظ اثنان فقط من النيوكليوتيدات في أي SNP معين عبر المشاركين في الدراسة) ويتم ترميزها كزوج من النيوكليوتيدات (A ، C ، T ، أو G).والجدير بالذكر أن الترتيب في الزوج غير مفيد بمعنى أن الأليلات الأولى المدرجة لكل من النيوكليوتيدات SNPs ليست بالضرورة على نفس الكروموسوم. يحتوي ملف الخريطة على صف لكل SNP مع rsNumber (SNP) والكروموسوم المقابل (chr) والإحداثيات (BPPos) بناءً على بناء الجينوم الحالي.
  • ملفات .bim و .bed و.fam: يحتوي ملف .bim على نفس المعلومات مثل ملف الخريطة بالإضافة إلى الأليلين الملاحظين في كل SNP (A1 و A2) من ملف .ped. يحتوي على صف لكل SNP وستة أعمدة ، تحتوي على معلومات عن عدد الكروموسوم ، ورقم rs ، والمسافة الجينية ، ومعرف الموضع ، والأليل 1 ، والأليل 2. يحتوي الملف .bed على نسخة ثنائية من بيانات النمط الجيني. هذا هو الأكبر من بين الملفات الثلاثة لأنه يحتوي على كل SNP في الدراسة ، بالإضافة إلى التركيب الوراثي في ​​SNP هذا لكل فرد. يحتوي ملف .fam على معلومات تعريف المشارك ، بما في ذلك صف لكل فرد وستة أعمدة ، تقابل نفس الأعمدة الموصوفة لملف .ped باستثناء بيانات النمط الجيني. لاحظ أنه لا تحتوي كل هذه الأعمدة على معلومات فريدة. بمعنى ، في دراسة مستندة إلى السكان للأفراد غير المرتبطين ، سيكون "رقم معرف العائلة" و "رقم الهوية الفردية" متماثلين.
  • ملف البيانات السريرية: عادةً ما يتوفر ملف ascii.txt أو ملف csv إضافي ، والذي يتضمن بيانات إكلينيكية عن كل موضوع دراسة. تمثل صفوف هذا الملف كل موضوع ، وتتوافق الأعمدة مع المتغيرات المشتركة والأنماط الظاهرية المتاحة. قد يكون هناك تكرار في هذا الملف والبيانات الواردة في الأعمدة المسماة "الجنس" و "النمط الظاهري" في ملف .fam.

2.1 قراءة البيانات وتنسيقها في R (الخطوة 1)

في مثال البيانات المقدمة ، تتوفر معلومات التركيب الوراثي لـ 861،473 تعدد الأشكال عبر ن = 1401 فردًا لديهم بيانات النمط الظاهري المتاحة.

كما هو موضح في الشكل 1 ، بمجرد أن نقرأ في التركيب الوراثي والمعلومات السريرية ، نكون مستعدين للمضي قدمًا في الخطوات التالية للمعالجة المسبقة لبيانات GWA. يتضمن ذلك مرحلتين من تصفية البيانات ، على مستوى SNP ومستوى العينة ، على التوالي. تم وصف كل منها بمزيد من التفصيل في النصوص التالية ، مصحوبة برمز R المناسب للتنفيذ. نلاحظ مرة أخرى أن ترتيب التحليل قد يختلف اعتمادًا على ما إذا كان يتم إجراء تحليل GWA واحد (كما هو موضح هنا) أو يقوم المحلل بإعداد النتائج ليتم دمجها في تحليل تلوي أكبر يتطلب تنسيق البيانات عبر دراسات متعددة. في الحالة الأخيرة ، قد يتم استبعاد خطوات التصفية التالية (الخطوات 2 و 3 و 4) أو تنفيذها مركزيًا بعد التحليل (الخطوتان 7 و 8) حيث يتم دمج بيانات مستوى الملخص عبر الدراسات.

2.2 ترشيح مستوى تعدد الأشكال أحادي النوكليوتيدات - الجزء 1 (الخطوة 2)

  • تصفية على مستوى SNP: معدل المكالمة. يُعرَّف معدل الاستدعاء لـ SNP معين على أنه نسبة الأفراد في الدراسة التي لا تكون معلومات SNP المقابلة لها مفقودة. في المثال التالي ، نقوم بالتصفية باستخدام سعر مكالمة 95%، مما يعني أننا نحتفظ بـ SNPs التي يوجد لها أقل من 5% بيانات مفقودة. نقاط قطع أكثر صرامة (على سبيل المثال ، أقل من 5%) في إعدادات عينة أصغر.
  • التصفية على مستوى SNP: تردد أليل ثانوي (MAF). درجة كبيرة من التجانس في SNP معين عبر المشاركين في الدراسة ينتج بشكل عام قوة غير كافية لاستنتاج علاقة ذات دلالة إحصائية بين SNP والسمات قيد الدراسة. يمكن أن يحدث هذا عندما يكون لدينا MAF صغير جدًا بحيث يكون لدى الغالبية العظمى من الأفراد نسختان من الأليل الرئيسي. هنا ، نقوم بإزالة SNPs التي يكون فيها MAF أقل من 1%. في بعض الحالات ، لا سيما إعدادات العينة الصغيرة ، تكون نقطة القطع 5% يتم تطبيقه.

في مثال البيانات المقدم ، نقوم بتصفية 203،287 SNPs بناءً على سعر المكالمة & lt0.95 و / أو MAF & lt0.01.

2.3 التصفية على مستوى العينة (الخطوة 3)

  • التصفية على مستوى العينة: سعر المكالمة. على غرار التصفية على مستوى SNP استنادًا إلى معدل المكالمة ، فإننا نستبعد الأفراد الذين يفتقدون لبيانات النمط الجيني عبر أكثر من نسبة محددة مسبقًا من SNPs المكتوبة. يشار إلى هذه النسبة من النواقص عبر SNPs على أنها معدل استدعاء العينة ، ونطبق عتبة 95%. أي الأفراد الذين فقدوا بيانات التركيب الجيني لأكثر من 5% تتم إزالة SNPs المكتوبة. يتم إنشاء كائن النمط الجيني SnpMatrix الجديد ذو البعد المنخفض ، والذي يتضمن هذا المرشح.
  • التصفية على مستوى العينة: تغاير الزيجوت. يشير تغاير الزيجوت إلى وجود كل من الأليلين في SNP معين داخل الفرد. من المتوقع أن يحدث هذا في إطار HWE باحتمال 2ص∗(1 − ص)، أين ص هو تردد الأليل السائد في ذلك SNP (بافتراض SNP ثنائي الأليلات). قد يكون تغاير الزيجوت الزائد عبر تعدد أشكال تعدد الأشكال داخل الفرد مؤشراً على ضعف جودة العينة ، بينما يمكن أن يشير عدم تغاير الزيجوت إلى زواج الأقارب أو البنية التحتية الأخرى في ذلك الشخص 23. وهكذا ، فإن العينات ذات معامل زواج الأقارب |F|=(1 − ا/ه) تتم إزالة & gt 0.10 ، حيث ا و ه هي على التوالي التهم المرصودة والمتوقعة من تعدد الأشكال متغاير الزيجوت داخل الفرد. لاحظ أننا نحسب الأعداد المتوقعة لكل فرد بناءً على تعدد الأشكال المرصودة لهذا الفرد.

التصفية على مستوى العينة: الارتباط الخفي ، والتكرارات ، والهوية الجنسية. غالبًا ما تقتصر دراسات الأتراب المستندة إلى السكان على الأفراد غير المرتبطين ، ويفترض نهج النمذجة الخطية المعمم الموصوف في الخطوة 7 (تحليل الارتباط لنماذج SNPs المكتوبة) فيما بعد الاستقلال عبر الأفراد. يتم توفير مزيد من المناقشة حول هياكل البيانات البديلة وأدوات التحليل المرتبطة بها في القسم 6. والأهم من ذلك ، في الدراسات الأترابية الإقليمية (على سبيل المثال ، دراسات الأتراب المستندة إلى المستشفى) للأمراض المعقدة ، يمكن تجنيد الأفراد من نفس العائلة عن غير قصد. يعتمد المقياس الشائع للعلاقة (أو الازدواجية) بين أزواج العينات على الهوية حسب النسب (IBD). قد يشير معامل القرابة لـ IBD الذي يزيد عن 0.10 إلى الارتباط أو التكرارات أو خليط العينات. عادة ، تتم إزالة الفرد من الزوج ذي الصلة مع انخفاض معدل استدعاء النمط الجيني. نلاحظ أنه يمكن أيضًا التحقق من الهوية الجنسية في هذه المرحلة لتأكيد أن الجنس المبلغ عنه ذاتيًا يتوافق مع كروموسومات X و Y المرصودة ، ومع ذلك ، في مثال البيانات المقدمة ، لا تتوفر الكروموسومات الجنسية ، وبالتالي ، مثال على التصفية لم يتم توفير الهوية الجنسية.

نبدأ بتطبيق تقليم اختلال التوازن (LD) باستخدام قيمة عتبة 0.2 ، مما يلغي درجة كبيرة من التكرار في البيانات ويقلل من تأثير القطع الصبغية 6. يتم تطبيق خطوة تقليل البعد هذه بشكل شائع قبل كل من تحليل IBD و PCA ، ويتم تطبيقها في النصوص التالية لتصفية النسب ، وتؤدي إلى توفير كبير في الحسابات.

هذا يقلل من عدد النيوكلوتايد من 658186 في نهاية الخطوة 2 إلى 72812. بعد ذلك ، نحسب مسافات IBD الزوجية للبحث عن علاقة العينة. يتم استخدام إستراتيجية تزيل بشكل متكرر الموضوعات ذات أكبر عدد من معاملات القرابة الزوجية & gt 0.1.

في مثالنا ، لم تتم تصفية أي من العينات بناءً على معامل القرابة IBD & gt0.10.

التصفية على مستوى العينة: النسب. PCA هو أحد الأساليب لتصور الأفراد وتصنيفهم إلى مجموعات سلالة بناءً على التركيب الجيني المرصود. نقوم بذلك لسببين: أولاً ، يمكن أن يختلف العرق والإثنية المبلغ عنه ذاتيًا عن مجموعات الأفراد التي تستند فقط إلى المعلومات الجينية ، وثانيًا ، قد يكون وجود فرد لا يبدو أنه يقع ضمن مجموعة عرقية / إثنية موحية. لخطأ على مستوى العينة. لاحظ أننا نستخدم المجموعة الفرعية المكونة من 72812 تعدد الأشكال بعد تقليم LD (الخطوة 3-ج) كمدخل لـ PCA. تتمثل الإستراتيجية البديلة لتقليم LD في المرحلة الأولى ، والتي تعمل أيضًا على تحسين الكفاءة الحسابية ، في تحليل "HapMap rooted" ، والذي يتضمن أولاً تنفيذ PCA في لوحة مرجعية ، على سبيل المثال ، HapMap أو 1000 Genomes ، ثم إسقاط عينة الدراسة على الفضاء الناتج. لم يتم تقديم هذا النهج هنا ولكن يمكن تنفيذه مع الوظائف الحالية لبرنامج الاستدلال القائم على القرابة لبرنامج Gwas (KING) 24.

لم تتم تصفية أي عينات إضافية بناءً على الفحص البصري لقطعة PCA. مرة أخرى ، نتوقع هذا لأن بيانات PennCATH المقدمة تمت تصفيتها مسبقًا.

2.4 ترشيح مستوى تعدد الأشكال أحادي النوكليوتيدات - الجزء 2 (الخطوة 4)

التصفية على مستوى SNP: HWE. يمكن أن تكون انتهاكات HWE مؤشرا على وجود البنية التحتية السكانية أو حدوث خطأ في التنميط الجيني. على الرغم من أنه لا يمكن تمييزها دائمًا ، إلا أنه من الممارسات الشائعة افتراض خطأ في التنميط الجيني وإزالة SNPs التي تم انتهاك HWE من أجلها. في حالة توفر حالة التحكم في الحالة ، فإننا نقصر هذه التصفية على تحليل عناصر التحكم نظرًا لأن انتهاكًا في الحالات قد يكون مؤشرًا على الارتباط. يتم قياس عمليات المغادرة من HWE بشكل عام عند SNP معين باستخدام a χ 2 اختبار ملاءمة الملاءمة بين التراكيب الجينية المرصودة والمتوقعة. نقوم بإزالة SNPs التي لها إحصاء اختبار HWE مطابق لها ص-قيمة أقل من 1 × 10 6 في الضوابط.

نقوم بتصفية 1،296 SNPs إضافية بناءً على HWE ص & lt 1 × 10 −6 في عناصر تحكم CAD. ينتج عن هذا 656890 تنوعًا متعدد الكلور مكتوبًا يجب أخذها في الاعتبار في تحليل الارتباط.


أساليب

معالجة البيانات

لمواءمة مجموعة المتغيرات الجينية عبر جميع مجموعات البيانات الأربع ، قمنا بحساب الأنماط الجينية لجميع الأفراد في الدراسات الأربع باستخدام 1000G Phase 3 v5 كلوحة مرجعية مشتركة (Michigan Imputation Server [54]). بعد التضمين ، تم الاحتفاظ فقط بالمتغيرات الجينية غير المكررة ذات درجة INFO أكبر من 0.9. قمنا بتصفية المتغيرات باستخدام توازن هاردي واينبرغ (HWE) ص القيم أقل من 10 −5 ، مع معدل التركيب الوراثي المفقود أعلى من 5٪ ، وبتردد أليل ثانوي أقل من 5٪ باستخدام PLINK v1.9 [55]. استخدمنا المجموعة المتبقية من المتغيرات في جميع التحليلات اللاحقة ما لم يُذكر خلاف ذلك. لاستبعاد الأفراد الخارجين ، قمنا بحساب المكونات الأساسية للنمط الجيني (أجهزة الكمبيوتر) باستخدام smartpca [56]. تم تحديد خمسة قيم متطرفة في مجموعة بيانات DICE وإزالتها من تحليلات المصب.

لتحديد مستويات التعبير الجيني ، استخدمنا Kallisto [57] ولخصنا النص لكل مليون (TPM) تقديرات جميع الأشكال الإسوية GENCODE 19 [58] للحصول على TPM على مستوى الجين. تم بعد ذلك تحجيم TPM على مستوى الجين وتطبيع الكميات كما هو موصوف من قبل [17]. تم حساب المكونات الرئيسية للتعبير الجيني باستخدام وظيفة prcomp في R. لتقدير تضفير الحمض النووي الريبي ، تمت محاذاة قراءات RNA-seq مع جنوم مرجع hg19 باستخدام STAR 2.6.0 [59] مع شرح GENCODE 19. لتجنب تعيين القراءات مع التحيز الأليلي ، استخدمنا WASP [60] كما هو مطبق في STAR 2.6.0 من خلال توفير بيانات التركيب الجيني المقابلة. هذه خطوة مهمة حيث وجدنا زيادة كبيرة في عدد الربط الإيجابي الخاطئ QTL بسبب التحيز الأليلي في رسم الخرائط للقراءة. في الواقع ، عند القراءات التي تمثل أليلات مختلفة خريطة لمناطق مختلفة من الجينوم ، سيكون رسم خرائط QTL عرضة لتحديد الارتباطات الزائفة بين الأليلات وقراءة التغطية في تلك المناطق الجينومية [23]. تم استخراج تقاطعات Exon-exon باستخدام RegTools [61] ، وتم تجميعها وتحديد كميتها باستخدام LeafCutter [23]. كما هو متوقع ، لاحظنا أن عدد تقاطعات exon-exon المحددة في كل عينة يرتبط ارتباطًا إيجابيًا بعمق التسلسل في اتحاد DICE (الشكل S1). لمواءمة القياس الكمي لاستخدام تقاطع الربط عبر أنواع الخلايا ومجموعات البيانات في جميع أنواع الخلايا المناعية الـ 18 ، تم دمج المجموعات وتم استخدام الاتحاد المدمج لإعادة حساب استخدام intron في جميع العينات.

تحليل MashR في مجموعة بيانات DICE

لتقدير مشاركة eQTLs و sQTLs في مجموعة بيانات DICE ، اتبعنا سير العمل المقدم من مؤلفي MashR (https://github.com/stephenslab/gtexresults) الذي تم وصفه مسبقًا في [19]. باختصار ، تم حساب الأخطاء القياسية لأحجام تأثير QTL من المخرجات الاسمية FastQTL ، والتي تم استخدامها مع أحجام التأثير كمدخلات لـ الهريس. لتقدير بنية الارتباط للاختبارات الفارغة ، تم أخذ عينات عشوائية من 30٪ من جميع الاختبارات (يشار إليها بالمجموعة "العشوائية"). للحصول على مجموعة موثوقة من QTLs لكل ميزة (جين أو intron) ، فإن SNP مع أصغر ص- القيمة عبر جميع SNPs المختبرة وجميع أنواع الخلايا تم استخلاصها لكل ميزة. نتج عن ذلك مصفوفة ميزة تلو الأخرى لأحجام التأثير وأخطاءها المعيارية دون فقد القيم المشار إليها بالمجموعة "القوية". بالنسبة لـ eQTLs ، قمنا بتضمين جميع جينات ترميز البروتين. بالنسبة لـ sQTLs ، قمنا بتضمين جميع الإنترونات. تم حساب مصفوفات التغاير المستندة إلى البيانات من المجموعة "القوية". ثم قمنا ببناء ملف الهريس نموذج باستخدام مجموعة "عشوائية" مع وضع تأثيرات التبادل (EE) لتقدير المقدمات. تم تطبيق هذا النموذج بعد ذلك على المجموعة "القوية" لحساب أحجام التأثير المتوسط ​​الخلفي (الهريس تأثير الأحجام). QTLs كبيرة بعد الهريس كان التحليل عبارة عن أزواج ميزة SNP مع معدل إشارة خاطئة محلي (LFSR) أقل من 0.05 ، كما هو مقترح بواسطة [19]. تم تحديد مستوى مشاركة QTLs كمشاركة عامة ومشاركة زوجية. بشكل عام ، تم تحديد المشاركة على أنها عدد أنواع الخلايا التي تحتوي فيها ميزة معينة على QTL تنظيمي (LFSR & lt0.05). تم قياس المشاركة الزوجية من حيث الحجم والإشارة. تتوافق المشاركة حسب الحجم بين نوعين من الخلايا مع نسبة QTLs المهمة في أحد أنواع الخلايا وتختلف أحجام التأثير المتوسط ​​الخلفي بما لا يزيد عن ضعفين. تتوافق المشاركة تلو الأخرى بين نوعين من الخلايا مع نسبة QTLs التي كانت مهمة في أحد أنواع الخلايا ولها نفس العلامة. تم تجميع أنواع الخلايا الـ 15 في DICE في 6 مجموعات خلايا بناءً على مشاركة eQTL حسب الحجم (انظر الشكل 2 ب).

توصيف QTLs التنظيمية

لحساب المسافة بين eQTLs والجينات المستهدفة ، حددنا المحفز لكل جين على أنه المنطقة 2000 نقطة أساس في المنبع و 500 نقطة أساس في المصب من TSS. اختبرنا إثراء eQTLs في العناصر التنظيمية من Ensembl Regulatory Build والإجماع على مجموعة ذروة ATAC-seq من Calderon et al. [41]. قمنا بتصنيف جميع قمم ATAC-seq لتكون إما معززًا أو مروجًا بناءً على ما إذا كانت تتداخل مع أي منطقة مروج (2000 نقطة أساس في المنبع و 500 نقطة أساس في المصب من TSS). تم تقدير العدد المرصود والمتوقع من QTLs المتداخلة مع كل ميزة باستخدام الأمر fenrich من QTLtools [62] ، وتم حساب نسب الأرجحية للتخصيب من خلال توفير هذا العدد لاختبار فيشر الدقيق في R. لقد تحققنا من صحة eQTLs من DICE في مجموعات البيانات الأخرى باستخدام π1 إحصائيات [63] ، تُقسِّم eQTLs إلى طبقات حسب مستويات مشاركتها عبر ست مجموعات من الخلايا المقدَّرة بواسطة الهريس (محدد: متوسط ​​في مجموعة خلية واحدة: 2-5 مجموعات خلايا مشتركة: 6 مجموعات خلايا). فترات الثقة 95٪ π1 تم تقديره باستخدام 1000 bootstraps (أي إعادة أخذ عينات DICE eQTLs مع الاستبدال).

كولوكيشن

كولوك تم إجراء تحليلات تحديد الموقع بين eQTLs / sQTLs و 72 إحصائيات ملخص GWAS متاحة للجمهور لـ 11 مرضًا من أمراض المناعة الذاتية (14 دراسة) ، وهي التهاب المفاصل الروماتويدي (RA) [64] ، ومرض كرون (CD) [27 ، 30] ، والتهاب القولون التقرحي (UC). ) [27 ، 30] ، مرض التهاب الأمعاء (IBD) [27 ، 30] ، الحساسية والأكزيما (AE) [65] ، الربو ، حمى القش والأكزيما (حساسية قصيرة) [66] ، التهاب الجلد الاستماتي (ApD) [ 67] والربو [68 ، 69] والذئبة الحمامية الجهازية [70] والتصلب المتعدد [71]. قمنا أيضًا بجمع 36 GWAS للسمات المتعلقة بالدم [72] ، و 11 GWAS المتعلقة بوظائف القلب ونظام الدورة الدموية [73] ، والعديد من السمات الأخرى بما في ذلك مرض السكري من النوع 2 (T2D) [74] ، ومرض الزهايمر (AD) [75] ، مرض باركنسون (PD) [76] ، معدل الترشيح الكبيبي المقدر (eGFR) [77] ، الطول [78] ، بقاء سرطان الثدي [79] وأنواع السرطان / الأورام الأخرى [73]. اعتبرنا 14 من المناعة الذاتية و 36 GWAS ذات الصلة بالدم بمثابة GWAS المناعي ، والباقي 22 GWAS على أنها GWAS غير محصنة.

لتقييم التنسيق بين مواقع GWAS و QTLs ، حددنا أولاً متغيرات GWAS الرئيسية والمنطقة المحيطة بها والتي كان من المقرر اختبار التلوين فيها. على وجه التحديد ، تم فرز جميع المتغيرات المتاحة في ملخص إحصاءات GWAS حسب ص- القيم بترتيب تصاعدي. بدءًا من البديل مع الأصغر ص-value (متغير الرصاص) ، تمت إزالة المتغيرات داخل نافذة 500 كيلو بايت على جانبي المتغير الرئيسي. وقد أدى ذلك إلى تحديد موضع GWAS بسعة 1 ميجا بايت لتحليل التنسيق. تم تطبيق نفس الإجراء بعد ذلك على المتغير التالي الأكثر أهمية بين المتغيرات المتبقية ، حتى لا يوجد متغير بـ ص تم ترك القيمة أقل من 10 -7. تم استبعاد منطقة HLA (Chr6: 25–35 ميجا بايت) من التوحيد. تم تضمين GWAS فقط مع أكثر من 10 مواقع محددة في تحليلنا. بالنسبة لكل موقع GWAS المحدد أعلاه ، تم اختبار التلوين فقط إذا كان يحتوي على QTL تنظيمي مع توزيع بيتا مبدل ص القيمة أقل من 0.01 (bpval & lt0.01) كما أفاد FastQTL في النافذة 1 ميجا بايت التي تحيط بـ GWAS SNP. تم استخدام الأسعار الافتراضية لـ COLOC. وضعنا PP4 و gt0.75 كحد أدنى لتوحيد التنسيق. تم حساب نسبة التلوين كنسبة من المواقع المتحدرة بين جميع المواقع المحددة في GWAS.

تم تصور نتائج تحديد المواقع باستخدام وظيفة مقتبسة من LocusCompare [80]. بالنسبة لموضع معين ، تم تعريف SNP مع أكبر احتمال لاحق من COLOC على أنه SNP مُجمع. ص تم حساب الشكل 2 بالنسبة إلى SNP المترابط من الأنماط الجينية في دراسة QTL. لتصور sQTL في شكل مخطط Sashimi [81] ، قمنا أولاً بتجميع الأفراد حسب أنماطهم الجينية ، ثم استخرجنا قراءات RNA-seq التي تم تعيينها إلى الكتلة التي تحتوي على intron ليتم تصورها. لجعل التغطية قابلة للمقارنة بين الأنماط الجينية المختلفة ، قمنا بتوسيع نطاق تغطية القراءة بعدد الأفراد الذين يحملون كل نمط وراثي باستخدام وسيطة scaleFactor في bamCoverage من Deeptools [82] عند إنشاء ملفات bigWig. ثم تم تصور التغطية باستخدام pyGenomeTracks [83].

تم الحصول على بيانات Cis-eQTL الخاصة بـ eQTLGen [43] مباشرةً من موقع الويب (https://eqtlgen.org/cis-eqtls.html). قمنا أيضًا بتنزيل ترددات الأليل من 26609 عينة من عينات eQTLGen (باستثناء دراسة فرامنغهام للقلب) ، والتي تم استخدامها في تحليل التنسيق الخاص بنا. وتجدر الإشارة إلى أن مجموعة بيانات DGN مضمنة أيضًا في التحليل التلوي لـ eQTLGen ، ولكنها لا تغير تفسير أي من تحليلاتنا.

HyPrColoc تم اختيار أزواج الجينات GWAS المختبرة في HyPrColoc بنفس طريقة اختيار COLOC. وضعنا PP & gt0.25 كحد أدنى لتوحيد التنسيق على النحو الموصى به من قبل المؤلفين [52].

التحقق من صحة القولون الخلوي الخاص بالخلايا المناعية للصفات غير المناعية لقد تحققنا من صحة عملية تحديد موقع 14 سمة غير مناعية (11 مرتبطة بالقلب ، ومرض الزهايمر ، والبقاء على قيد الحياة من سرطان الثدي) في خلايا DICE المناعية باستخدام GTEx V7 eQTLs. اخترنا أولاً عدة أنسجة في GTEx الأكثر صلة بكل سمة من سمات GWAS.بالنسبة للصفات المتعلقة بالقلب ، اخترنا الأنسجة في القلب ونظام الدورة الدموية (الشريان - الشريان الأورطي ، الشريان - الشريان التاجي ، الشريان - الظنبوب ، القلب - الملحق الأذيني ، القلب - البطين الأيسر). بالنسبة إلى AD و PD ، قمنا بتضمين 13 أنسجة دماغية (الدماغ - اللوزة ، الدماغ - القشرة الحزامية الأمامية (BA24) ، الدماغ - الكودات (العقد القاعدية) ، الدماغ - نصف الكرة المخيخي ، الدماغ - المخيخ ، الدماغ - القشرة ، الدماغ - القشرة الأمامية (BA9) ، Brain - Hippocampus ، Brain - Hypothalamus ، Brain - Nucleus accumbens (العقد القاعدية) ، Brain - Putamen (العقد القاعدية) ، الدماغ - الحبل الشوكي (cervical c-1) ، Brain - Substantia nigra). للبقاء على قيد الحياة من سرطان الثدي ، استخدمنا الأنسجة الدهنية وأنسجة الثدي (الدهنية - تحت الجلد ، الدهنية - الحشوية (Omentum) ، الثدي - أنسجة الثدي). حددنا بعد ذلك جميع أزواج الجينات-SNP المتولدة لهذه الـ 14 جيجاوات في النرد ، واستخرجنا ص القيم من GTEx eQTLs في الأنسجة ذات الصلة ، وكذلك من DICE eQTLs في جميع أنواع الخلايا المناعية. بالنظر إلى مشاركة نسبة كبيرة من eQTLs في DICE ، قمنا بتجميع 15 نوعًا من الخلايا المناعية في 6 مجموعات ، مع تخصيص أصغرها ص قيمة من جميع أنواع الخلايا داخل مجموعة معينة لتلك المجموعة لكل جين. استخدمنا تصحيح Bonferroni للتكيف ص قيم للاختبار المتعدد. أخيرًا ، قمنا بحساب نسبة زوج الجينات-SNP الذي تم تعديله ص القيمة أقل من 0.05 في DICE ولكن ليس مناديل GTEx.

توصيفات مواقع GWAS غير المحددة لقد قصرنا هذا التحليل على المواقع من 14 GWAS للمناعة الذاتية التي لم تتحد مع BLUEPRINT QTL. تم تصنيف جميع الجينات إلى أربع فئات: الجينات ذات eQTL التي تم تحديد موقعها في موقع GWAS ، والجينات الأقرب إلى موضع GWAS ، والجينات الأقرب إلى موضع GWAS غير المحدد ، وجميع الجينات المتبقية. قارنا مستوى التعبير الجيني في أنواع خلايا BLUEPRINT الثلاثة بشكل منفصل. تم دمج قيم مستوى التعبير الجيني لأنواع الخلايا الثلاثة ورسمها في الشكل 5 أ. حصلنا أيضًا على درجة مجال المُحسِّن (EDS) [39] و "فقدان الوظيفة الملحوظ / كسر الحد الأعلى المتوقع" (LOEUF) [40] لجميع الجينات المتاحة وقارننا توزيع EDS و LOEUF عبر الفئات الأربع المذكورة أعلاه .

لاختبار إثراء المواضع غير المحددة في قمم ATAC-seq في الخلايا المناعية المحفزة ، قمنا ببناء جدول طوارئ عن طريق حساب عدد المواقع المتراكبة وغير المحددة التي تتداخل مع قمم ATAC-seq المحفزة وغير المحفزة ، على التوالي. قمنا بعد ذلك باختبار الفرضية القائلة بأن المواقع غير المحددة كانت أكثر إثراءً في مناطق الكروماتين المفتوحة المحفزة مقارنةً بالمواقع ذات الصلة باستخدام اختبار فيشر الدقيق. لقد قدرنا 95 ٪ من الفاصل الزمني السري للتقديرات عن طريق التمهيد لمواقع GWAS غير المحددة 1000 مرة مع الاستبدال.

لقد استنتجنا أن التأثيرات التنظيمية للعديد من مواقع GWAS غير المحددة قد تكون صغيرة جدًا بحيث لا يمكن اكتشافها بسبب أحجام العينات الصغيرة. لاختبار هذا الاحتمال ، تأكدنا من eQTLs فقط في مواقع GWAS غير المحددة. باختصار ، استخرجنا اختبارات QTL في SNP الرصاص للمواقع غير المحددة. تم ترشيح أزواج الجينات الموضعية GWAS التي تم اختبارها بالفعل في COLOC ولكن لم يتم تجميعها. نظرًا لأنه من الشائع أن يرتبط SNP برصاص واحد بالعديد من الجينات ، فقد قمنا بتعديل ص القيم بعدد الجينات المختبرة في كل موقع باستخدام تصحيح Bonferroni واختيار الجين ذي الأصغر ص القيمة. ثم قمنا بحساب نسبة الجينات بـ ص قيمة أقل من 0.05. تم تطبيق هذا التحليل على كل GWAS من المناعة الذاتية في كل نوع خلية في مجموعة بيانات BLUEPRINT.

جمع وتحليل عينات RA

جمع العينات وتجربة CUT & ampTag تم الحصول على جميع العينات السريرية من مستشفى Xijing. تم جمع عينات الدم والسائل الزليلي من 6 مرضى التهاب المفاصل الروماتويدي في قسم المناعة السريرية ، مستشفى Xijing. استوفى جميع مرضى التهاب المفاصل الروماتويدي معايير الكلية الأمريكية لأمراض الروماتيزم المنقحة لعام 1987 ومعايير تصنيف التهاب المفاصل الروماتويدي 2010 ACR [84] ، وتظهر خصائصهم السريرية في ملف إضافي 1: الجدول S7. بالإضافة إلى ذلك ، تم جمع عينات الدم المحيطية من 4 أفراد أصحاء. تم إخضاع جميع عينات الدم والسوائل الزليلية للطرد المركزي المتدرج باستخدام وسط فصل الخلايا الليمفاوية (MP Biomedicals ، 0850494) لعزل الخلايا أحادية النواة ، والتي تم حفظها بالتبريد لإجراء تجارب لاحقة.

تم إذابة الخلايا أحادية النواة المحفوظة بالتبريد في RPMI / 10٪ FBS ، وغسلها مرة واحدة في محلول ملحي معقم ومخزن بالفوسفات (PBS Beyotime ، ST476) ، وملطخة بالأجسام المضادة التالية في برنامج تلفزيوني لمدة 30 دقيقة: anti-CD3-APC / Cy7 (Biolegend ، 300426)، anti-CD4-PE / Cy7 (Biolegend، 357410)، anti-CD8-Percp / Cy5.5 (Biolegend، 301032)، anti-CD25-PE / CF594 (BD Horizon، 562525)، anti-CD19-FITC (Biolegend ، 302206) ، ومكافحة CD14-APC (Biolegend ، 301808). خلايا CD4 + T (CD3 + ، CD4 + ، CD8 -) ، خلايا CD8 + T (CD3 + ، CD4- ، CD8 +) ، T ريج تم فرز الخلايا (CD3 + ، CD4 + ، CD8 - ، CD25 +) ، الخلايا B (CD3 - ، CD19 +) ، والخلايا الأحادية (CD3 - ، CD14 +) بواسطة FACSAria III (BD Pharmingen ، سان دييغو ، الولايات المتحدة الأمريكية) مباشرة في غسل المخزن المؤقت لـ CUT & ampTag ، بحد أقصى 1 × 10 5 خلايا لكل نوع خلية. قمنا بتوصيف H3K27ac (abcam ab4729) لكل نوع خلية يتبع بروتوكول CUT & ampTag القياسي (https://www.protocols.io/view/bench-top-cut-amp-tag-z6hf9b6) [21]. تمت معالجة العينات على دفعات مختلفة ، وتأكدنا من تضمين فرد واحد على الأقل سليم ومريض RA في كل دفعة لتقليل تأثيرات الدُفعات التي تتماشى مع الاختلافات البيولوجية التي نهتم بها.

CUT & ampTag تحليل البيانات خضعت مكتبات الحمض النووي لتسلسل مزدوج (PE) بمقدار 150 نقطة أساس. تمت محاذاة قراءات التسلسل مع الجينوم المرجعي البشري hg19 باستخدام Bowtie 2 [45] مع المعلمات - محلي - شديد الحساسية - محلي - لا - غير مختلط - غير متعارض - فريد 33 - مينين 10 - ماكسينز 700. تمت تصفية القراءات المتوافقة باستخدام Samtools مع -F 1804 -f 2 -q 30 [85]. تم استبعاد العينات التي تحتوي على أقل من 2 مليون قراءة من التحليلات اللاحقة. تم دمج ملفات BAM المصفاة للعينات التي لها نفس حالة المرض (صحية / RA) ونوع الأنسجة (PBMC / SF) ونوع الخلية. تم حساب تغطية القراءة باستخدام bamCoverage في نافذة 10bp تم تطبيعها بواسطة RPKM [82]. تم استدعاء قمم H3K27ac من ملفات BAM المدمجة باستخدام MACS2 مع المعلمات - تنسيق BAMPE - واسع - قطع واسع 0.1 - qvalue 0.1 - حجم 146 [46]. لقد استنتجنا أن ذروة الاتصال من ملفات BAM المدمجة تزيد من نسبة الإشارة إلى الضوضاء. لإنشاء مجموعة ذروة إجماع ، قمنا بدمج جميع القمم باستخدام دمج أدوات السرير [86] ، مما أدى إلى 90412 قمة. ثم قمنا بعد ذلك بحساب عدد الأجزاء المتداخلة مع مجموعة ذروة الإجماع في كل عينة باستخدام featureCounts [87].

تم إجراء تحليل الذروة التفاضلية باستخدام Limma [88]. حسبنا متوسط ​​log2CPM عبر العينات مع نفس حالة المرض ونوع الأنسجة ونوع الخلية. تم استخدام متوسط ​​log2CPM هذا فقط لتصفية قممنا مع عدد شظايا منخفضة. تم استبعاد القمم بمتوسط ​​log2CPM أقل من 2 في جميع المجموعات من التحليل التفاضلي. بعد ذلك ، تم حساب عوامل التطبيع من القمم المتبقية باستخدام طريقة TMM ، وتم تحويل الأعداد في كل عينة إلى log2CPM. نظرًا لأن العينات تمت معالجتها على دفعات مختلفة ، فقد استخدمنا ComBat لضبط الدُفعات مع تضمين حالة المرض ونوع الأنسجة ونوع الخلية باعتبارها متغيرة الاهتمام لدينا. قمنا ببناء مصفوفة تباين تقارن RA SF مقابل RA PBMC و RA SF مقابل Healthy PBMC و RA PBMC مقابل PBMC الصحي في كل منهما ، وطبقنا طريقة الاتجاه. تم تعريف القمم التفاضلية على أنها تغيير log2 (log2 (FC)) أكبر من 1 أو أصغر من -1 ، و FDR أقل من 0.1.

لقد تداخلنا مع قمم H3K27ac التي تم تنظيمها في عينات RA مع مواقع RA GWAS غير محددة. قمنا أولاً بوضع خرائط دقيقة لإحصائيات ملخص RA GWAS باستخدام SuSiE [51]. تم إجراء رسم الخرائط الدقيقة في كل موقع استخدمناه في تحليل تحديد المواقع الخاص بنا. زودنا GWAS ض- الدرجات ، مصفوفة ارتباط النمط الجيني من CEU و GBR من 1000 Genome Project كلوحة مرجعية وحجم عينة اللوحة المرجعية لوظيفة susie_rss.

قدرنا إثراء توارث RA SNP في قمم H3K27ac باستخدام انحدار درجات LD الطبقي (S-LDSC) [5]. استخدمنا قمم MACS2 من ملفات BAM المدمجة ، والتي تم تمديدها بمقدار 500 نقطة أساس على كلا الجانبين. لإعادة إنتاج تحليل التوريث من كالديرون وآخرون. [41] ، استخدمنا قمم MACS2 المشتركة بين المؤلفين.


دراسة التصاميم لإثراء المتغيرات النادرة أو تحديد أولوياتها

تم استخدام تصميمات الدراسة التي تستغل الخصائص الفريدة لمختلف المجموعات السكانية لتعزيز القوة في دراسات الارتباط للأليلات النادرة وذات التردد المنخفض. أحد الأمثلة البارزة هو العزلات السكانية ، والتي توفر تصميمات دراسية قوية لعلم الوراثة الطبية بسبب عدد من الخصائص المفيدة. على سبيل المثال ، يمكن العثور على المتغيرات ذات الأهمية الطبية النادرة في التجمعات الفطرية عند الترددات الأعلى في المجموعات السكانية المعزولة بسبب أحداث الاختناق السابقة ، أو الانجراف الجيني أو التكيف والاختيار [43 ، 112] ، مما يؤدي إلى زيادة القدرة على اكتشاف الارتباطات بالأنماط الظاهرية المهمة طبياً [ 113 ، 114].

هناك حالة مثيرة للاهتمام بشكل خاص من الاختلافات النادرة وهي المتغيرات التي تؤدي إلى تعطيل البروتين المقابل. تتضمن متغيرات فقدان الوظيفة (LoF) هذه المتغيرات التي يُتوقع أن تؤدي إلى الإنهاء المبكر للبروتين (متغيرات وقف الكسب أو متغيرات اقتطاع البروتين) وتعدد أشكال الإدراج أو الحذف التي تؤثر على تسلسل الكودون الكلي للبروتين ( Frameshift INDELS) أو تغيير الربط قبل mRNA من exons الأساسية (المتغيرات الأساسية في موقع لصق). توفر متغيرات LoF أدوات قوية لفهم تأثير "القضاء على" الجينات البشرية ، على غرار تجارب التعطيل الجيني التي تُجرى عادةً في الكائنات الحية النموذجية [115]. لقد ثبت أن فهم العواقب المظهرية والسريرية لحمل أليلات LoF ، لا سيما عندما يتم حملها في حالة متماثلة اللواقح (أي الضربة القاضية الكاملة) ، يوفر رؤى حاسمة في تحديد جينات المرض الجديدة والمسارات القابلة للعلاج [116،117،118]. علاوة على ذلك ، فإن دراسات متغيرات LoF في أهداف العقاقير المحددة ، عندما يقوم بها شخص يتمتع بصحة جيدة ، تقدم دليلًا على سلامة تعديل هذا الهدف المحدد لتقليل مخاطر المرض. يمكن لمجموعة البيانات المكونة من 60،706 فردًا والتي تم تجميعها بواسطة اتحاد تجميع Exome (ExAC) أن تساعد في تصفية المتغيرات المرشحة المسببة للأمراض وفي اكتشاف متغيرات "خروج المغلوب" البشرية في جينات ترميز البروتين [119].

يتم تعزيز الجهود لاكتشاف هذه الطفرات في المجتمعات ذات المعدلات العالية من الزيجوت المتماثل ، على سبيل المثال في السكان الذين لديهم تقليد من زواج الأقارب ، وحيث تحدث مثل هذه المتغيرات في كثير من الأحيان في حالة متماثلة اللواقح. من خلال تحليل عينات من دراسة PROMIS ، وجد أن 961 جينًا تم تعطيله تمامًا في مشارك واحد على الأقل. بالاقتران مع معلومات النمط الظاهري الغنية ، مكن هذا من اكتشاف ارتباطات النمط الجيني والنمط الظاهري ذات الأهمية السريرية ، مثل ارتباط APOC3 مع غياب مستويات البروتين الشحمي C-III في البلازما [120]. توقعت دراسة أخرى LoF في 781 جينًا بعد تحليل 3222 بريطانيًا باكستانيًا بالغًا لديهم صلة أبوية عالية [121]. بدأت الجينومات الكاملة لـ 2636 آيسلنديًا جنبًا إلى جنب مع احتساب 101،584 آيسلنديًا إضافيًا من النمط الجيني والمراحل في تمكين دراسات الضربات القاضية الجينية البشرية الكاملة النادرة في السكان الأيسلنديين. يخطط المؤلفون أيضًا لتوصيف معظم متغيرات LoF متماثلة اللواقح في السكان الأيسلنديين وتنفيذ النمط الظاهري المفصل للحوامل [122]. التحذير من هذا النهج هو أن النتائج الوظيفية لمتغيرات التسلسل عادةً ما يتم شرحها بشكل بيولوجي بناءً على التعليقات التوضيحية للنص العام (على سبيل المثال استنادًا إلى النتيجة الأكثر ضررًا بين جميع النصوص المشروحة). لذلك ، قد لا تؤدي متغيرات LoF إلى تعطيل البروتين في سياق ذي صلة بيولوجيًا ، والذي قد يكون بسبب التكرار الجيني ، أو تغاير الزيجوت ، أو إلى متغيرات حقيقية لا تعطل في الواقع وظيفة الجين ، أو إلى متغيرات نشطة فقط في أنسجة معينة- أشكال إسوية محددة (أو نادرة) [112 ، 115]. وبالتالي ، هناك حاجة إلى جهود متابعة مكثفة ومضنية للتحقق من صحة النتائج المتوقعة لهذه المتغيرات.


النتائج: تأثير صعوبة التعلم على القوة

تتكون بيانات المحاكاة من 1200 مجموعة بيانات تركيبية ، تتوافق مع 4 كتل LD × 3 أحجام تأثير × 100 مجموعة بيانات بأثر رجعي للتحكم في الحالة مع 1000 موضوع في كل مجموعة. التوريث المقدّر ح 2 ترد في الجدول 3 وكلها أدناه ح 2 = 0.10. تم حسابها وفقًا للصيغة اللاحقة (4) ، حيث جيأنا تمثل مجموعات النمط الجيني التسعة المكونة من موقعين الأساسيين ز1×ز2، والنتائج على الفور من جداول الاختراق المحسوبة مسبقًا لكل حجم تأثير (كما كان الجدول 2 مثالًا لـ β3= 0.90 حجم التأثير والنتائج ح 2 =0.083):

علاوة على ذلك ، يوضح الجدول 4 أن SNP واحد فقط هو في متوسط ​​LD إلى قوي مع الموقع السببي DSL 1 (ص 2 عتبة 0.75) ، بينما 60 SNPs منخفضة جدًا مع DSL 1 (ص 2 عتبة 0.20). معتدلة إلى قوية LD مع DSL 2 A و B و C و D لوحظ في 98 و 107 و 78 و 24 SNPs (عند ص 2 من 0.75) ، على التوالي. يزداد عدد العلامات SNPs (وبالتالي احتمال التقاط الإشارة) مع التناقص ص 2 عتبة. على سبيل المثال ، للحصول على عتبة 0.45 ، يتم الحصول على 2 و 114 و 110 و 80 و 48 علامة SNPs لـ DSL 1 و DSL 2 A و B و C و D على التوالي.

حساسيات الإشارة المقدرة لـ MB-MDR لاكتشاف التفاعل المعرفي البحت المحاكي (DSL 1 ، DSL 2) ، لسيناريوهات مختلفة لموضع DLS 2 (DSL 2 A ، DSL 2 B ، DSL 2 C ، DSL 2 D) ، ثلاثة إرسالية يتم عرض أحجام التأثير وخمسة مخططات تشذيب LD قبل تحليل MB-MDR في الشكل 5 ، من أجل حساسية الإشارة المحددة عبر ص 2 -0.45-علامات وفي الشكل 6 لوضع العلامات يحددها ص 2 ≥0.20. يتم عرض الحساسيات الدقيقة المقدرة على اللوحات السفلية للأشكال المذكورة أعلاه. لاحظ أن تقديرات الحساسية الدقيقة لا تعتمد على تعريفات الكتلة. ترد جميع التقديرات في الجدول 5. وقد تم عمل الملاحظات التالية:

لجميع سيناريوهات حجم تأثير الإبستاس وموقع DSL 2 ، بالإضافة إلى تعريف كتلة العلامة SNP والتقليم في مختلف ص قيمتان تتراوح من 0.20 إلى 0.75 ، تكون حساسية الإشارة دائمًا أعلى من الحساسية الدقيقة.

أيضًا عندما لا يتم إجراء أي تقليم (وبالتالي يتم فحص جميع أزواج SNP بحثًا عن الرعاف ، بغض النظر عن الارتباطات بين SNPs) ، تكون الحساسية الدقيقة أصغر من حساسية الإشارة.

تنخفض الحساسيات الدقيقة بشكل كبير عند تطبيق التقليم. يتم الحصول على أسوأ النتائج للسيناريوهين A و C ، حيث يمكن اعتبار DSL 2 المقابل مقيمًا عند حدود كتلة LD (فرعية). النتائج أفضل قليلاً فقط بالنسبة للسيناريو D. في حالة وجود كلا الخطين DSL على كروموسومات مختلفة ، تتراوح تقديرات الحساسية الدقيقة بين 0.10-0.18 (الإعداد D ، انظر الشكل 1). في المقابل ، تقديرات الحساسية الدقيقة في حالة وجود DSL 2 في منتصف نطاق كتلة LD من 0.16-0.64 ، اعتمادًا مرة أخرى على حجم التأثير المعرفي وعتبة تقليم LD (الإعداد B ، انظر الشكل 2).

يمكن تحسين حساسية الإشارة بشكل أكبر عن طريق تقليل مجموعة SNP عن طريق التقليم. بشكل عام ، كلما زاد استخدام تقليم LD ، زادت حساسية الإشارة. مهما كان تعريف كتلة علامة SNP المستخدم ، فإن التقليم الثقيل للغاية عند ص يعطي 2 من 0.20 أدنى حساسية للإشارة إلى حد بعيد. بالنسبة لجميع مواقع DSL 2 المدروسة ، يتم فقد القليل من الطاقة (حساسية الإشارة) عن طريق التقليم بشكل أكبر من 0.75 إلى 0.60 ، مع الاحتفاظ بالمزيد من SNPs. لإعداد C ، تتوازن الطاقة حول 0.50 عند إجراء تقليم أكثر شمولاً عند ص 2 من 0.50 بدلاً من 0.60 ، وهو مشابه لتقليب العملة وغير مقبول للغاية (انظر الشكل 5).

لا توجد أنماط واضحة فيما يتعلق بزيادة حجم تأثير الإبستاس مما يؤدي إلى زيادة الحساسية الدقيقة أو حساسية الإشارة.

حساسيات MB-MDR لاكتشاف تفاعل معرفي نقي ثنائي الموقع في 4 إعدادات بثلاثة أحجام تأثير ومع مستويات مختلفة لتقليم LD: يتم عرض حساسيات الإشارة (اللوحة العلوية) والحساسيات الدقيقة (اللوحة السفلية) عند عتبات تقليم مختلفة لـ LD (بيانات غير موحدة أو تقليم LD عند 0.75 و 0.60 و 0.50 و 0.20). تم تحديد حساسيات الإشارة بمجموعات فرعية tag-SNP عند LD ص 2 ≥0.45 مع تعدد الأشكال السببية

حساسيات MB-MDR لاكتشاف تفاعل معرفي نقي ثنائي الموقع في 4 إعدادات بثلاثة أحجام تأثير ومع مستويات مختلفة لتقليم LD: يتم عرض حساسيات الإشارة (اللوحة العلوية) والحساسيات الدقيقة (اللوحة السفلية) عند عتبات مختلفة لتقليم LD (بيانات غير موحدة أو تقليم LD عند 0.75 و 0.60 و 0.50 و 0.20). تم تحديد حساسيات الإشارة بمجموعات فرعية tag-SNP عند LD ص 2 ≥0.20 مع تعدد الأشكال السببية


الانتماءات

معهد الرياضة والتمرين والحياة النشطة (ISEAL) ، جامعة فيكتوريا ، ملبورن ، أستراليا

سارة فويسين ، ديفيد جي بيشوب وأمبير نير عينون

قسم السياحة والترفيه ، أكاديمية التربية البدنية والرياضة ، غدانسك ، بولندا

Pawel Cieszczyk وأمبير Zbigniew Jastrzebski

جامعة ولاية أورال للثقافة الفيزيائية ، تشيليابينسك ، روسيا

فلاديمير بوشكاريف وديمتري أ دياتلوف وبوريس إف فاشلياييف وأمبير فلاديمير شومايلوف

كلية الثقافة البدنية وتعزيز الصحة ، جامعة شتشيتسين ، شتشيتسين ، بولندا

باول سيسكزيك وأجنيسكا ماسيجيوسكا كارلووسكا وأمبير ماريك سوتشوك

قسم بيولوجيا الخلية ، كلية الأحياء ، جامعة شتشيتسين ، شتشيتسين ، بولندا

معهد مردوخ لأبحاث الأطفال ، مستشفى الأطفال الملكي ، ملبورن ، أستراليا

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

المؤلف المراسل


الكاتب الاشتراكات

SSV ، T.O.B. ، L.G. ، R.E.P. ، T.E.K. ، ARS ، و M.D.R كتب المخطوطة. SSV ، TOB ، LG ، REP ، TEK ، ARS ، MDR ، J.-LR ، JDB ، JPL ، YB ، BDM ، Di.A. ، Da.A. ، RA ، KB ، GC ، KC ، JHC ، J.- PD ، NPD ، IF-C. ، PF ، MG ، TG ، GFG ، BG ، PAG ، WH ، LH ، E.-YK ، H.-SK ، MK ، MTML ، RM ، JM ، DMR ، ES ، MS ، JGS و JMS-M. و JMtB. و DT و MV و JW و M.-SW و RW و SW صمم البحث.أجرى البحث S.V. ، T.B. ، L.G. ، J.-L.R. ، J.L. ، YB. ، T.K. ، AS ، and MR. S.V. ، T.O.B. ، L.G. ، R.E.P. ، T.E.K. ، A.R.S. ، M.D.R. ، J.-L.R. ، J.D.B. ، J.P.L. ، Y.B. ، and B.D.M. حلل البيانات.

اسم الملف وصف
cpt1911-sup-0001-FigS1.tifTIFF صورة 17.3 ميجا بايت
cpt1911-sup-0002-FigS2.tif صورة TIFF ، 16.6 ميجا بايت
cpt1911-sup-0003-FigS3.tif صورة TIFF ، 16.6 ميجا بايت
cpt1911-sup-0004-FigS4.tif صورة TIFF ، 16.6 ميجا بايت
cpt1911-sup-0005-TableS1.xlsxapplication / excel ، 9.2 كيلوبايت
cpt1911-sup-0006-TableS2.xlsxapplication / excel ، 9.1 كيلوبايت
cpt1911-sup-0007-TableS3.xlsxapplication / excel ، 11.5 كيلوبايت
cpt1911-sup-0008-TableS4.xlsxapplication / excel ، 11.8 كيلوبايت
cpt1911-sup-0009-TableS5.xlsxapplication / excel ، 11.5 كيلوبايت
cpt1911-sup-0010-TableS6.xlsxapplication / excel ، 11.8 كيلوبايت
cpt1911-sup-0011-TableS7.xlsxapplication / excel ، 11.7 كيلوبايت
cpt1911-sup-0012-TableS8.xlsxapplication / excel ، 14.7 كيلوبايت
cpt1911-sup-0013-TextS1.docxWord مستند 12.1 كيلوبايت

يرجى ملاحظة ما يلي: الناشر غير مسؤول عن محتوى أو وظيفة أي معلومات داعمة مقدمة من المؤلفين. يجب توجيه أي استفسارات (بخلاف المحتوى المفقود) إلى المؤلف المقابل للمقالة.


شاهد الفيديو: Which Country Do You HATE The Most? SCOTLAND (شهر نوفمبر 2022).