معلومة

SNPs في الجينوم البشري

SNPs في الجينوم البشري


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

قرأت على الإنترنت أنهم وجدوا حوالي 10 ملايين تعدد أشكال النوكليوتيدات المفردة (SNPs) عبر الأفراد في الجينوم البشري [1]. ومع ذلك ، فإن هذا الرقم يشمل جميع أشكال النيوكلوتايد الموجودة في جميع الأشخاص الذين تم أخذ عينات منهم ولا يخبرنا كثيرًا عن تعدد الأشكال في أي شخص بمفرده.

كنت أتساءل بدلاً من ذلك عن عدد SNPs الموجودة في شخص واحد في المتوسط. واجهت صعوبة في العثور على أدلة جديرة بالثقة حول هذا السؤال.


كنت أتساءل كم عدد النيوكلوتايد في الشخص الواحد في المتوسط

SNP هو تعدد الأشكال في السكان ، وهو ليس شيئًا يمكن أن يحمله النمط الفرداني. كل فرد لديه متغير معين لأي من SNPs (باستثناء حالات حذف التسلسل).

من الممكن على الرغم من تحديد عدد SNP فرد ثنائي الصيغة الصبغية بين نمطيها الفرديين ، لكنني أشك في أن هذا هو المكان الذي كنت مهتمًا به. تعطي صيغة Ewens smapling التوقع والتوزيع تحت نموذج الأليلات اللانهائي ، والسكان الشامل وغياب الاختيار.

تشمل الإحصائيات الأخرى المنطقية متوسط ​​عدد الطفرات الضارة قبل الفرد أو بضعة أشياء أخرى أو عدد الطفرات الجديدة التي ينقلها الزوجان إلى نسلهما ، ... لكن السؤال عن عدد النيوكلوتايد التي يحملها الفرد في المتوسط ​​لا معنى له.

لاحظ كما قالChris ، من خلال ذكر 10k SNPs في الجينوم البشري ، يبدو أنك تقلل من تقدير عدد SNPs.

تعديل

في التعليقات ، أنت كذلك

هل سيكون من المنطقي التفكير في الحد الأدنى والحد الأقصى التقريبي؟

الجواب لا ، لن يكون أكثر منطقية. ضع في اعتبارك تعريف SNP بواسطة ويكيبيديا

تعدد أشكال النوكليوتيدات الفردي ، غالبًا ما يُختصر إلى SNP (يُنطق القصاصة ؛ القصاصات الجمع) ، هو تباين في نيوكليوتيد واحد يحدث في موضع معين في الجينوم ، حيث يوجد كل اختلاف بدرجة ملحوظة داخل تعداد السكان [تركيزي]

مصطلح السكان هو مفتاح هنا. مفهوم تعدد الأشكال (أو تعدد الأشكال ليكون أكثر عمومية) يكون منطقيًا فقط إذا كان بإمكانك إجراء مقارنات. لا يوجد لدى فرد واحد أي تعدد أشكال (باستثناء المجموعة الموجودة بين مجموعتي الكروموسومات).

إذا عدنا إلى الوراء وفكرنا في أنواع مختلفة ، فقد يصبح الأمر أكثر سهولة. فكر في عدد الفروق الزوجية بين نوعين. ليس من المنطقي أن نسأل "كم عدد الاختلافات الزوجية الموجودة بين الحوت الأزرق؟" عليك أن تقول "كم عدد الاختلافات الزوجية بين الحوت الأزرق والذئب". وبالمثل ، لا يمكنك قول "كم عدد SNPs" بين فرد واحد "(باستثناء مرة أخرى للنظر في الاختلافات بين مجموعتي الكروموسومات) ، فأنت بحاجة إلى التفكير في مجموعة من الأفراد.


لم يكن هناك سوى مصدر واحد تمكنت من العثور عليه ، فقد ذكر أن كل جينوم يحتوي على SNP واحد كل 1000 نقطة أساس. (الق نظرة هنا). ومع ذلك ، ليس لدي أي فكرة عما إذا كان هذا المصدر موثوقًا به


رقمك منخفض جدًا ، يسرد مشروع 1000 Genomes ما يقرب من 15 Mio SNPs (انظر المرجع 1). لمعرفة مقدار SNPs لدى البشر في المتوسط ​​(يعتمد هذا بالطبع على المجموعات السكانية ، حيث يمكن أن يختلف ذلك) ، غالبًا ما تجد أنه في المتوسط ​​1 من كل 1000 نيوكليوتيد يتم تغييره إذا قارنت جينومين بشريين (أو العكس: متطابقة بنسبة 99.9٪).

تكمن مشكلة هذا الرقم في أنه قديم جدًا ويمكن إرجاعه إلى منشور من عام 1991 (انظر المرجع 2) ، والذي قارن 75.000 تسلسل نيوكليوتيدات من 49 موقعًا. نظرًا لأن هذا كان قبل معرفة التسلسل الكامل للجينوم البشري ، فسوف أعامل هذا الرقم ببعض الحذر.

أحدث رقم وجدته في هذا هو من نشر الجينوم البشري. لقد قدروا الرقم أقل قليلاً ، عند حوالي 1 من 1300 قاعدة (انظر المرجع 3).

ما يمكن عمله بالبيانات من مشروع 1000 جينوم هو تنزيل البيانات من العينات الفردية ، وتعيينها مقابل الجينوم المرجعي ومعرفة عدد النيوكلوتايد لكل فرد. لست متأكدًا مما إذا لم يفعل أحد ذلك أم أنني ببساطة أغفلت ذلك.

بناءً على هذه البيانات ، يوجد ما بين 2،3 و 3 ملايين تعدد الأشكال (1: 1000 أو 1: 1300 على التوالي) في كل جينوم بشري. وفقًا لمشروع 1000 Genomes (المرجع 1) ، فإن معدل SNPs الذي يحدث حديثًا هو $ 1 مرة 10 ^ {- 8} $ ، مما يعني أن هناك ما بين 20 و 30 SNPs جديدة تحدث لكل جيل.

مراجع:

  1. خريطة لتباين الجينوم البشري من التسلسل على نطاق السكان
  2. تنوع النوكليوتيدات المنخفض في الإنسان.
  3. التسلسل الأولي وتحليل الجينوم البشري.

الكشف عن الانتقاء الإيجابي الأخير في الجينوم البشري من بنية النمط الفرداني

إن القدرة على اكتشاف الانتقاء الطبيعي الحديث في البشر سيكون لها آثار عميقة على دراسة التاريخ البشري والطب. هنا ، نقدم إطارًا لاكتشاف البصمة الجينية للاختيار الإيجابي الأخير من خلال تحليل الأنماط الفردانية بعيدة المدى في التجمعات البشرية. نحدد أولاً الأنماط الفردانية في موضع الاهتمام (الأنماط الفردانية الأساسية). نقوم بعد ذلك بتقييم عمر كل نمط فرداني أساسي من خلال اضمحلال ارتباطه بالأليلات على مسافات مختلفة من الموضع ، كما تم قياسه بواسطة تماثل الزيجوت الفرداني الممتد (EHH). تشير الأنماط الفردانية الأساسية التي تحتوي على EHH عالية بشكل غير عادي وترددات سكانية عالية إلى وجود طفرة برزت في مجموعة الجينات البشرية بشكل أسرع مما كان متوقعًا في ظل التطور المحايد. طبقنا هذا النهج للتحقيق في الانتقاء لجينين يحملان متغيرات مشتركة متورطة في مقاومة الملاريا: G6PD 1 و CD40 يجند 2. في كلا الموقعين ، تبرز الأنماط الفردانية الأساسية التي تحمل الطفرة الوقائية المقترحة وتظهر أدلة مهمة على الاختيار. بشكل عام ، يمكن استخدام الطريقة لفحص الجينوم بأكمله بحثًا عن دليل على الاختيار الإيجابي الأخير.


SNPs في الجينوم البشري - علم الأحياء

SNPs: الاختلافات في الموضوع

ألن يكون رائعًا أن تعرف بالضبط ما هي الإجراءات التي يمكنك اتخاذها لتفادي أو حتى منع ظهور المرض؟ ألن يكون من المريح معرفة أنك لا تعاني من حساسية تجاه الأدوية التي وصفها طبيبك للتو؟ ألن يكون من المريح معرفة أن نظام العلاج الذي تخضع له لديه فرصة جيدة للنجاح لأنه مصمم خصيصًا لك؟ مع الحصاد الأخير لأكثر من مليون من النيوكلوتايد SNPs ، يعتقد باحثو الطب الحيوي الآن أن مثل هذه التطورات الطبية المثيرة ليست بعيدة.

ما هي النيوكلوتايد وكيف يتم العثور عليها؟

أ تعدد الأشكال النوكليوتيدات واحد، أو SNP (يُنطق "snip") هو تغيير جيني صغير ، أو اختلاف ، يمكن أن يحدث داخل تسلسل الحمض النووي للشخص. يتم تحديد الشفرة الجينية من قبل الأربعة النوكليوتيدات "الحروف" A (الأدينين) ، C (السيتوزين) ، T (الثايمين) ، و G (الجوانين). يحدث تباين SNP عندما يحل نيوكليوتيد واحد ، مثل A ، محل أحد الأحرف النوكليوتيدية الثلاثة الأخرى - C أو G أو T.

مثال على SNP هو تغيير قطعة DNA AAGGTTA إلى ATGGTTA ، حيث يتم استبدال "A" الثاني في المقتطف الأول بـ "T". في المتوسط ​​، تحدث النيوكلوتايد في البشر بنسبة تزيد عن 1 في المائة من الوقت. نظرًا لأن حوالي 3 إلى 5 بالمائة فقط من أكواد تسلسل الحمض النووي للفرد لإنتاج البروتينات ، فإن معظم تعدد أشكال النيوكليوتيدات SNPs توجد خارج "تسلسلات الترميز". تعتبر SNPs الموجودة في تسلسل تشفير ذات أهمية خاصة للباحثين حيث من المرجح أن تغير الوظيفة البيولوجية للبروتين. نظرًا للتطورات الحديثة في التكنولوجيا ، إلى جانب القدرة الفريدة لهذه الاختلافات الجينية على تسهيل تحديد الجينات ، كانت هناك موجة حديثة من اكتشاف واكتشاف SNP.

يبدو أن العثور على تغييرات نيوكليوتيد واحدة في الجينوم البشري هو احتمال مخيف ، ولكن على مدار العشرين عامًا الماضية ، طور باحثو الطب الحيوي عددًا من التقنيات التي تجعل من الممكن القيام بذلك. تستخدم كل تقنية طريقة مختلفة لمقارنة مناطق مختارة من تسلسل الحمض النووي المأخوذ من عدة أفراد يشتركون في سمة مشتركة. في كل اختبار ، تظهر النتيجة اختلافًا ماديًا في عينات الحمض النووي فقط عندما يتم اكتشاف SNP في فرد واحد وليس في الآخر.

العديد من الأمراض الشائعة في البشر لا تنتج عن اختلاف جيني داخل جين واحد ، ولكنها تتأثر بالتفاعلات المعقدة بين الجينات المتعددة وكذلك العوامل البيئية ونمط الحياة. على الرغم من أن العوامل البيئية وعوامل نمط الحياة تضيف بشكل كبير إلى عدم اليقين من الإصابة بمرض ما ، إلا أنه من الصعب حاليًا قياس وتقييم تأثيرها الكلي على عملية المرض. لذلك ، نشير هنا بشكل رئيسي إلى الأشخاص الاستعداد الوراثي، أو احتمال إصابة الفرد بمرض بناءً على الجينات والعوامل الوراثية.

قد تمنح العوامل الوراثية أيضًا القابلية أو المقاومة لمرض ما وتحدد شدة المرض أو تطوره. نظرًا لأننا لا نعرف حتى الآن جميع العوامل التي تدخل في هذه المسارات المعقدة ، فقد وجد الباحثون صعوبة في تطوير اختبارات فحص لمعظم الأمراض والاضطرابات. من خلال دراسة امتدادات الحمض النووي التي تم العثور عليها لإيواء SNP المرتبط بسمة المرض ، قد يبدأ الباحثون في الكشف عن الجينات ذات الصلة المرتبطة بمرض ما. سيسمح تحديد وفهم دور العوامل الوراثية في المرض أيضًا للباحثين بتقييم الدور بشكل أفضل عوامل غير وراثية- مثل السلوك والنظام الغذائي ونمط الحياة والنشاط البدني - تؤثر على المرض.

بما أن العوامل الوراثية تؤثر أيضًا على استجابة الأشخاص للعلاج الدوائي ، تعدد أشكال الحمض النووي مثل SNPs سيكون مفيدًا في مساعدة الباحثين على تحديد وفهم سبب اختلاف الأفراد في قدراتهم على امتصاص أو إزالة بعض الأدوية ، وكذلك لتحديد سبب تعرض الفرد لأثر جانبي ضار لعقار معين. لذلك ، يعد الاكتشاف الأخير للنيوكلوتايد النيكوتين (SNPs) بإحداث ثورة ليس فقط في عملية اكتشاف المرض ، ولكن أيضًا في ممارسة الطب الوقائي والعلاجي.

SNPs وتشخيص الأمراض

تحتوي كل مادة وراثية لكل شخص على نمط SNP فريد يتكون من العديد من الاختلافات الجينية المختلفة. وجد الباحثون أن معظم النيوكلوتايد غير مسؤولة عن حالة المرض. بدلاً من ذلك ، فهي تعمل كعلامات بيولوجية لتحديد المرض على خريطة الجينوم البشري ، حيث توجد عادةً بالقرب من جين وجد أنه مرتبط بمرض معين. من حين لآخر ، قد يتسبب SNP بالفعل في حدوث مرض ، وبالتالي يمكن استخدامه للبحث عن الجين المسبب للمرض وعزله.

لإنشاء اختبار جيني من شأنه فحص المرض الذي تم تحديد الجين المسبب للمرض فيه بالفعل ، يقوم العلماء بجمع عينات الدم من مجموعة الأفراد المصابين بالمرض وتحليل الحمض النووي الخاص بهم لأنماط SNP. بعد ذلك ، يقارن الباحثون هذه الأنماط بالأنماط التي تم الحصول عليها من خلال تحليل الحمض النووي لمجموعة من الأفراد غير المتأثرين بالمرض. يسمى هذا النوع من المقارنة "دراسة الارتباط، "يمكن الكشف عن الاختلافات بين أنماط SNP للمجموعتين ، مما يشير إلى النمط الأكثر احتمالاً المرتبط بالجين المسبب للمرض. في النهاية ، سيتم إنشاء ملفات تعريف SNP التي تميز مجموعة متنوعة من الأمراض. وبعد ذلك ، سيتم فقط ستكون مسألة وقت قبل أن يتمكن الأطباء من فحص الأفراد للتأكد من قابليتهم للإصابة بمرض ما فقط عن طريق تحليل عينات الحمض النووي الخاصة بهم بحثًا عن أنماط معينة من SNP.

تطوير الأدوية النيكليوتيد SNPs

كما ذكرنا سابقًا ، قد ترتبط أيضًا SNPs بامتصاص وتصفية العوامل العلاجية. في الوقت الحالي ، لا توجد طريقة بسيطة لتحديد كيفية استجابة المريض لدواء معين. قد يكون العلاج الذي أثبت فعاليته في مريض واحد غير فعال في مرضى آخرين. والأسوأ من ذلك ، أن بعض المرضى قد يعانون من رد فعل مناعي ضار لدواء معين. اليوم ، تقتصر شركات الأدوية على تطوير عوامل يستجيب لها المريض "العادي". ونتيجة لذلك ، فإن العديد من الأدوية التي قد تفيد عددًا صغيرًا من المرضى لا تصل إلى السوق مطلقًا.

في المستقبل ، يمكن تحديد الدواء الأنسب للفرد مسبقًا قبل العلاج من خلال تحليل ملف تعريف SNP الخاص بالمريض. القدرة على استهداف عقار للأفراد الذين من المرجح أن يستفيدوا ، ويشار إليهم باسم "طب شخصي، "سيسمح لشركات الأدوية بجلب المزيد من الأدوية إلى السوق والسماح للأطباء بوصف علاجات فردية خاصة باحتياجات المريض.

نظرًا لحدوث SNPs بشكل متكرر في جميع أنحاء الجينوم وتميل إلى أن تكون مستقرة نسبيًا وراثيًا ، فإنها تعمل كممتازة علامات بيولوجية. الواسمات البيولوجية عبارة عن أجزاء من الحمض النووي ذات موقع مادي يمكن تحديده ويمكن تتبعها بسهولة واستخدامها لبناء خريطة كروموسوم تُظهر موضع الجينات المعروفة ، أو العلامات الأخرى ، بالنسبة لبعضها البعض. تسمح هذه الخرائط للباحثين بدراسة وتحديد السمات الناتجة عن تفاعل أكثر من جين واحد. يلعب NCBI دورًا رئيسيًا في تسهيل تحديد وفهرسة SNPs من خلال إنشائه وصيانة قاعدة بيانات SNP العامة (دبسنب). يمكن الوصول إلى هذه الأداة الجينية القوية من قبل المجتمع الطبي الحيوي في جميع أنحاء العالم وتهدف إلى تحفيز العديد من مجالات البحث البيولوجي ، بما في ذلك تحديد المكونات الجينية للمرض.

NCBI's "Discovery Space" لتسهيل أبحاث SNPs

لتسهيل جهود البحث ، يرتبط dbSNP الخاص بـ NCBI مباشرة بعدد من أدوات البرامج المصممة للمساعدة في تحليل SNP. على سبيل المثال ، يرتبط كل سجل SNP في قاعدة البيانات بموارد إضافية ضمن "Discovery Space" الخاص بـ NCBI. تشمل الموارد GenBank - قاعدة بيانات تسلسل المعاهد الوطنية للصحة LocusLink - نقطة محورية للجينات والمعلومات المرتبطة بها dbSTS - مورد NCBI الذي يحتوي على بيانات التسلسل ورسم الخرائط على معالم جينومية قصيرة بيانات تسلسل الجينوم البشري و PubMed - نظام البحث عن المؤلفات واسترجاعها الخاص بـ NCBI. ترتبط سجلات SNP أيضًا بمختلف الموارد الخارجية المتحالفة.

إن توفير الوصول العام إلى موقع "التسوق الشامل لأسعار التجزئة SNP" يسهل البحث العلمي في مجموعة متنوعة من المجالات ، بدءًا من علم الوراثة السكانية وعلم الأحياء التطوري إلى دراسات الأمراض واسعة النطاق ودراسات ارتباط الأدوية. إن الاستثمار طويل الأجل في مثل هذه الأبحاث الجديدة والمثيرة لا يعد فقط للنهوض ببيولوجيا الإنسان بل بإحداث ثورة في ممارسة الطب الحديث.


أساليب

مصدر البيانات

بيانات HapMap

يتم تنزيل بيانات HapMap SNPs [18] من صفحة ويب HapMap. وفقًا لخريطة LD للكروموسوم 22 ، انظر [26] ، 200 SNPs من الكروموسوم 22 من 4 مجموعات: سكان يوتا من أصول من شمال وغرب أوروبا (CEU) ، صينيون هان في بكين ، الصين ، (CHB) ، يابانيون في طوكيو ، اليابان (JPT) ويوروبا في إبادان ، نيجيريا (YRI) تم اختيارهم عشوائيًا من منطقة من 3.44e7 & # x022123.5e7 kb [27] ، مما يُظهر اختلافًا كبيرًا في مواقع SNP على خريطة LD على 4 مجموعات سكانية. هنا تظهر خريطة LD شدة اختلال التوازن في تعدد الأشكال. في الخريطة ، يعني منحنى & # x0201cflat & # x0201d أن SNPs في حالة اختلال توازن قوي في الارتباط ، أي نادراً ما يحدث إعادة التركيب بينهما ، بينما يعني منحنى & # x0201csteep & # x0201d أن إعادة التركيب يحدث بشكل متكرر في هذا الجزء من الكروموسوم. يتم جمع العينات من CEU (30 ثلاثيًا) ، CHB (45 فردًا غير مرتبط) ، JPT (45 فردًا غير مرتبط) ، YRI (30 ثلاثيًا لكل من الوالدين والبالغ والطفل). هناك 90 عينة لمجموعات CEU و YRI على التوالي ، و 45 عينة لكل من مجموعات CHB و JPT. تعتبر البيانات المفقودة فئة في الحساب.

بيانات مرض باركنسون

تستند بيانات SNPs الخاصة بمرض باركنسون إلى التنميط الجيني على مستوى الجينوم لـ 270 شخصًا يعانون من حالات مرض باركنسون مجهول السبب (حالة) و 271 عنصر تحكم طبيعي عصبيًا (تحكم) تم تنزيله من معهد كورييل للأبحاث الطبية (http: //www.ncbi.nlm .nih.gov / sites / entrez؟ Db = فجوة). تم إجراء التنميط الجيني باستخدام مقايسات Illumina Infinium I و Infinium II. يقيس اختبار Illumina Infinium I 109،365 تعدد الأشكال الفريدة المتمحورة حول الجينات بينما يقيم اختبار Infinium II 317،511 علامة على النمط الفرداني SNPs بناءً على المرحلة الأولى من مشروع HapMap الدولي. تشترك مقايستا Illumina Infinium I و II في 18073 SNPs. لذلك ، فإن الجمع بين الاختبارين يمثل 408803 تعدد الأشكال الفريدة من نوعها. في التجربة التالية ، لم يتم اعتبار SNPs ذات النسبة المئوية المفقودة & # x0003e 1٪ في جميع العينات. بعد تصفية القيم المفقودة ، انخفض عدد SNPs إلى 367440.

منهجية منكمشة

تم تطوير أقرب النقطه الوسطى الانكماش للتعامل مع مجموعات بيانات ميكروأري العددية. يتمثل الاختلاف الرئيسي بين التعبير الجيني وبيانات SNP في أن قيم التعبير مستمرة و SNPs قاطعة [28].

في هذا البحث ، نستفيد من فكرة الانكماش ونطبق الخوارزمية لبيانات SNP الفئوية باستخدام قياس توزيع النمط الجيني للأجسام والأنماط الفئوية بدلاً من الوسائل للمجموعات. ستزيل هذه الامتدادات القيد الرقمي فقط لأقرب طريقة منكمشة وتمكن من استخدام عملية التصنيف للتعامل بكفاءة مع مجموعات بيانات SNP الفئوية على مستوى الجينوم.

يترك x& # x00133 تكون القيمة الفئوية لـ SNP أنا = 1 ، 2 ، & # x02026 ، ص والعينات ي = 1 ، 2 ، & # x02026 ، ن. يوجد ك الطبقات والسماح جك تكون مؤشرات نك عينات في الفصل ك. النقطه الوسطى من أنا ال SNP في الفصل ك يعرف ب:


شكر وتقدير

نحن مدينون لموظفي معهد وايتهيد / مركز MIT لمركز تسلسل أبحاث الجينوم من أجل التسلسل عالي الإنتاجية و N. Stange-Thomann لمساهمتهم في بناء المكتبة. نود أن نشكر B. Blumenstiel و R. Lane لبناء المكتبة والتحقق من SNP ، و M. Molla و L. Friedland و J. Ireland و B. Gilman للمساعدة المعلوماتية. نقدر المناقشات المفيدة مع أعضاء The SNP Consortium ، وكذلك الزملاء في Whitehead / MIT Genome Center. د. حاصل على زمالة ما بعد الدكتوراه من معهد هوارد هيوز الطبي للأطباء. سي. مدعوم من صندوق أبحاث السرطان التابع لمؤسسة Damon Runyon / Walter Winchell. تم إجراء هذا العمل بموجب منح من Wellcome Trust و SNP Consortium إلى E.


الروابط الثقافية الحديثة

بينما أعطت مشاريع الجينوم العلماء جردًا للجينات ومعلومات حول بعض الأغراض الأساسية التي تخدمها ، لا يُعرف الكثير عن كيفية استخدام الخلايا للمعلومات الجينية لتعمل ككائنات حية. لا يزال الباحثون لا يعرفون وظائف معظم الجينات ، أو كيف تعمل الجينات والبروتينات التي ترمز لها معًا ومع العالم الخارجي.

أحدثت التسلسلات الجينية والتكنولوجيا المستخدمة لإنتاجها ثورة على الأقل في الطريقة التي تُجرى بها أبحاث البيولوجيا الجزيئية. قبل تطوير هذه التقنيات ، كان بإمكان الباحثين دراسة عدد قليل فقط من الجينات أو البروتينات في وقت واحد ، مما ينتج عنه فهم مصطنع وغير واقعي للطريقة التي تعمل بها الكائنات الحية. يمكن للعلماء الآن استخدام نهج أعظم بكثير ، حيث يتحققون من جميع الجينات ذات الصلة بعملية أو نسيج أو عضو أو ورم معين. يُعرف مجال جديد باسم بيولوجيا الأنظمة بنماذج تفاعلات آلاف الجينات والبروتينات والمواد الكيميائية الحيوية لإنتاج الظواهر التي تحدث لإعادة الكائنات الحية إلى الحياة.

الهدف الشامل لعلم الجينوم هو رسم الاختلافات في تسلسل الحمض النووي التي يمكن أن تزيد أو تقلل من خطر الإصابة بالأمراض ، وتحديد كيفية استجابة الأفراد للعدوى والسموم والأدوية. أحد الأنواع الأكثر شيوعًا لتباين التسلسل هو تعدد أشكال النوكليوتيدات الفردي (SNP) ، حيث يختلف الأفراد في تسلسل الحمض النووي الخاص بهم بقاعدة واحدة (على سبيل المثال ، وجود الأدينين في موقع معين بدلاً من السيتوزين). يقدر الباحثون أن الجينوم البشري يحتوي على الأقل على 10 ملايين تعدد الأشكال ، ويتم إنشاء خرائط لهذه المواقع. في نهاية المطاف ، سوف يرتبط هذا الاختلاف بخطر المرض والاستجابة للبيئة. يأمل العلماء في أن يوفر بناء قائمة من النيوكلوتايد الفردية اختصارًا لتحديد مناطق الحمض النووي المرتبطة بأمراض مثل السرطان وأمراض القلب والسكري وحتى أنواع معينة من الأمراض العقلية. قد تساعد خريطة SNP الجديدة أيضًا في التأكد من كيفية إنتاج التباين الجيني لسمات فردية واستجابات للبيئة.


SNPs في الجينوم البشري - علم الأحياء

1 قسم الفيزياء وعلم الفلك ، جامعة هوارد ، واشنطن ، الولايات المتحدة الأمريكية 2 المركز الوطني للجينوم البشري ، جامعة هوارد ، واشنطن ، الولايات المتحدة الأمريكية 3 قسم علم الأحياء الدقيقة ، جامعة هوارد ، واشنطن ، الولايات المتحدة الأمريكية

حقوق النشر والنسخ 2018 من قبل المؤلفين وشركة Scientific Research Publishing Inc.

هذا العمل مُرخص بموجب رخصة المشاع الإبداعي نَسب المُصنَّف (CC BY 4.0).

تم الاستلام: 3 سبتمبر 2018 القبول: 19 أكتوبر 2018 تاريخ النشر: 22 أكتوبر 2018

كنظام معلومات واتصالات حي ، يقوم الجينوم بترميز الأنماط في تعدد أشكال النوكليوتيدات المفردة (SNPs) التي تعكس التكيف البشري الذي يحسن بقاء السكان في بيئات مختلفة. هذه الورقة تضع نموذجًا رياضيًا للقوى التكيفية المستحثة بيئيًا والتي تحدد التغيرات في توزيع ترددات SNP بين المجموعات السكانية. نجري روابط مباشرة بين الأساليب الفيزيائية الحيوية (مثل تقليل الطاقة الحرة الجينومية) والمفاهيم في علم الوراثة السكانية. قام برنامج الكمبيوتر غير المتحيز الخاص بنا بمسح مجموعة كبيرة من SNPs في منطقة معقدة التوافق النسيجي الرئيسية وحدد اعتمادًا على الارتفاع على SNP المرتبط بالاستجابة لحرمان الأكسجين. تظهر القوة الإحصائية لنهجنا المزدوج التعمية في وضع علامات على الارتباطات الوظيفية الرياضية للإمكانيات القائمة على معلومات SNP في مجموعات سكانية متعددة مع معلمات بيئية محددة. علاوة على ذلك ، يوفر نهجنا رؤى لاكتشافات جديدة في بيولوجيا المتغيرات الشائعة. توضح هذه الورقة قوة النمذجة الفيزيائية الحيوية للتنوع السكاني لفهم تفاعلات الجينوم والبيئة في الظاهرة البيولوجية بشكل أفضل.

تفاعلات الجينوم والبيئة ، التكيف الجينومي ، الارتباطات الوظيفية SNP

كنظام معلومات معقد وديناميكي ، يشفر الجينوم البشري ويديم مبادئ الحياة. تم دمج المعلومات في قالب ثابت في الغالب ، وكذلك في هيكل تباين تسلسل الجينوم البشري. من بين ما يقرب من 3 مليارات نيوكليوتيد في الجينوم البشري ، يتكون حوالي 0.1٪ فقط من تعدد أشكال النوكليوتيدات الأحادية ثنائية الأليلات (SNPs) الموزعة في جميع أنحاء الجينوم [1]. بمجرد أن يصل التوزيع الإحصائي للتباين إلى التوازن في بيئة معينة ، يمكن وصف السكان البشريين من حيث الترتيب المستمر وأنماط تعدد الأشكال في الجينوم بأكمله. نحن نحدد البيئة ليس فقط من حيث المعلمات الجيوفيزيائية ، ولكن بالأحرى كواجهة كاملة للسكان للتأثيرات البيولوجية والتطورية. نؤكد أن استقرار تكيف الجينوم الكامل ينعكس في ترددات التنوع المستمر في هذه المتغيرات الشائعة (SNPs) للسكان في بيئتها. كمواقع ديناميكية في الجينوم البشري ، غالبًا ما ترتبط SNPs ارتباطًا وثيقًا بمجموعات يُشار إليها باسم المجموعات الفردية التي يتم الحفاظ على أنماطها الفردية عبر الأجيال ذات الترددات الثابتة داخل مجموعة سكانية معينة. ويقال أن مثل هذه التوليفات من تعدد الأشكال في اختلال التوازن (LD). هذا يعكس أن بعض التوليفات الأليلية SNP لا تظهر أبدًا داخل السكان ، مما يعني أن بعض الأنماط الفردية فقط قابلة للحياة بيولوجيًا ويتم الحفاظ عليها عبر الأجيال. في ديناميات السكان ، تتجلى الجدوى في الحفاظ على القدرة على البقاء والأداء الوظيفي. إن تكوين الكتل الفردية هو خاصية ناشئة للمعلومات الجينومية لا يمكن وصفها في غياب التأثيرات البيئية التي تفرض مثل هذه التحولات الطورية بين السكان. لذلك ، فإن الوحدات الجينومية الإحصائية المستقلة ديناميكيًا التي نستخدمها هي أنماط SNP الفردية جنبًا إلى جنب مع الأليلات داخل مواقع SNP التي ليست على اتصال LD مع أي SNPs أخرى. على وجه الخصوص ، فإن التغييرات في توزيع الاستجابات الأليلية والنمط الفرداني للبيئة تعكس بشكل مباشر قوى التكيف على السكان. تسمح مرونة البشر الأحياء كتجسيدات للجينوم بتكييف المجموعات مع البيئات الجديدة أو المتغيرة. ظهرت مجموعات بشرية مختلفة نتيجة بقاء مجموعات الهجرة المختلفة في بيئات محددة وتطوير آليات التأقلم الجماعية التي سمحت للمجموعات بالعمل بفعالية في محيطها. نحن نعتبر أن التكيف هو العملية الديناميكية لتعديل تعبيرات الجينوم من أجل تحسين بقاء مجموعة تبقى في بيئة معينة. إن استخدام مقاييس المعلومات الجينومية التي تعكس تفاعل الاختلافات الإحصائية بسبب الحمامات البيئية التي توجد فيها مجموعات سكانية مستقرة يحفز تطوير "الديناميكا الجينية" كنظير "للديناميكا الحرارية" فيزيائية كبيرة. يقدم هذا النهج طريقة جديدة للتفكير في التنوع السكاني ، من خلال اكتشاف العلاقات بين البيئة وتنوع الجينوم الكامن وراء علم الأحياء. في هذه الورقة ، قمنا بنمذجة تفاعلات الجينوم والبيئة رياضيًا وإظهار التأثيرات البيئية المباشرة على المتغيرات الجينومية الشائعة.

2.1. التباين السكاني والمعلومات

نبدأ بتطوير التعبيرات التي تربط مقاييس المعلومات الجينومية للمجموعات البشرية التي يكون ملف تعريف تنوعها مستقرًا عبر الأجيال ، إلى متغيرات الحالة الديناميكية المضافة التي تعتمد على البيئة التي تشغلها تلك المجموعة. ترتبط معظم المقاييس المعلوماتية الشائعة في العلوم الفيزيائية وعلوم الاتصال بانتروبيا النظام الإحصائي الموصوف. من أجل تطوير مقاييس الإنتروبيا لسكان الجينوم ، يجب أولاً التحقق من الوحدات الديناميكية ذات الصلة. في بيئة معينة ، تصبح التوزيعات الإحصائية لمجموعات معينة من تعدد الأشكال مترابطة بشكل كبير كوحدات ناشئة. هذا يعني أن ديناميكيات المعلومات الجينومية في بيئة معينة هي مرحلة ناشئة للتعبير عن الجينوم البشري. ستأخذ الأشكال المحددة (S) (أو الانتروبيا للفرد) لموقع SNP واحد (S) ليس في اختلال التوازن (المتجاور) في الارتباط شكل متغير حالة المجموعة الكنسي في حمام بيئي معطى بواسطة

ق (S) ≡ - ∑ أ = 1 2 ص أ (س) سجل 2 ص أ (س) ، (1)

حيث تمثل p a (S) الاحتمال (التردد) لحدوث الأليل a في المجتمع. وتجدر الإشارة إلى أن الانتروبيا التي تم تعريفها على هذا النحو هي مقياس لا أبعاد له للاضطراب بدون وحدات فيزيائية حيوية. وبالمثل ، فإن الانتروبيا المحددة لـ SNP فردوبلوك (H) تتكون من مجموعة من SNPs ثنائية الأليلات شديدة الارتباط تؤخذ لتكون

s (H) ≡ - ∑ h = 1 2 n (H) p h (H) log 2 p h (H)، (2)

حيث n (H) هو عدد مواقع SNP في haploblock (H) ، ويمثل p h (H) الاحتمال (التردد) الذي يحدث فيه النمط الفرداني h في السكان. يمثل الحد الأعلى في هذا المجموع عدد التوليفات الثنائية الأليلية الممكنة رياضياً من الأليلات داخل هابلوبلوك. تم استخدام الأدوات المتاحة بشكل عام لبناء الهياكل الفردية [3].

نظرًا لأن الانتروبيا هي مقياس لاضطراب التوزيع ، فإن النظام ذي الحد الأقصى من الاضطراب (التوزيع الإحصائي المتساوي لجميع التوليفات الممكنة رياضيًا) هو أحد أقصى إنتروبيا Sالأعلى. يتم قياس محتوى المعلومات (IC) للتوزيع الإحصائي المحتفظ به من خلال درجة الترتيب التي يمتلكها التوزيع بالنسبة إلى التوزيع المضطرب تمامًا ، أي الفرق بين إنتروبيا التوزيع المضطرب تمامًا وتلك الخاصة بالتوزيع المعطى IC = S ماكس - S [4]. مقياس المعلومات هذا هو بالمثل مادة مضافة بسبب الطبيعة المضافة للإنتروبيا [5]. وبالتالي ، فإن كل من محتوى المعلومات والإنتروبيا عبارة عن متغيرات حالة واسعة النطاق تزيد قيمها بالتناسب مع حجم السكان. محتوى المعلومات المعياري (NIC) من أجل SNP فردي بلوك (H) هو مقياس جوهري (غير مضاف) محدد بواسطة

NIC (H) ≡ S max (H) - S (H) S max (H) = s max (H) - s (H) s max (H) = n (H) - s (H) n (H) ، (3)

حيث ، كما ذكر سابقًا ، فإن الانتروبيا المحددة لـ haploblock s (H) هي مجرد الانتروبيا لكل فرد من السكان S (H) = N من السكان s (H). يتراوح هذا المقياس المعياري للمعلومات بين 0 و 1. يسمح هذا المقياس الذي لا أبعاد له باستكشاف الأطياف المعلوماتية لمناطق جينومات الأفراد وكذلك السكان [4].

لتحديد أفضل معايير التأثيرات البيئية ، تم استخدام بيانات المرحلة 3 HapMap فقط [6]. تشمل هذه البيانات السكان من أصل أفريقي في جنوب غرب الولايات المتحدة الأمريكية (ASW) ، وسكان ولاية يوتا الذين ينحدرون من أصول من شمال وغرب أوروبا (CEU) ، والصينيين الهان في بكين الصين (CHB) ، والصينيون في متروبوليتان دنفر كولورادو بالولايات المتحدة الأمريكية (CHD) ، والهنود الغوجاراتيين في هيوستن تكساس الولايات المتحدة الأمريكية (GIH) ، اليابانية في طوكيو اليابان (JPT) ، Luhya in Webuye Kenya (LWK) ، أصل مكسيكي في Los Angeles California USA (MXL) ، Massai in Kinyawa Kenya (MKK) ، Toscani in Italia (TSI) ، و اليوروبا في إبادان نيجيريا (YRI). من بين مجموعات المرحلة 3 ، NIC لـ ASW هو 0.52 ، CEU هو 0.76 ، CHB هو 0.76 ، GIH هو 0.73 ، JPT هو 0.77 ، LWK هو 0.59 ، MXL هو 0.71 ، MKK 0.63 ، TSI 0.74 ، YRI 0.63. وتجدر الإشارة إلى أنه بالنسبة لما يسمى بالتجمعات المؤسسة حيث كان التنميط الجيني أكثر اكتمالًا للمرحلة الأولى والثانية والثالثة من بيانات HapMap ، فإن قيم NIC لـ CEU و CHB و JPT أعلى إلى حد ما (0.88) من NIC لـ 0.77 لـ YRI.

2.2. ديناميات المعلومات في الجينوم البشري

نطور بعد ذلك مقاييس ووحدات أبعاد يمكنها تحديد المرونة النسبية ومرونة ديناميكيات المعلومات بين مختلف المجموعات السكانية ومناطق الجينوم لنفس السكان ، على غرار وحدات الطاقة المضافة في العلوم الفيزيائية. على عكس الجسيمات الأساسية للفيزياء الدقيقة ، لا يمكن لوحدات الحياة الأساسية الحفاظ عليها في غياب البيئات التي تدعمها. لذلك ، يجب أن يطور الوصف الأقل تعقيدًا للديناميكيات الجينومية متغيرات الطاقة الحرة الجينومية Fالجينوم باعتبارها أكثر جوهرية من تدابير الطاقة المستقلة بيئيًا.

الطاقة الحرة الجينومية Fالجينوم تم تطويره كمتغير حالة يوازن بين الحفظ والتنوع لـ SNPs والأنماط الفردانية داخل حمام بيئي معين. يؤدي تقليل الطاقة الجينومية الحرة إلى تحسين قدرة السكان على البقاء على قيد الحياة في ظل مجموعة كاملة من المحفزات والضغوطات البيئية ، مما يؤدي إلى تحقيق التوازن بين الحفاظ على الألائل والسمات وتنوعها في ديناميكيات توزيع السكان. A الأبعاد البيئية المحتملة Tه (وهو متغير حالة مكثف ومستقل عن حجم السكان) سيحدد المعلمات التحريض الجوهري المنتشر للسكان بسبب المحفزات البيئية العشوائية (على غرار الطريقة التي تحدد بها درجة الحرارة تحريض الوحدات الفيزيائية الأساسية في الحمام الحراري). وبالمثل ، فإن إمكانات الأليلات والنمط الفرداني الأبعاد ، μ a (S) و μ h (H) ، ستحدد تغير الطاقة الجينومية الحرة في مجموعة سكانية من إضافة فرد واحد من الأليل a أو النمط الفرداني h. بالنسبة إلى هابلوبلوك معين (H) ، تأخذ الطاقة الحرة الجينومية التفاضلية الشكل

د F (H) = - S (H) د T E + h μ h (H) d N h (H) ، (4)

حيث N h (H) يمثل عدد الأفراد في السكان مع النمط الفرداني h. هذا النموذج يهمل أي تأثير للسكان على البيئة. The total genomic free energy is a sum over all SNP haploblocks and non-linked SNPs given by

F genome = ∑ H F ( H ) + ∑ S F ( S ) . (5)

As is the case in thermodynamics, the additive allelic potentials μ h ( H ) are expected to scale relative to the environmental potential Tه, and allelic or haplotypic potential differences should directly reflect in the ratio of the frequencies of occurrence of those dynamic units within the population. We assert that such properties are encompassed in the functional form

μ h 2 ( H ) − μ h 1 ( H ) T E = − log 2 p h 2 ( H ) p h 1 ( H ) (6)

Defining a single human Genomic Energy Unit ( μ ˜ ≡ 1 G E U ) to be the allelic energy necessary to induce maximal variation within a single non-linked

bi-allelic SNP location ( p a 1 = 1 2 = p a 2 ), the potential of the haplotype h or allele

a in an environmental bath characterized by the environmental potential Tه that bathes the whole genome can be expressed as

μ h ( H ) = ( μ ˜ − T E ) n ( H ) − T E log 2 p h ( H ) μ a ( S ) = ( μ ˜ − T E ) − T E log 2 p a ( S ) . (7)

If only one allele is present at a SNP location for a given population, the allelic potential of that allele is defined to be at the fixing potential μمثبت for that environment μ a 1 ( S ) = μ f i x i n g ≡ ( μ ˜ − T E ) .

We will assume that the population is homeostatic (or at least quasi-homeostatic, which means that any changes occurring in the population distribution requires many generations to become significant). Population homeostasis is equivalent to the Hardy-Weinberg condition used in population biology that the statistical distribution is independent of any sub-divisions of the population data, including those associated with differing generations or ages. Our population stability condition will require that the genomic free energy be a (stable) minimum under changes in the population within the local environment when the population is in homeostasis with its environment, i.e.,

( ∂ F Genome ∂ N Population ) = 0 . By substituting the forms of the allelic potentials μ h ( H ) and

μ a ( S ) expressed in terms of the probabilities in Equation (7) into the population stability condition and summing over all haploblocks and SNPs, an explicit expression of the environmental potential can be obtained:

T E = μ ˜ n S N P s n S N P s − s Genome = μ ˜ N I C Genome . (8)

This inversely relates the environmental potential to the intrinsic normalized information content characterizing the variation of the whole genome of the population, demonstrating that the whole genome is uniformly bathed in this particular environmental parameter. The population stability condition can be expressed in terms of the population averaged haplotype and allelic potentials. We refer to the average haplotype potential within a SNP haploblock ∑ h μ h ( H ) p h ( H ) = 〈 μ ( H ) 〉 as the block potential for haploblock (H), and the average allelic potential at a non-linked SNP location ∑ a μ a ( S ) p a ( S ) = 〈 μ ( S ) 〉 as the SNP potential for location (S). The population stability condition then requires that the sum of all block and SNP potentials for a given population vanishes:

( ∂ F Genome ∂ N Population ) = 0 ⇒ ∑ H 〈 μ ( H ) 〉 + ∑ S 〈 μ ( S ) 〉 = 0 . (9)

This condition demonstrates that balance is established between diversity and conservation in a population to optimize its survivability within the given environment. One should note that the environmental potential Tه, the block potentials 〈 μ ( H ) 〉 and the SNP potentials 〈 μ ( S ) 〉 can only be constructed for a population. In addition, the individual allelic potentials μ h ( H ) and μ a ( S ) characterize an overall allelic potential for each individual in the population,

μ individual = ∑ H μ h ( H ) + ∑ S μ a ( S ) , (10)

where the set of SNP haplotypes h and alleles a are unique to the individual. An individual’s overall allelic potential is not a universal parameter, but rather depends strongly upon the environment.

To illustrate population dependent spectra of genomic block potentials, the genomic free energies of blocks in the major histocompatibility complex (MHC) region on chromosome 6 are displayed for a few founder populations using phase I, II, and III data from HapMap in Figure 1.

The MHC region encodes genes for the human immune response. This region of the genome is particularly relevant in host response to environmental stressors and is known to display straightforward biological correlations with environmental parameters. The emergent differences in the haploblock structure of the populations are immediately apparent. The block binding potential (which parameterizes the stability of an emergent haploblock) will be defined as the difference in the block potential from the sum of the individual SNP potentials that make up that block if they were not in linkage disequilibrium (LD). The corresponding spectra of binding potentials (per SNP) are demonstrated in Figure 2.

Those SNPs in haploblocks with more negative binding potential per SNP have enhanced biologic favorability for maintaining their correlated statistics throughout generations of the populations in the given environments. SNPs in haploblocks with nearly zero binding potential per SNP are nearly independent, indicative of the environmental transition point of the emergent genomic phase. Stated precisely, an emergent genomic phase indicated by the formation of a haploblock of statistically correlated SNPs on the genome of a population in homeostasis with a particular environment results in a non-vanishing binding potential for the SNPs in that haploblock. The strength of the binding block

شكل 1 . Block potentials for MHC region on Chromosome 6 as a function of location: (a) represents the block potentials for the Han Chinese in Beijing China (b) represents the MHC region block potentials for the Japanese in Tokyo Japan (c) represents the MHC region block potentials for the Yoruba in Ibadan Nigeria. Average values are demonstrated as the horizontal dashed lines. Regions of lower potential are indicative of a greater degree of conservation, and stronger binding of the correlated SNPs.

الشكل 2 . Binding block potential per SNP for the MHC region on Chromosome 6: (a) represents the binding block potentials for the MHC region for the Han Chinese in Beijing China (b) represents the binding block potentials for the MHC region for the Japanese in Tokyo Japan (c) represents the binding block potentials for the MHC region for the Yoruba in Ibadan Nigeria.

potential per SNP indicates the degree to which the SNP variation must be correlated in order to maintain a biologically viable population.

2.3 Distributive Genodynamics

The formulation of the information dynamics of the human genome in terms of genomic free energies directly results in well-defined forms for the SNP potentials for SNPs that are not in LD and for block potentials for correlated SNPs that are in LD. Since the SNP haploblock structure has an emergent form that differs between populations, meaningfully defined distributed potentials will reflect the biology underlying the participation of individual SNPs in the informatics architecture of its correlation with other SNPs in the haploblock. We will next develop distributed SNP potentials μ S ( H ) within a haploblock (H) such that they satisfy the following conditions:

If the SNP is occupied by an allele that is fixed in the given population, then its distributed SNP potential is the fixing potential μمثبت

The sum of the distributed SNP potentials should be the same as the block potential μ ( H ) , i.e. 〈 μ ( H ) 〉 = ∑ S = 1 n ( H ) μ S ( H )

The block potential should be linearly distributed amongst the constituent SNPs in accordance with occurrences of the SNP alleles.

The first bullet insures that if the SNP is not variant within the population, its genomic energy is not modified from that of a SNP that is not in LD, and the second bullet requires that the distributed potentials should reconstruct the block potential in an additive way. The third bullet represents a simple mechanism for relating the distributed potentials to the degree of variation in the SNP. The mathematical form that satisfies these conditions is given by

μ S ( H ) ≡ μ fixed + [ 〈 μ ( H ) 〉 − n ( H ) μ fixed ] ( p ¯ S ∑ S ′ p ¯ S ′ ) , (11)

where p ¯ S = 1 − p S is the minor allele frequency of the SNP labeled (S). Using this form, the distribution of the haploblock potential to any constituent SNP is proportionate to the occurrence of the minor allele in the population in a manner that increases the SNP’s genomic free energy as the SNP has higher variation (i.e., becomes less conserved).

The degree of stability of the participation of the SNP in the biology of the emergent haploblock can be quantified in terms of its binding potential defined by

ε binding ( S ) ≡ μ S ( H ) − 〈 μ ( S ) 〉 , (12)

where 〈 μ ( S ) 〉 would be the SNP potential of the genomic variant were it not in LD. As defined, this metric of SNP binding within the haploblock is always negative, reflecting the increased genomic conservation inherent in LD.

We can furthermore assign allelic measures from the distributed SNP potentials in a manner that constructs the SNP potentials as population averages of derived distributed allelic potentials μ a S ( H ) , i.e., μ S ( H ) = ∑ a S p a S ( H ) μ a S ( H ) . The most straightforward form that uniformly assigns the distributed SNP potential within a haploblock, and maintains the expected correlation that increased genomic potential reflects increased variation, results by simply adjusting the non-linked allelic potentials using the SNP binding potential, i.e.,

μ a S ( H ) ≡ μ a S ( S ) + ε binding ( S ) . (13)

It should be noted that all distributed potentials are only defined at the population level and cannot be ascribed to individuals. Only the emergent haplotype potentials μ h ( H ) can be ascribed to individuals within the population. However, since distributed potentials are defined for the population as a whole, they can bequite useful for parameterizing the environmental influences upon that population. Distributed potentials are particularly useful for describing the adaptation of the population to stimuli and stressors with known biological correspondence to particular alleles or SNPs. The description of genomic variants using distributed potentials inherently includes any presently unknown whole genome response to specific stressors.

Once genomic free energy measures have been developed for individual alleles and genomic regions, environmentally induced adaptive forces can be characterized using gradients of those additive measures down the slope of environmental parameters. For a given allele a on the genome that is biologically connected to a definable environmental parameter λ (such as UV light, lactose in diet, prevalence of malarial plasmodia, etc.), we define the environmentally induced adaptive force on that allele by

with analogously defined adaptive forces on potentials characterizing SNPs, haploblocks, haplotypes, genes, and even perhaps whole chromosomes. Such an expression is only meaningful if there is a functional relationship between the biology of the genomic unit and the particular environmental parameter λ. In such cases, positive adaptive forces drive the conservation of the given genomic unit down the slope of the genomic potential. Increased survivability might drive the genomic unit towards more diversity, or more conservation, depending on the nature of the environmental influence upon the homeostatic population. Quantifying such forces inherently involves comparisons between differing environments.

To explore environmental impacts on adaptation, we will confine our investigation to phase III data of HapMap, since this represents the broadest set of populations with somewhat uniform genotyping. We have chosen to exclude ASW, CEU, CHD, GIH and MXL from our parameterization of adaptive forces, since these populations do not reside in their geographical origin. In this paper, the genomic potentials of the set of SNPs in the MHC region on chromosome 6 were chosen to conduct a double-blind exploration for possible correlations with three particularly straightforward environmental parameters: annual exposure to UV-B radiation, altitude above sea level, and exposure to malarial vectors. In order to simplify the analysis of any results, the set of all SNPs in this region that are not in LD for most of the populations were pre-selected out for the computational search. The algorithm examines whether the genomic potentials for the SNPs and alleles can be fitted to simple functional forms (curves) singly dependent on a given environmental parameter. If the root-mean-squared (RMS) deviation of the data points from the curves, as compared to the maximum variation of the data, falls within 10%, the SNP is flagged by the program, and adaptive forces are calculated for the curves.

The averaged ancestral annual UV-B radiation exposure used was expressed in units of Joules per square meter (UV radiance) as estimated from the following cited source [7] . In these units, estimates of annual UV radiance for the CHB population averaged 2180 (ranging from 1500 to 2600), for the JPT population averaged 2400 (ranging from 2300-2500), for the LWK population averaged 5764 (ranging from 5450 to 6500), for the MKK population averaged 5624 (ranging from 5000 to 6125), for the TSI population averaged 1507 (ranging from 950 to 2500), and for the YRI population averaged 5129 (ranging from 3500 to 6300). The altitude values used are averaged estimates of elevations of populated regions for ancestral homelands in units of meters using data from [8] . In units of meters, estimates of population elevation for the CHB population averaged 22 (ranging from 3 to 48), for the JPT population averaged 107 (ranging from 5 to 287), for the LWK population averaged 1711 (ranging from 1203 to 2486), for the MKK population averaged 1507 (ranging from 712 to 2383), for the TSI population averaged 74 (ranging from 1.3 to 143), and for the YRI population averaged 211 (ranging from 12 to 337). The parasite data were based upon the Plasmodium falciparum parasite rate (PfPR), used by the World Health Organization [9] . We expect that all of the examined populations had higher malarial exposure in ancestry than at present. In particular, the TSI population likely had significantly higher malarial exposure in ancestry than in present time, since relatively recent developments have significantly reduced the prevalence of the insects and treatment of the disease. In units of parasite reproductive rate, estimates of PfPR for the CHB population averaged 0.01 (ranging from 0 to 0.05), for the JPT populations averaged 0.0002 (ranging from 0 to 0.001), for the LWK population averaged 12 (ranging from 2 to 35), for the MKK population averaged 8 (ranging from 1 to 25), for the TSI population averaged 0.8 (ranging from 0 to 5), and for the YRI population averaged 70 (ranging from 20 to 95).

In the following plots, if there is a best fit curve plotted with the points, then the data was flagged by the computer program. Blue points represent populations with the flagged SNP not in linkage disequilibrium. The thickness of the curves in the plots represents the degree of correlation of the data with the fitting curve, with bolder curves indicating stronger correlations.

Our program flagged functional dependencies on altitude of phase III HapMap data for the SNP rs1109771 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves are plotted in Figure 3.

The relative RMS deviation for the SNP potential was 0.03, for the G allelic potential was 0.008, and for the A allelic potential was 0.001. A significant adaptive force of about +1.5 GEUs/kilometer at lower altitudes on allele A towards increased conservation is apparent. At higher altitudes, significant variation is maintained, as indicated by the SNP potential remaining very near the maximum value of 1 GEU (maximal variation). This implies that the G allele continues a significant presence in the population in order to optimize its survivability in the higher altitudes available in the HapMap data.

Over the course of human history, adaptation to challenging environments has necessitated modulation of biological pathways at the genomic level to combat the toxic effects present in said environments. High altitude is an excellent example of how humans have adapted to an environmental stressor (e.g., low

Figure 3 . SNP rs1109771 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is altitude in units of kilometers. The vertical axis gives the SNP (μ_rs1109771) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs1109771 with altitude in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with altitude in the aforementioned populations.

oxygen content). The body’s response to chronic exposure to alveolar hypoxia is to hyperventilate, thereby increasing resting heart rate and stimulating the production of red blood cells to maintain the oxygen content of arterial blood at or above sea level values [10] . Moreover, an insufficient supply of oxygen prompts the formation of new vessels from the walls of existing ones, i.e. angiogenic sprouting [11] . Growth factors and chemokines are secreted from hypoxic tissues, stimulating endothelial cells to break away from vessel walls. These angiogenic factors then coordinate sprouting, branching, and new lumenized network formation until the oxygen content rises and normoxia can be re-established [12] . The Notch signaling pathway plays a key role in shaping the formation and remodeling of the vascular network under hypoxic conditions [11] . This pathway is an evolutionarily conserved intracellular signaling pathway that was originally identified in Drosophila. Notch has four transmembrane receptors, with Notch 1 and Notch 4 being expressed by endothelial cells [13] [14] [15] . It has been shown that targeted deletion of Notch 4 in mice results in the deregulation of arterial and venous specification of endothelial cells as well as the deformation of arteries and veins [16] [17] . In addition, overexpression of the intracellular domain of Notch 4 in endothelial cells results in a β1 integrin-mediated increase in adhesion to collagen resulting in cells that show a reduced sprouting response to vascular endothelial growth factor both in vitro and in vivo [18] . Thus, it appears that Notch signaling promotes cellular responses in endothelial cells that help to alleviate the harmful effects of hypoxia in the human body. Consequently, population differences in allelic frequencies in this pathway could effectively provide an adaptive advantage for survival in response to this environmental stressor.

As a demonstration of the potential guidance offered by this formulation towards future discovery in the biology of whole genome adaptation, our program flagged functional dependencies on plasmodium parasite load from HapMap data for rs430620 in the MHC region for the populations CHB, LWK, MKK, TSI and YRI. The curves plotted in Figure 4 represent a strong flag for parasite dependency of a SNP in the intervening sequence of the genome with no known association to any gene. The relative RMS deviation for the SNP potential was 0.007, for the G allelic potential was 0.02, and for the A allelic potential was 0.008. A significant adaptive force of about +3 GEUs/unit PfPR for initial parasite loads on allele A towards increased conservation is apparent. The A allele has very low occurrence within populations with no parasite load, and the SNP approaches fixation towards allele G. Once again, for higher parasite loads, significant variation is maintained, as indicated by the SNP potential approaching the maximum of 1 GEU, indicative of the importance of maintaining a significant occurrence of the G allele in the population. The possibility of an association of the A allele with increased survivability under an environmental stressor that parallels this parasite load is intriguing. Furthermore, this correlation exemplifies how genodynamics can be utilized in the discovery of genomic variants with previously unknown clear functional dependencies on simple environmental factors, thereby motivating other researchers to contextualize these functional dependencies relative to their own laboratory/clinical findings.

We have demonstrated the utility of associating genomic free energy measures with environmental influences on whole genome adaptation. Double-blind smooth mathematical functions flagged relationships between altitude and the allelic energies of a SNP associated with oxygen deprivation. From these functional relationships, genomic energy gradients quantify adaptive forces in a manner analogous to corresponding concepts in the physical sciences. Our formulation of genomic information dynamics optimizes the survivability of a population in a given environment. Specifically, whole genome SNP distributions represent an environmentally influenced balance between genome sequence variation and conservation. Furthermore, double-blind smooth mathematical

Figure 4 . rs430620 in MHC region on Chromosome 6. The horizontal axis labeled by the environmental parameter λ is plasmodium parasite load in units of Plasmodium falciparum parasite rate. The vertical axis gives the SNP (μ_rs430620) and allelic (μ_G, μ_A) potentials in genomic energy units (GEUs): (a) illustrates the functional correlation of SNP rs430620 with PfPR in the Chinese, Kenyan, Tuscan and Yoruban populations (b) and (c) illustrate the allelic correlations (G and A respectively) with PfPR in the aforementioned populations.

functions flagged relationships between parasite load and the allelic energies of a SNP with no known association to a gene. This provides an intriguing opportunity and direction for future discovery of the biology associated with this SNP.

Moreover, population diversity in genome-wide common variants, such as SNPs that are non-randomly embedded in the human genome, represent a “quintessential experiment of nature” in whole genome adaptation to environmental stimuli and stressors associated with population diversity in health outcomes. SNPs associated with common diseases not only reveal mechanisms underlying the complex biology of common diseases, but also the “genomic cost” to populations in whole genome adaptation to environmental stimuli and stressors. By parameterizing the information dynamics of SNPs in HapMap populations, we developed a mathematical model of environmentally induced adaptive forces as drivers of population health and diversity in health outcomes. Our model provides new lenses through which SNP data can be explored to solve problems in population-based patterns of genome variation in common complex diseases which we submit is significant in clinical translation.

The authors would like to acknowledge the continuing support of the National Human Genome Center, and the Computational Physics Laboratory, at Howard University. This research was supported in part by NIH Grant NCRR 2 G12 RR003048 from the RCMI Program, Division of Research Infrastructure. The authors hereby certify that they have no affiliations with or involvement in any organization or entity with any financial interest or non-financial interest in the subject matter or materials discussed in this manuscript.

The authors declare no conflicts of interest regarding the publication of this paper.


SNPs in the Human Genome - Biology

The HEK293 (Human Embryonic Kidney 293) cell line is one of the most frequently used cell lines in cell biology, second only to HeLa cells. Moreover, they are used for biopharmaceutical production and are very popular hosts for small-scale protein production and for viral vector propagation.

Decades of 293 and 293-derivative cell cultivation have led to progressively different genome structure and sequence alterations. Knowledge of the genome sequence of 293 cells and of the SNPs and CNVs amongst the different lines is not only important to understand basic 293 biology and the genomic changes associated with cell culture and clone selection, but is also especially relevant in the light of mammalian cell genetic engineering.

This web tool provides for easy browsing through the sequence- and average copy-number level variations of six different HEK293 cell lines, and have included links that invoke the Integrative Genome Browser (Broad Institute) for inspection of the underlying data.


معلومات الكاتب

الانتماءات

Colon Cancer Genetics Group, Division of Oncology, University of Edinburgh, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

James GD Prendergast & Malcolm G Dunlop

MRC Human Genetics Unit, Western General Hospital, Crewe Road, Edinburgh, EH4 2XU, UK

Nick Gilbert, Wendy A Bickmore & Colin AM Semple

Public Health Sciences, Department of Community Health Sciences, University of Edinburgh, Edinburgh, UK

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

يمكنك أيضًا البحث عن هذا المؤلف في PubMed Google Scholar

المؤلف المراسل


مناقشة

In recent years, SNPs in miRNA target sites have been widely studied to be associated with diseases from hereditary diseases to different cancers (review in [Sethupathy and Collins, 2008 ]). And SNPs in miRNA genes were reported to involve in the alteration of miRNA processing [Duan et al., 2007 Harnprasopwat et al., 2010 ], thyroid cancer [Jazdzewski et al., 2009 ], gastric cancer risk [Peng et al., 2009 ], ulcerative colitis [Okubo et al., 2011 ], squamous cell carcinoma [Liu et al., 2010 ], and nonsyndromic progressive hearing loss [Mencia et al., 2009 ]. Thus, identifying functional miRNA-related SNPs are of interest for diseases and complex trait studies. However, the effects on miRNA biogenesis and target selection of SNPs in miRNA genes have not been studied extensively. In the first step of this study, we identified the miRNA-related SNPs and summarized their features. Then, we focused on the prediction of potential effects on miRNA biogenesis and target binding by SNPs in miRNA genes through both prediction and experimental validation. Finally, we compiled all the data into the miRNASNP, a free online database. Considering the wide regulation of miRNA and widely existed SNP, our identified functional miRNA-related SNPs will be a useful resource to mine SNP-associated disease or phenotype in population.

Promising SNPs in Human miRNA Precursors

Since miRNA functions as a top regulator involved in a wide range of regulation, SNPs in miRNA genes may affect miRNA function by influencing the miRNA biogenesis process or target interactions, thus cause serious consequences. In this study, we identified 757 SNPs in human miRNA genes, and further examined the HapMap data for these SNPs. Although lots of SNPs lack frequency information in HapMap, we still found that 69 of them were sampled in HapMap and 40 of them with relatively high MAF (ف ≥ 0.1) in at least one population. In the Result section, we inferred the effects on maturation of the SNPs in pre-miRNAs by summarizing published examples. According to our speculated rules, eight of the 40 SNPs (rs11614913, rs13299349, rs13447640, rs6971711, rs11844707, rs72246410, rs4822739, and rs17797090) locate in stem regions with ΔΔG > 2 kcal/mol, which may decrease the MIR production. Another seven SNPs (rs2910164, rs2292832, rs10505168, rs5997893, rs12780876, rs10934682, and rs2043556) locate in stem regions with ΔΔG <–2 kcal/mol, which may increase the MIR production. Theoretically, these SNPs would greatly change the production of the mature miRNAs, thus may contribute to genetic difference among different population. However, an SNP in the pre-miRNA with relatively low MAF may also cause serious consequences in individuals once it occurs. For example, two SNPs (+13 G > A) and (+14 C > A) in miR-96 seed region were observed in a Spanish family with autosomal dominant progressive high-frequency hearing loss due to impaired maturation and disturbed target sites [Mencia et al., 2009 ].

Since the seed region of an miRNA is the most important feature for its target binding [Bartel, 2009 ], SNPs in miRNA seed region will influence the miRNA target binding and selection directly. Here, we identified 50 SNPs in the seed regions of 41 human miRNA genes and predicted their target gain and loss effects for these SNPs (Fig. 2 and miRNASNP website). Our predicted results indicate that SNPs in miRNA seed regions would cause nearly half targets loss and gain on average. In our dataset, five miRNAs with SNP in seed region (miR-124, miR-125-5, miR-1302, miR-379, and miR-499-3p) are conserved in mammalias (chimpanzee, mouse, rat, and dog). We extracted their conserved targets and performed KEGG pathway and Gene Ontology enrichment analyses. Results show that miRNA-mediated function will be changed greatly after SNP variants. For example, the conserved targets of wild miR-124 show significant enrichment in terms “regulation of apoptosis,” “intracellular membrane-bounded organelle,” and “regulation of cellular biosynthetic process,” but no enrichment for the conserved targets of its variant (Benjamini corrected ص القيمة & لتر 0.05). Of them, miR-124 and miR-125a-5p have experimentally validated targets in TarBase [Sethupathy et al., 2006 ] and miR2Disease [Jiang et al., 2009 ], we found 135 validated targets would loss for miR-124 and one validated target would loss for miR-125a-5p once the SNP allele changes.

Notable, the SNP rs12220909 in miR-4293, which is the only one SNP located in seed region and sampled in HapMap with ف > 0.1. We further analyzed the MAF of rs12220909 in HapMap populations and found the frequencies of the allele C are 0 in both Utah residents with Northern and Western European ancestry from the CEPH collection (CEU) and Yoruba populations, 0.034 in Japanese, and 0.211 in Han Chinese. Chinese has a significant higher C genotype (χ 2 test, ص & لتر 0.01). The ΔΔG affected by rs12220909 is −0.5 kcal/mol, which means the SNP type is slightly more stable than wild type and it may increase the mature miRNA expression. Since it locates in the seed region, our target gene gain and loss prediction indicated that miR-4293 would loss 1,735 target genes and only gain 199 target genes after G→C substitution. Gene Ontology and KEGG analyses show that lost target genes significantly enrich in the term of “ion binding,” “plasma membrane part,” and “small GTPase regulator activity” (Benjamini corrected ص < 0.05), while the gained target genes by SNP variant do not show significant enrichment in any categories. Although, no studies reported the function of this miRNA currently, it is interesting to study its function and associated phenotype.

Besides seed region, other residues in mature miRNA sequence were suggested to play a modest role in target recognition [Bartel, 2009 Grimson et al., 2007 ]. After computational prediction for miRNA target gain and loss, we further performed experiments to validate the effects on target binding by SNPs in seed region and mature region. We selected 11 miRNA target pairs for three target genes, which are ATP6V0E1, BCL2، و SEMA3F (Table 3). Among these miRNA-target pairs, two (miR-34a/BCL2 and miR-124/ATP6V0E1) have been validated by others [Wang et al., 2009 Wang and Wang, 2006 ] and we also confirmed both of them. In our experimental results, five of the eight SNPs in seed regions were proved to dysregulate their targets. Three SNPs in mature sequences other than seed regions all have slight influences on their target binding, even an indel SNP. These results support the conclusion that residues in seed region play key roles and other residues in mature sequence have modest effects on miRNA target binding [Bartel, 2009 ].

It is worthy of note that in this study, we proved the target gain by SNP rs2620381 in miR-627 seed region by experiments. In wild type of miR-627, it can not bind the 3′UTR of ATP6V0E1, while the SNP-type miR-627 gained the ability to target the ATP6V0E1 3′UTR and repressed its expression dramatically in our luciferase experiments. To our best knowledge, this is the first experimentally validated example for target gain affected by a SNP in an miRNA. It provides a new mechanism for miRNA dysregulation in different individuals. Our results show that SNPs in an miRNA gene, especially in the seed region, will alter the target profile of the miRNA by losing original targets and gaining new targets. These SNPs in miRNA seed regions and their target gain and loss information will be a potential useful clue to study the miRNA function and find the SNP-associated disease or phenotype.

Promising SNPs in 3′UTRs of Human Protein Coding Genes

In contrast to the SNPs in miRNA genes, there are more reports that studied the effect of SNPs in 3′UTRs. Loss of a potential miRNA target site may increase the protein expression, while gain of a functional miRNA target site will repress the protein expression, thus affect physiological function and clinical phenotype. Here, using our pipeline, we identified tens of thousands of SNPs locating in potential miRNA target sites and some of them show high MAF, high MAF difference between populations, or positive selection pressure during evolution. Those SNPs will be important candidates for causal variants of human disease. Currently, genome-wide association studies have uncovered many SNPs associated with traits and diseases. The NHGRI GWAS catalogue (http://www.genome.gov/gwastudies, accessed by 2010-12-16) described 1,227 unique SNPs associated with one or more traits (ص < 5 × 10 −8 ) [Hindorff et al., 2009 ]. Among these SNPs, six are in our 3′UTR dataset and three are present in our target loss and gain dataset. They are rs1036819 associated with longevity, rs28927680 associated with triglycerides, and rs1042725 associated with height. The original papers also mentioned that these SNPs in 3′UTR may be involved in the traits by miRNA-mediated regulation but without detail miRNA information. Utilizing our database miRNASNP, users can find the detail information about miRNA and its target gain and loss. For example, when users search rs28927680 in miRNASNP, it will show the SNP locates in the potential target sites of six miRNAs (hsa-miR-1323, hsa-miR-548a-3p, hsa-miR-548e, hsa-miR-548f, hsa-miR-548o, and hsa-miR-548t) in 3′UTR of gene BUD13. SNP rs28927680 is reported to be associated with blood low-density lipoprotein cholesterol, high-density lipoprotein cholesterol, or triglycerides in human [Kathiresan et al., 2008 ], hence the SNP-associated miRNA and target site information may shed light on further experiments.

There are more than 1,000 experimentally validated miRNA-target pairs in miR2Disease and Tarbase databases. Based on these data and miRNA-related SNPs in our miRNASNP database, we identified 31 SNPs in 3′UTRs with the abilities to disturb experimental validated miRNA-target pairs. Three of them (rs5186, rs12720208, and rs56109847) have been experimental confirmed to make dysregulate their corresponding targets and associated with diseases. Sethupathy et al. demonstrated that the SNP (rs5186) in the AGTR1 3′UTR mediates allele-specific targeting of miR-155 to AGTR1, thereby modulating AGTR1 protein levels [Sethupathy et al., 2007 ]. SNP rs12720208 was proved to mediate allele-specific in vitro targeting of miR-433 to the FGF20 3′UTR and confers risk for Parkinson disease [Wang et al., 2008 ]. Kapeller et al. identified rs62625044 (now merged into rs56109847) in the 3′UTR of HTR3E, which could mediate allele-specific miR-510 targeting. This was associated with diarrhea-predominant irritable bowel syndrome (IBS-D) in females from the United Kingdom and was also confirmed in a German cohort by replication study [Kapeller et al., 2008 ]. Besides the three validated SNPs, the rest will be attractive SNPs in human miRNA target sites for future studies.


شاهد الفيديو: لماذا يغيب أربعمئة مليون عربي عن خرائط الجينوم العالمية. شاهد اللقاء مع مدير برنامج قطر جينوم (كانون الثاني 2023).