معلومة

استخدام متواليات الأحماض الأمينية مقابل استخدام متواليات النيوكليوتيدات في تحليل النشوء والتطور

استخدام متواليات الأحماض الأمينية مقابل استخدام متواليات النيوكليوتيدات في تحليل النشوء والتطور


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

عند قراءة ورقة بحثية عن تطور الجينات ، أرى أنهم يجرون تحليلًا للتطور الجيني للبكتيريا باستخدام تسلسل البروتين. يأخذون الطريقة من ورقة أخرى.

أستطيع أن أشك في أن تسلسل الأحماض الأمينية أكثر استقرارًا من متواليات النيوكليوتيدات ، لوجود بدائل مترادفة ... ولكن ، هل هذا الاستقرار مطلوب بين الأنواع ذات الصلة الوثيقة؟ ألا تجعل التحليل أقل قوة؟ هل تجعلها أكثر موثوقية؟ بمعنى آخر ، ما هي ميزة استخدام متواليات الأحماض الأمينية مقابل استخدام متواليات النوكليوتيدات لتحليل النشوء والتطور؟


بشكل عام ، يمكن للعديد من برامج محاذاة التسلسل استخدام نماذج استبدال متعددة ، والتمييز بين النيوكليوتيدات والأحماض الأمينية والكودونات. يحتوي تسلسل البروتين على معلومات وظيفية غير مرئية بشكل مباشر في تسلسل النيوكليوتيدات.

تتعامل الأوراق البحثية التي تربطها بالنقل الأفقي للجينات ، حيث يتم تمرير الجين إلى كائن حي بعيد. الأنواع المختلفة لها تحيزات مختلفة في استخدام الكودون ، أي أن كفاءة الترجمة تختلف باختلاف الكودونات. من ناحية أخرى ، هذا يعني أن HGT من المرجح أن يحدث بين الأنواع ذات استخدام الكودون المماثل. من ناحية أخرى ، "استخدام الكودون للجينات المنقولة أفقيًا يقترب من استخدام المضيف بمرور الوقت." وهكذا ، على مستوى النوكليوتيدات ، ستفقد إشارة النشوء والتطور بسبب الضغط التطوري على كفاءة الترجمة ، بينما على مستوى البروتين ، سيكون هناك المزيد من الحفظ.


نظرًا لحقيقة أن العديد من الكودونات يمكنها ترميز نفس الحمض الأميني ، فإن تسلسل الأحماض الأمينية يكون عادةً أكثر حفظًا من تسلسل النيوكليوتيدات.

بالنسبة للدراسات على نطاق صغير ، فإن التباين العالي لبيانات النيوكليوتيدات يجلب سمات مفيدة لإنشاء علاقات بين الكائنات الحية وثيقة الصلة والتي قد لا يتم تمييزها على مستوى الأحماض الأمينية.

مع المسافة التطورية الطويلة ، تميل إشارة النوكليوتيدات إلى أن تمحى ببدائل متعددة في نفس الموقع. الميزة الأكثر إزعاجًا هي أن الجينومات تميل إلى أن يكون لها تركيبة نيوكليوتيد مفضلة. سيكون للموقع الذي يخضع للبدائل احتمالية متزايدة لعرض النيوكليوتيد المفضل ، خاصةً إذا لم يكن للاستبدال أي تأثير على مستوى الأحماض الأمينية (استبدال مرادف). يؤثر هذا بشكل أساسي على مواقع الكودون الثالثة ، لأنه ، كما ترون في الكود الجيني ، هذا هو المكان الذي تختلف فيه معظم عائلات الكودون. قد يحدث أن تشترك الأنواع البعيدة في نفس تفضيل التكوين. ستميل المواقع المجانية في التغيير إلى عرض نفس النيوكليوتيدات في كلا النوعين مع زيادة عدد الاستبدال. يمكن أن يؤدي هذا إلى حدوث أخطاء في إعادة بناء نسالة ، خاصة إذا لم تكن نماذج تطور النيوكليوتيدات متطورة بدرجة كافية.

كلما زاد المقياس التطوري ، زادت فرصة ظهور مثل هذه الميزات المضللة في بيانات النيوكليوتيدات. هذا يجعل الأحماض الأمينية أكثر ملاءمة للدراسات واسعة النطاق. لكن في النهاية ، يمكن للمرء أن يأمل في أن استخدام نماذج أفضل سيمكن من استخدام الإشارة الموجودة في بيانات النيوكليوتيدات إلى أقصى حد دون أن يكون مضللاً كثيرًا. يؤدي استخدام بيانات الأحماض الأمينية إلى التخلص من بعض المعلومات الموجودة.

تجدر الإشارة إلى أن بعض الطرق تستخدم نماذج تطور الكودون بدلاً من نماذج النيوكليوتيدات أو الأحماض الأمينية: يتم الاحتفاظ بكل الإشارات ، ولكن من الممكن دمج المعرفة بأن بعض الكودونات من المرجح أن تتحول إلى بعضها البعض ، بسبب المرادفات.


خلفية

حظي تقدير العلاقات النشوء والتطور بين كاسيات البذور باهتمام كبير خلال العقد الماضي مع الزيادة السريعة في توافر بيانات تسلسل الحمض النووي من مجموعة متنوعة من الواسمات والأصناف [تمت مراجعتها في [1]]. اعتمدت معظم دراسات التطور الجزيئي السابقة للنباتات المزهرة على واحد إلى عدة جينات من الجينوم البلاستيدات الخضراء والميتوكوندريا و / أو الجينوم النووي ، على الرغم من أن معظم هذه التحليلات استندت إلى علامات البلاستيدات الخضراء. أدت هذه الجهود إلى حل العلاقات بين العديد من السلالات الرئيسية من كاسيات البذور ولكن لا يزال هناك عدد من القضايا العالقة [1]. توفر جينومات البلاستيدات الخضراء المتسلسلة بالكامل مصدرًا غنيًا للبيانات التي يمكن استخدامها لمعالجة أسئلة التطور في العقد العميقة في شجرة كاسيات البذور [2-6]. يوفر استخدام تسلسل الحمض النووي من جميع جينات البلاستيدات الخضراء المشتركة العديد من السمات لإعادة بناء نسالة المنشأ مقارنة بالدراسات السابقة التي اعتمدت على جين واحد أو عدد قليل من الجينات لمعالجة نفس الأسئلة. ومع ذلك ، يمكن أن يؤدي نهج الجينوم بأكمله إلى تقديرات مضللة للعلاقات بسبب أخذ عينات محدودة من الأصناف [5 ، 7-10] واستخدام نماذج غير صحيحة لتطور التسلسل في مجموعات البيانات المتسلسلة [4 ، 11]. وبالتالي ، هناك اهتمام متزايد بتوسيع أخذ عينات الأصناف من تسلسل جينوم البلاستيدات الخضراء الكاملة وتطوير نماذج تطورية جديدة لتحليل النشوء والتطور لتسلسل البلاستيدات الخضراء [12] للتغلب على هذه المخاوف.

تمثل الورود أكبر المجموعات الثمانية الرئيسية من eudicots الأساسية وتشمل ما يقرب من ثلث جميع النباتات المزهرة. حددت السلالات الفردية ومتعددة الجينات للورد سبع مجموعات رئيسية ، ومع ذلك ، تظل العلاقات بين هذه المجموعات دون حل [13-16]. واحدة من هذه الكتل التي لم يتم حلها تشمل Vitaceae ، والتي تشمل العنب ، وهو نبات محصول مهم. لقد كان موقع Vitaceae النشئي مثيرًا للجدل لسنوات عديدة. بعض التصنيفات السابقة تضع الأسرة ضمن عائلة رامناليس في الفئة الفرعية Rosidae [17]. أحدثت سلالات جزيئية حديثة تعتمد على واحد إلى أربعة جينات دعمًا ضعيفًا لوضع شقيقة Vitaceae في Caryophylales [18] أو asterids [18] أو Saxifragales [14] أو Dilleniaceae [19] أو للورد [14-16] . وبالتالي ، فإن العلاقة التطورية لعائلة العنب إلى eudicots الأساسية تظل دون حل.

في هذه المقالة ، نقدم تقريرًا عن التسلسل الكامل لجينوم البلاستيدات الخضراء للعنب (كرمة العنب الاوروبي، Vitaceae). بالإضافة إلى وصف تنظيم جينوم البلاستيدات الخضراء ، نقدم نتائج التحليلات التطورية لتسلسل الحمض النووي لـ 61 جينًا من العنب و 26 جينومًا آخر من كاسيات البذور ، بما في ذلك ثمانية أعضاء آخرين من كليد الوردية. تقدم تحليلات علم الوراثة نظرة ثاقبة لعلاقة Vitaceae بالورود الأخرى وتوضح أهمية أخذ عينات الأصناف والأسلوب التحليلي في معالجة أسئلة النشوء والتطور باستخدام تسلسل الجينوم الكامل. تسلسل جينوم البلاستيدات الخضراء الكامل لـ فيتيس يوفر أيضًا بيانات قيمة لاستخدام الهندسة الوراثية البلاستيدات الخضراء لهذا النبات المهم اقتصاديًا [20].


أساليب

جمع البيانات ومعالجتها

تم تنزيل الجينومات المرجعية جنبًا إلى جنب مع ملفات تنسيق الميزات العامة (GFF3) المقابلة لها من قاعدة بيانات المركز الوطني لمعلومات التكنولوجيا الحيوية (NCBI) 18،19،20،21 في أغسطس 2018 باستخدام موقع NCBI FTP: ftp: //ftp.ncbi. nlm.nih.gov/genomes/refseq/. استخدمنا أحدث إصدار تجميع مرجعي لكل من 247 نوعًا من الفقاريات (انظر الملاحظات التكميلية S1 و S2 للحصول على قائمة الأنواع المستخدمة في هذه الدراسة). تم تحليل مجموعة تصنيف الثدييات (114 نوعًا من الثدييات) ، بالإضافة إلى مجموعة الفقاريات غير الثديية (133 نوعًا من غير الثدييات). تشمل تحليلاتنا أنواع الفقاريات فقط لأنه تم تحديد تسلسلات منحدرات تقويمية غير كافية في مجموعات تصنيفية أخرى. من بين العتائق والبكتيريا والفطريات واللافقاريات والفقاريات الثديية والفقاريات الأخرى والنباتات والأوليات والفيروسات ، اجتازت الفقاريات فقط معايير التصفية الخاصة بنا لضمان احتواء أطباء تقويم العظام على تسلسلات منحدرة في 5٪ على الأقل من الأنواع المتاحة ولم تحتوي على تسلسلات منحدرة في 5٪ على الأقل من الأنواع المتاحة. يلزم ما لا يقل عن 5٪ من جميع أطباء تقويم العظام المشروحين لتمرير معايير التصفية هذه لمجموعة تصنيفية ليتم تضمينها في تحليلاتنا.

قمنا بعد ذلك بتقييم تطابق إشارة النشوء والتطور لتسلسلات المنحدرات داخل أنواع الثدييات ومجموعة الفقاريات. تم استخراج جميع بيانات تسلسل الترميز (CDS) من الجينومات المرجعية باستخدام محلل GFF3 المتضمن في JustOrthologs 22. تمت إزالة أي تسلسلات مع استثناءات مشروحة ، مثل الاستثناءات الترجمية وتباينات النسخ غير المصنفة والأخطاء المشتبه بها ، من مجموعة البيانات. تضمنت تحليلاتنا جميع التعليقات التوضيحية للجينات NCBI. يتم حساب التعليقات التوضيحية للجينات NCBI بواسطة خط أنابيب شرح الجينوم حقيقية النواة لـ NCBI لمجموعة بيانات NCBI Gene. يستخدمون مزيجًا من تشابه تسلسل البروتين والمعلومات التركيبية المحلية لإنشاء تقويم العظام. قد يقوم المنسق اليدوي أيضًا بتعيين علاقات جينية متعامدة. تتضمن قاعدة بيانات NCBI 34202 أخصائي تقويم للثدي و 41337 أخصائي تقويم للفقاريات غير الثديية.

تحديد تسلسل المنحدر

تم تحديد تسلسل المنحدر باستخدام ExtRamp (الشكل 1). تم حساب تكيف الكودون النسبي لكل كودون باستخدام تردده في الجينوم. ثم تم تقدير معدل الترجمة في كل كودون في الجين باستخدام متوسط ​​كفاءة الترجمة لنافذة من الكودونات. تم استخدام نافذة منزلقة من تسعة أكواد لتقريب مدى الريبوسوم ، على النحو الموصى به في وثائق ExtRamp 9. تم تحديد تسلسل المنحدرات عندما حدثت مناطق خارجية منخفضة من كفاءة ترجمة الكودون (أي ، اختناقات متعدية) في بداية التسلسلات الجينية. تم تشغيل ExtRamp على كل ملف FASTA من الأنواع (.fasta) يحتوي على جميع الجينات باستخدام الخيارات لإخراج تسلسل المنحدر والجزء بعد تسلسل المنحدر ، كما هو موضح في ملف ExtRamp README (https://github.com/ridgelab/ExtRamp ) تم تضمين الأمر الدقيق المستخدم في الملاحظة التكميلية S3.

تحديد تسلسل المنحدر باستخدام ExtRamp. مخطط انسيابي لإيجاد تسلسلات المنحدرات باستخدام ExtRamp.

استعادة الأنساب باستخدام وجود وغياب المنحدرات

تم ترميز وجود أو عدم وجود تسلسل منحدر في كل تقويم تقويمي مشروح في مصفوفة ثنائية. إذا كان تسلسل المنحدر موجودًا في تقويم العظام ، فسيتم ترميزه في المصفوفة كـ "1" ، وإذا كان غير موجود ، فسيتم ترميزه كـ "0". الأنواع التي لا تحتوي على تقويم العظام تم تعيين "؟" لقيمة مفقودة ، على غرار الطرق الأخرى التي وجدت إشارات النشوء والتطور في تحيزات استخدام الكودون 23 ، 24 ، 25. تم تقييد تأثير البيانات المفقودة من خلال تطبيق مرشح إضافي على البيانات. تم تضمين الجين المتعامد في التحليلات فقط إذا تم العثور على تسلسل منحدر في هذا الجين في 5 ٪ على الأقل من الأنواع. بالإضافة إلى ذلك ، كان مطلوبًا من جميع الأنواع أن تحتوي على شروح تقويم العظام لما لا يقل عن 5 ٪ من أطباء تقويم العظام الذين يمرون بهذا المرشح الأولي. بعد تطبيق هذا المرشح ، كان لدى أنواع الثدييات متوسط ​​16.31٪ ± 7.81٪ بيانات مفقودة ، وكان لدى الفقاريات غير الثديية متوسط ​​28.50٪ ± 13.11٪ مفقود من البيانات.

تم استعادة أشجار النشوء والتطور البخل باستخدام تحليل الأشجار باستخدام التكنولوجيا الجديدة (TNT) 26. تم العثور على أكثر الأشجار شحًا عن طريق حفظ العديد من الأشجار باستخدام تبادل فرع إعادة ربط الأشجار (tbr) 27. تم انتشال أشجار الاحتمالية القصوى باستخدام IQTREE 28.

استرجاع السلالات المرجعية

من أجل تحديد تطابق إشارة النشوء والتطور لتسلسلات المنحدرات ، تمت مقارنة كل من السلالات المستعادة (أي ، البخل والأشجار ذات الاحتمالية القصوى) مع السلالة الاصطناعية من شجرة الحياة المفتوحة (OTL). على الرغم من أن هذا التطور لا يمكن اعتباره شجرة "حقيقية" ، إلا أنه تم إنشاؤه من مجموعة من العديد من دراسات علم الوراثة ، ويوفر موردًا مفيدًا لقياس تسلسل المنحدرات كحالة شخصية جديدة. تم استرداد السلالة الاصطناعية من OTL باستخدام محلل تم نشره مسبقًا ، getOTLtree.py 30 ، والذي يشير إلى واجهة برمجة تطبيقات OTL (API) للحصول على معرفات تصنيف OTL لكل نوع واسترداد نسالة من قاعدة بيانات OTL. يتم تضمين الأمر الدقيق في الملاحظة التكميلية S4.

مقارنات مع شجرة OTL الاصطناعية

تم تقييم دقة السلالات المستردة بناءً على وجود تسلسل المنحدر أو غيابه من خلال مقارنة كل شجرة بتسلسل السلالات الاصطناعية OTL. تم قياس الفرق باستخدام مقارنات النسبة المئوية للفروع ، كما تم تنفيذها بواسطة مجموعة أدوات البيئة لاستكشاف الأشجار ، وحدة مقارنة ete3 31 ، 32. يحسب هذا المقياس النسبة المئوية للتشابه في الفرع بين شجرتين ، حيث تتوافق النسبة المئوية العالية مع أشجار أكثر تشابهًا. تم اختيار هذا المقياس نظرًا لقدرته على مقارنة الأشجار الكبيرة ، بما في ذلك الأشجار غير المقطوعة والأشجار ذات الأشكال المتعددة. تم تحديد الأداء الأساسي لمقياس هوية النسبة المئوية لفرع ete3 من خلال مقارنة 1000 تباديل عشوائي للثدييات والفقاريات الأخرى مع OTL.

تسجيل تسلسل المنحدر

باستخدام المصفوفة الثنائية لتسلسلات المنحدرات داخل كل تقويم تقويمي ، تم تحديد مدى تماثل تسلسل المنحدرات المتجانسة عن طريق تعيين كل تسلسل منحدر إلى OTL. لكل تسلسل منحدر ، تم تقسيم الأنواع إلى قسمين بناءً على وجود أو عدم وجود تسلسل المنحدر. نظرًا لأن autapomorphies لا توفر معلومات عن النشوء والتطور ، كان من الضروري وجود تسلسل منحدر متعامد في نوعين على الأقل وغائب في نوعين على الأقل ، بافتراض شجرة تم حلها بالكامل. لكل تسلسل منحدر ، تم تحديد عدد التوازي والانعكاسات التي حدثت. تحدث التوازي عندما تنشأ شخصية بشكل مستقل عدة مرات بسبب التطور المتقارب. تحدث الانعكاسات عند فقد حرف مشتق أو عندما تعود الشخصية إلى حالتها الأصلية. تم تحديد تسلسل المنحدر ليكون متعامدًا إذا قام بفصل الأنواع بشكل صحيح وفقًا لعلاقاتها المبلغ عنها في OTL ، وإذا كان العدد الإجمالي لأحداث الكسب / الخسارة يساوي واحدًا ، كما تم حسابه مسبقًا لتحيزات استخدام الكودون الأخرى 23 ، 24. تم بعد ذلك استخدام عدد أحداث المنشأ والخسارة لحساب مؤشر الاحتفاظ لكل تسلسل منحدر 33 ، حيث يمثل مؤشر الاحتفاظ الصفري طابعًا متماثلًا تمامًا ، ويمثل مؤشر الاحتفاظ بواحد حرفًا لا تكون فيه أي من الحالات متجانسة .

الحسابات الإحصائية باستخدام اختبار التقليب العشوائي

تم إجراء التباديل العشوائي من أجل تحديد مدى مقارنة مؤشر الاحتفاظ المتوسط ​​الملحوظ لتسلسلات المنحدرات بالفرصة العشوائية. اختبارات التقليب (وتسمى أيضًا اختبارات التوزيع العشوائي) هي اختبارات إحصائية غير بارامترية تحدد الأهمية الإحصائية عن طريق إعادة الترتيب العشوائي لتسميات مجموعة البيانات 34. تم خلط الأصناف الموجودة في OTL 1000 مرة لإنشاء أشجار عشوائية. تم الحفاظ على طوبولوجيا شجرة OTL لمنع أي تحيزات بسبب طوبولوجيا الشجرة. تم حساب مؤشرات الاحتفاظ لتسلسل المنحدر لكل شجرة عشوائية لإنشاء توزيع فارغ لمؤشرات الاستبقاء بسبب الصدفة العشوائية. تمت مقارنة مؤشر الاحتفاظ المتوسط ​​الفعلي للمنحدر بهذا التوزيع وتم حساب قيمة p التجريبية كنسبة من مؤشرات الاحتفاظ المتناوبة أقل من أو تساوي مؤشر الاحتفاظ الملحوظ من OTL.

الحساب الإحصائي للمنحدرات المتعامدة بالكامل

تم اعتبار تسلسل المنحدر متعامدًا إذا كانت جميع الأنواع التي لديها أو لا تحتوي على تسلسل المنحدر تشكل مجموعة أحادية النمط. لكل تسلسل منحدر متعامد ، تم حساب احتمال أن تشكل مجموعة أحادية اللون بالاتفاق مع طوبولوجيا OTL بسبب الصدفة العشوائية. تم تقسيم الأنواع إلى مجموعتين: الأنواع ذات التسلسلات المنحدرة ، والأنواع بدون تسلسل المنحدرات. تم بعد ذلك حساب الاحتمال الشرطي بأن مجموعة من الأنواع ستقسم عشوائيًا إلى مجموعة أحادية اللون متوافقة مع OTL باستخدام الطريقة الموصوفة سابقًا في Miller، et al. 23 ، الذي يصف كيف (ر) مجموع الأنواع (س) عدد الأنواع في المجموعة الأصغر من المجموعتين (أي الأنواع ذات المنحدرات أو الأنواع التي لا تحتوي على منحدرات لجين معين) سوف تتبع سلالة مقترحة باستخدام المعادل. (1).

على سبيل المثال ، إذا كانت ثلاثة أنواع تحتوي على تسلسل منحدر في جين متعامد وكان هناك سبعة أنواع إجمالية ، فإن احتمال أن الأنواع الثلاثة التي تحتوي على تسلسل منحدر في الجين المتعامد ستشكل مجموعة أحادية النمط بالاتفاق مع طوبولوجيا OTL عن طريق الصدفة العشوائية على النحو التالي:

لكل تسلسل منحدر متعامد ، تم حساب العدد المتوقع لتسلسلات المنحدرات بضرب الاحتمال الشرطي في العدد الإجمالي لتسلسلات المنحدرات بنفس التوزيع التصنيفي (على سبيل المثال ، إذا كانت مجموعة البيانات تحتوي على 15 جينًا متعامدًا مع تسلسل منحدر حيث كان هناك ثلاثة أنواع في المجموعة الأصغر وسبعة أنواع إجمالية ، فإن العدد المتوقع من المنحدرات المتعامدة عبر هذا التوزيع سيكون (P * 15 = frac <1> <15> * 15 = 1 )). تم إجراء تحليل مربع كاي باستخدام العدد المتوقع لتسلسلات المنحدرات المتعامدة مقابل الأرقام المرصودة من أجل حساب قيمة p لمجموعة البيانات.

مقارنات التحكم مع التسلسلات المختصرة

أجرينا تحليل تحكم إضافي للتأكد من أن ExtRamp حددت تسلسلات المنحدرات التي من المحتمل أن تؤثر على كفاءة الترجمة بدلاً من الآثار الجينية عن طريق إزالة أول 50 كودونًا في جميع الجينات وإعادة تشغيل خط أنابيب التحليل الخاص بنا. نظرًا لأن تسلسل المنحدر يحدث عمومًا ضمن أول 50 كودونًا للجين ، فقد توقعنا أن يحدد تحليل التحكم هذا عددًا أقل بكثير من تسلسلات المنحدرات مقارنة بمجموعة البيانات الأصلية. قمنا بتقييم هذا الاختلاف باستخدام إحصائية مربع كاي وقيمة p.

استعادة الأنساب باستخدام بيانات التسلسل المتوافقة

من أجل التحقيق في الفرضية القائلة بأن النيوكليوتيدات في تسلسل المنحدرات توفر إشارة نسالة مختلفة عن الأجزاء الأخرى من الجين ، تم تحليل التسلسلات المتوافقة باستخدام أقصى احتمال وبخل. تمت محاذاة تسلسل المنحدر لكل مجموعة متعامدة باستخدام Clustal Omega 35 (انظر الملاحظة التكميلية S5 للأمر). تمت محاذاة التسلسلات باستخدام محاذاة تسلسل النوكليوتيدات بدلاً من محاذاة تسلسل الأحماض الأمينية لاستيعاب الاختلافات المحتملة في إطارات قراءة موقع لصق بين الأنواع. تسمح محاذاة تسلسل النوكليوتيدات بمحاذاة الجينات المتماثلة التي قد تحتوي على exons مزدوج الترميز ، والذي يحدث عندما يمكن تشفير جزء واحد من التسلسل باستخدام إطارات قراءة مختلفة.

تم ترميز مصفوفة الحرف عن طريق ربط تسلسل المنحدر المحاذي من كل تقويم العظام. ثم ، إذا لم يكن أخصائي تقويم العظام موجودًا في أحد الأنواع ، فسيتم ترميز كل حرف نيوكليوتيد لهذا التسلسل على أنه "؟" للبيانات المفقودة. تم استخدام الحد الأقصى بعد ذلك في IQ-TREE 28 لاختيار أفضل نموذج 36 وإجراء أقصى تقدير لاحتمالية لتطور السلالة. تم استخدام المصفوفة أيضًا في مادة TNT لاستعادة السلالات باستخدام البخل.

تم استرجاع الأنساب بالمثل باستخدام التسلسل المحاذي بعد المنحدر وتسلسل الجينات الكامل لكل جين متعامد. بالنسبة لتحليل الاحتمالية القصوى ، فإن حجم مجموعة البيانات للجزء بعد تسلسل المنحدر والتسلسل الكامل جعل اختيار النموذج التلقائي غير عملي بسبب المتطلبات الحسابية. لذلك ، اخترنا نفس النماذج التي تم استخدامها في تسلسل المنحدر لتقييم تسلسل الجينات بعد تسلسل المنحدر وتسلسل الجينات الكامل ، والتي كانت GTR + F + R5 للثدييات و GTR + F + R8 للفقاريات غير الثديية.


خلفية

قبل أن يبدأ الطلاب الأنشطة 1 و 2 ، نناقش فكرة داروين عن النسب مع التعديل وما يعنيه ذلك لتنوع الكائنات الحية على الأرض. إذا كان النسب مع التعديل هو آلية نسالة ، أو أنماط العلاقة بين الكائنات الحية ، فإن أوجه التشابه موجودة بين الكائنات الحية لأنها تشترك في سلف مشترك. استنادًا إلى نفس المبادئ التي تجعل الأشقاء أكثر تشابهًا من أبناء العمومة ، يمكن استخدام التشابه بين الأنواع لعمل استنتاجات حول العلاقات التطورية بينهم. تسمى الخصائص المتشابهة "شخصيات متجانسة" إذا كان التشابه يرجع إلى أصل مشترك. ليست كل أوجه التشابه متماثلة. يمكن أن يؤدي التطور المتقارب إلى أوجه تشابه لأن ضغوط الاختيار تدفع الأنواع المتباينة على نطاق واسع إلى أشكال متشابهة. تعد الطائرات الشراعية المصنوعة من السكر الجرابي في أستراليا والسناجب الطائرة المشيمية في أمريكا الشمالية مثالين من العديد من الأمثلة على أوجه التشابه في التشكل التي نتجت عن التطور المتقارب. من خلال دراسة الصفات المتجانسة - سواء عن طريق مقارنة جزيئات مثل الدنا ، أو الخصائص الفيزيائية مثل السمات التشريحية ، أو الصفات الأحفورية - يمكن صنع أشجار النشوء والتطور التي تعكس العلاقات بين الكائنات الحية. إن فهم وفحص هذه العملية هو كيفية تقدم نظرية التطور.

ثلاث خطوات مهمة في تحليل النشوء والتطور هي (1) تحديد التماثل ، (2) تحديد الخصائص المتوارثة مقابل الخصائص المشتقة (أي قطبية الشخصية) ، و (3) استخدام البخل كمعيار للحكم بين الأشجار البديلة. (يتم تناول البخل في بداية النشاط 3.)

يتم تحديد التنادد من خلال ثلاثة خطوط من الأدلة: علم التشكل ، والموقع النسبي فيما يتعلق بالسمات الأخرى ، والتطور الجنيني لميزة الاهتمام. عند التفكير في العظام ، فإن الموضع النسبي هو ، جزئيًا ، وكيل لمراقبة تطور ذلك العظم. نظرًا لأن العظام ، وخاصة عظام الأطراف ، يمكن أن تكون متغيرة شكليًا نتيجة للتكيفات ، فإن الموضع النسبي هو أداة مفيدة للمساعدة في تحديد التماثل. قد تبدو عظامان في كائنات مختلفة مختلفة اختلافًا كبيرًا ولكنهما مفصلتان مع نفس أنواع العظام بالضبط. هذا مؤشر جيد على تماثل العظام ، حتى لو كانت العظام تبدو مختلفة إلى حد كبير ، لأن التغيير في البرنامج التنموي المعقد والمترابط لطرف بأكمله يكون أقل احتمالا بكثير من الشكل النهائي لأي عظم معين في ذلك الطرف.

"قطبية الشخصية" مصطلح يستخدم لوصف الاختلاف في الأحرف المتماثلة فيما يتعلق بكيفية تغيرها عبر الزمن. تخيل أن شخصية جديدة قد تطورت للتو في نوع جديد. نظرًا لأن هذا النوع يشع ويؤدي إلى ظهور أنواع جديدة أخرى ، يمكن أن تظل الشخصية الجديدة كما هي أو تتغير. إذا تغيرت الشخصية وتم نقل هذا الاختلاف إلى أنواع جديدة ، فإن الشكل الأصلي للشخصية يُعرف باسم "حالة شخصية الأسلاف" ، بينما يُشار إلى الشكل الجديد باسم "حالة الحرف المشتق". على سبيل المثال ، افترض أن مجموعة آباء من الفقاريات لها أطراف قصيرة وأدت إلى ظهور أنواع بنات لها أطراف طويلة وأطراف قصيرة. تعتبر الأطراف القصيرة حالة شخصية السلف وتعتبر الأطراف الطويلة مشتقة. يمكن بعد ذلك استخدام هذه المعلومات لإعادة بناء العلاقات التطورية بين مجموعة من الأنواع الموجودة. نظرًا لعدم وجود طريقة للنظر إلى الوراء في الوقت المناسب لاكتشاف كيف تغيرت الشخصيات - وبالتالي الأنواع - ، فإن الأحافير تقدم أفضل دليل لتحديد قطبية الشخصية. بدلاً من الحفريات ، يمكن استخدام تحليل المجموعة الخارجية. يبدأ تحليل المجموعة الخارجية بإيجاد نوع حي مرتبط بشكل بعيد (ولكن ليس بعيدًا جدًا) بمجموعة الكائنات التي تكون قطبية الشخصية فيها موضع تساؤل. بافتراض أن المجموعة الخارجية تشترك أيضًا في سلف مشترك ، ولكن في وقت أقل مؤخرًا ، يمكن للمرء أن يتنبأ بأن الشكل المشترك للخاصية هو سلف. على سبيل المثال ، إذا كانت مجموعة الكائنات الحية قيد الدراسة بها بعض الأعضاء بأطراف طويلة والبعض الآخر بأطراف قصيرة ، يصبح السؤال "أيهما أتى أولاً؟" - أي ما هي حالة الشخصية المشتركة سلف؟ إذا كانت المجموعة الخارجية ذات أطراف قصيرة ، فيمكن الاستدلال على أن الأطراف القصيرة كانت الحالة القديمة للمجموعة الداخلية. لماذا هو أن هذه القضية؟ من الأرجح أن تكون الأطراف القصيرة قد تطورت مرة واحدة فقط في سلف مشترك وتم نقلها إلى كل من المجموعة الداخلية والمجموعة الخارجية ، بدلاً من التطور بشكل منفصل في كليهما. إذا كان من المفترض أن تكون الأطراف الطويلة هي سمة الأجداد للمجموعة الداخلية ، فيجب أن تتطور الأطراف القصيرة مرة واحدة في المجموعة الخارجية ومرة ​​أخرى في بعض أعضاء المجموعة. سيتم استكشاف هذا المفهوم بمزيد من التفصيل خلال التدريبات المختبرية.


هوية النسبة المئوية لتسلسل الحمض النووي الجينومي والأحماض الأمينية

تشير هوية النسبة المئوية إلى قياس كمي للتشابه بين تسلسلين (DNA أو حمض أميني أو غير ذلك). من المتوقع أن يكون للأنواع ذات الصلة الوثيقة هوية أعلى في المائة لتسلسل معين مقارنة بالأنواع ذات الصلة البعيدة ، وبالتالي فإن الهوية المئوية إلى حد ما تعكس الترابط. يختلف تحديد النسبة المئوية لتسلسل الحمض النووي الجينومي وتسلسل intron و exon وتسلسل الأحماض الأمينية بين البشر والأنواع الأخرى حسب نوع الأنواع ، حيث يمتلك الشمبانزي أعلى نسبة هوية مع البشر من جميع الأنواع في كل فئة.

تسلسل الحمض النووي الجيني: معظم تقديرات النسبة المئوية للهوية بين البشر والشمبانزي تضع هوية النسبة الجينومية الكاملة عند 98-99٪ ، على الرغم من أن التقديرات منخفضة تصل إلى 95٪ قد تم تقديمها عند تضمين عمليات الإدراج والحذف ووجدت دراسة حديثة تقارن الجينومات المكتملة للاثنين. 96٪ هوية. بالنظر إلى أن العديد من هذه الدراسات استخدمت حجم عينة صغير من كل نوع ، فمن المعقول أن يتم التقليل من هوية النسبة المئوية بسبب تعدد الأشكال الفردية الموجودة في كل مجموعة. الاختلافات الموجودة بين الأنواع ليست موزعة بالتساوي عبر الجينوم ، والكروموسوم Y ، نهايات الكروموسومات وتكرارات CpG ثنائي النوكليوتيد تظهر تباعدًا أعلى من المناطق الأخرى. تعد تقديرات الهوية هذه أعلى من تلك الخاصة بالأنواع ذات الصلة البعيدة (93٪ لقرود العالم القديم ، و 89٪ لقرود العالم الجديد) ، ولكنها أقل من تلك الخاصة بالتنوع بين الأفراد بين الأنواع.

تسلسل الأحماض الأمينية: النسبة المئوية للهوية بين البشر والشمبانزي في تسلسل الأحماض الأمينية أعلى من تلك الخاصة بتسلسل الحمض النووي ، مع تقديرات تزيد عن 99٪ ، وقد تم اقتراح أن 29٪ من البروتينات المشفرة متطابقة بين الأنواع. عند النظر إلى تسلسل الأحماض الأمينية لعائلات جينية معينة ، على الرغم من ذلك ، قد يكون التشابه أقل بكثير من الجينات البشرية مع نشاط عامل النسخ ، على سبيل المثال ، فقد ثبت أن لديها ما يقرب من 50 ٪ من تغيرات الأحماض الأمينية أكثر من هذه الجينات في الشمبانزي.

الإنترونات والإكسونات: تقديرات النسبة المئوية لتعرف الإنسان والشمبانزي للإنترونات والإكسونات هي 97 و 99 ، على التوالي ، تعطي التقديرات الأخرى هوية 98.3 بالمائة في المناطق غير المشفرة و & gt99.5 بالمائة هوية في مناطق الترميز. يتوافق التشابه الأعلى في مناطق الترميز / exons مع القيد الانتقائي التطوري المتزايد الذي سيتم وضعه على تسلسلات ترميز البروتين هذه. تنخفض هذه القيم إلى

هوية 77٪ عند النظر إلى جينومات الإنسان والفأر ، بما يتفق مع نقطة الاختلاف الأقدم بين هذه السلالات.

تسلسل الحمض النووي الجديد ، تسلسل الأحماض الأمينية ، وتسلسل الإنترونات والإكسونات


استخدام متواليات الأحماض الأمينية مقابل استخدام متواليات النيوكليوتيدات في تحليل النشوء والتطور - علم الأحياء

يمكن استخدام طرق علم الوراثة لعدة أغراض ، بما في ذلك تحليل البيانات المورفولوجية والعديد من أنواع البيانات الجزيئية. نركز هنا على تحليل تسلسل الحمض النووي والبروتين.

مقارنات بين أكثر من تسلسلين

تحليل عائلات الجينات ، بما في ذلك التنبؤات الوظيفية

تقدير العلاقات التطورية بين الكائنات الحية

من السهل فهم المفاهيم الأساسية لتحليل النشوء والتطور ، لكن فهم ما تعنيه نتائج التحليل ، وتجنب أخطاء التحليل قد يكون صعبًا للغاية. للحصول على الدورات الدراسية التفصيلية ، يمكنك أخذ صفي للخريجين حول هذا الموضوع.

& quot؛ كويك & قذر & quot؛ بديل لتحليل النشوء والتطور

استخدام بلاست لمقارنات تسلسل متعددة

يتم التركيز على أفضل النتائج المتبادلة ، لا سيما بين ثلاثة جينومات

ربما تكون هذه طريقة جيدة لتحديد المتماثلات ، لكنها لا تتمتع بقوة التحليل الكامل للتطور

مثال مع الكائنات اليومية

النموذج الأساسي لتحليل النشوء والتطور.

تشترك جميع طرق تحليل النشوء والتطور تقريبًا في عدد من الافتراضات الأساسية. وتشمل هذه:

التسلسلات المتشابهة هي في محاذاة متعددة التسلسل.

& bull لاحظ أن التنادد هو ملف بداهة افتراض معظم طرق النشوء والتطور. إذا كان التنادد غير مؤكد ، فيجب تفسير النتائج التحليلية بحذر شديد.

يشار إلى المحاذاة أيضًا باسم مصفوفة البيانات

يُشار إلى كل عمود في المحاذاة باسم أ اختلاف الشخصيات.

يُشار إلى البقايا المحددة (النيوكليوتيدات أو الأحماض الأمينية) الموجودة في تسلسل معين باسم حالة الشخصية.

من المفترض أنها مشتقة من أ سلف واحد مشترك (هذا البيان هو في الواقع زائدة عن الحاجة من حيث التعريف يجب اشتقاق التسلسلات المتجانسة من سلف مشترك).

في معظم الحالات ، لا تكون متواليات الأجداد معروفة ، ويجب استنتاج حالات الأجداد

من المفترض أن تكون متواليات الأجداد قد مرت طفره

تعد نمذجة الطفرة بدقة أحد تحديات تحليل النشوء والتطور

من المفترض أن تكون مرتبطة بشجرة متفرعة ثنائية التفرع

أ بداهة تشمل الافتراضات (على سبيل المثال لا الحصر بالضرورة):

أن التسلسل نفسه صحيح

أنه تم تحديده من الكائن الحي الصحيح

تعد انتهاكات هذا الافتراض أكثر شيوعًا مما قد يشك فيه المرء. يمكن أن تؤدي عدة أنواع من الأخطاء المختبرية إلى شرح غير صحيح لتسلسل شرعي.

تم تحديد هذا التنادد بشكل صحيح. هذا ينطبق على كل من التسلسلات نفسها والمحاذاة.

يمكن أن يسبب Paralogy ارتباكًا هائلاً.

الافتراضات التي دخلت في إجراء محاذاة التسلسل المتعدد هي من بين افتراضات تحليل النشوء والتطور الذي يعتمد على هذا المحاذاة.

يظل هذا التشابه الكافي بين التسلسلات التي تشير إلى وجود معلومات نسجية قابلة للاستخدام.

افتراضات تحليل النشوء والتطور الموصوفة أعلاه

اعتبارات حرجة أخرى

محتوى المعلومات من التسلسلات

التسلسلات الثابتة

متواليات مشبعة

الافتراضات الخاصة بالطريقة التحليلية (سيشكل هذا الكثير من مناقشتنا للمحاضرات القليلة القادمة)

نموذج ماركوف

لاحظ أنه حتى إذا تم الاستدلال على نسالة الجينات بشكل صحيح ، فقد لا يكون هذا التطور مفيدًا. على سبيل المثال ، بسبب الشلل ، والتهجين ، والإدخال ، ونقل الجينات الأفقي ، فإن سلالات الجينات لا تتوافق دائمًا مع سلالة الجينوم ككل.

الشخصيات

الدول الشخصية

محاذاة تسلسل متعددة كمصفوفات بيانات

أهمية تقييم التنادد

يمكن تقسيم طرق علم الوراثة إلى ثلاث فئات عامة

معايير الأمثل ضد. خوارزميات بناء الشجرة

جزء من نظام نظري أكبر يشار إليه باسم & quotCladistics & quot

يؤكد على حالات الشخصية المشتقة المشتركة

الفكرة هي أنه يمكن التعرف على المجموعات أحادية النمط لأنها تشترك في حالات الأحرف المشتقة (& quotsynapomorphies & quot).

تعتبر الحالات الثابتة والفريدة (& quotautapomorphic & quot) وحالات الشخصية السلفية غير مفيدة

ابحث عن الشجرة التي تتطلب أقل عدد من التغييرات في حالة الأحرف

تحديد طول الشجرة

يمكن تحديد الحد الأدنى لعدد الخطوات لحرف معين في مسار واحد

سننظر في حالة بسيطة ذات أحرف غير مرتبة

    1. قم بتعيين حالة لكل عقدة طرفية
    2. (2) قم بزيارة العقدة الداخلية الأولى
      1. هل تقاطع الدول غير فارغ؟
        1. نعم: اضبط الحالة الداخلية على هذا.
        2. آخر:
          1. set the state to the smallest set containing the states of the daughter nodes
          2. increase the tree length by 1.
    3. Are you at the root of the tree?
      1. No: go to 2.
      2. Yes: go to 4.
    4. (4) Is the state at this node the same as the outgroup state?
      1. Yes: Proceed to the next character
      2. Else: Add one to the length of the tree proceed to next character

This tells you the tree length, but does not map the characters onto the tree

Determining a most parsimonious reconstruction requires another pass

This reconstruction will not necessarily be unique!

The problem with uncorrected methods

Parsimony is easy to understand and can be a useful analytical method, but the method makes some assumptions that may not be immediately obvious. One of parsimony's most important assumptions is that it is relatively unusual for identical character-states to appear independently in different parts of the phylogenetic tree. In other words, it assumes that convergent evolution is a relatively rare phenomenon.

Unfortunately this is not a valid assumption for biological sequence data.

When the possible number of character states is limited, then one expects to observe convergent evolution. Because DNA has only four possible character states, two unrelated DNA sequences would be expected to have the same nucleotide present in roughly 25% of all positions. Two random محاذاة sequences would be expected to share somewhat more than 25% sequence identity (why?).

Because of this, under some conditions parsimony methods will be inconsistent

Although amino acid data have more character states than DNA and are therefore probably less

Models of DNA Sequence Evolution

Jukes-Cantor (JC)

All substitutions are equally likely

All nucleotides occur with equal frequency

Transitions and transversions can occur at different rates

All nucleotides occur with equal frequency

In the evolution of real sequences transitions are typically observed more often than transversions.

Example of a substitution probability matrix consistent with the K2P model.

These values represent the probability of the corresponding event occurring within a unit of time, t.

The values in the diagonals are selected such that each row adds up to one. Each row has to add up to one because the substitution matrix takes into account all possible events within the model.

Felsenstein 1985 and Hasegawa, Kishino, and Yano, 1985 (F84/HKY85)

Transitions and transversions occur at different rates

The four nucleotides can occur with different frequencies

Each of the six possible substitutions occurs at a different rate, but rates are always symetrical, i.e., the rate for A being substituted by C is equal to the rate for being substituted by A.

Nucleotides can occur with different frequencies.

Modeling site-to-site rate variation

Pairwise distances can be aggregated into a phylogenetic tree

Search for the tree that minimizes discrepancies among pairwise distances

May or may not use an explicit model of sequence evolution

How the distances are calculated and how the tree is found can be mixed and matched

To know what method is being used, you have to know both how the distance matrix was constructed, and how the tree was determined

A model of sequence evolution can be used to relate the data to a hypothesis (typically a tree topology).

Maximum likelihood

Search for the tree that maximizes the likelihood function

The idea is to find the tree that is most likely given the data and the model

Typically uses a Monte Carlo algorithm

Estimates probabilities for branch lengths and tree topologies

Properties of analytical methods

Consistency A method is consistent if it is more likely to find the correct answer with more data. Power A method is powerful if it can find the correct answer with very few data. Accuracy A method is accurate if in multiple trials it produces answers that follow a normal distribution centered on the correct answer. Precision A method is precise if in multiple trials it finds answers that are very close to each other (i.e., have low variance).

Felsenstein, Joseph. 2004. Inferring Phylogenies. Sinauer Associates, Sunderland, MA.

Hillis, D.M., C. Moritz, and B.K. Mable, eds. 1996. Molecular Systematics, 2nd Ed. Sinauer Associates, Inc. Sunderland, MA.

Edwards, A.W.F. 1972. Likelihood, Expanded Edition. Johns Hopkins Press, Baltimore.

Hennig, W. 1966. Phylogenetic systematics. University of Illinois Press, Urbana.


المواد والأساليب

BLAST Analysis

We calculated E-values using the blastp program version 2.2.16, [17] and modified Perl scripts, as in our previous report [18]. The deduced amino acid sequences of every gene from one organism were used as the query (query database) for a BLAST (Basic Local Alignment Search Tool) search against the protein database of another organism. For the calculation of E-values, we used default parameters and settings of BLAST as follows: a cut-off E-value of 10, the BLOSUM62 amino acid substitution matrix [19], and filtration of low complexity sequences [20]. E-values of the best-matched proteins, which showed the lowest E-values for each query sequence, were extracted. All E-values were converted into common logarithms, and E-values of zero were converted to −180 for data handling. These E-values were used for calculation of the evolutionary distances.

Calculation of the Substitution Rate of 16S Ribosomal DNA

We independently calculated the substitution rate of 16S ribosomal DNA. The 16S rDNA sequences were retrieved from the website databases of DDBJ/EMBL/GenBank, CyanoBase (Kazusa DNA Research Institute), and Integrated Genomics Inc., and the database in the ARB software 7.7.12 [21]. Accession numbers of 16S rDNA genes and databases for retrieving 16S rDNA sequences are listed in Table S1. Pairs of 16S rDNA nucleotide sequences from two different organisms were aligned using CLUSTALW 1.81 with an IUB matrix [22]. Substitution rates were calculated for all combinations of 16S rDNAs in all organisms used in this study even though some organisms contain multiple copies of 16S rDNA genes. The regression curve between the results based on the E-value estimation and the substitution rate of 16S ribosomal DNA was estimated using the IGOR Pro software (Version 5.05J, WaveMetrics, Inc. USA), and a correlation coefficient of determination was obtained using Microsoft Excel.

Phylogenetic Analysis

The phylogenetic tree was constructed as a neighbor joining (NJ) tree [23] with the program NEIGHBOR from the PHYLIP package 3.67 [24]. The consensus NJ tree was constructed with the programs NEIGHBOR and CONSENSE from the PHYLIP package 3.67. Bootstrap values were constructed using the CONSENSE program [24] from 100 reproduced trees. Reproduced trees were formed from individual distance matrices that were constructed by randomly extracted best-matched proteins and their E-values. The rand function subprogram of the Perl language was used to select the best-matched proteins and their E-values.

We constructed a phylogenetic NJ tree based on 16S rDNA sequences using 1,364 unambiguously aligned bases to compare a branching pattern with those based on amino acid sequences. The distance matrix and phylogenetic tree were constructed using DNADIST with the Jukes-Cantor correction [25] and NEIGHBOR in the PHYLIP package 3.67, respectively. Bootstrap analysis of 100 replicates of the trees was performed with SEQBOOT, DNADIST and NEIGHBOR from the PHYLIP package. The CONSENSE program was used to obtain the bootstrap values. Synechococcus elongatus PCC 6301 were used as an out-group because only بروكلوروكوكس و Synechococcus groups were analyzed.

Protein Sequence Databases

FASTA-formatted sequence files for whole proteins of each organism were retrieved from DDBJ/EMBL/GenBank, CyanoBase, Department of Energy Joint Genome Institute (JGI), Cyanorak database (http://www.sb-roscoff.fr/Phyto/cyanorak/), and Integrated Genomics Inc., and their sources are listed in Table S2.


Use of amino-acid sequences versus use of nucleotide sequences in phylogenetic analysis - Biology

SYSTEMATICS AND MOLECULAR PHYLOGENETICS

Have you ever noticed that when you see an insect or a bird, there is real satisfaction in giving it a name, and an uncomfortable uncertainty when you can't. Along these same lines, consider the bewildering number and variety of organisms that live, or have lived, on this earth. If we did not know what to call these organisms, how could we, or more importantly, scientists, communicate ideas about them, let alone the history of life. شكرا ل التصنيف--the field of science that classifies life into groups--today we can discuss just about any organism, from bacteria to man.

Carolus Linnaeus pioneered the grouping of organisms based on scientific names using Latin. His system of giving an organism a scientific name of two parts, sometimes more, is called التسميات ذات الحدين, or "two-word naming." His scheme was based on physical similarities and differences, referred to as الشخصيات. Today, taxonomic classification is much more complex and takes into account cellular types and organization, biochemical similarities, and genetic similarities. Taxonomy is but one aspect of a much larger field called systematics.

What is Phylogenetic Systematics?

Carolus Linnaeus was also credited with pioneering systematics--the field of science dealing with the diversity of life and the relationship between life's components. Systematics reaches beyond taxonomy to elucidate new methods and theories that can be used to classify species based on similarity of traits and possible mechanisms of تطور--a change in the gene pool of a population over time.

Phylogenetic systematics is that field of biology which does deal with identifying and understanding the evolutionary relationships among the many different kinds of life on earth, both living (موجود) and dead (ينقرض). Evolutionary theory states that similarity among individuals or species is due to common descent, or inheritance from a common ancestor. Thus, the relationships established by phylogenetic systematics often describe a species' evolutionary history and, hence, its علم تطور السلالات--the historical relationships among lineages or organisms or their parts, such as their genes.

Understanding the Evolutionary Process

Genetic Variation: Changes In A Gene Pool

Evolution is not always discrete with clearly defined boundaries that pinpoint the origin of a new species, nor is it a steady continuum. Evolution requires genetic variation and genetic variation results from changes within a تجمع الجينات--the genetic make-up of a specific population. A gene pool is the combination of all the alleles--alternative forms of a genetic locus--for all traits that population may exhibit. Changes in a gene pool can result from mutation--variation within a particular gene--or from changes in gene frequency--a measure of the proportion of an allele in a given population.

How does genetic variation occur?

Every organism posses a الجينوم that contains all the biological information needed to construct and maintain a living example of that organism. The biological information contained in a genome is encoded in the nucleotide sequence of its DNA or RNA molecules and is divided into discrete units called الجينات. The information stored in a gene is read by proteins, which attach to the genome and initiate a series of reactions called gene expression.

Every time a cell divides, it must make a complete copy of its genome--a process called تكرار الحمض النووي. DNA replication must be extremely accurate in order to avoid introducing الطفرات, or changes in the nucleotide sequence of a short region of the genome. Inevitably, some mutations do occur, usually in one of two ways either from errors in DNA replication or from damaging effects of chemical agents or radiation that react with DNA and change the structure of individual nucleotides. Many of these mutations result in a change that has no effect on the functioning of the genome, referred to as silent mutations. Silent mutations include virtually all changes that happen in the noncoding components of genes and gene-related sequences.

Mutations in the coding regions of genes are much more important. Here we must consider the importance of the same mutation in a somatic cell compared with a germ line cell. A somatic cell is any cell of an organism other than a reproductive cell such as a sperm or egg cell. A germ cell line is any line of cells that give rise to gametes and is continuous through the generations. Because a somatic cell does not pass on copies of its genome to the next generation, a somatic cell mutation is important only for the organism in which it occurs and has no potential evolutionary impact. In fact, most somatic mutations have no significant effect because there are many other identical cells in the same tissue.

On the other hand, mutations in germ cells can be transmitted to the next generation and will then be present in all the cells of an individual who inherits that mutation. Even still, mutations within germ line cells may not change the phenotype of the organism in any significant way. Those mutations that do have an evolutionary effect can be divided into two categories: فقدان وظيفة mutations and gain-of-function mutations. A loss-of-function mutation results in reduced or abolished protein function. Gain-of-function mutations, which are much less common, confer an abnormal activity on a protein.

The Drivers Of Evolution: Selection, Drift, and Founder Effects

We just discussed that new alleles appear in a population because of mutations that occur in the reproductive cells of an organism. This means that many genes are متعدد الأشكال, that is, two or more alleles for that gene are present in a population. Each of these alleles has its own أليل أو gene frequency--a measure of how common an allele is in a population. Allele frequencies vary over time due to two conditions: natural selection and random drift.

Natural selection is the process whereby one الطراز العرقى--the hereditary constitution of an individual--leaves more offspring than another genotype because of superior life attributes, termed fitness. Natural selection acts on genetic variation by conferring a survival advantage to those individuals harboring a particular mutation that tends to favor a changing environmental condition. These individuals then reproduce and pass on this "new" gene, altering their gene pool. Natural selection, therefore, decreases the frequencies of alleles that reduce the fitness of an organism and increase the frequency of alleles that improve fitness.

It is important to point out that natural selection does not always represent progress, only adaptation to a changing surrounding. That is, evolution due to natural selection is devoid of intent--something does not evolve to better itself, only to adapt. Since environments are always changing, what was once an advantageous mutation can often become a liability further down the evolutionary line.

المصطلح "random drift" actually encompasses a number of distinct processes, sometimes referred to as outcomes. They include indiscriminate parent sampling ال تأثير المؤسس and fluctuations in the rate of evolutionary processes such as selection, migration, and mutation. Parent sampling is the process of determining which organisms of one generation will be the parents of the next generation. Parent sampling may be discriminate, that is, with regard to fitness differences, or indiscriminate--without regard to fitness differences. Discriminate parent sampling is generally considered natural selection while indiscriminate parent sampling is considered random drift.

Another important cause of genetic drift is the تأثير المؤسس--the difference between the gene pool of a population as a whole and that of a newly isolated population of the same species. The founder effect occurs when populations are started from a small number of pioneer individuals of one original population. Due to small sample size, the new population could have a much different genetic ratio than the original population. An example of the founder effect would be when a plant population results from a single seed.

Thus far we have discussed natural selection and random drift as events that occur in isolation from one another. However, in most populations, the two processes will be occurring at the same time. Furthermore, there is great debate over whether, in particular instances and in general, natural selection is more prevalent that random drift.

Phylogenetic Trees: Presenting Evolutionary Relationships

Systematics describes the pattern of relationships among taxa and is intended to help us understand the history of all life. But history is not something we can see--it has happened once and leaves only clues as to the actual events. Scientists use these clues to build hypotheses, or models, of life's history. In phylogenetic studies, the most convenient way of visually presenting evolutionary relationships among a group of organisms is through illustrations called phylogenetic trees.

  • Node: represents a taxonomic unit. This can be either an existing species or an ancestor.
  • Branch: Defines the relationship between the taxa in terms of descent and ancestry.
  • طوبولوجيا: The branching patterns of the tree.
  • Branch length: Represents the number of changes that have occurred in the branch.
  • Root: The common ancestor of all taxa.
  • Distance scale: scale that represents the number of differences between organisms or sequences.
  • كليد: a group of two or more taxa or DNA sequences that includes both their common ancestor and all their descendents.
  • Operational Taxonomic Unit (OTU): Taxonomic level of sampling selected by the user to be used in a study, such as individuals, populations, species, genera, or bacterial strains.

تتكون شجرة النشوء والتطور من العقد--each representing a taxonomic unit (species, populations, individuals)--and الفروع, which define the relationship between the taxonomic units in terms of descent and ancestry. Only one branch can connect any two adjacent nodes. The branching pattern of the tree is called the topology and the branch length usually represents the number of changes that have occurred in the branch. وهذا ما يسمى ب scaled branch. Scaled trees are often calibrated to represent the passage of time. Such trees have a theoretical basis in the particular gene or genes under analysis. Branches can also be unscaled, which means that the branch length is not proportional to the number of changes that has occurred, although the actual number may be indicated numerically somewhere on the branch. Phylogenetic trees may also be either rooted أو غير متجذر. In rooted trees, there is a particular node, called the جذر--representing a common ancestor--from which a unique path leads to any other node. An unrooted tree only specifies the relationship among species, without identifying a common ancestor, or evolutionary path.

Methods Of Phylogenetic Analysis

Two major groups of analyses exist to examine phylogenetic relationships: phenetic methods و cladistic methods. It is important to note that phenetics and cladistics have had an uneasy relationship over the last 40 years or so. Most of today's evolutionary biologists favor cladistics, even though a strictly cladistic approach may result in counterintuitive results.

Phenetic Method of Analysis

Phenetics, also known as numerical taxonomy, involves the use of various measures of overall similarity for the ranking of species. There is no restriction on the number or type of characters (data) that can be used, although all data must be first converted to a numerical value, without any character "weighting." Each organism is then compared with every other for all characters measured, and the number of similarities (or differences) is calculated. The organisms are then clustered in such a way that the most similar are grouped close together and the more different ones are linked more distantly. The taxonomic clusters, called phenograms, that result from such an analysis do not necessarily reflect genetic similarity or evolutionary relatedness. The lack of evolutionary significance in phenetics has meant that this system has had little impact on animal classification, and as a consequence, interest in and use of phenetics has been declining in recent years.

Cladistic Method of Analysis

An alternative approach to diagramming relationships between taxa is called كلاديسيات. The basic assumption behind cladistics is that members of a group share a common evolutionary history. Thus, they are more closely related to one another than they are to other groups of organisms. Related groups of organisms are recognized because they share a set of unique features (apomorphies) which were not present in distant ancestors, but which are shared by most or all of the organisms within the group. These shared derived characteristics are called المشابك. Therefore, In contrast to phenetics, cladistics groupings do not depend on whether organisms share physical traits, but on their evolutionary relationships. Indeed, in cladistic analyses two organisms may share numerous characteristics but still be considered members of different groups.

  • أ monophyletic grouping is one in which all species share a common ancestor and all species derived from that common ancestor are included. This is the only form of grouping accepted as valid by cladists.
  • أ paraphyletic grouping is one in which all species share a common ancestor, but not all species derived from that common ancestor are included.
  • أ polyphyletic grouping is one in which species that do not share an immediate common ancestor are lumped together, while excluding other members that would link them.

The Origins of Molecular Phylogenetics

Macromolecular data, meaning gene (DNA) and protein sequences, is accumulating at an increasing rate due to recent advances in molecular biology. For the evolutionary biologist, the rapid accumulation of sequence data from whole genomes has been a major advance, as the very nature of DNA allows it to be used as a "document" of evolutionary history. Comparisons of the DNA sequences of various genes between different organisms can tell a scientist a lot about the relationships of organisms that cannot otherwise be inferred from علم التشكل المورفولوجيا, or an organism's outer form and inner structure. Since genomes evolve by the gradual accumulation of mutations, the amount of nucleotide sequence difference between a pair of genomes from different organisms should indicate how recently those two genomes shared a common ancestor. Two genomes that diverged in the recent past should have fewer differences than two genomes whose common ancestor is more ancient. Therefore, by comparing different genomes with each other, it should be possible to derive evolutionary relationships between them, the major objective of molecular phylogenetics.

Molecular phylogenetics attempts to determine the rates and patterns of change occurring in DNA and proteins and to reconstruct the evolutionary history of genes and organisms. Two general approaches may be taken to obtain this information. In the first approach, scientists use DNA to study the evolution of an organism. In the second approach, different organisms are used to study the evolution of DNA. Whatever the approach, the general goal is to infer process from pattern: the processes of organismal evolution deduced from patterns of DNA variation and processes of molecular evolution inferred from the patterns of variations in the DNA itself.

Molecular Phylogenetic Analysis: Fundamental Elements

As we just discussed, macromolecules, especially gene and protein sequences, have surpassed morphological and other organismal characters as the most popular forms of data for phylogenetic analyses. Therefore, this next section will concentrate only on molecular data.

First, it is important to point out that a single, all-purpose recipe does not exist for phylogenetic analysis of this type of data. Although numerous algorithms, procedures, and computer programs have been developed, their reliability and practicality are, in all cases, dependent upon the size and structure of the data set under analysis. The merits and shortfalls of these various methods are subject to much scientific debate, as the danger of generating incorrect results is greater in computational molecular phylogenetics than in many other fields of science. Occasionally, the limiting factor in such analyses is not so much the computational method employed, but the users understanding of what the method is actually doing with the data. Therefore, the goal of this section is to demonstrate to the reader that practical analysis should be thought of both as a search for a correct model (analysis) as well as a search for the correct tree (outcome).

  • The sequence is correct and originates from the specified source
  • The sequences are homologous--are all descended in some way from a shared ancestral sequence
  • Each position in a sequence alignment is homologous with every other in that alignment
  • Each of the multiple sequences included in a common analysis has a common phylogenetic history with the other sequences
  • The sampling of taxa is adequate to resolve the problem under study
  • Sequence variation among the samples is representative of the broader group and
  • The sequence variability in the sample contains phylogenetic signal adequate to resolve the problem under study.

Tree Building: Key Features of DNA-Based Phylogenetic Trees

Studies of gene and protein evolution often involve the comparison of homologs--sequences that have common origins but may or may not have common activity. Sequences that share an arbitrary level of similarity determined by alignment of matching bases are called متماثل. These sequences are inherited from a common ancestor that possessed similar structure, although the ancestor may be difficult to determine because it has been modified through descent.

A typical gene-based phylogenetic tree is depicted below. This tree shows the relationship between four homologous genes: A, B, C, and D. The topology of this tree consists of four external nodes ( A , B , C , and D ) each one representing on of the four genes, and two internal nodes ( ه و F ) representing ancestral genes. The branch lengths indicate the degree of evolutionary differences between the genes. This particular tree is unrooted--it is only an illustration of the relationships between genes A, B, C, and D and does not signify anything about the series of evolutionary events that led to these genes.

The second panel, below, depicts three rooted trees that can be drawn from the unrooted tree shown above, each representing the different evolutionary pathways possible between these four genes. A rooted tree is often referred as an inferred tree. This is to emphasize that this type of illustration depicts only the series of evolutionary events that are inferred from the data under study, and may not be the same as the true tree, or the tree that depicts the actual series of evolutionary events that occurred.

To distinguish between the pathways, the phylogenetic analysis must include at least one خارج المجموعة---a gene that is less closely related to A, B, C, and D than these genes are to each other, panel below. Outgroups enable the root of the tree to be located and the correct evolutionary pathway to be identified. Let's say that the four homologous genes used in the previous tree examples come from human, chimpanzee, gorilla, and orangutan. In this case, an outgroup could be a gene from another primate, such as baboon, which is known to have branched away from the four species above before the common ancestor of the species.

Gene Trees Versus Species Trees--Why Are They Different?

It is assumed that a gene tree, because it is based on molecular data, will be a more accurate and less ambiguous representation of the species tree than that obtainable by morphological comparisons. This may indeed be the case, but it does not mean that the gene tree is the same as the species tree. For this to be true, the internal nodes in both trees would have to be precisely equivalent, and they are not. An internal node in a gene tree indicates the divergence of an ancestral gene into two genes with different DNA sequences, usually resulting from a mutation of one sort or another. An internal node in a species tree represents what is called a speciation event, whereby the population of the ancestral species splits into two groups that are no longer able to interbreed. These two events, mutation and speciation, do not always occur at the same time.

The purpose of NCBI's Taxonomy Project is to build a consistent phylogenetic taxonomy for the NCBI sequence databases. The Taxonomy Database contains the names and lineages of every organism represented by at least one nucleotide or protein sequence in the NCBI genetic databases. As of February 2002, this total is over 100,000 taxa. For current estimates visit NCBI's Taxonomy Statistics Web page. The database is recognized as the standard reference by the international sequence database collaboration (GenBank, EMBL, DDJB, and Swiss-Prot).

The Taxonomy Browser is an NCBI-derived search tool that allows an individual to search the database. Using the browser, information may be retrieved on available nucleotide, protein, and structure records for a particular species or higher taxon. The Taxonomy Browser can be used to view the taxonomic position or retrieve sequence and structural data for a particular organism or group of organisms. Searches of the NCBI taxonomy database may be made on the basis of whole, partial or phonetically-spelled organism names, and direct links to organisms commonly used in biological research are also provided. The new Entrez Taxonomy system adds the ability to display custom taxonomic trees representing user-defined subsets of the full NCBI taxonomy.

TaxPlot, another component of the Taxonomy project, is a research tool for conducting three-way comparisons of different genomes. Comparisons are based on the sequences of the proteins encoded in that organism's genome. To use TaxPlot, one selects a reference genome to which two other genomes will be compared. The TaxPlot tool then uses a pre-computed BLAST result to plot a point for each protein predicted to be included in the reference genome.

BLAST: Detecting New Sequence Similarities

Currently, the characters most widely used for phylogenetic analysis are DNA and protein sequences. DNA sequences may be compared directly, or for those regions that code for a known protein, translated into protein sequences. Creating phylogenies from nucleotide or amino acid sequences first requires aligning the bases so that the differences between the sequences being studied are easier to spot.

The introduction of NCBI's BLAST, or The بasic إلocal أlignment سearch تيool, in 1990 made it easier to rapidly scan huge databases for overt homologies, or sequence similarity, and to statistically evaluate the resulting matches. BLAST works by comparing a user's unknown sequence against the database of all known sequences to determine likely matches. In a matter of seconds, the BLAST server compares the user's sequence with up to a million known sequences and determines the closest matches.

Specialized BLASTs are also available for human, microbial, and malaria genomes. A single BLAST search can compare a sequence of interest to all other sequences stored in GenBank, NCBI's nucleotide sequence database. In this step, a researcher has the option of limiting the search to a specific taxonomic group. If the full scientific name or relationship of species of interest is not known, the user can search for such details using NCBI's Taxonomy Browser, which provides direct links to some of the organisms commonly used in molecular research projects, such as the zebrafish, fruit fly, bakers yeast, nematode, and many more.

BLAST next tallies the differences between sequences and assigns a "score" based on sequence similarity. The scores assigned in a BLAST search have a well-defined statistical interpretation, making real sequence matches easier to distinguish from random background hits. This is because BLAST employs a special algorithm, or mathematical formula, that seeks local as opposed to global alignments and is therefore able to detect relationships among sequences that share only isolated regions of similarity. Taxonomy-related BLAST results are presented in three formats, based on the information found in NCBI's Taxonomy Database. ال Organism Report sorts BLAST comparisons, also called hits, by species such that all hits to a given organism are grouped together. ال Lineage Report provides a view of the relationships between the organisms based on NCBI's taxonomy database. ال Taxonomy Report provides in-depth details on the relationship between all the organisms in the BLAST hit list.

COGs: Phylogenetic Classification of Proteins

The database of Clusters of Orthologous Groups of proteins (COGs) represents an attempt at the phylogenetic classification of proteins--a scheme that indicates the evolutionary relationships between organisms--from complete genomes. Each COG includes proteins that are thought to be orthologous, or connected through vertical evolutionary descent. COGs may be used to detect similarities and differences between species for identifying protein families and predicting new protein functions and to point to potential drug targets in disease-causing species. The database is accompanied by the COGNITOR program, which assigns new proteins, typically from newly sequenced genomes, to pre-existing COGs. A Web page containing additional structural and functional information is now associated with each COG. These hyperlinked information pages include: systematic classification of the COG members under the different classification systems indications which COG members (if any) have been characterized genetically and biochemically information on the domain architecture of the proteins comprising the COG and the three-dimensional structure of the domains if known or predictable a succinct summary of the common structural and functional features of the COG members as well as peculiarities of individual members and key references.

HomoloGene is a database of both curated and calculated orthologs and homologs for the human, mouse, rat, zebrafish and cow genes represented in NCBI's UniGene and LocusLink databases. Curated orthologs include gene pairs from the Mouse Genome Database (MGD) at the Jackson Laboratory, the Zebrafish Information (ZFIN) database at the University of Oregon and from published reports. Computed orthologs and homologs are identified from BLAST nucleotide sequence comparisons between all UniGene clusters for each pair of organisms. HomoloGene also contains a set of triplet clusters in which orthologous clusters in two organisms are both orthologous to the same cluster in a third organism.

The whole genomes of over 800 organisms can now be found in Entrez Genomes. The genomes represent both completely sequenced organisms and those for which sequencing is in progress. All three main domains of life--bacteria, archaea, and eukaryotes--are represented, as well as many viruses, viriods, plasmids and eukaryotic organelles. Data can be accessed hierarchically starting from either an alphabetical listing or a phylogenetic tree for complete genomes in each of six principle taxonomic groups. One can follow the hierarchy to a variety of graphical overviews, including that of the whole genome of a single organism, a single chromosome, or even a single gene. At each level one has access to multiple views of the data, pre-computed summaries and links to analyses appropriate for that level. In addition, any gene product (protein) that is a member of a COG is linked to the COGs database. A summary of COG functional groups is also presented in tabular and graphical formats at the genome level.

For complete microbial genomes, pre-computed BLAST neighbors for protein sequences--including their taxonomic distribution and links to 3-D structures--are given in TaxTables and PDBTables, respectively. Pairwise sequence alignments are presented graphically and linked to the NCBI's Cn3D macro molecular viewer that allows the interactive display of three-dimensional structures and sequence alignments.

NCBI's Structure Group, in collaboration with NCBI taxonomists, has undertaken taxonomy annotation for the three-dimensional structure data stored in the Molecular Modeling Database (MMDB). A semi-automated approach has been implemented, in which a human expert checks, corrects, and validates automatic taxonomic assignments in MMDB. The PDBeast software tool was developed by NCBI for this purpose. It pulls text-descriptions of "Source Organisms" from either the original entries or user-specified information, and looks for matches in the NCBI taxonomy database to record taxonomy assignments.

The Importance of Molecular Phylogenetics

The field of molecular phylogenetics has grown, both in size and in importance, since its inception in the early 1990's, due mostly to advances in molecular biology and more rigorous methods for phylogenetic tree building. The importance of phylogenetics has also been greatly enhanced by the successful application of tree reconstruction, as well as other phylogenetic techniques, to more diverse and perplexing issues in biology. Today, a survey of the scientific literature will show that molecular biology, genetics, evolution, development, behavior, epidemiology, ecology, systematics, conservation biology and forensics are but a few examples of the many disparate fields conceptually united by the methods and theories of molecular phylogenetics. Phylogenies are used essentially the same way in all these fields either by drawing inferences from the structure of the tree or from the way the character states map onto the tree. Biologists can then use these clues to build hypotheses and models of important events in history. Broadly speaking, the relationships established by phylogenetic trees often describe a species' evolutionary history and, hence, its phylogeny--the historical relationships among lineages or organisms or their parts, such as their genes. Phylogenies may be thought of as a natural and meaningful way to order data, with an enormous amount of evolutionary information contained within their branches. Scientists working in these different areas can then use these phylogenies to study and elucidate the biological processes occurring at many levels of life's hierarchy.


12870_2009_423_MOESM1_ESM.pdf

Additional file 1: Bayesian tree of 39 أرابيدوبسيس, 6 peach and 48 poplar MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences considering the positions in each codon differently and an HKY evolution model. The AGL28 sequence was used as the outgroup. The numbers for each interior branch indicate Bayesian posterior probabilities. Branches with less than 50% bootstrap support are collapsed. Branch lengths are proportional to the number of nucleotide changes. (PDF 63 KB)

12870_2009_423_MOESM2_ESM.pdf

Additional file 2: Maximum parsimony tree of 39 أرابيدوبسيس, 6 peach and 48 poplar MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences. The AGL28 and PtMADS63 sequences were used as outgroups. The numbers for each interior branch indicate bootstrap support of 1000 replicates. Branches with less than 50% bootstrap support are collapsed. Branch lengths are proportional to the number of nucleotide changes. (PDF 63 KB)

12870_2009_423_MOESM3_ESM.pdf

Additional file 3: Maximum parsimony rooted tree of 6 peach MIKC C -type MADS-box genes. The tree was constructed using nucleotide sequences. The PtMADS27 sequence was used as the outgroup. The numbers for each interior branch indicate bootstrap support of 1000 replicates. Branch lengths are proportional to the number of nucleotide changes. (PDF 27 KB)


شاهد الفيديو: انهيار نظرية التطور (يونيو 2022).


تعليقات:

  1. Machair

    أعتذر ، لكن هذا ليس ضروريًا بالنسبة لي. هناك متغيرات أخرى؟

  2. Shayne

    أؤكد.لذلك يحدث. دعونا نناقش هذا السؤال. هنا أو في PM.

  3. Devlin

    عبارة رائعة وهي حسب الأصول

  4. Thabit

    أعتقد أنك مخطئ. يمكنني إثبات ذلك. أرسل لي بريدًا إلكترونيًا في PM ، وسنناقش.

  5. Kasen

    سؤالك كيف تنظر؟

  6. Beadutun

    فكرة جيدة ، أنا أؤيد.



اكتب رسالة