معلومة

مثال على N50؟ لماذا نحن في حاجة إليها؟

مثال على N50؟ لماذا نحن في حاجة إليها؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول فهم N50 على ويكيبيديا. لكنني لم أتمكن من فهم التعريف:

بالنظر إلى مجموعة contigs ، كل منها بطولها الخاص ، يتم تعريف طول N50 على أنه الطول الذي تحتوي فيه مجموعة جميع contigs بهذا الطول أو أطول على نصف مجموع أطوال جميع contigs ، والتي من أجلها تحتوي مجموعة جميع contigs بهذا الطول أو الأقصر أيضًا على نصف مجموع أطوال جميع contigs على الأقل.

هل هناك مثال بسيط يوضح هذا التعريف؟ علاوة على ذلك ، لماذا نحتاج إلى هذه الإحصائية؟ ماذا تخبرني حقا؟ هل نريد قيمة أعلى أم أقل؟


Contig أو scaffold N50 عبارة عن إحصاء متوسط ​​مرجح بحيث يتم احتواء 50 ٪ من التجميع بأكمله في contigs أو سقالات مساوية لهذه القيمة أو أكبر منها.

رياضيا:

بالنظر إلى مجموعة من التسلسلات ذات الأطوال المتفاوتة ، يتم تعريف طول N50 على أنه الطول N حيث تكون نسبة 50٪ من جميع القواعد في التسلسلات في تسلسل طول L

بكلمات بسيطة:

سقالة N50 هو متوسط ​​حجم كونتيج لتجميع الجينوم الخاص بك. إنه مقياس يمكنك استخدامه لتقييم جودة التجميع الخاص بك ، نظرًا لأن N50 صغير جدًا يشير إلى أنك غير قادر على إنشاء العديد من contigs ذات الحجم ذي المعنى البيولوجي (على سبيل المثال ، من المحتمل أن يكون لديك الكثير من contigs الصغير الزائف في التجميع الخاص بك). يمكنك زيادة N50 الخاص بك عن طريق حذف التسلسلات التي لا بد أن تسبب لك مشاكل ، على سبيل المثال امتدادات قصيرة متكررة.

لاحظ أن هذا المقياس لا ينطبق إلا عند إجراء تجميع de novo. إذا كنت تقوم بالمحاذاة إلى مرجع (أي لتطبيقات الاكتشاف المتغيرة) ، فإن هذا المقياس لا ينطبق

لنموذج تمرين على مجموعة بيانات صغيرة تعسفية: http://www.r-bloggers.com/calculation-an-n50-from-velvet-output/

تم تجميع هذه الإجابة من مصادر متعددة:

http://www.researchgate.net/post/What_is_N50_Scaffold_in_Genome_sequencing_Technique http://seqanswers.com/forums/showthread.php؟t=2332 https://www.broad.harvard.edu/crd/wiki/index.php/ N50


لماذا دراسة علم الأحياء؟

تربطنا دراسة علم الأحياء بالعالم الذي نعيش فيه وتذكرنا بترابطنا مع جميع أشكال الحياة الأخرى. إنه يطور الوعي بأهمية الحيوانات والنباتات الفريدة في نيوزيلندا والنظم الإيكولوجية المميزة. يوفر فرصًا للتعرف على عمليات جميع الكائنات الحية. ما يتعلمه الطلاب له علاقة مباشرة بنوعنا وبيئتنا.

تقع البيولوجيا في قلب العديد من القضايا الاجتماعية والاقتصادية

من خلال دراسة علم الأحياء ، يتعلم الطلاب اتخاذ قرارات أكثر استنارة بشأن صحتهم وحول القضايا البيولوجية الهامة مثل المحاصيل المعدلة وراثيًا واستخدام المضادات الحيوية والقضاء على الأنواع الغازية. يساعد علم الأحياء الطلاب على التعرف على أهمية الزراعة والبستنة لنيوزيلندا ، وربما المساهمة في مستقبلها.

يساعد علماء الأحياء نيوزيلندا في الحفاظ على مكانتها كمربي رائد لأصناف جديدة ونباتات وحيوانات أكثر كفاءة / إنتاجية. يساهم علماء الأحياء في التقدم الطبي والتكنولوجيا الحيوية.

علم الأحياء في طليعة القضايا البيئية

علماء الأحياء أيضًا في طليعة أبحاث الحفاظ على البيئة. من خلال دراسة علم الأحياء ، يصبح الطلاب أكثر وعياً بالقضايا البيئية ، وأكثر قدرة على مناقشة المواقف التي يتعارض فيها استغلال البيئة (على سبيل المثال ، لأغراض الزراعة أو التعدين أو إنتاج الطاقة) مع أهداف الحفظ ، أو حيث نحتاج إلى تطوير المزيد طرق مستدامة لاستخدام مواردنا الطبيعية (على سبيل المثال ، التربة أو الأرض أو المياه).

التعلم في علم الأحياء يفتح فرصًا وظيفية

تشير القائمة غير الشاملة التالية إلى تنوع الوظائف التي يذهب إليها خريجو العلوم البيولوجية:

مهندس زراعي ، عالم سلوك حيواني ، مسؤول رعاية الحيوان ، عالم كيمياء حيوية ، تقني حيوي ، مشرف إنتاج الجبن ، عالم أحياء الحفظ ، محلل بيئي ، عالم بيئة بيئية ، مدير بيئي ، مسؤول بيئي ، عالم مصايد أسماك ، تقني طعام وشراب ، فني غابات ، فني جينات ، عالم أحياء بحرية ، عالم الكيمياء الحيوية للحوم ، فني العلوم الطبية ، مزارع الحضانة ، أخصائي علم أمراض النبات ، أخصائي فيزيولوجيا النبات ، مسؤول الحجر الصحي ، مدير الأبحاث ، مدرس العلوم بالمدرسة الثانوية ، عالم الحيوان.


هيكل تقرير المختبر

يمكن أن تختلف التقارير المعملية في الطول والشكل. تتراوح هذه من نموذج لملء وتقديم قبل مغادرة المختبر ، إلى تقرير رسمي مكتوب. ومع ذلك ، فإنهم جميعًا يتبعون عادةً بنية أساسية مماثلة.

عنوان

الملخص

  • يقدم لمحة عامة عن محتوى التقرير ، بما في ذلك النتائج والاستنتاجات
  • عادةً الجزء الأخير من المستند المراد كتابته
  • قد لا تكون مطلوبة في تقرير المختبر القصير

مقدمة

  • يوفر خلفية مناسبة للتجربة ويشرح بإيجاز أي نظريات ذات صلة
  • يذكر المشكلة و / أو الفرضية و
  • ينص بإيجاز على أهداف / أهداف التجربة

طريقة

  • يصف المعدات والمواد والإجراءات المستخدمة
  • قد تتضمن مخططات انسيابية للإجراءات و / أو رسوم بيانية للإعداد التجريبي
  • يحدد أي معالجة أو حسابات تم إجراؤها على البيانات التي تم جمعها (إن أمكن)

النتائج والتحليل

  • يعرض نتائج التجربة بيانياً أو باستخدام الجداول. غالبًا ما تتضمن الأرقام أشرطة الخطأ حيثما ينطبق ذلك
  • يناقش كيفية تحليل النتائج ، بما في ذلك تحليل الأخطاء

مناقشة

  • يفسر النتائج الرئيسية فيما يتعلق بالأهداف / سؤال البحث
  • يلخص النتائج الرئيسية والقيود
  • يقدم توصيات للتغلب على القيود والإشارة إلى الاتجاهات المستقبلية في البحث

استنتاج

  • يذكر القارئ بالمشكلة التي تم التحقيق فيها
  • يلخص النتائج المتعلقة بالمشكلة / الفرضية
  • يحدد بإيجاز آثار الصورة الكبيرة للنتائج (يجيب على سؤال "ماذا في ذلك؟")

مراجع

  • يسرد تفاصيل النشر لجميع المصادر المذكورة في النص ، مما يسمح للقراء بتحديد المصادر بسرعة وسهولة
  • عادة ما يتبع أسلوب مرجعي محدد

الملاحق

  • الملحق (الجمع = الملاحق) يحتوي على مواد مفصلة للغاية بحيث لا يمكن تضمينها في التقرير الرئيسي ، مثل جداول البيانات الأولية أو الحسابات التفصيلية

انقر فوق الروابط أدناه لمعرفة المزيد حول الأقسام المختلفة لتقرير المختبر.

عنوان

يجب أن يعكس عنوانك الغرض من التجربة. تحقق مع المُدرس أو المُحاضر لمعرفة المتطلبات المحددة.

PHS1022 الأسبوع الخامس مختبر

فترة البندول البسيط

الملخص

يقدم الملخص لمحة موجزة عن التجربة ، بما في ذلك نتائجها واستنتاجاتها. بشكل عام يجب أن يجيب الملخص على ستة أسئلة:

  • لماذا أجريت التجربة؟ (عرض الصورة الكبيرة / العالم الحقيقي).
  • ما المشكلة المحددة / سؤال البحث الذي تم تناوله؟
  • ما هي الطرق التي تم استخدامها لحل المشكلة / الإجابة على السؤال؟
  • ما هي النتائج التي تم الحصول عليها؟
  • ماذا تعني هذه النتائج؟
  • كيف يجيبون على السؤال العام أو يحسنون فهمنا للمشكلة؟

أهم شيء يجب تذكره عند كتابة الملخص هو أن تكون مختصراً وأن تذكر فقط ما هو ملائم. يجب عدم تضمين أي معلومات دخيلة. يجب أيضًا أن يكون واضحًا بدرجة كافية حتى يتمكن أي شخص ليس على دراية بتجربتك من فهم سبب قيامك بما قمت به ، والاستنتاجات التي توصلت إليها ، دون الحاجة إلى قراءة بقية التقرير.

عادة ما يكون الملخص فقرة واحدة فقط (200-300 كلمة كحد أقصى).

نصيحة

يجب كتابة الملخص أخيرًا (على الرغم من ظهوره على أنه القسم الأول في تقريرك) ، لأنه يلخص المعلومات من جميع الأقسام الأخرى في التقرير.

مقدمة

ال مقدمة يجب:

  • توفير السياق والدافع للتجربة
  • اشرح بإيجاز النظرية ذات الصلة بتفاصيل كافية
  • تقديم أي قوانين أو معادلات أو نظريات ذات صلة
  • اذكر بوضوح الهدف أو سؤال البحث الذي صممت التجربة لمعالجته.

نصيحة

  • اكتب دائمًا المقدمة بكلماتك الخاصة. لا تنسخ فقط من ملاحظات المختبر.
  • لا تتطلب بعض التقارير المختبرية الموجزة مقدمة وستبدأ فقط بهدف / بيان.
  • تحقق دائمًا من محاضرك / معيدك إذا لم تكن متأكدًا مما هو متوقع.

نشاط

طريقة

قسم الطريقة هو المكان الذي تصف فيه ما فعلته بالفعل. يتضمن الإجراء الذي تم اتباعه. يجب أن يكون هذا تقريرًا عما أنت في الواقع ليس فقط ما كان مخطط. عادة ما يتضمن الإجراء النموذجي ما يلي:

  1. كيف تم إعداد الأجهزة والمعدات (مثل الإعداد التجريبي) ، بما في ذلك عادةً رسم تخطيطي ،
  2. قائمة المواد المستخدمة ،
  3. الخطوات المتبعة في جمع البيانات ،
  4. أي صعوبات تجريبية ووجهت وكيف تم حلها أو حلها.

إذا كان من المحتمل أن تساهم أي جوانب من الإجراء التجريبي في حدوث خطأ منهجي في البيانات والنتائج ، فقم بالإشارة إلى ذلك بتفصيل كافٍ في هذا القسم.

الإعداد والمواد التجريبية

يجب أن يكون وصفك للإعداد التجريبي كافياً للسماح لشخص آخر بتكرار التجربة بنفسه. ستبدأ عادةً بوصف المواد المستخدمة و / أو إعداد الجهاز مصحوبًا بما يلي:

  • صورة توضح السمات ذات الصلة لأي شيء أو مادة قيد التحقيق
  • رسم تخطيطي للإعداد التجريبي ، مع تمييز كل مكون بوضوح

إجراء

عند إجراء تجربة ، فإنك عادة ما تتبع مجموعة من الإرشادات مثل هذه ، والتي قد تتضمن معلومات إضافية لإرشادك خلال الخطوات.

مثال نشرة المختبر

الأسبوع الخامس تعليمات المختبر

  1. استخدم ماصة نظيفة لقياس 25 مل من حمض الهيدروكلوريك(عبد القدير) في دورق مخروطي.
  2. اشطف السحاحة باستخدام هيدروكسيد الصوديوم القياسي(عبد القدير).
  3. املأ السحاحة إلى علامة 0.0 مل مع هيدروكسيد الصوديوم القياسي(عبد القدير). تذكر أن تأخذ القراءة من مركز الغضروف المفصلي ومن مستوى العين. سجل القراءة الفعلية في الجدول 1.
  4. ضع ورقة بيضاء تحت السحاحة. هذا لتسهيل ملاحظة تغير اللون أثناء التفاعل.
  5. ضع القارورة المخروطية على الورقة البيضاء.

مثال تقرير المختبر

تم ترتيب المعدات كما هو موضح في الشكل 2.

25.0 مل حمض الهيدروكلوريك(عبد القدير) في دورق مخروطي سعة 100 مل. تم تثبيت السحاحة على حامل معوجة ومليئة بـ NaOH القياسي(عبد القدير) وتم تسجيل القياس الأولي. تم وضع الدورق المخروطي أسفل السحاحة ، فوق قطعة من الورق الأبيض. تمت إضافة خمس قطرات من محلول المؤشر العام إلى القارورة.

الشكل 2. الإعداد التجريبي للمعايرة (مأخوذ من Carroll 2017)

تعليق المحاضر

عند كتابة الإجراء ، يجب عليك الإبلاغ عما تم بالفعل وما حدث بالفعل ، وحذف أي معلومات إضافية مثل التلميحات المفيدة المضمنة في التعليمات. يجب أن يكون هدفك في هذا القسم تضمين تفاصيل كافية لشخص آخر لتكرار ما فعلته وتحقيق نتيجة مماثلة. يجب عليك أيضًا شرح أي تعديلات على العملية الأصلية تم إدخالها أثناء التجربة.

نصيحة

في ال إجراء قسم يجب أن تستخدمه:

بينما تتطلب معظم الوحدات العلمية أن تقوم بالإبلاغ في المبني للمجهول ، والبعض يتطلب الصوت النشط . في المثال أدناه ، يتم استخدام الشخص الأول على سبيل المثال "بدأنا". هذا مقبول في بعض التخصصات دون غيرها. تحقق من معلومات وحدتك أو تحدث إلى منسق الوحدة الخاصة بك.

بدء مضخة تغذية البيكربونات.

نحن بدأت مضخة تغذية البيكربونات. (الصوت النشط)

مضخة تغذية البيكربونات بدأ. (المبني للمجهول)

نشاط

لدى المحاضرين تفضيلات مختلفة لاستخدام الصوت النشط / المبني للمجهول ، ومن المحتمل أن تضطر إلى الكتابة في كلا الصوتين. اقرأ نماذج من تقارير الطلاب أدناه وحدد الأمثلة المكتوبة بالصوت المبني للمجهول وأيها تستخدم الصوت النشط.

النتائج والتحليل

في هذا القسم ، تقدم البيانات الرئيسية التي تم جمعها أثناء تجربتك. يجب الإبلاغ عن كل قياس رئيسي بشكل مناسب. غالبًا ما يتم تقديم البيانات في رسوم بيانية أو أشكال أو جداول.

غالبًا ما يتضمن هذا القسم أيضًا تحليل البيانات الأولية ، مثل العمليات الحسابية. في بعض التخصصات ، يتم تقديم التحليل تحت عنوانه الخاص ، وفي حالات أخرى يتم تضمينه في قسم النتائج. عادةً ما يتم تضمين تحليل الأخطاء أو عدم اليقين في التجربة في هذا القسم.

الجداول والرسوم البيانية والأشكال

يتم عرض معظم البيانات الرقمية باستخدام جداول أو رسوم بيانية. يجب أن يتم تصنيفها بشكل مناسب للإشارة بوضوح إلى ما يتم عرضه.

العناوين والتعليقات التوضيحية

  • يجب تسمية الجداول عدديًا مثل الجدول 1 والجدول 2 وما إلى ذلك.
  • كل شيء آخر (الرسوم البيانية والصور والرسوم البيانية وما إلى ذلك) يتم تسميته عدديًا بالشكل 1 والشكل 2 وما إلى ذلك (عادةً ما تتم كتابة الإشارات إلى الأشكال الموجودة في النص الرئيسي للنص في شكل مختصر ، على سبيل المثال & lsquosee Fig.1 & rsquo).
  • تظهر تعليقات الجدول فوق الطاولة. تظهر التعليقات الشكل أدناه الرقم.

لاحظ أنه في الشكل 3 أعلاه ، حذف الطالب أشرطة الخطأ في نقاط البيانات. بالنسبة لمعظم التجارب ، يعد تحليل الخطأ أمرًا مهمًا ، ويجب تضمين الأخطاء في الجداول والرسوم البيانية.

أيضًا ، من الأفضل دائمًا رسم الأشكال بنفسك إذا استطعت. إذا كنت تستخدم أرقامًا من مصدر آخر ، فذكر في الاقتباس ما إذا كنت قد قمت بتعديلها بأي شكل من الأشكال.

يمكن تقديم البيانات بتنسيقات أخرى ، مثل الصور:

العمليات الحسابية

عند عرض العمليات الحسابية ، من المعتاد إظهار المعادلة العامة ومثال واحد يعمل. عندما يتم تكرار الحساب عدة مرات ، عادة ما يتم تضمين التفاصيل الإضافية في الملحق. تحقق من المتطلبات الواردة في معلومات الوحدة الخاصة بك أو دليل المختبر ، أو اسأل مدرسك إذا لم تكن متأكدًا من مكان إجراء الحسابات.

في بعض التخصصات ، إذا تم استخدام الصيغ ، فمن الشائع ترقيمها كمعادلات:

تعليق المحاضر

في بعض المدارس ، مثل علم الأحياء ، يمكن إضافة العمليات الحسابية المفصلة جدًا بحيث لا يمكن الدخول فيها إلى الجزء الرئيسي من التقرير في ملحق. الغرض من هذه الملاحق هو تقديم البيانات التي تم جمعها وإثبات مستوى الدقة التي تم الحصول عليها.

تم إنتاج مخطط كروماتوجرام للمركب المجهول U ، ولكل من المركبات المعروفة ، A-E. يتم سرد قيم RF لكل مادة في الجدول 1.

الجدول 1: قيم RF للمركبات المعروفة (A-E).

ملاحظة: U هو المركب المجهول.

تحليل الأخطاء

بالإضافة إلى تقديم النتائج الرئيسية لتجربتك ، من المهم أن تشير إلى مدى دقة نتائجك. يتم ذلك عادة من خلال تحديد مستوى عدم اليقين. ستختلف مصادر الخطأ التي تحتاج إلى أخذها في الاعتبار بين التجارب ، ولكنك ستحتاج عادةً إلى تحليل كل من الأخطاء العشوائية والمنهجية. يجب أن يحدد تحليل الأخطاء الخاص بك الأسباب الرئيسية لعدم اليقين في قياساتك ، وتدوين أي افتراضات ، وإظهار كيفية حساب أي أشرطة خطأ. تحقق مع المتدرب أو المعلم أو المحاضر إذا كنت غير متأكد من كيفية تحديد أوجه عدم اليقين أو ما إذا كانت أشرطة الخطأ مطلوبة لتجربتك.

مناقشة

قسم المناقشة هو المكان الذي:

  • التعليق على النتائج التي حصلت عليها
  • تفسير ما تعنيه النتائج
  • شرح أي نتائج غير متوقعة.

يجب أن يوضح قسم المناقشة الخاص بك مدى فهمك لما حدث في التجربة. يجب:

  • تحديد والتعليق على الاتجاهات التي لاحظتها
  • قارن النتائج التجريبية مع أي تنبؤات
  • حدد كيف يمكن أن تؤثر مصادر الخطأ على تفسير نتائجك
  • اقتراح تفسيرات لنتائج غير متوقعة ، و
  • عند الاقتضاء ، اقترح كيف يمكن تحسين التجربة.

مثال المناقشة أدناه مأخوذ من وحدة علم الأحياء في السنة الأولى. كان الهدف من هذه التجربة هو تحديد معدلات تحلل الأوراق لتحديد معدلات نقل الطاقة.

كان من المتوقع أن تظهر الأوراق معدل تحلل أعلى بكثير في منطقة الشاطئ ، حيث توجد فرص أكبر لفرك الرواسب ضدها. ومع ذلك ، لا تظهر المنطقتان أي اختلاف كبير في انهيار الأوراق ، على الرغم من أن هذه النتائج غير قاطعة بسبب قيود هذه التجربة. كانت منطقتا تحلل الأوراق قريبين جدًا من الناحية البدنية ، وخلال فترة الحضانة لوحظ نمو القصب بالقرب من المنطقة الحركية. قد يكون لهذا تأثير سلبي على دقة النتائج من خلال تقليل الاختلافات في الموائل في هذه المواقع ، كما هو موضح في تجارب أخرى (جونز وآخرون ، 2017). كانت النتائج أيضًا تحتوي على انحرافات معيارية كبيرة ، ربما بسبب هذه القيود المادية أو خطأ بشري في وزن الأوراق. يجب إجراء مزيد من الدراسات مع مناطق أكثر تنوعًا وإجراءات دقيقة من أجل استكشاف تحلل الأوراق ومعدلات نقل الطاقة بشكل أكثر فعالية.

نشاط

اسحب كل وصف لكل مكون من مكونات قسم المناقشة إلى مثاله. لاحظ الترتيب الذي تشكل به المكونات قسم مناقشة متماسك.

استنتاج

يجب أن يوفر قسم الخاتمة رسالة منزلية تلخص ما تم تعلمه من التجربة:

  • أعد صياغة الغرض من التجربة بإيجاز (السؤال الذي كانت تسعى للإجابة عليه)
  • تحديد النتائج الرئيسية (الإجابة على سؤال البحث)
  • لاحظ القيود الرئيسية ذات الصلة بتفسير النتائج
  • لخص ما ساهمت به التجربة في فهمك للمشكلة.

نصيحة المحاضر

في تقارير مختبرية مختصرة ، يتم تقديم الاستنتاج في نهاية المناقشة ، وليس له عنوان خاص به. يمكن أيضًا اعتبار هذا النوع من الاستنتاجات بمثابة الجملة التي تجيب على السؤال "ماذا إذن؟" لاحظ أن الاستنتاج لا ينبغي أبدًا تقديم أي أفكار أو نتائج جديدة ، فقط قم بإعطاء ملخص موجز لتلك التي تم تقديمها بالفعل في التقرير.

انقر فوق الرموز الموجودة بجانب كل فقرة لإظهار تعليقات المحاضر & # 8217s. انقر مرة أخرى لإخفاء التعليق.

أسطورة:

مراجع

من المحتمل جدًا أن يكون لديك اقتباسات نصية في تقارير المختبر. عادةً ما يتم تضمين هذه في ملف المقدمة لإنشاء دليل على خلفية النظريات أو الموضوعات الحالية. لك نقاش سيتضمن القسم غالبًا الاستشهادات في النص ، لإظهار كيفية ارتباط نتائجك بتلك الموجودة في الأدبيات المنشورة ، أو لتقديم اقتراحات أو تفسيرات قائمة على الأدلة لما لاحظته.

عندما يتم دمج الاستشهادات في النص في تقرير المختبر الخاص بك ، يجب أن يكون لديك دائمًا الاستشهادات الكاملة المضمنة في قائمة مراجع منفصلة.قائمة المراجع هي قسم منفصل يأتي بعد الخاتمة (وقبل أي ملاحق).

تحقق من كتيب المعمل أو معلومات الوحدة لتحديد النمط المرجعي المفضل. اتبع بعناية هذا النمط المرجعي للمراجع في النص وقائمة المراجع. يمكنك العثور على أمثلة ومعلومات حول أنماط المراجع الشائعة في دليل مكتبة الاقتباس والمراجع.

فيما يلي مثال لقائمة مراجع تستند إلى الاستشهادات في النص المستخدمة في أقسام المقدمة والاستنتاج في هذا البرنامج التعليمي. تم تنسيقه وفقًا لأسلوب الإحالة CSIRO.

مراجع

Jones T ، و Smith K ، و Nguyen P ، و di Alberto P (2017) تأثيرات تداخل الموائل على أخذ العينات السكانية. مجلة البيئة البيئية 75, 23-29. دوى: 10.5432 / 1111.23

Tian M ، Castillo TL (2016) امتصاص التدفئة الشمسية في أستراليا: المعدلات والأسباب والآثار. تقارير كفاءة الطاقة. تقرير لا. 10 ، قسم الاستدامة والبيئة ، كانبرا.

الملاحق

الملحق (الجمع = الملحقات) يحتوي على مادة مفصلة للغاية بحيث لا يمكن تضمينها في التقرير الرئيسي ، مثل جداول البيانات الأولية أو الحسابات التفصيلية.

  • إعطاء رقم (أو حرف) والمسمى الوظيفي
  • يشار إليها بالرقم (أو الحرف) في النقطة ذات الصلة في النص.

نص مثال

القيم المحسوبة موضحة في الجدول 3 أدناه. للحصول على حسابات مفصلة ، انظر الملحق 1.


خطوات المنهج العلمي

الطريقة العلمية هي عملية تجريبية تُستخدم لاستكشاف الملاحظات والإجابة على الأسئلة. هل هذا يعني أن كل العلماء يتبعون بالضبط هذه العملية؟ لا. يمكن اختبار بعض مجالات العلوم بسهولة أكبر من غيرها. على سبيل المثال ، العلماء الذين يدرسون كيفية تغير النجوم مع تقدمهم في العمر أو كيف تهضم الديناصورات طعامهم لا يمكنهم تسريع حياة النجم بمليون سنة أو إجراء فحوصات طبية على تغذية الديناصورات لاختبار فرضياتهم. عندما لا يكون التجريب المباشر ممكنًا ، يقوم العلماء بتعديل الطريقة العلمية. في الواقع ، من المحتمل أن يكون هناك العديد من إصدارات المنهج العلمي مثل العلماء! ولكن حتى عند تعديله ، يظل الهدف كما هو: اكتشاف علاقات السبب والنتيجة من خلال طرح الأسئلة ، وجمع الأدلة وفحصها بعناية ، ومعرفة ما إذا كان يمكن دمج جميع المعلومات المتاحة في إجابة منطقية.

على الرغم من أننا نعرض الطريقة العلمية كسلسلة من الخطوات ، ضع في اعتبارك أن المعلومات أو التفكير الجديد قد يتسبب في قيام أحد العلماء بعمل نسخة احتياطية وتكرار الخطوات في أي وقت أثناء العملية. تسمى عملية مثل الطريقة العلمية التي تتضمن مثل هذا النسخ الاحتياطي والتكرار عملية تكرارية.

سواء كنت تقوم بمشروع science fair ، أو نشاطًا علميًا في الفصل الدراسي ، أو بحثًا مستقلًا ، أو أي استفسار علمي عملي آخر ، فإن فهم خطوات المنهج العلمي سيساعدك على تركيز سؤالك العلمي والعمل من خلال ملاحظاتك وبياناتك للإجابة على السؤال بقدر الإمكان.

رسم تخطيطي للطريقة العلمية. يبدأ المنهج العلمي بالاستبيان ، ويتم إجراء بحث في الخلفية لمحاولة الإجابة على هذا السؤال. إذا كنت ترغب في العثور على دليل للإجابة أو الإجابة نفسها ، فأنت تبني فرضية وتختبر هذه الفرضية في تجربة. إذا نجحت التجربة وتم تحليل البيانات ، فيمكنك إما إثبات فرضيتك أو دحضها. إذا تم دحض فرضيتك ، فيمكنك العودة بالمعلومات الجديدة المكتسبة وإنشاء فرضية جديدة لبدء العملية العلمية مرة أخرى.


نتائج

مصادر جينومية عالية الجودة للجميع 15 بومبوس جينات

أسفرت استراتيجيات التسلسل والتجميع عن موارد جينومية عالية الجودة مع 12 تجميعات جينوم على مستوى السقالة وخمسة مجموعات جينوم على مستوى الكروموسوم (الجدول 1). تم تطبيق المعايير بما في ذلك موقع النشوء والتطور ، وسمات الأنواع ، والتوزيع الجغرافي لاختيار الأنواع لتسلسل الجينوم الكامل من جميع أنحاء الجنس. بالنسبة للأنواع الخمسة التي يمكن جمع عينات كافية لها ، تم استخدام التقاط التشكل الكروماتين عالي الإنتاجية (Hi-C) (Belton et al. 2012) لإنتاج مجموعات جينوم على مستوى الكروموسوم (الجدول 1). تم اختيار ما مجموعه 17 نوعًا (الجدول التكميلي S1 والشكل S1 ، المواد التكميلية عبر الإنترنت) ، والتي تغطي جميع الجينات الفرعية الخمسة عشر من الجنس بومبوس (ويليامز وآخرون 2008). من بين هؤلاء ، نوعان (بومبوس سوبر باص و B. والتوني) من Mendacibombus، أول انقسام في بومبوس أربعة أنواع نسالة (B. superbus, B. والتوني, B. skorikovi، و ب. صعب) تعيش في المرتفعات العالية (& GT4000 متر فوق مستوى سطح البحر) نوعين (ب. تورنري و B. skorikovi) تظهر ثلاثة أنواع من التطفل الاجتماعي (بيروسوما, ب، و B. superbus) مستوطنة في الصين ونوع واحد (ب. بولاريس) مستوطنة في مناطق القطب الشمالي / شبه القطبية (Williams et al. 2019). بالإضافة إلى ذلك ، تختلف سمات الأنواع بما في ذلك حجم النطاق وطول اللسان ووقوع الطفيليات وحالة التدهور عبر الأنواع المختارة (Williams 1994 Arbetman et al. 2017 Cameron and Sadd 2020).

نتائج تجميع الجينوم لـ 17 نحلة طنان متسلسلة حديثًا.

. حجم كونتيج (ميغا بايت). كونتيج N50 (كيلوبايت). حجم السقالة (ميغا بايت). سقالة N50 (ميجابايت). حجم الكروموسوم (ميغا بايت). كروموسوم N50 (ميغابايت).
بومبوس سوبر باص229.84 441.61 230.16 6.90 غير متوفر غير متوفر
بومبوس والتوني230.89 430.54 231.17 4.66 غير متوفر غير متوفر
Bombus confusus238.52 227.26 239.12 3.26 غير متوفر غير متوفر
بومبوس البواسير239.34 572.47 239.59 4.74 240.54 15.09
بومبوس شعلة240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 غير متوفر غير متوفر
بومبوس أوبولينتوس241.99 267.78 242.38 2.42 غير متوفر غير متوفر
بومبوس تورنري242.39 212.53 243.01 4.34 243.11 9.70
بومبوس سوروينسيس243.19 244.99 243.68 2.12 غير متوفر غير متوفر
بومبوس بولاريس245.17 152.35 245.82 2.25 غير متوفر غير متوفر
بومبوس بريفيسبس246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 غير متوفر غير متوفر
بومبوس صعب247.45 177.31 248.33 2.07 غير متوفر غير متوفر
Bombus consobrinus248.56 284.90 249.09 4.77 غير متوفر غير متوفر
بومبوس بيروسوما251.86 472.32 252.70 6.07 254.80 15.22
تتأرجح بومبوس253.31 185.91 254.01 5.88 غير متوفر غير متوفر
بومبوس سيبيريكوس261.72 253.94 262.49 3.14 غير متوفر غير متوفر
. حجم كونتيج (ميغا بايت). كونتيج N50 (كيلوبايت). حجم السقالة (ميغا بايت). سقالة N50 (ميجابايت). حجم الكروموسوم (ميغا بايت). كروموسوم N50 (ميغابايت).
بومبوس سوبر باص229.84 441.61 230.16 6.90 غير متوفر غير متوفر
بومبوس والتوني230.89 430.54 231.17 4.66 غير متوفر غير متوفر
Bombus confusus238.52 227.26 239.12 3.26 غير متوفر غير متوفر
بومبوس البواسير239.34 572.47 239.59 4.74 240.54 15.09
بومبوس شعلة240.60 374.12 241.36 3.02 242.57 15.19
بومبوس سكوريكوفي241.25 225.53 242.05 4.34 غير متوفر غير متوفر
بومبوس أوبولينتوس241.99 267.78 242.38 2.42 غير متوفر غير متوفر
بومبوس تورنري242.39 212.53 243.01 4.34 243.11 9.70
بومبوس سوروينسيس243.19 244.99 243.68 2.12 غير متوفر غير متوفر
بومبوس بولاريس245.17 152.35 245.82 2.25 غير متوفر غير متوفر
بومبوس بريفيسبس246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 غير متوفر غير متوفر
بومبوس صعب247.45 177.31 248.33 2.07 غير متوفر غير متوفر
Bombus consobrinus248.56 284.90 249.09 4.77 غير متوفر غير متوفر
بومبوس بيروسوما251.86 472.32 252.70 6.07 254.80 15.22
تتأرجح بومبوس253.31 185.91 254.01 5.88 غير متوفر غير متوفر
بومبوس سيبيريكوس261.72 253.94 262.49 3.14 غير متوفر غير متوفر

ملاحظة. — كيلوبايت ، كيلوبايت ، كيلوبايت ، ميجابايت ، لا ينطبق.

نتائج تجميع الجينوم لـ 17 نحلة طنان متسلسلة حديثًا.

. حجم كونتيج (ميغا بايت). كونتيج N50 (كيلوبايت). حجم السقالة (ميغا بايت). سقالة N50 (ميجابايت). حجم الكروموسوم (ميغا بايت). كروموسوم N50 (ميغابايت).
بومبوس سوبر باص229.84 441.61 230.16 6.90 غير متوفر غير متوفر
بومبوس والتوني230.89 430.54 231.17 4.66 غير متوفر غير متوفر
Bombus confusus238.52 227.26 239.12 3.26 غير متوفر غير متوفر
بومبوس البواسير239.34 572.47 239.59 4.74 240.54 15.09
بومبوس شعلة240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 غير متوفر غير متوفر
بومبوس أوبولينتوس241.99 267.78 242.38 2.42 غير متوفر غير متوفر
بومبوس تورنري242.39 212.53 243.01 4.34 243.11 9.70
بومبوس سوروينسيس243.19 244.99 243.68 2.12 غير متوفر غير متوفر
بومبوس بولاريس245.17 152.35 245.82 2.25 غير متوفر غير متوفر
بومبوس بريفيسبس246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 غير متوفر غير متوفر
بومبوس صعب247.45 177.31 248.33 2.07 غير متوفر غير متوفر
Bombus consobrinus248.56 284.90 249.09 4.77 غير متوفر غير متوفر
بومبوس بيروسوما251.86 472.32 252.70 6.07 254.80 15.22
يتأرجح بومبوس253.31 185.91 254.01 5.88 غير متوفر غير متوفر
بومبوس سيبيريكوس261.72 253.94 262.49 3.14 غير متوفر غير متوفر
. حجم كونتيج (ميغا بايت). كونتيج N50 (كيلوبايت). حجم السقالة (ميغا بايت). سقالة N50 (ميجابايت). حجم الكروموسوم (ميغا بايت). كروموسوم N50 (ميغابايت).
بومبوس سوبر باص229.84 441.61 230.16 6.90 غير متوفر غير متوفر
بومبوس والتوني230.89 430.54 231.17 4.66 غير متوفر غير متوفر
Bombus confusus238.52 227.26 239.12 3.26 غير متوفر غير متوفر
بومبوس البواسير239.34 572.47 239.59 4.74 240.54 15.09
بومبوس شعلة240.60 374.12 241.36 3.02 242.57 15.19
Bombus skorikovi241.25 225.53 242.05 4.34 غير متوفر غير متوفر
بومبوس أوبولينتوس241.99 267.78 242.38 2.42 غير متوفر غير متوفر
بومبوس تورنري242.39 212.53 243.01 4.34 243.11 9.70
بومبوس سوروينسيس243.19 244.99 243.68 2.12 غير متوفر غير متوفر
بومبوس بولاريس245.17 152.35 245.82 2.25 غير متوفر غير متوفر
بومبوس بريفيسبس246.03 578.55 246.41 4.04 248.12 14.71
Bombus cullumanus246.56 422.80 247.01 4.58 غير متوفر غير متوفر
بومبوس صعب247.45 177.31 248.33 2.07 غير متوفر غير متوفر
Bombus consobrinus248.56 284.90 249.09 4.77 غير متوفر غير متوفر
بومبوس بيروسوما251.86 472.32 252.70 6.07 254.80 15.22
تتأرجح بومبوس253.31 185.91 254.01 5.88 غير متوفر غير متوفر
بومبوس سيبيريكوس261.72 253.94 262.49 3.14 غير متوفر غير متوفر

ملاحظة. — كيلوبايت ، كيلوبايت ، كيلوبايت ، ميجابايت ، لا ينطبق.

تضمنت استراتيجيات التسلسل والتجميع إنشاء مجموعتين من مجموعات بيانات تسلسل Illumina لكل نوع: 1) قراءات متداخلة للنهاية المزدوجة (2 × 250 نقطة أساس) من مكتبة شظية صغيرة الحجم باستخدام طائرة بدون طيار فردية واحدة لكل نوع (حجم الإدخال: 400 أو 450 زوجًا أساسيًا) ) و 2) تقرأ نهاية مزدوجة (2 × 150 نقطة أساس) من أربع مكتبات قفزة كبيرة الحجم تستخدم 3-5 أفراد لكل نوع (أحجام الإدخال: 4 و 6 و 8 و 10 كيلو بايت ، على التوالي ، الجدول التكميلي S2 ، المواد التكميلية عبر الإنترنت ). تم تجميع قراءات نهاية متداخلة للجينوم بالكامل من مكتبات الأجزاء في تسلسلات مستمرة (contigs) باستخدام برنامج DISCOVAR de novo (Love et al. 2016) ، ثم سقالة بقراءات من مكتبات القفز باستخدام البرنامج BESST (Sahlin et al. 2014) ). تحتوي التجميعات الناتجة على متوسط ​​contig N50 يبلغ 325 كيلو بايت ، ويتراوح حتى 579 كيلو بايت لـ بريفيسبس متوسط ​​السقالة N50 هو 4.0 ميجا بايت ، ويتراوح ما يصل إلى 6.9 ميجا بايت لـ B. superbus ( الجدول 1). تم تقييم جودة تجميع الجينوم من حيث المحتوى الجيني المتوقع من خلال التحليل المعياري العالمي لنسخة واحدة من تقويم العظام (BUSCO) (Waterhouse et al. 2018) ، والذي أظهر درجات اكتمال BUSCO عالية (متوسط ​​99.0٪ ، من 97.5٪ إلى 99.6٪ شكل تكميلي. S2 ، المواد التكميلية عبر الإنترنت) لجميع الجينوم.

نتج عن شرح الجينوم إجمالي تنبؤات جينات ترميز البروتين لكل نوع تتراوح من 14،027 إلى 16970 (المتوسط ​​= 15،838 ، الانحراف المعياري = 908 جدول إضافي S3 ، المواد التكميلية عبر الإنترنت). تم شرحها باستخدام خط أنابيب MAKER (Cantarel et al. 2008) ، بناءً على تنبؤات الجينات ab initio ، أدلة النسخ ، وأدلة البروتين المتماثل. تعداد الجينات مماثل لتلك الخاصة بـ 12 نوعًا من أنواع الدروفسفيلية (المتوسط ​​= 15361 ، SD = 852 كلارك وآخرون .2007) ولكنها أعلى من تلك الخاصة بـ 19 خطًا أنوفيليًا (المتوسط ​​= 13110 ، Sd = 1،397) (Neafsey et al. 2015) ، و لا ترتبط ارتباطًا وثيقًا بتواصل التجميع (ص = 0.1757 التين التكميلي. S3 ، المواد التكميلية عبر الإنترنت). تم تخصيص ما بين 7299 و 8135 جينًا واحدًا على الأقل من مصطلح علم الوجود الجيني (GO) وتم شرح 9431-10578 جينًا بمجال بروتين واحد على الأقل (الجدول التكميلي S3 ، المواد التكميلية عبر الإنترنت). أظهر تحليل BUSCO للجينات المشروحة أيضًا درجات اكتمال عالية لجميع الأنواع (الشكل التكميلي S4 ، المواد التكميلية عبر الإنترنت). علاوة على ذلك ، كشف التنبؤ الجيني الشامل لـ miRNA و tRNA و lncRNA عن متوسط ​​93 و 306 و 3353 جينًا ، على التوالي (الجدول التكميلي S3 ، المواد التكميلية عبر الإنترنت). أخيرًا ، أظهر التعليق التوضيحي للعنصر القابل للنقل (TE) أن محتوى TE الإجمالي تراوح من 9.66٪ (22.2 ميجا بايت) في B. superbus إلى 17.88٪ (46.9 ميجا بايت) في B. sibiricus (الجدول التكميلي S4 ، المواد التكميلية عبر الإنترنت).

نسالة مقياس الجينوم للنحل الطنان

تتفق السلالات الجزيئية على مستوى الأنواع (الشكل 1 أ) المقدرة من تحليل الاحتمالية القصوى باستخدام IQ-TREE (Minh ، Schmidt ، وآخرون. آل .2007 ويليامز وآخرون 2008) ، يظهر اختلافين طوبولوجيين فقط. تدعم النتائج الاستنتاجات السابقة بأن 1) جنس فرعي منداسيبوبس (المسمى ام دي في التين. 1A) هي المجموعة الشقيقة لجميع الأنواع الفرعية الأخرى و 2) أنواع بسيثيروس (المسمى ملاحظة باللون الأرجواني في الشكل. 1A) ضمن الجنس بومبوس، مجادلة بسيثيروس لا ينبغي تسميته كجنس مستقل. تم بناء سلالة الأنواع من تسلسل البروتين المتسلسل المحاذي لـ 2918 من أخصائي تقويم العظام ونسخة واحدة عالمية من 19 نوعًا من النحل الطنان (17 من الدراسة الحالية ، تم نشر اثنين سابقًا: بومبوس تيريستريس و B. impatiens [سد وآخرون. 2015]) وأربعة أنواع من نحل العسل (أبيس فلوريا, A. dorsata [أوبنهايم وآخرون. 2020] ، أ. سيرانا [بارك وآخرون. 2015] و A. mellifera [وينستوك وآخرون. 2006]) ، مع مجموعات تقويم العظام المحددة باستخدام برنامج OrthoDB (Kriventseva et al. 2015). نتج عن التحليل التكميلي باستخدام ASTRAL استنادًا إلى أشجار الجينات ذات الاحتمالية القصوى (Zhang et al. 2018) شجرة أنواع متطابقة باستثناء موضع بيروسوما، والتي لم تعد تشكل الاقتران أحادي النمط مع B. breviceps، بل يشكل كليدًا غير متماثل من أربعة أصناف مع B. breviceps, B. sibricus، و B. cullumanus (الشكل التكميلي S5 ، المواد التكميلية عبر الإنترنت). الميل لتسلسل الاحتمالية القصوى لإرجاع طوبولوجيا متناظرة من أربعة أصناف بينما تقوم ASTRAL بإرجاع طوبولوجيا غير متناظرة (كما لوحظ هنا) هو عيب معروف في تسلسل الاحتمالية القصوى في وجود فرز غير كامل للنسب (ILS) (Kubatko and Degnan 2007) Mendes and Hahn 2018) ، مما يعني أن طوبولوجيا ASTRAL هي على الأرجح الطوبولوجيا الصحيحة.

مقارنات علم الوراثة والجينوم والبروتينات لـ19 نوعًا من النحل الطنان تمثل جميع الأنواع الخمسة عشر بومبوس جينات فرعية. (أ) من اليسار إلى اليمين: سلالة الأنواع الجزيئية ذات الاحتمالية القصوى المبنية من 2918 مجموعة تقويمية متسلسلة أحادية النسخ من جميع مجموعات النحل الطنان ونحل العسل المتسلسلة باستخدام IQ-TREE. تسميات العقد باللون الأزرق بالتنسيق التالي: gCFs | sCFs. تشير الفروع التي تم تحجيمها من خلال العدد النسبي للبدائل ، والعلامات النجمية الحمراء بعد أسماء الأنواع ، إلى الأنواع الخمسة ذات التجميعات على مستوى الكروموسومات ، والجنس الفرعي الذي ينتمي إليه كل نوع من أنواع النحل الطنان (Md ، Mendacibombus ثنائية ، بومبياس Kl ، كالوبومبوس ملغ ، ميغابومبوس شارع، تحت الطبقة السفلية أو، أورينتاليبومبوس ذ، الصدري ملاحظة، بسيثيروس النحاس ، كولومانوبومبوس Sb ، Sibiricobombus اي جي، ألبيجينوبومبوس مل ، الميلانوبومبوس العلاقات العامة ، بيروبومبوس ال ، ألبينوبومبوس بو ، بومبوس) ارتفاع موقع جمع الأنواع (المثلث الأحمر: مستطيل أخضر شديد الارتفاع: ارتفاع منخفض) وحجم تجميع الجينوم لكل جزء من الأنواع المتسلسلة من TEs (بني) في كل جينوم. (ب) تُظهر المخططات الشريطية إجمالي عدد الجينات لكل نحلة مقسمة وفقًا لملفات تقويم العظام ، من الجينات القديمة الموجودة عبر النحل إلى الجينات المقيدة بالنسب والجينات الخاصة بالأنواع. (ج, د) مساهمة TE و CDS في تغير حجم الجينوم عبر النحل الطنان ، على التوالي. الاختلافات في المحتوى الكلي لـ TEs (ج) و CDS (د) من 19 جينومًا بالنسبة إلى جينوم بومبوس سوبر باص (التي تحتوي على أصغر حجم لتجميع الجينوم) يتم رسمها مقابل الاختلافات في حجم الجينوم (بالنسبة إلى حجم B. superbus).

مقارنات علم الوراثة والجينوم والبروتينات لـ19 نوعًا من النحل الطنان تمثل جميع الأنواع الخمسة عشر بومبوس جينات فرعية. (أ) من اليسار إلى اليمين: سلالة الأنواع الجزيئية ذات الاحتمالية القصوى المبنية من 2918 مجموعة تقويمية متسلسلة أحادية النسخ من جميع مجموعات النحل الطنان ونحل العسل المتسلسلة باستخدام IQ-TREE. تسميات العقد باللون الأزرق بالتنسيق التالي: gCFs | sCFs. تشير الفروع التي تم تحجيمها من خلال العدد النسبي للبدائل ، والعلامات النجمية الحمراء بعد أسماء الأنواع ، إلى الأنواع الخمسة ذات التجميعات على مستوى الكروموسومات ، والجنس الفرعي الذي ينتمي إليه كل نوع من أنواع النحل الطنان (Md ، Mendacibombus ثنائية ، بومبياس Kl ، كالوبومبوس ملغ ، ميغابومبوس شارع، تحت الطبقة السفلية أو، أورينتاليبومبوس ذ، الصدري ملاحظة، بسيثيروس النحاس ، كولومانوبومبوس Sb ، Sibiricobombus اي جي، ألبيجينوبومبوس مل ، الميلانوبومبوس العلاقات العامة ، بيروبومبوس ال ، ألبينوبومبوس بو ، بومبوس) ارتفاع موقع جمع الأنواع (المثلث الأحمر: مستطيل أخضر شديد الارتفاع: ارتفاع منخفض) وحجم تجميع الجينوم لكل جزء من الأنواع المتسلسلة من TEs (بني) في كل جينوم. (ب) تُظهر المخططات الشريطية إجمالي عدد الجينات لكل نحلة مقسمة وفقًا لملفات تقويم العظام ، من الجينات القديمة الموجودة عبر النحل إلى الجينات المقيدة النسب والجينات الخاصة بالأنواع. (ج, د) مساهمة TE و CDS في تغير حجم الجينوم عبر النحل الطنان ، على التوالي. الاختلافات في المحتوى الكلي لـ TEs (ج) و CDS (د) من 19 جينومًا بالنسبة إلى جينوم بومبوس سوبر باص (التي تحتوي على أصغر حجم لتجميع الجينوم) يتم رسمها مقابل الاختلافات في حجم الجينوم (بالنسبة إلى حجم B. superbus).

ومع ذلك ، يكشف فحص أشجار الجينات عن مستويات قصوى من التناقض: لا تتطابق أي من طوبولوجياتها مع طوبولوجيا الشجرة المستنتج من التسلسل (الجداول التكميلية S5 و S6 ، المواد التكميلية عبر الإنترنت) ، وتقريبًا كل شجرة جينية لها هيكل فريد (جدول إضافي S7 ، المواد التكميلية على الإنترنت). وقد لوحظت هذه المستويات المتطرفة من الخلاف سابقًا في الطيور (جارفيس وآخرون. 2014) والطماطم (بيز وآخرون. 2016) ونُسبت إلى مجموعة متنوعة من المصادر ، مثل ILS والإدخال (Maddison 1997). قد يؤدي عدم وجود مواقع إعلامية ، 24٪ فقط ، مقارنة بـ 47٪ في مجموعة بيانات مماثلة من 25 drosophilids (Da Lage et al. 2019) ، ربما بسبب التنويع الحديث نسبيًا للنحل الطنان (Hines 2008) ، إلى حدوث خلاف. تم استخدام تحليل عامل التوافق الجيني والموقع (sCF) (Minh ، Hahn ، وآخرون .2020) لتحديد مقدار الاختلاف بين أشجار الجينات وشجرة أنواع IQ-TREE (تسميات العقدة في الشكل 1 أ). لكل عقدة في شجرة الأنواع IQ-TREE ، تعكس عوامل التوافق الجيني (gCFs) النسبة المئوية لأشجار الجينات التي تحتوي على تلك العقدة كما هو محدد من قبل الأصناف التابعة لها ، وتعكس sCFs النسبة المئوية للمواقع الإعلامية التي تدعم تلك العقدة عن طريق البخل. في المتوسط ​​عبر بومبوس السلالة ، تُظهر العقد في شجرة أنواع IQ-TREE قيمة gCF تبلغ 38.4٪ ، مما يشير إلى أنه في المتوسط ​​توجد عقدة في خمسي أشجار الجينات فقط. ينتج عن التصفية الأكثر صرامة لاستخدام أشجار الجينات ذات أعلى دعم تمهيد التشغيل قيم gCF أعلى لجميع العقد (الشكل التكميلي S6 ، المواد التكميلية عبر الإنترنت). متوسط ​​sCF عبر بومبوس تبلغ نسبة العقد 53.6٪ ، مما يعني أن ما يزيد قليلاً عن نصف المواقع الإعلامية في محاذاة الجينات تدعم عقد شجرة أنواع IQ-TREE (تسميات العقدة في الشكل 1 أ). تتوافق هذه sCFs ، والفروع الداخلية القصيرة لشجرة الأنواع ، والعلاقة القوية بينها (الشكل التكميلي S7 ، المواد التكميلية عبر الإنترنت) مع ILS التي تقود التناقض المرصود في شجرة الجينات. تم فحص المساهمة المحتملة للإدخال في الخلاف الملحوظ بين أشجار الجينات باستخدام طبولوجيا الأشجار لحساب Δ كما هو موضح في Huson et al. (2005) وفاندربول وآخرون. (2020) لكل فرع في IQ-TREE وشجرة الأنواع ASTRAL التي أظهرت gCF بنسبة & lt95٪. باستخدام أخذ عينات تمهيدية لأشجار الجينات لتوفير توزيع فارغ (الشكل التكميلي S8 ، المواد التكميلية عبر الإنترنت) ، لم تظهر أي سلالات في أي من شجرة النوعين قيمًا عالية بشكل ملحوظ لـ ، واستبعد التداخل كمصدر للخلاف (الشكل التكميلي S9 ، التكميلي) المواد على الإنترنت). بسبب المستويات العالية من التناقض ، تُستخدم الأنساب على مستوى الجينات في جميع التحليلات اللاحقة للتطور الجزيئي القائم على الجينات لأن مثل هذا الاختلاف يمكن أن يؤدي إلى تحيز استنتاجات البدائل عند تعيينها على شجرة الأنواع (Mendes and Hahn 2016).

إعادة ترتيب الجينوم الرئيسية في الطفيليات الاجتماعية

تشير مجموعات جينوم Hi-C الخمسة إلى أن أربعة من الجينات الفرعية الخمسة تحتوي على 18 كروموسومًا (الشكل 2A و C التكميليان S10A و B ، المواد التكميلية عبر الإنترنت) ، بما يتوافق مع تحليل النمط النووي السابق الذي استنتج أن عدد الكروموسوم السلفي هو 18 (أوين وآخرون 1995). ومع ذلك ، فإن الطفيل الاجتماعي الطنانة ، ب. تورنري، subgenus بسيثيروسيحتوي على 25 كروموسوم (شكل.2B) ، بما يتفق مع العمل الخلوي السابق (أوين 1983). على الرغم من ارتفاع عدد الكروموسوم ، فإن حجم الجينوم الخاص به يقع في نطاق النحل الطنان الآخر (الشكل 1 أ والجدول 1). التحقيق في العلاقات الكبيرة بين ب. تورنري وكشفت الأنواع الأخرى ذات التجمعات على مستوى الكروموسومات عن ثلاث عمليات رئيسية تشرح كيفية اشتقاق النمط النووي المكون من 25 كروموسومًا من النمط النووي السلفي المكون من 18 كروموسومًا. أولاً ، تنحدر بعض الكروموسومات من كروموسومات الأسلاف (على سبيل المثال ، كروموسوم 5 ، شكل 2 د ، باللون الأزرق). ثانيًا ، نشأ بعضها عن طريق انشطار كروموسوم أسلاف (على سبيل المثال ، 11 و 25 من ب. تورنري نشأت عن طريق انشطار أسلاف كروموسوم 11 التين. 2D باللون الأحمر). أخيرًا ، بعضها مشتق من اندماج جزأين أو أكثر من كروموسوم الأسلاف (على سبيل المثال ، ب. تورنري تم اشتقاق الكروموسوم 22 من اندماج مقاطع من الكروموسومات السلفية 7 و 8 و 10 و 16 [شكل. 2D من الذهب]). مقارنات زوجية بين بسيثيروس وأعضاء من أجيال فرعية أخرى يكشفون عن نتائج مماثلة ويدعمون الاستدلال على أن 25 كروموسومًا للطفيلي الاجتماعي الطنان ينتج عن مزيج من الانشطار والاندماج والاحتفاظ بالكروموسومات الأسلاف (الشكل التكميلي S10 ، المواد التكميلية عبر الإنترنت).

تطور عدد الكروموسومات في أنواع النحل التمثيلية من ثلاثة أجيال فرعية مختلفة. خرائط حرارة جهة اتصال Hi-C لـ بومبوس البواسير (أ), ب. تورنري (ب)، و بيروسوما (ج) تبين أن الأنواع الثلاثة تحتوي على 18 و 25 و 18 كروموسومًا على التوالي. النمط النووي المكون من 18 كروموسومًا هو بنية جينوم الأسلاف المستنتجة ، مع وجود 25 كروموسومًا في النحل الطنان الطفيلي الاجتماعي للجنس الفرعي بسيثيروس. (د) مقارنات Macrosynteny عبر الباسور, ب. تورنري، و بيروسوما تظهر كيف 25 ب. تورنري تنتج الكروموسومات عن مزيج من الانشطار (الأحمر) ، والاندماج (الأصفر) ، والاحتفاظ (الأزرق) لكروموسومات الأسلاف.

تطور عدد الكروموسومات في أنواع النحل التمثيلية من ثلاثة أجيال فرعية مختلفة. خرائط حرارة جهة اتصال Hi-C لـ بومبوس البواسير (أ), ب. تورنري (ب)، و بيروسوما (ج) تبين أن الأنواع الثلاثة تحتوي على 18 و 25 و 18 كروموسومًا على التوالي. النمط النووي المكون من 18 كروموسومًا هو بنية جينوم الأسلاف المستنتجة ، مع وجود 25 كروموسومًا في النحل الطنان الطفيلي الاجتماعي للجنس الفرعي بسيثيروس. (د) مقارنات Macrosynteny عبر الباسور, ب. تورنري، و بيروسوما تظهر كيف 25 ب. تورنري تنتج الكروموسومات عن مزيج من الانشطار (الأحمر) ، والاندماج (الأصفر) ، والاحتفاظ (الأزرق) لكروموسومات الأسلاف.

معدلات تطور الكروموسوم ، من حيث إعادة الترتيب بالنسبة إلى تيريستريس، لكل نوع من الأنواع الخمسة مع تجميعات على مستوى الكروموسوم. تتراوح معدلات إعادة الترتيب في النحل الطنان من 0.0016 إلى 0.0075 انقلاب / ميجا بايت / My (الجدول التكميلي S8 ، المواد التكميلية عبر الإنترنت) ، وهي أقل بكثير من معدلات drosophilids (0.013–0.159 الانقلاب / ميجا بايت / My) و anophelines (0.052–0.068 الانقلاب / Mb / My) (von Grotthuss et al. 2010 Neafsey et al. 2015). وهكذا ، على الرغم من أن جينومات النحلة الطنانة لديها معدل إعادة تركيب مرتفع (Wilfert et al.2007) ، فإن معدلات تطور الكروموسوم لديها بطيئة نسبيًا ، وهو ما يدعمه أيضًا الترابط العالي الملحوظ عبر الأنواع (متوسط ​​88٪ ، من 80٪ إلى 95٪) الجدول التكميلي S9 ، المواد التكميلية عبر الإنترنت).

محرك TEs لتغيير حجم الجينوم

تتراوح أحجام تجميع الجينوم (أحادي الصيغة الصبغية) من 230 ميجا بايت في B. superbus إلى 262 ميجا بايت في B. sibiricus (الشكل 1 أ). أنتج استنتاج حجم الجينوم الأسلاف للنحل الطنان تقديرًا قدره 230-231 ميجا بايت ، مشابهًا لتقدير أعضاء الجنس الفرعي Mendacibombus، ولكنها أصغر من جينومات جميع أنواع النحل الطنان الأخرى التي تم مسحها (الشكل التكميلي S11 ، المواد التكميلية عبر الإنترنت). تُظهر مقارنة الاختلافات في حجم الجينوم مع المحتوى النسبي لـ TEs وتكرار التسلسل البسيط وتسلسل الحمض النووي (CDS) أن محتوى TE يشرح غالبية الاختلافات بين النحل الطنان (ارتباط بيرسون) ص = 0.92, ص = 1.9e-08 ، ص 2 = 0.85 شكل. 1C و D التين التكميلي. S12 ، المواد التكميلية عبر الإنترنت). Mendacibombus الأنواع لها حجم جينوم أصغر من الأنواع الأخرى (الشكل 1 أ) ، و TEs التي تم نقلها في غيرMendacibombus الأنواع بعد الاختلاف من Mendacibombus عرض أرقام النسخ التي تتراوح من 1،992 إلى 4،755 (الشكل التكميلي S13 ، المواد التكميلية عبر الإنترنت) ، مما يدعم مساهمة TEs في تطور حجم الجينوم. علاوة على ذلك ، أشار تحليل تاريخ انتشار TE إلى أن جميعMendacibombus الأنواع لها قمم تضخيم TE حديثة (الشكل التكميلي S14 ، المواد التكميلية عبر الإنترنت) ، بما يتوافق مع زيادة نشاط TE الذي يؤدي إلى زيادة حجم الجينوم.

تشمل التوزيعات الجينومية لـ TEs 1،074-1،786 موضعًا TE تتداخل مع مناطق ترميز جينات ترميز البروتين (الجدول التكميلي S10 ، المواد التكميلية عبر الإنترنت). إجمالاً ، 352 من هذه الجينات عبارة عن أخصائي تقويم شامل من نسخة واحدة عبر 19 نحلة طنانةنس القيم كلها & lt1 (الجدول التكميلي S11 ، المواد التكميلية عبر الإنترنت) ، مما يشير إلى قيود وظيفية طويلة الأجل. تتضمن إحدى حالات اندماج الجين الوهمي القديم والمحافظ عليه جينًا له نسخة واحدة من أخصائي تقويم العظام عبر النحلة الطنانة التسعة عشر حيث يتطابق الطرف C للبروتينات مع تسلسل النسخ العكسي لـ R1 retrotransposon (الشكل التكميلي S15 ، المواد التكميلية على الإنترنت). تستمر القراءات المحاذية من بيانات تسلسل الحمض النووي الريبي (RNA) بمستويات تغطية مماثلة في المنطقة المشتقة من TE افتراضيًا في نهاية 3′ من الجين ، مما يدعم التنبؤ والتعبير عن الوهم الكامل. لذلك ، ساهم نشاط TE في تطور ذخيرة جينات ترميز بروتين النحل. بالإضافة إلى ذلك ، هناك الآلاف من TEs الموجودة في حدود 1 كيلو بايت من الجين في كل نوع (الجدول التكميلي S10 ، المواد التكميلية عبر الإنترنت) ، وفي تيريستريس، 278 من هذه TEs تتواجد مع مناطق الكروماتين المفتوحة التي تم اكتشافها بواسطة ATAC-seq (الجدول التكميلي S12 ، المواد التكميلية عبر الإنترنت) ، مما يشير إلى أن هذه TEs ربما تكون قد تم دمجها في التسلسلات التنظيمية.

يعكس تطور المحتوى الجيني البحث عن الطعام وتنوع النظام الغذائي

تشير نتائج ترسيم تقويم العظام إلى أن غالبية الجينات توجد في نسخة واحدة أو أكثر في جميع الأنواع تقريبًا عبر النحل الطنان (الشكل 1 ب). وتشمل هذه 53 مجموعة تقويمية خاصة بـ بومبوس الجنس ، الموجود في جميع أنواع النحل البالغ عددها 19 ولكنه غائب في جميع نحل العسل الأربعة (الشكل 1 ب ، الجدول التكميلي S13 ، المواد التكميلية عبر الإنترنت) ، وقد يلعب أدوارًا في السمات الخاصة بالنسب. يشير التعليق التوضيحي الوظيفي إلى أن خمسة من هؤلاء بومبوس- ترتبط الجينات المحددة باستقلاب البروتين ونقله (الجدول التكميلي S13 ، المواد التكميلية عبر الإنترنت) ، والتي يحتمل أن تكون مرتبطة بمحتوى البروتين العالي لحبوب اللقاح التي يجمعها النحل عن نحل العسل (Leonhardt and Blüthgen 2012) أو أهمية البروتينات في سبات الحشرات ، والتي هي خطوة حاسمة في دورة حياة النحل الطنان (Denlinger 2002 Colgan et al. 2011). يتم إثراء المجموعات المتعامدة ذات التمثيل الأوسع للأنواع وظيفيًا للعمليات البيولوجية الأساسية مثل نقل البروتين ونقل الإشارة (على سبيل المثال ، مسار Wnt) و (de) التواجد في كل مكان وتنظيم الهيكل الخلوي (الجدول التكميلي S14 ، المواد التكميلية عبر الإنترنت). في المقابل ، يتم إثراء أولئك الذين لديهم تمثيل الأنواع المتناثرة أو المقيدة النسب لعمليات تشمل الإدراك الشمي والذوقي ، والتخليق الحيوي للأحماض الأمينية ، والأكسدة - الاختزال (الجدول التكميلي S14 ، المواد التكميلية عبر الإنترنت). في المتوسط ​​، تم تحديد 465 جينًا خاصًا بالأنواع (تلك التي ليس لها أخصائي تقويم في أي نوع آخر) في كل نوع من أنواع النحل الطنان (النطاق 137-767) (الجدول التكميلي S15 ، المواد التكميلية عبر الإنترنت) ، والتي قد تساهم في السمات الخاصة بالأنواع ولكن التي الأدوار الوظيفية لا يزال يتعين استكشافها.

تحليل دوران (المكاسب والخسائر) من الذخيرة الجينية عبر بومبوس السلالة (15 نوعًا ، واحد لكل جنس فرعي) باستخدام CAFE v3.0 (Han et al. 2013) حدد التوسعات والتقلصات بين 13828 عائلة جينية واختلافات كمية في معدلات دوران الجينات عبر الأنواع (الشكل التكميلي S16 ، المواد التكميلية عبر الإنترنت). بعد تصحيح الخطأ ، فإن المعدل الإجمالي لدوران الجينات في بومبوس الجينوم هو 0.0036 / gene / My ، مشابه لتحليل 18 نوعًا من الأنوفيل و 25 drosophilids (الجدول التكميلي S16 ، المواد التكميلية عبر الإنترنت) (Neafsey et al. 2015 Da Lage et al. 2019). ومع ذلك ، فإن معدلات دوران الجينات الخاصة بالجنس أعلى بمقدار 2-3 مرات من المعدلات على مستوى الطلب ، والتي يبلغ متوسطها 0.0011 (الجدول التكميلي S16 ، المواد التكميلية عبر الإنترنت) (Thomas et al. 2020) ، ربما بسبب أخذ العينات الأكثر كثافة في الجنس- دراسات المستوى التي تسمح بالتقاط المزيد من الأحداث. يتم تلخيص أحداث مكاسب وخسارة الجينات ، إلى جانب عدد عائلات الجينات سريعة التطور ، لكل نوع (الجدول التكميلي S17 ، المواد التكميلية عبر الإنترنت) ، بإجمالي 3797 عائلة جينية سريعة التغير. يتم إثراء عائلات الجينات الأكثر ديناميكية للعمليات بما في ذلك إدراك الرائحة والذوق ، واستقلاب الكيتين ، والحركة القائمة على الأنابيب الدقيقة ، والمثيلة (الجدول التكميلي S18 ، المواد التكميلية عبر الإنترنت). يحدد التحليل التكميلي باستخدام ثلاثة مقاييس لتغير رقم نسخ الجينات أيضًا هذه العمليات على أنها غنية بين عائلات الجينات الأكثر تغيرًا ، على عكس الأكثر استقرارًا التي تشارك في العمليات المتعلقة بالترجمة والالتصاق والنقل (الجدول التكميلي S19 ، المواد التكميلية عبر الإنترنت ). فيما يتعلق بتطور رقم نسخ مجال البروتين ، فإن الجينات الأكثر تغيرًا هي تلك التي تتفاعل مع البروتين والبروتين الذي يتوسط مجالات F-box ، وزخارف SAP المرتبطة بالحمض النووي المفترض ، و guanylate kinases لنقل الفوسفات (الجدول التكميلي S20 ، المواد التكميلية عبر الإنترنت).

تراكيب Intron – Exon مستقرة مع وفرة Stop-Codon Readthrough

تحليل إمكانية ترميز البروتين باستخدام تيريستريس نظرًا لأن الأنواع المرجعية حددت 851 مرشحًا للقراءة من خلال رموز التوقف (الشكل التكميلي S17 والجدول S21 ، المواد التكميلية عبر الإنترنت) ، أي حيث من المحتمل أن تستمر الترجمة من خلال أكواد الإيقاف لإنتاج أشكال إسوية بروتينية ممتدة. تم تقييم إمكانات الترميز باستخدام PhyloCSF (Lin et al. 2011) على محاذاة الجينوم الكامل لجميع النحل الطنان التسعة عشر وأربعة نحل العسل. تم تقدير معدل الاكتشاف الخاطئ باستخدام الإثراء لسياق إيقاف كودون TGA-C ، والذي يُفضل في جينات القراءة ، للاستدلال على أن ما لا يزيد عن 30٪ من 200 مرشح حاصل على أعلى الدرجات هم إيجابيون خاطئون ، وأن 306 على الأقل من يخضع المرشحون البالغ عددهم 851 لقراءة وظيفية. على الرغم من أن القراءة نادرة بعد Pancrustacea ، إلا أن المئات من ذبابة الفاكهة و أنوفيليس تخضع الجينات للقراءة (Jungreis et al. 2011 Dunn et al. 2013 Jungreis et al. 2016 Rajput et al. 2019) وتدعم نتائجنا القائمة على محاذاة الجينوم الكامل التنبؤ (Jungreis et al. 2011) بأن أنواع الحشرات وفيرة قراءة وقف كودون. في المقابل ، فإن حدود intron-exon داخل جينات النحل مستقرة نسبيًا. كشف فحص التاريخ التطوري لمكاسب وخسائر intron عن تغييرات قليلة ، تمثل فقط 3-4٪ من مواقع intron الأجداد ، مع مكاسب أكثر من الخسائر (الشكل التكميلي S18 والجدول S22 ، المواد التكميلية عبر الإنترنت) ، على عكس drosophilids و anophelines حيث تهيمن الخسائر ( Neafsey et al. 2015) ، مما يشير إلى أن بنية الجينات الطنانة ظلت مستقرة نسبيًا على مدى 34 My منذ آخر سلف مشترك.

التباعد والقيود الانتقائية لجينات ترميز البروتين

تتضمن جينات النحلة الطنانة ذات الاختلاف المرتفع في التسلسل و / أو القيود المسترخية العمليات المتعلقة بإدراك الرائحة ، واستقلاب الكيتين ، ومعالجة الحمض النووي الريبي ، وإصلاح الحمض النووي ، وتقليل الأكسدة (الشكل 3). مقاييس المعدل التطوري (تباعد تسلسل الأحماض الأمينية يقاس كمتوسط ​​لهويات تسلسل البروتين التقويمي بين الأنواع الطبيعية) والقيود الانتقائية (دنس) أظهرت اتجاهات مماثلة بين الفئات الوظيفية المختلفة للجينات. معظم الجينات مقيدة بشدة ، بمتوسط ​​تقديرات dنس أقل بكثير من واحد. عادةً ما يكون تعيين شروط GO ومجالات InterPro منحازًا نحو الجينات التي يتم الحفاظ عليها بشكل أبطأ والتي يتم الحفاظ عليها جيدًا (الشكل التكميلي S19 ، المواد التكميلية عبر الإنترنت). ومع ذلك ، يتم دعم واستكمال الفئات الوظيفية مع الجينات الأسرع تطورًا من خلال فحص مصطلحات GO الخاصة بالوظيفة الجزيئية (الشكل التكميلي S20). أ، المواد التكميلية عبر الإنترنت) ومجالات InterPro (الشكل التكميلي S20 ب، المواد التكميلية عبر الإنترنت) ، والتي تُظهر معدلات مرتفعة لربط الرائحة ، ونشاط المستقبلات الشمية ، وربط الكيتين ، ونشاط أوكسيدوروكتاز ، ونشاط إندوبيبتيداز من نوع سيرين ، ومجالات مستقبلات حاسة الشم. أظهر تحليل إثراء مصطلح GO لأبطأ وأسرع مجموعات فرعية تطورًا من الجينات ، أسفل وأعلى 20 ٪ على التوالي (الشكل التكميلي S21 ، المواد التكميلية عبر الإنترنت) ، الجينات ذات المعدلات التطورية الأبطأ وأقل د.نس تم إثراء النسب للعمليات البيولوجية الأساسية لحفظ المنزل والوظائف الجزيئية (الجداول التكميلية S23 و S24 ، المواد التكميلية عبر الإنترنت). في المقابل ، تم إثراء الجينات ذات المعدلات التطورية الأسرع للعمليات المرتبطة بالتخليق الحيوي للسكريات المتعددة ، والتفاعل الأميني للـ tRNA ، وربط الأدوية ، ونشاط نقل ميثيل الحمض النووي الريبي (الجدول التكميلي S23 ، المواد التكميلية عبر الإنترنت). الجينات ذات أعلى دنس تم إثراء النسب للعمليات والوظائف بما في ذلك تحليل البروتينات والترجمة ومعالجة ncRNA واستقلاب الكيتين (الجدول التكميلي S24 ، المواد التكميلية عبر الإنترنت).

التطور الجزيئي لجينات ترميز البروتين من حيث معدل التطور ودنس نسبة. يتم تصنيف شروط GO Biological Process حسب المعدل التطوري من الأكثر تحفظًا (يسارًا) إلى الأكثر ديناميكية (يمينًا) ويتم تلوينها من أعلى القيم (أحمر) إلى متوسط ​​القيمة (أزرق) إلى أدنى القيم (برتقالي). يشير معدل التطور إلى اختلاف تسلسل الأحماض الأمينية المقاس على أنه متوسط ​​هويات تسلسل البروتين التقويمي بين الأنواع الطبيعية. دنس يشير إلى نسبة عدد الاستبدالات غير المرادفة لكل موقع غير معروف إلى عدد الاستبدالات المترادفة لكل موقع مرادف. تُظهر المربعات المسننة متوسطات قيم المجموعة المتعامدة مع حدود الربعين العلوي والسفلي ، ويتناسب عرض الصندوق مع عدد المجموعات المتعامدة في كل فئة.

التطور الجزيئي للجينات المشفرة للبروتين من حيث معدل التطور ودنس نسبة. يتم تصنيف شروط GO Biological Process حسب المعدل التطوري من الأكثر تحفظًا (يسارًا) إلى الأكثر ديناميكية (يمينًا) ويتم تلوينها من أعلى القيم (أحمر) إلى متوسط ​​القيمة (أزرق) إلى أدنى القيم (برتقالي). يشير معدل التطور إلى اختلاف تسلسل الأحماض الأمينية المقاس على أنه متوسط ​​هويات تسلسل البروتين التقويمي بين الأنواع الطبيعية. دنس يشير إلى نسبة عدد الاستبدالات غير المرادفة لكل موقع غير معروف إلى عدد الاستبدالات المترادفة لكل موقع مترادف. تُظهر المربعات المسننة متوسطات قيم المجموعة المتعامدة مع حدود الربعين العلوي والسفلي ، ويتناسب عرض الصندوق مع عدد المجموعات المتعامدة في كل فئة.

تحيز استخدام Codon مدفوعًا بالمحتوى

لم يُظهر تحليل تحيز استخدام الكودون أي دليل على الاختيار على الكودونات المثلى ، على عكس drosophilids ولكنه مشابه لخطوط الأنوفيل (Vicario et al.2007 Neafsey et al. 2015). بدلاً من ذلك ، يبدو أن تحيز استخدام الكودون في النحل الطنان مدفوع أساسًا بمحتوى AT ، بما يتوافق مع التقارير السابقة في Hymenoptera (Behura and Severson 2012). تم تقدير الكودونات المثلى في كل نوع وتم حساب معاملات الارتباط بين استخدام الكودون المرادف النسبي والعدد الفعال للكودونات لكل جين. جميع الأنواع لها تفضيل مماثل وشدة تفضيل لكل حمض أميني ، وكان هناك كودون مفضل للغاية وغالبًا ما يكون مفضلًا بشكل ثانوي ، وكلها تنتهي بـ A / T (الشكل التكميلي S22 ، المواد التكميلية عبر الإنترنت). لاختبار ما إذا كان يمكن تفسير استخدام الكودون إلى حد كبير من خلال التحيز الطفري ، تم استخدام نموذج خطي للتنبؤ Fop (تكرار الكودون الأمثل) من محتوى الجين AT الكلي واستخدام الأحماض الأمينية. أوضح النموذج 99.2 ٪ من تباين Fop دون الحاجة إلى تضمين أصل الأنواع لكل جين. أوضح محتوى AT وحده 81٪ من التباين (الشكل التكميلي S23 ، المواد التكميلية عبر الإنترنت). علاوة على ذلك ، لوحظ وجود علاقة قوية بين محتوى الكودون AT والعلاقة بين استخدام الكودون المرادف النسبي والعدد الفعال للكودونات عبر جميع الأنواع (الشكل التكميلي S24 ، المواد التكميلية عبر الإنترنت).

تطور الجينات المرتبط بعلم البيئة البيئية للنحلة الطنانة

تساهم العديد من العوامل البيئية والبيئية - على سبيل المثال ، نقص الغذاء ، وظهور العوامل الممرضة ، والتعرض لمبيدات الآفات ، وتغير المناخ - في التدهور العام للنحل الطنان في جميع أنحاء العالم (Williams et al. 2009 Goulson et al. 2015 Cameron and Sadd 2020). للبدء في استكشاف مجموعة الجينات التي من المحتمل أن تشارك في تفاعلات النحل الطنان مع بيئتهم ، قمنا بفحص تطور عائلات الجينات المرتبطة ببيئتهم وتاريخ حياتهم. أخذ العينات عبر بومبوس الجنس أتاح المسح الأول لتنوع ذخيرة الجينات الطبيعية لهذه العائلات التي من المحتمل أن تكون مهمة للتكيف والنجاح.

تنوع المستقبلات الكيميائية الحسية

يلعب التحسس الكيميائي دورًا مهمًا في تحديد مكان الطعام والأعشاش ، والتواصل مع رفقاء العش ، وتحديد الإشارات البيئية الأخرى (Ayasse and Jarau 2014). حدد البحث عن عائلات جينات المستقبلات الحسية الكيميائية الرئيسية الثلاثة - مستقبلات الرائحة (ORs) ، والمستقبلات الذوقية (GRs) ، ومستقبلات التأين (IRs) - في جينومات النحلة الطنانة المتسلسلة 3228 جينًا ، بمتوسط ​​(الحد الأدنى - الحد الأقصى) التعداد 150 ( 133–165) ORs ، 18 (13–22) GRs ، و 22 (21–22) IRs (الجدول التكميلي S25 ، المواد التكميلية عبر الإنترنت). تم استخدام الجينات الكاملة فقط لتحليل اكتساب الجينات وفقدانها. على الرغم من أوجه التشابه في إجمالي عدد الجينات OR ، لوحظت أمثلة على كسب / فقدان الجينات في سلالات معينة. كانت هناك خسارة صافية قدرها 15 أرجحية في السلف المشترك للجنس الفرعي Mendacibombus (ام دي) (الشكل 4 أ الشكل التكميلي S25 ، المواد التكميلية عبر الإنترنت). الأنواع في Mendacibombus يسكنون بشكل رئيسي الجبال العالية بما في ذلك هضبة تشينغهاي - التبت ، مع تنوع أزهار منخفض نسبيًا (Williams et al. 2018) ، والذي قد يكون مرتبطًا بفقدان OR في هذا النوع الفرعي. لوحظ خسارة صافية قدرها 11 أرجحية في السلف المشترك للجنس الفرعي بسيثيروس (ملاحظة) (الشكل 4 أ الشكل التكميلي S25 ، المواد التكميلية عبر الإنترنت).بالنسبة إلى نسب الأرجحية المشتركة عبر النحل الطنان ، أظهر سبعة دليلًا على الاختيار الإيجابي في مجموعة فرعية من الأنواع ، بما في ذلك مستقبلات الفرمون المفترضة (الجدول التكميلي S26 ، المواد التكميلية عبر الإنترنت). بالمقارنة مع نسب الأرجحية ، فإن الجينات الوراثية والـ IRs لديها أعداد جينية أقل بكثير وأكثر استقرارًا (الشكل التكميلي S25 ، المواد التكميلية عبر الإنترنت). ومع ذلك ، على الرغم من الحفظ العام لعدد الجينات والأدلة الواسعة على تنقية الانتقاء ، هناك دليل على أن بعض جينات GR و IR اختبرت اختيارًا إيجابيًا في مجموعة فرعية من الأنواع ، بما في ذلك المستقبلات التي يُفترض مشاركتها في استشعار الفركتوز ودرجة الحرارة (الجدول التكميلي S26 ، المواد التكميلية عبر الإنترنت ).

تطور الجينات المرتبطة بالبيئة والتكاثر. (أ). تعداد الجينات المرصودة وتعداد جينات الأجداد المستنبطة لـ ORs للنحلة الطنانة على سلالة فائق القياس ، مع تسليط الضوء على حدثين رئيسيين لفقدان الجينات (النتيجة الكاملة متوفرة في الشكل التكميلي S25 ، المواد التكميلية عبر الإنترنت). (ب). Boxplots تظهر دنس النسب لفئات مختلفة من الجينات المناعية وجميع الجينات أحادية النسخة في النحلة الطنانة (جميع الجينات). مرتفع دنس النسب بين الجينات المرتبطة بالمناعة مدفوعة بنسب أعلى للجينات المشاركة في عمليات التعرف والإشارات. تُظهر المربعات المسننة متوسطات قيم المجموعة المتعامدة مع حدود الربعين العلوي والسفلي. (ج). التاريخ التطوري فيم جينات النحل بما في ذلك نظائرها فيم 1 في طنانة (بومبوس) و csd في نحل العسل (أبيس). غير المرادف العالمية لنسبة المعدل المرادف (ω) تم حسابه لـ فيمبومبوس (المرجع ، أزرق) و فيم 1بومبوس (اختبار ، أحمر) ، بما في ذلك إطار اختبار موقع الفرع مع ملاءمة النموذج واختبارات نسبة الاحتمالية ، مما يُظهر أدلة على استرخاء الاختيار في فيم 1بومبوس (ص & lt 0.001 ، LR = 36.34). الإجراءات الزائفة لتنويع الاختيار على الفروع التي توجد في الغالب في فيم 1بومبوس باللون الأحمر. للمقارنة، ω ل فيم و csd في أبيس يُعْرَف بأنه مثال صارخ للوظيفة الجديدة.

تطور الجينات المرتبطة بالبيئة والتكاثر. (أ). تعداد الجينات المرصودة وتعداد جينات الأجداد المستنتج من أرجل النحلة الطنانة في سلالة فائق القياس ، مع تسليط الضوء على حدثين رئيسيين لفقدان الجينات (النتيجة الكاملة متاحة في الشكل التكميلي S25 ، المواد التكميلية عبر الإنترنت). (ب). Boxplots تظهر دنس النسب لفئات مختلفة من الجينات المناعية وجميع الجينات أحادية النسخة في النحلة الطنانة (جميع الجينات). مرتفع دنس النسب بين الجينات المرتبطة بالمناعة مدفوعة بنسب أعلى للجينات المشاركة في عمليات التعرف والإشارات. تُظهر المربعات المسننة متوسطات قيم المجموعة المتعامدة مع حدود الربعين العلوي والسفلي. (ج). التاريخ التطوري فيم جينات النحل بما في ذلك نظائرها فيم 1 في طنانة (بومبوس) و csd في نحل العسل (أبيس). غير المرادف العالمية لنسبة المعدل المرادف (ω) تم حسابه لـ فيمبومبوس (المرجع ، أزرق) و فيم 1بومبوس (اختبار ، أحمر) ، بما في ذلك إطار اختبار موقع الفرع مع ملاءمة النموذج واختبارات نسبة الاحتمالية ، مما يُظهر أدلة على استرخاء الاختيار في فيم 1بومبوس (ص & lt 0.001 ، LR = 36.34). الإجراءات الزائفة لتنويع الاختيار على الفروع التي توجد في الغالب في فيم 1بومبوس باللون الأحمر. للمقارنة، ω ل فيم و csd في أبيس يُعْرَف بأنه مثال صارخ على الوظيفة الجديدة.

القدرة على إزالة السموم

تستخدم جينات إزالة السموم لتحييد المواد الغريبة الحيوية ، مثل المستقلبات الثانوية النباتية السامة ومبيدات الآفات. إن ذخيرة الكربوكسيل / الكولينستراز ، السيتوكروم P450 أحادي الأكسجين ، و الجلوتاثيون S-ترانسفيراز في الجينوم الـ 17 أصغر بكثير مما هو عليه في drosophilids و anophelines (الجدول التكميلي S27 ، المواد التكميلية عبر الإنترنت) ، مما يشير إلى وجود عجز على مستوى الجنس لهذه الفئة الجينية ، لوحظ سابقًا في اثنين من النحل الطنان (سد وآخرون ، 2015). يوجد 88 جينًا لإزالة السموم في المتوسط ​​في النحل الطنان ، مع اختلاف بسيط عبر الأنواع (الجدول التكميلي S27 ، المواد التكميلية عبر الإنترنت). على الرغم من الحفظ العام لعدد الجينات والأدلة المنتشرة لتنقية الانتقاء (يعني دنس هو 0.26) ، ما مجموعه 19 جينًا لإزالة السموم ، بما في ذلك الكربوكسيل / الكولينستراز ، السيتوكروم P450 أحادي الأكسجين ، و الجلوتاثيون S- ترانسفيراس ، أظهر دليلًا على اختيار التنويع الإيجابي في مجموعة فرعية من الأنواع (الجدول التكميلي S28 ، المواد التكميلية عبر الإنترنت).

الدفاع المناعي

تشارك الجينات المناعية في التعرف على مسببات الأمراض والدفاع عنها. على غرار جينات إزالة السموم ، فإن التعداد في الجينوم الـ 17 المتسلسل أقل بكثير مما هو عليه في drosophilids و anophelines (الجدول التكميلي S29 ، المواد التكميلية عبر الإنترنت) ، مما يدل على الندرة التي لوحظت سابقًا في اثنين من النحل الطنان (Barribeau et al. 2015 Sadd et al. 2015) يمتد إلى الجنس كله. تحتوي جينومات Bumblebee على مكونات جميع المسارات المناعية الرئيسية الموصوفة في الحشرات ، ويتم حفظ عدد الجينات إلى حد ما عبر الأنواع (الجدول التكميلي S29 ، المواد التكميلية عبر الإنترنت). على سبيل المثال ، تحتوي جميع الأنواع على جينين يشفران البروتينات الرابطة للبكتيريا سالبة الجرام ، في حين أن بروتينات التعرف على الببتيدوغليكان أكثر تنوعًا مع ما بين أربع إلى ست نسخ جينية. مقارنة دنس أظهرت النسب بين الجينات المناعية وجميع الجينات المتعامدة أحادية النسخة في النحل الطنان أن الجينات المناعية تظهر ارتفاعًا طفيفًا في د.نس النسب (ص = 0.04 ، اختبار مجموع رتبة ويلكوكسون) ، ومن بين الجينات المناعية ، فإن جينات التعرف والإشارة لديها d أعلىنس نسب من جينات المستجيب (الشكل 4 ب). بالإضافة إلى ذلك ، على الرغم من الأدلة المنتشرة على تنقية الاختيار ، أظهر ما مجموعه 52 جينًا مناعيًا دليلاً على الاختيار الإيجابي في مجموعة فرعية من أنواع النحل الطنان (الجدول التكميلي S30 ، المواد التكميلية عبر الإنترنت).

الجينات المشاركة في التكيف مع الارتفاعات العالية

بومبوس سوبر باص, B. والتوني, ب. صعب، و B. skorikovi هي أربعة أنواع تم جمعها على ارتفاعات تبلغ 4000 طن متري تمثل ثلاثة أجيال فرعية (الشكل 1). لا تظهر أي جينات إشارات على الانتقاء الإيجابي في جميع الأنواع عالية الارتفاع ولكن لا تظهر أي من الأنواع منخفضة الارتفاع. ومع ذلك ، تظهر ستة جينات دليلًا على الاختيار الإيجابي في الأنواع التي تمثل اثنين من الأنواع الفرعية الثلاثة عالية الارتفاع ، ولكن لا يوجد أي من الأنواع منخفضة الارتفاع (الجدول التكميلي S31 ، المواد التكميلية عبر الإنترنت). أحدهما يشفر CPAMD8 ، والذي يشارك في تنمية العين (Cheong et al. 2016). نظرًا لأن النحل الطنان يكتشف الأزهار بصريًا (Meyer-Rochow 2019) ، فقد تكون توقيعات الاختيار مرتبطة بضبط تطور العين من أجل البحث الأمثل عن الطعام في ظروف الإضاءة المرتفعة. تقوم ثلاثة جينات بتشفير هيستون ديستيلاز ، سينابتوتاجمين -12 ، وبروتين نووي نووي غير متجانس ، والتي تشارك في الحفاظ على سلامة العضلات والحفاظ على "حالة الطيران" ، وهو أمر بالغ الأهمية لإجراء البحث عن الطعام لمسافات طويلة (Liu et al. 2001 Manjila et al. 2019 Pigna et al. 2019). يقوم جينان بتشفير ناقل أحادي الكربوكسيل مقترن بالصوديوم وبروتين عائلة glycosyltransferase ، يعتقد أنهما متورطان في التكيف الأيضي مع نقص الأكسجة (Véga et al. 2006 Shirato et al. 2010) (الجدول التكميلي S31 ، المواد التكميلية عبر الإنترنت).

تحديد الجنس

أشار التحليل التطوري لجينات تحديد الجنس في النحل والأنواع ذات الصلة إلى أن جميع جينومات النحل الطنان تشترك في نسخة مكررة من مؤنث (فيم)، اسم الشيئ فيم 1 (الشكل 4 ج). مقارنة مع فيم, فيم 1 يُظهر مستوى أعلى من الاختلاف بين النحل الطنان (فيمبومبوس دنس = 0.24 فيم 1بومبوس دنس = 0.77 شكل. 4 ج). هذه النسب قريبة من النطاق الملاحظ لـ أبيس، بحيث فيم تطورت تحت الانتقاء المطهر والجين المقابل محدد الجنس التكميلي (csd) عن طريق الوظيفة الجديدة (الشكل 4C) (Hasselmann et al. 2008). يحدد إطار اختبار موقع الفرضية (RELAX Wertheim et al. 2015) الدليل على استرخاء الاختيار في فيم 1بومبوس مقارنة مع فيمبومبوس (ص & lt 0.001 ، LR = 36.34). علاوة على ذلك ، تم العثور على الفعل الزائف لتنويع الاختيار على الفروع في الغالب في فيم 1بومبوس (الشكل 4 ج). تم تطبيق نموذج التأثير المختلط للتطور (Murrell et al. 2012) لتحديد المواقع الفردية التي خضعت للاختيار المتنوع العرضي ، وما لا يقل عن 15 موقعًا (ص & lt 0.05) كان قيد الاختيار الإيجابي ، مع وجود بعضها في أشكال معروفة (الشكل التكميلي S26 ، المواد التكميلية عبر الإنترنت). تشير نتائج تحليلات الاختيار هذه إلى كلا الأمرين فيم و فيم 1 تساهم في مسار تحديد جنس النحلة الطنانة. بالنسبة إلى محول 2 (tra-2) الجين ، يتغير الأحماض الأمينية المتسقة بينهما بومبوس و أبيس تم العثور عليها في مجال التعرف على الحمض النووي الريبي (الشكل التكميلي S27 ، المواد التكميلية عبر الإنترنت) ، مما يدعم فرضية سابقة لتعديل تنظيمي بين نحل العسل والنحل الطنان (Biewer et al. 2015).


تعليقات

هدية مجانية في 21 أبريل 2015:

أنا حقًا أحب هذا الموضوع ، فقد ساعدني في مهمتي ، شكرًا جزيلاً لك.

دكتور . كارونا سبكوتا في 18 يونيو 2014:

لقد وجدت هذا المحور ممتعًا للغاية لأنه يشرح مختلف قطاعات علم الأحياء وأنا أتفق معك تمامًا يا رفاق. :)

سهيل زبيد الملقب كلارك كينت من ميسيسوجا في 4 يناير 2013:

هذا مركز إعلامي. إليكم قصة كيف أصبح مهندس مدني طبيباً من خلال أحد فروع علم الأحياء.

تخرج زميلي في الدراسة جون من كلية فو للهندسة بجامعة كولومبيا بدرجة بكالوريوس في الهندسة المدنية. حصل على القبول في الهندسة الحيوية مع التركيز في الميكانيكا الحيوية (الهياكل الاصطناعية في جسم الإنسان). من هناك تأهل لبرنامج الطب لمدة 4 سنوات في Stony Brook وأصبح طبيبًا.

أندرو سبيسي من بالقرب من هدرسفيلد ، غرب يوركشاير ، المملكة المتحدة في 4 يناير 2013:

نشكرك على هذا المحور الثاقب في علم الأحياء وتفرعاته العديدة. تبدو دراسة علم الوراثة وكأنها مجال رئيسي للمستقبل - كشف الشفرة الجينية وتحديد كل قاعدة من قواعد الحمض النووي سيفتح بالتأكيد عالماً لا يمكننا إلا أن نحلم به في الوقت الحاضر. مبهر. لقد تطرق مركزك إلى الأساسيات وأعطانا لمحات عن عالم معقد وملهم بشكل رائع - يجعلني أرغب في التعمق أكثر.

ميلاني شبل (مؤلف) من الغرب الأوسط ، الولايات المتحدة الأمريكية في 3 يناير 2013:

علم الأحياء الدقيقة موجود في القائمة لبعض الوقت الآن. : ص

أتفق معك في أن علم الأحياء مهم للغاية (أنا متحيز أيضًا بالطبع!): P

دارين بيريز من بورتوريكو في 3 يناير 2013:

مركز مليبل الكبير! لقد درست علم الأحياء الدقيقة نفسه ويجب أن أقول إن علم الأحياء يستضيف أهم فرع من فروع العلوم الطبيعية (في رأيي المتحيز بالطبع). :د

لا شيء أهم من الحياة نفسها!

أيضا ، أنا الثانية طلب الدكتور بوجا & أبوس. : ص

جيسي ر من جورجاون ، الهند في 26 مايو 2012:

علم الأحياء هو سبب زيادة طول العمر ولا يشعر الناس بالذعر عندما يمرض أحدهم!

علم الأحياء هو تاريخ وعلم كل شكل من أشكال الحياة على الأرض!

باميلا ك كونولي من فورت وورث ، تكساس. في 25 مايو 2012:

مقال جميل جدا وغني بالمعلومات ، جيد التقريب! نحن نستخدم علم الأحياء كل يوم ونعتبره أمرًا مفروغًا منه. شكرا لك! )


أساليب

يلخص هذا القسم مكونات خط الأنابيب الحسابي الخاص بنا لتحليل الجينوم البشري الشامل. يتم توفير مزيد من التفاصيل في الملف الإضافي 1: الطرق التكميلية.

الجمعية دي نوفو

يعد تجميع De novo أحد المهام المهمة في تحليل الجينوم الشامل ، والذي يوفر القدرة على اكتشاف التسلسلات المفقودة في الجينوم المرجعي الحالي. في EUPAN ، تم استخدام SOAPDenovo2 لتجميع الجينوم الفردي. ومع ذلك ، نظرًا للحجم الكبير للجينوم البشري ، فإن تجميع جينوم فردي من بيانات تسلسل بعمق 30 ضعفًا يتطلب أكثر من 500 جيجا بايت من الذاكرة (ملف إضافي 1: الجدول S4) ، مما يحظر تجميع مئات الجينومات الفردية في الممارسة العملية. بعد مقارنة العديد من أدوات التجميع de novo لبيانات التسلسل من الجيل التالي للجينومات كبيرة الحجم (ملف إضافي 1: الطرق التكميلية) ، اخترنا SGA (String Graph Assembler) [24] نظرًا لجودة التجميع العالية والاستهلاك المنخفض للذاكرة. لقد حصلنا على معلمات محسّنة لـ SGA (ملف إضافي 1: الجدول S2) على بيانات محاكاة وقمنا بتشغيل SGA مع إعداد المعلمة هذا على 185 جينوم تسلسل عميق بالتوازي.

تحديد التسلسلات غير المرجعية

يعد بناء تسلسل الجينوم الشامل من التجمعات الفردية مهمة صعبة أخرى. لقد اعتمدنا استراتيجية تستند إلى جينوم مرجعي جيد التجميع ومشروح جيدًا. من أجل الحصول على تسلسلات غير مرجعية من الجينوم الفردي ، تم جمع contigs غير قادر على محاذاة تسلسل التجميع الأولي GRCh38 (مع قطع هوية بنسبة 90 ٪) لكل فرد. نظرًا للحجم الكبير للجينوم البشري ، فإن هذه العملية باستخدام QUAST [35] مباشرة تستغرق وقتًا طويلاً وتتطلب قدرًا هائلاً من الذاكرة (الجدول 1). من أجل تسريع هذه الخطوة ، قمنا بتطوير استراتيجية من خطوتين: التخلص من contigs المتشابه للغاية مع الجينوم المرجعي متبوعًا باستخراج التسلسلات غير المرجعية (ملف إضافي 1: الطرق التكميلية). في خط أنابيب HUPAN ، ركزنا على نوعين من التسلسلات غير المرجعية: التسلسلات غير المحاذاة تمامًا والتسلسلات غير المحاذاة جزئيًا. يتم تعريف التسلسلات غير المحاذاة تمامًا على أنها contigs بدون محاذاة للتسلسل المرجعي بينما يتم تعريف التسلسلات غير المحاذاة جزئيًا على أنها contigs مع محاذاة واحدة على الأقل وجزء واحد غير محاذي على الأقل أطول من عتبة محددة (افتراضي ، 500 bp). بعد الحصول على متواليات فردية غير مرجعية ، قمنا بدمجها وإزالة المتواليات الزائدة عن طريق CDHIT [36] مع قطع هوية بنسبة 90٪. لقد تجاهلنا تلك التسلسلات التي كان أفضل تطابق لها هو الكائنات الحية الدقيقة بما في ذلك البكتيريا والفطريات والعتائق والفيروسات وحقيقيات النوى غير الرئيسية بما في ذلك جميع النباتات والحيوانات غير الرئيسية ، والتي يمكن أن تعكس التلوثات المحتملة (ملف إضافي 1: الطرق التكميلية).

لفهم خصائص التسلسلات غير المحاذاة تمامًا ، قمنا بتشغيل CDHIT لإزالة المزيد من التسلسلات الزائدة ذات مستويات الهوية المنخفضة واستكشاف التشابه بين التسلسلات غير المحاذاة تمامًا. لقد قللنا عتبة هوية التسلسل لاستكشاف التشابه بين التسلسلات غير المحاذاة تمامًا والجينوم المرجعي البشري. لتقدير ما إذا كانت التسلسلات غير المحاذية تمامًا ستستمر في النمو مع زيادة الأفراد ، أضفنا التسلسلات غير المحاذاة تمامًا لكل فرد لتشغيل جولة أخرى من التجميع وإزالة التسلسلات الزائدة عن الحاجة حتى يتم دمج التسلسلات غير المحاذاة تمامًا من جميع الأفراد في غير مجموعة بيانات التسلسل الزائدة. استكشفنا العناصر المتكررة لهذه التسلسلات بواسطة RepeatMasker (http://www.repeatmasker.org/) وقارنناها مع تلك الموجودة في الجينوم المرجعي (كل من تسلسل التجميع الأولي وتسلسلات الشراك (hs38d1)) لوصف تكوينات التسلسلات المتكررة في تسلسل غير محاذي تمامًا. أخيرًا ، قمنا بمحاذاة هذه التسلسلات غير المحاذاة تمامًا مع تسلسل التصحيح ، وتسلسلات المواقع البديلة والفخ (hs38d1) [9] بالإضافة إلى الجينومات الفردية المجمعة الحالية [2 ، 26 ، 27 ، 28 ، 29 ، 30] لتحديد ما إذا كان غير محاذي تمامًا يمكن تحديد تسلسل في الأفراد الآخرين.

بناء وتعليق تتابعات عموم الجينوم

لقد أزلنا أيضًا التكرار بين التسلسلات غير المحاذاة تمامًا والتسلسلات غير المحاذية جزئيًا واشتقنا مجموعة بيانات تسلسلات غير مرجعية غير متكررة بحجم إجمالي يبلغ 66.04 ميجا بايت (28588 تسلسلًا). أضفنا مجموعة البيانات هذه من التسلسلات غير المرجعية إلى تسلسلات التجميع الأولي لـ GRCh38 لبناء الجينوم الشامل لـ 185 متسلسلًا حديثًا من الهان الصيني.

كان التعليق التوضيحي لتسلسل التجميع الأولي GRCh38 والتسلسلات غير المرجعية مستقلة. استند التعليق التوضيحي للجين / النص لتسلسل التجميع الأولي GRCh38 على GENCODE [37] (الإصدار 26). في المجموع ، هناك 19817 جينًا لترميز البروتين في قاعدة بيانات التعليقات التوضيحية. إذا كان الجين يحتوي على نصوص متعددة ، فسيتم اختيار النسخة ذات أطول إطار قراءة مفتوح (ORF) فقط كممثل. نظرًا لأن جميع الجينات الموجودة في الكروموسوم Y كانت غائبة في جميع الإناث ، فقد استبعدنا 63 جينًا في الكروموسوم Y.

تم توقع جينات ترميز البروتين على التسلسلات غير المرجعية باستخدام MAKER [38] (ملف إضافي 1: الطرق التكميلية). بعد عمليات الترشيح الصارمة لإزالة التكرار المحتمل ، تم الحصول على 167 جينًا كامل الطول (ملف إضافي 1: الشكل S8). تم دمج هذه الجينات الـ 167 التي تم التنبؤ بها من تسلسل الجينوم غير المرجعي مع الجينات من الجينوم البشري المرجعي ، حيث تم إنشاء 19،921 جينًا لترميز البروتين للجينوم البشري استنادًا إلى 185 التسلسل العميق لجينوم هان الصيني. تم تطبيق 19،921 جينًا لتوليد ملف تعريف الجين PAV للجينوم الصيني الهان الـ 185 الذي تم تجميعه حديثًا.

تحديد ملف تعريف الجين PAV

تم تعيين جميع القراءات لكل فرد على تسلسل عموم الجينوم باستخدام Bowtie2 [39 ، 40] مع المعلمات الافتراضية. تم استخدام SAMTools [40] وبرنامج Picard (http://broadinstitute.github.io/picard/) لفرز وفهرسة ملفات المحاذاة. تم حساب تغطية الترميز وتغطية الجسم الجيني لكل جين في كل فرد من ملفات ".bam" المصنفة. استخدمنا تغطية الجينات و / أو تغطية CDS (القواعد المغطاة بطول ORF / ORF) لتحديد ما إذا كان الجين موجودًا في فرد واحد. للتأكد من أن عمق التسلسل البالغ 30 ضعفًا كان كافياً لتحليل الجين PAV لفرد واحد ، اخترنا GCH1N00001G الفردي وأخذنا عينات من نتيجة المحاذاة لتشكيل مجموعات فرعية من 3 إلى 27 ضعفًا بحجم خطوة 3. المجموعات الفرعية بتغطية مختلفة لتحديد تحليل PAV الجيني تحت تغطيات CDS المختلفة.

تحديد الجينات الأساسية والموزعة

تشير الجينات الأساسية إلى الجينات الموجودة في جميع الأفراد ، وتشير الجينات الموزعة إلى الجينات الغائبة في فرد واحد على الأقل. استخدمنا عتبة تغطية CDS بنسبة 95٪ لتحديد الجين PAV لكل فرد. ثم قررنا مجموعة الجينات الأساسية ومجموعة الجينات الموزعة.

تنطبق على 90 جينومًا صينيًا من الهان تم تجميعها

يمكن تطبيق خط أنابيب HUPAN على الجينومات البشرية المجمعة الحالية أو أي مشروع WGS آخر أيضًا. تم تجميع وتجميع تسعين فردًا غير مرتبطين من أصول صينية [23]. قمنا بتنزيل جميع السقالات المجمعة وطبقنا خط أنابيب HUPAN لاستخراج التسلسلات غير المرجعية ، وتجاهل الملوثات المحتملة والتكرار ، والتنبؤ بالجينات الجديدة ، وتمييزها وفقًا للخطوات الموضحة في القسم السابق (ملف إضافي 1: الطرق التكميلية).


افتراض الوضع الطبيعي لاختبار T.

ضع في اعتبارك عددًا كبيرًا من السكان يمكنك من خلاله أخذ العديد من العينات المختلفة بحجم معين. (في دراسة معينة ، تقوم عمومًا بجمع عينة واحدة فقط من هذه العينات).

يفترض اختبار t أن وسائل العينات المختلفة يتم توزيعها بشكل طبيعي ولا يفترض أن السكان يتم توزيعهم بشكل طبيعي.

من خلال نظرية الحد المركزي ، تقترب وسائل العينات من المجتمع ذي التباين المحدود من التوزيع الطبيعي بغض النظر عن توزيع السكان. تقول القواعد الأساسية أن متوسط ​​العينة يتم توزيعه بشكل طبيعي بشكل أساسي طالما أن حجم العينة لا يقل عن 20 أو 30. ولكي يكون اختبار t صالحًا على عينة ذات حجم أصغر ، يجب أن يكون توزيع السكان طبيعيًا تقريبًا.

اختبار t غير صالح للعينات الصغيرة من التوزيعات غير العادية ، ولكنه صالح للعينات الكبيرة من التوزيعات غير العادية.

عينات صغيرة من التوزيعات غير العادية

كما يلاحظ مايكل أدناه ، فإن حجم العينة اللازم لتوزيع الوسائل لتقريب الوضع الطبيعي يعتمد على درجة عدم الحالة الطبيعية للسكان. بالنسبة للتوزيعات العادية تقريبًا ، لن تحتاج إلى عينة كبيرة مثل التوزيع غير الطبيعي للغاية.

إليك بعض عمليات المحاكاة التي يمكنك إجراؤها في R للتعرف على ذلك. أولاً ، فيما يلي توزيعتان للسكان.

فيما يلي بعض عمليات محاكاة العينات المأخوذة من توزيعات السكان. في كل سطر من هذه السطور ، يمثل "10" حجم العينة ، و "100" هو عدد العينات وتحدد الوظيفة بعد ذلك توزيع السكان. أنها تنتج مدرج تكراري لوسائل العينة.

لكي يكون اختبار t صالحًا ، يجب أن تكون هذه الرسوم البيانية طبيعية.

فائدة اختبار T.

يجب أن أشير إلى أن كل المعرفة التي نقلتها للتو قد عفا عليها الزمن إلى حد ما الآن بعد أن أصبح لدينا أجهزة كمبيوتر ، يمكننا أن نفعل ما هو أفضل من اختبارات t. كما يلاحظ فرانك ، ربما تريد استخدام اختبارات Wilcoxon في أي مكان تعلمت فيه إجراء اختبار t.

نظرية الحد المركزي أقل فائدة مما قد يعتقده المرء في هذا السياق. أولاً ، كما أشار أحدهم بالفعل ، لا يعرف المرء ما إذا كان حجم العينة الحالي "كبيرًا بما يكفي". ثانيًا ، يتعلق الأمر CLT بتحقيق الخطأ المطلوب من النوع الأول أكثر منه حول الخطأ من النوع الثاني. بمعنى آخر ، يمكن أن يكون اختبار t غير قادر على المنافسة من حيث القوة. لهذا السبب يحظى اختبار Wilcoxon بشعبية كبيرة. إذا استمرت الحالة الطبيعية ، فهي فعالة بنسبة 95 ٪ مثل اختبار T. إذا لم يتم الحفاظ على الحالة الطبيعية ، فيمكن أن تكون أكثر كفاءة بشكل تعسفي من اختبار T.

انظر إجابتي السابقة على سؤال حول متانة اختبار t.

على وجه الخصوص ، أوصي باللعب مع التطبيق الصغير onlinestatsbook.

الصورة أدناه مبنية على السيناريو التالي:

  • الفرضية الصفرية صحيحة
  • انحراف شديد إلى حد ما
  • نفس التوزيع في كلا المجموعتين
  • نفس التباين في كلا المجموعتين
  • حجم العينة لكل مجموعة 5 (أي أقل بكثير من 50 حسب سؤالك)
  • ضغطت على زر 10000 محاكاة حوالي 100 مرة للحصول على أكثر من مليون محاكاة.

تشير المحاكاة التي تم الحصول عليها إلى أنه بدلاً من الحصول على أخطاء من النوع الأول بنسبة 5٪ ، كنت أتلقى 4.5٪ فقط من أخطاء النوع الأول.

سواء كنت تعتبر هذا قويًا يعتمد على وجهة نظرك.

في تجربتي مع اختبار t لعينة واحدة فقط ، وجدت أن انحراف من التوزيعات أهم من التفرطح ، على سبيل المثال. بالنسبة للتوزيعات غير المنحرفة ولكن ذات الذيل الدهني (عند 5 درجات من الحرية ، وتوزيع Tukey h مع $ h = 0.24999 $ ، إلخ) ، فقد وجدت أن 40 عينة كانت دائمًا كافية للحصول على معدل من النوع التجريبي I قريب الاسمي. عندما يكون التوزيع منحرفًا جدًا ، فقد تحتاج إلى العديد من العينات الأخرى.

على سبيل المثال ، افترض أنك كنت تلعب اليانصيب. مع احتمال $ p = 10 ^ <-4> $ ستربح 100 ألف دولار ، ومع احتمال $ 1-p $ ستخسر دولارًا واحدًا. إذا قمت بإجراء اختبار t للصفر ، فإن متوسط ​​الإرجاع هو صفر بناءً على عينة من ألف رسم من هذه العملية ، لا أعتقد أنك ستحقق المعدل الاسمي من النوع الأول.

تعديل: duh ، لكل @ whuber في التعليق ، المثال الذي قدمته لم يكن يعني صفرًا ، لذا فإن اختبار متوسط ​​الصفر لا علاقة له بمعدل النوع الأول.

نظرًا لأن نموذج اليانصيب غالبًا ما يحتوي على عينة الانحراف المعياري للصفر ، فإن اختبار t يختنق. لذا بدلاً من ذلك ، أعطي مثالاً رمزًا باستخدام توزيع Goerg's Lambert W x Gaussian. التوزيع الذي أستخدمه هنا له انحراف يبلغ حوالي 1355.

يعطي هذا الرمز معدل الرفض التجريبي عند مستوى 0.05 الاسمي لأحجام عينات مختلفة. بالنسبة للعينة ذات الحجم 50 ، يكون المعدل التجريبي 0.40 (!) لحجم العينة 250 ، 0.29 لحجم العينة 1000 ، 0.21 لحجم العينة 2000 ، 0.18. من الواضح أن اختبار t للعينة الواحدة يعاني من الانحراف.

تنص نظرية الحد المركزي (في ظل الظروف المطلوبة) على أن بسط إحصاء t طبيعي مقارب. إحصائية t لها مقام أيضًا. للحصول على توزيع t ، ستحتاج إلى أن يكون المقام مستقلاً وجذرًا تربيعيًا لـ a-chi-square-on-its-df.

و نحن أعرف لن يكون مستقلاً (هذا ما يميز العادي!)

ستمنحك نظرية Slutsky جنبًا إلى جنب مع CLT أن إحصاء t طبيعي بشكل مقارب (ولكن ليس بالضرورة بمعدل مفيد جدًا).

ما النظرية التي ستثبت أن إحصاء t يتم توزيعه تقريبًا على t عندما يكون هناك حالة غير طبيعية ، وما مدى سرعة ظهورها؟ (بالطبع ، سيقترب حرف t في النهاية من المعدل الطبيعي أيضًا ، لكننا نفترض أن التقريب لتقريب آخر سيكون أفضل من مجرد استخدام التقريب العادي.)

ومع ذلك ، فإن الأهم من مستوى المتانة المزعوم لـ $ t $ (بأحجام عينات أكبر) هو التأثير على قوة. لاحظ أن الكفاءة النسبية المقاربة لاختبار t بالنسبة إلى Wilcoxon-Mann-Whitney (على سبيل المثال) قد تكون 0 (على سبيل المثال ، عندما تصبح أحجام العينات كبيرة بينما تتقلص أحجام التأثير التي تريد التقاطها ، قد تحتاج إلى عينات أكبر بكثير من أجل أن يكون لها نفس القوة كبديل واضح).

لذلك ، في حين أن اختبار t قد ينتهي به الأمر بتوزيع فارغ طبيعي المظهر في كثير من الحالات إذا كان $ n $ كبيرًا بما يكفي ، فإن أدائه تحت القيمة الخالية ليس حقًا ما يهتم به الناس - إنه الأداء في ظل البديل - - وقد لا يكون الأمر رائعًا ، إذا كنت تهتم برفض القيمة الصفرية في الحالات التي لا يكون فيها التأثير سهلاً.

نعم ، تخبرنا نظرية الحدود المركزية أن هذا صحيح. طالما أنك تتجنب الصفات ذات الذيل الثقيل للغاية ، فلن يمثل عدم الوضع الطبيعي أي مشاكل في العينات المتوسطة إلى الكبيرة.

هذه ورقة مراجعة مفيدة

يمكن أن يكون لاختبار Wilcoxon (الذي ذكره آخرون) قوة رهيبة عندما لا يكون البديل هو تغيير موقع التوزيع الأصلي. علاوة على ذلك ، فإن الطريقة التي تقيس بها الاختلافات بين التوزيعات ليست متعدية.

حول استخدام اختبار Wilcoxon-Mann-Whitney كبديل أوصي بالورقة اختبار Wilcoxon-Man-Whitney قيد التدقيق

كاختبار للوسائل أو المتوسطات ، يمكن أن يكون اختبار Wilcoxon-Mann-Whitney (WMW) غير قوي للغاية للانحرافات عن نموذج التحول الخالص.

هذه هي توصيات مؤلفي الورقة:

يمكن أن يغير تحويل الرتبة الوسائل والانحرافات المعيارية والانحرافات للعينتين بشكل مختلف. الموقف الوحيد الذي يضمن فيه تحويل الترتيب تحقيق تأثير مفيد هو عندما تكون التوزيعات متطابقة وتكون أحجام العينات متساوية. بالنسبة للانحرافات عن هذه الافتراضات الصارمة نوعًا ما ، لا يمكن التنبؤ بتأثيرات تحول الرتبة على لحظات العينة. في دراسة المحاكاة للورقة ، تمت مقارنة اختبار WMW مع اختبار Fligner-Policello (FP) ، واختبار Brunner-Munzel (BM) ، واختبار T المكون من عينتين (T) ، واختبار Welch U (U) ، واختبار ويلش يو على الرتب (RU). تم إجراء الاختبارات الأربعة القائمة على الرتب (WMW و FP و BM و RU) بشكل مشابه ، على الرغم من أن اختبار BM كان في كثير من الأحيان أفضل قليلاً من الاختبارات الأخرى. عندما كانت أحجام العينة متساوية ، كانت الاختبارات البارامترية (T و U) متفوقة على الاختبارات القائمة على الرتبة تحت الفرضية الصفرية للوسائل المتساوية ، ولكن ليس تحت الفرضية الصفرية للمتوسطات المتساوية. عندما كانت أحجام العينات غير متساوية ، كان أداء اختبارات BM و RU و U أفضل. في العديد من الإعدادات ، أدت التغييرات الصغيرة في خصائص السكان إلى تغييرات كبيرة في أداء الاختبارات. باختصار ، يمكن أن يكون اختبار WMW التقريبي للعينة الكبيرة طريقة رديئة لمقارنة متوسطات أو متوسطات مجموعتين من السكان ، ما لم يكن للتوزيعين أشكال متساوية ومقاييس متساوية. يبدو أيضًا أن هذه المشكلة تنطبق بدرجات مختلفة على اختبار WMW الدقيق ، واختبار FP ، واختبار BM ، واختبار Welch U على الرتب. عند استخدام اختبار WMW ، يوصي المؤلفون بفحص خصائص العينات المرتبة بدقة بحثًا عن علامات الانحراف وعدم تجانس التباين. في حالة وجود مثل هذه التأثيرات ، يُفضل اختبار Welch U في العديد من المواقف.


المحاضرة 6: تجميع الجينوم

قم بتنزيل الفيديو من iTunes U أو Internet Archive.

وصف: يتحدث البروفيسور جيفورد عن طريقتين مختلفتين لتجميع جينوم جديد. النهج الأول هو تجميعات توافق التخطيط المتداخل ، كما يتضح من مجمعات الرسم البياني السلسلة. الطريقة الثانية هي المجمعات القائمة على الرسم البياني لـ De Bruijn.

معلم: البروفيسور ديفيد جيفورد

المحاضرة 1: مقدمة عن.

المحاضرة 2: المحاذاة المحلية.

المحاضرة 3: المحاذاة العالمية.

المحاضرة 4: Geno المقارن.

المحاضرة 5: Library Complexi.

المحاضرة 6: تجميع الجينوم

Leture 7: تحليل ChIP-seq.

المحاضرة 8: تسلسل الحمض النووي الريبي آنا.

المحاضرة 9: النمذجة و Dis.

المحاضرة 10: ماركوف وحد.

المحاضرة 11: RNA Secondary S.

Leture 12: مقدمة إلى.

المحاضرة 13: توقع الحماية.

المحاضرة 14: توقع الحماية.

المحاضرة 15: Gene Regulatory.

المحاضرة 16: بروتين إنتراك.

المحاضرة 17: النمذجة المنطقية.

المحاضرة 18: تحليل مركز حقوق الانسان.

المحاضرة 19: اكتشاف Qua.

المحاضرة 20: علم الوراثة البشرية.

المحاضرة 21: البيولو الاصطناعي.

المحاضرة 22: السببية ، ناتو.

يتم توفير المحتوى التالي بموجب ترخيص المشاع الإبداعي. سيساعد دعمك MIT OpenCourseWare على الاستمرار في تقديم موارد تعليمية عالية الجودة مجانًا. لتقديم تبرع أو عرض مواد إضافية من مئات دورات معهد ماساتشوستس للتكنولوجيا ، قم بزيارة MIT OpenCourseWare على ocw.mit.edu.

البروفيسور: حسنًا ، مرحبًا بك مرة أخرى في بيولوجيا الأنظمة الحسابية. عدنا إلى هنا اليوم نتحدث عن تجميع الجينوم. كم عدد الأشخاص الذين قاموا بتجميع الجينوم من قبل؟ في وقت فراغك؟ هل قام أحد بأي تجميع للجينوم هنا؟ شخص واحد؟

أعتقد أن تجميع الجينوم موضوع رائع. وكما تعلم ، فهو أساس كل البيولوجيا الحديثة. نعتمد على مراجع الجينوم في كل شيء تقريبًا من حيث دراسة التطور والنظر في بنية الجينات وتنظيم الجينات والاختلافات بين الأفراد. لذلك فهو حقًا مفهوم أساسي للغاية.

وسوف نتحدث اليوم عن طريقتين مختلفتين لتجميع الجينوم. وأعتقد أن إحدى الرسائل الجاهزة من محاضرة اليوم ستكون أن تجميع الجينوم هو فن ، بمعنى ما ، أكثر من كونه علمًا. ويجب أن يكون المرء دائمًا متشككًا قليلاً في تجميع الجينوم بالنظر إلى ما أنت على وشك تعلمه اليوم.

وبالطبع ، أصبح تجميع الجينوم أكثر تعقيدًا لأنه اعتاد أن يكون تجميع الجينوم البشري مهمة علمية كبيرة أمام المجتمع. ولكن الآن هناك بلايين من الجينومات في انتظار التسلسل - كل الأفراد في العالم ومحاولة تفسيرهم. والآن يمكنك الحصول على تسلسل الجينوم الخاص بك مقابل ما بين 5000 دولار و 10000 دولار. كم عدد الأشخاص الموجودين هنا لإغراء الحصول على تسلسل الجينوم الخاص بهم؟

حسنًا ، أرى ما يقرب من خمسة أيدي - ستة أيدي. رائعة. لذلك دعونا نلقي نظرة على العلم وراء تجميع الجينوم. المفهوم الأساسي هو أننا سنجمع بعض القراءات المتسلسلة من الجينوم. وسنقوم بتجميعها ونعرف ما يسمى بـ contigs للأجزاء المتجاورة. وهذه تمثل أجزاء غير متقطعة من الجينوم مغطاة بالكامل بقراءات نعتقد أنها متجاورة.

سيتم بعد ذلك إقران هذه contigs معًا في سقالات. والسقالات مثل كونتيج إلا أن هناك أجزاء مفقودة بين كونتيجس في سقالة. لا نعرف ما هي تلك الأجزاء. لكننا في الواقع قادرون على لصقها معًا باستخدام أزواج القراءة التي تسمح لنا بالقفز فوق الأجزاء المفقودة لأننا قرأنا طرفي الجزيء. لكننا لا نعرف ما في المنتصف.

وبعد ذلك في كثير من الأحيان كان لدينا تقنيات رسم الخرائط المادية حيث يمكننا في الواقع العودة وتعيين سقالات الموقع إلى المواقع المادية على الكروموسومات باستخدام تسلسلات PCR مثل مواقع العلامات التسلسلية التي تحدد فعليًا هوية تسلسل معينة لموقع مادي على كروموسوم معين. وهذا يوفر لنا خريطة كاملة للجينوم.

لذلك سنتحدث اليوم عن كيفية الانتقال من قراءة تسلسل كامل لمحرك الأقراص الثابتة وصولاً إلى مجموعة من السقالات التي تتضمن contigs مجمعة. وطريقة التفكير في هذا مرة أخرى هي أن نبدأ من الناحية المفاهيمية بنسخة واحدة من الجينوم. نقوم بتضخيم هذا. ومن أجل ترتيبها على الآلات المعاصرة ، علينا تفتيتها.

الآن بالنسبة لأولئك منكم الذين كانوا في تلاوة الجمعة الماضية ، سمعت هنغ لي يتحدث عن فكرة أن القراءات المتسلسلة تطول. في الواقع ، يمكن الآن قراءة التسلسل حتى 10 إلى 15 كيلو قاعدة. ويقرأ التسلسل لفترة أطول من ذلك سيكون ممكنًا ، مما يبسط عملية التجميع إلى حد كبير. لكن في الوقت الحالي نتحدث عن التحدي المتمثل في تجميع قراءات قصيرة - لنقل 100 زوج أساسي يقرأ من أدوات التسلسل المعاصرة.

لذلك نأخذ القراءات المجزأة والفكرة هي أننا نعلم أنها ستصطف مثل اللغز. وكل ما علينا فعله هو ترتيب القراءات لاستعادة تسلسل القراءة في الأسفل - تسلسل الجينوم الأصلي. ويجب أن أضيف أن العديد من الرسوم التوضيحية في محاضرة اليوم مأخوذة من بن لاجمي. لقد كان لطيفًا بما يكفي للسماح لي باستخدامها في حديث اليوم.

لذا فإن الهدف هو الخروج بهذا التسلسل الأحمر في الجزء السفلي من المجموعة الأصلية للقراءات ، ولكن ، بالطبع ، مجموعة القراءة التي نتحدث عنها ربما تكون 200 مليون قراءة أو حتى مليار قراءة كما سنرى. ولذا ، من الصعب جدًا تجميع القطع معًا نظرًا لأننا لا نعرف حقًا من أين أتت. ولا نعرف أين يتماشون لأننا لا نملك الجزء الأحمر لإرشادنا.

الآن سنتحدث اليوم عما يسمى من جديد الجمعية العامة. هذا يعني البدء من الصفر. أنت تسلمني مجموعة قراءاتك لكائنك المفضل. وسنقوم بتجميعها اليوم. هذا يختلف عما يسمى التجميع الموجه بالمرجع لأنه ، على سبيل المثال ، إذا كنت ستعيد التسلسل بيني أو أنت ، فهناك جينوم بشري مرجعي. وسيكون من السهل أخذ القراءات منك أو مني ورسمها مرة أخرى على الجينوم المرجعي كدليل لمحاولة إعادة تجميع جينوماتنا.

ومع ذلك ، كما يمكنك أن تقول ، إذا كان هناك تباين بنيوي كبير بين الجينوم المرجعي وجينومنا ، فقد تفشل هذه العملية. لذلك سوف نتحدث اليوم عن من جديد الجمعية العامة. وفي عملية من جديد في كثير من الأحيان نتحدث عن التغطية ، وهو في المتوسط ​​عدد قواعد التسلسل التي لدينا لكل قاعدة من الجينوم. هنا لدينا تغطية لهذا المثال التوضيحي الصغير بحوالي 7x.

الآن ، في بداية مشروع الجينوم البشري ، تم إجراء بعض الحسابات حول مقدار التغطية المطلوبة لتغطية الجينوم البشري. وتحدثنا في المرة الماضية عن تعقيد المكتبة. هذه فكرة مختلفة قليلاً ، وهي أننا نريد تقدير احتمالية كشف القاعدة. لذلك إذا كان حجم الجينوم هو G وعدد القراءات مثل N و L هو طول القراءة ، فإن N في L هو إجمالي عدد القواعد التي لدينا. وهذا مقسومًا على الجينوم هو متوسط ​​تغطية القاعدة.

وربما يكون احتمال عدم تغطية القاعدة هو احتمال أن نلاحظ أن الصفر يقرأ على تلك القاعدة ، أي e أس ناقص لامدا ، تقريبًا ، إذا استخدمنا تقريب بواسون. وبالتالي ، فإن عدد القواعد غير المغطاة سيكون تقريبًا G في e أس ناقص lambda.

يمكن التفكير في الحسابات التالية بشكل حدسي بالطريقة التالية ، وهي إذا كان لدينا ن يقرأ ، إذا كانت هناك فجوة بعد القراءة ، فلا بد من وجود قاعدة مكشوفة بعد ذلك. وبالتالي ، فإن عدد الفجوات التي سنحصل عليها في التجميع تساوي تقريبًا N في e أس ناقص لامدا.

إذن هذا هو الجزء الخلفي من حساب المغلف. والآن إذا أخذنا بعضًا من بيانات الجينوم البالغ عددها 1000 ، والتي استخدمناها سابقًا وسألنا عن مدى جودة عمل هذا التقريب ، فإننا نرى شيئًا كهذا حيث يمثل المحور السيني العدد الإجمالي للقراءات ويظهر تغطية الجينوم في القواعد على المحور ص. وهذه كلها تجارب تسلسل مختلفة.

لذا يمكنك أن ترى هناك مخططًا أخضر تقريبًا ، والذي يتبع تقريبًا ما رأيناه من قبل في قاعدة Lander-Waterman هذه. هل يمكن لأي شخص أن يخبرني بما يعتقد أنه يحدث مع الخطوط الحمراء التي لا تتطابق في الواقع مع هذا الخط الأخضر؟ هل لدى أي شخص أي أفكار حول سبب حاجتنا إلى المزيد من القراءات من تلك المكتبات للحصول على تغطية أفضل؟ نعم؟

الجمهور: ربما يكون هناك بعض التحيز عند تضخيمها؟

البروفيسور: نعم ، ربما كان هناك انحراف في المكتبات الأصلية التي تحدثنا عنها في المرة السابقة. في الواقع ، تحدثنا عن آخر مرة لماذا لم يكن Poisson تقريبًا جيدًا للبحث في المكتبات. وفي الواقع ، قد نرغب في ملاءمة شيء مثل سالب ذي الحدين في هذه الحالة بالذات.

لذلك لدينا مجموعة القراءة الخاصة بنا. ويمكننا أيضًا التحدث عن التغطية في قاعدة معينة ، والتي تختلف عن التغطية المتوسطة فقط لتوضيح أن هناك نوعين مختلفين من التغطية يمكن للمرء التفكير فيهما. هنا نرى تغطية عند المستوى السادس T. والشيء الآخر الذي يجب أن نكون مدركين له هو أن هناك سببين يمكننا القيام بهما - سببان شائعان لماذا قد نرى في الواقع قراءة تتداخل ولكن لا نتفق في جميع المواقف.

السبب الواضح هو أن هناك خطأ في إحدى القراءات. نحصل على درجات الجودة وما إلى ذلك. ويمكن أن يساعدنا ذلك في تحديد الحقيقة. لكن الاحتمال الآخر هو أنه كما تعلم ، لديك واحد من كل كروموسومات من أم واحدة من والدك. ويمكن أن تكون هناك اختلافات أليلية بين هذه الكروموسومات.

لذلك عندما نقوم بالتجميع ، سنجد في كثير من الأحيان أن هذه الاختلافات الأليلية ستظهر من حيث عدم توافق قراءاتنا. وعلينا أن نقرر في النهاية ما إذا كنا نريد إجراء تقريب ثنائي الصبغيات لجينوم بشري أو نريد محاولة تجميع جينوم ثنائي الصبغة. وإذا كنا سنقوم بعمل جينوم ثنائي الصبغة ، فعلينا أن نكون حذرين تمامًا ونستخدم تقنيات تجميع مختلفة نوعًا ما.

لكن الجينوم المرجعي الشائع أحادي العدد. إنه يفكر فقط في تسلسل كروموسومي واحد. هل هذا واضح للجميع؟ حسنا عظيم. لذلك سوف نتحدث عن طريقتين عامتين للتجمع اليوم. سوف نتحدث عن مجمعات توافق التخطيط المتداخل كما يتضح من مجمع الرسم البياني السلسلة. وسنتحدث أيضًا عن مجمعات الرسم البياني De Bruijn اليوم.

الآن ، كانت مجمعات الإجماع المتداخلة هي الأولى التي تم استخدامها في مشروع الجينوم البشري لأن القراءات كانت أطول في ذلك الوقت. ومع ذلك ، مع زيادة عدد القراءات ، يصبح استخدام هذه المجمعات أكثر صعوبة جزئيًا بسبب الحاجة إلى إيجاد تداخلات بين القراءات ، كما سنرى بعد قليل.

بينما تعتبر مجمعات الرسم البياني لـ De Bruijn أكثر كفاءة إلى حد ما. لكنهم يفقدون أنواعًا معينة من المعلومات. لذلك دعونا نبدأ مع هذه المجمعات الإجماع تخطيط التداخل.وسنتحدث عن ثلاث خطوات لبناء contigs ويمكن التفكير في خطوة السقالات على أنها متشابهة إما بين مجمعات توافق التخطيط المتداخل أو المجمعات القائمة على الرسم البياني De Bruijn.

لذلك سنقوم أولاً ببناء رسم بياني متداخل. ما هو الرسم البياني المتداخل؟ الفكرة الأساسية هي أنه عندما نأخذ مجموعتنا من القراءات ، فإننا نبحث عن تداخلات بين لاحقة قراءة واحدة وبادئة قراءة أخرى. وإذا فكرنا في جميع قراءاتنا ، فنحن نريد إنشاء رسم بياني يصف كل هذه التداخلات.

ولكي أكون واضحًا ، لن أتحدث اليوم عن المكمل العكسي لهذه القراءات. المجمعين الفعليين يجب أن يمثلوا ذلك. لكنها تكرر فقط جميع العقد عند الحواف. لذلك سنحاول الحفاظ على الأشياء مرتبة - لا بأس بذلك. شكرا لك. سنحاول الحفاظ على الأشياء مرتبة من خلال عدم التفكير في ذلك اليوم.

الآن ، أحد التحديات هو كيفية بناء تلك التداخلات. وسنتحدث كثيرًا عن الرسوم البيانية. لذلك اعتقدت أنه من المجدي فقط مراجعة المصطلحات. سنقوم بتمثيل الرسوم البيانية المتداخلة على أنها رسوم بيانية موجهة ، والتي تتكون من مجموعة من الرؤوس ، وهي الكائنات التي تمثلها الدوائر الموجودة في الحواف ، وهي الخطوط والحافة الموجهة تنتقل من رأس إلى آخر.

وهناك أيضًا تمثيل مكافئ في شكل توضيحي على الجزء السفلي من يمين الشريحة بالإضافة إلى تمثيل رسومي. سنستخدم التمثيلات الرسومية لهذه الرسوم البيانية الموجهة اليوم. لذا فإن الرسم البياني المتداخل هو مجرد تمثيل للتداخل بين القراءات.

ونختار حدًا أدنى لطول التداخل في بعض الأحيان. لكن بالنسبة للشرائح القليلة التالية ، سأقوم ببساطة بتمثيل كل عقدة على أنها قراءة فردية. وسيتم تعليق الحواف بمقدار التداخل بين القراءات. لذا إذا أعطيتك مجموعة من القراءات ، فكل ما علينا فعله هو حساب الرسم البياني المتداخل. سنتحدث عن كيفية القيام بذلك بعد قليل.

وسترى بيانيا بعد ذلك ما ينتج عن عملية حساب الرسم البياني المتداخل. الآن ، من الممكن أن تكون الرسوم البيانية المتداخلة دورية بسبب وجود كروموسومات دائرية. وكما سنرى ، من الممكن أيضًا الحصول على رسم بياني دوري من كروموسوم خطي إذا كانت هناك في الواقع بنى متكررة في الكروموسوم تجعل الرسم البياني يدور مرة أخرى على نفسه.

لذا فإن كيفية العثور على التداخلات في الوقت المناسب هي مشكلة رئيسية. وهذا أحد الأسباب التي دفعت الناس إلى الابتعاد عن استخدام هذه الأنواع من المجمعات هو أن تكلفة التداخلات الحاسوبية يُعتقد أنها تربيع N حيث N هو الرقم الذي يقرأ لأنه يتعين عليك مقارنة جميع القراءات ببعضها البعض.

ومع ذلك ، تم ابتكار خوارزمية ذكية حقًا استخدمت التكنولوجيا التي تحدثنا عنها في المرة السابقة. تتذكر فكرة مؤشر FM وتحويلات Burroughs-Wheeler التي سمحت لنا بفهرسة الجينوم ثم البحث عن القراءات في الوقت المناسب بما يتناسب مع طول القراءة.

إذن ها هي الفكرة الأساسية. ما سنفعله هو أننا سنأخذ كل القراءات التي نجمعها. وسنقوم بفهرستها. ويمكننا فعل ذلك تقريبًا في N log N. وبعد فهرسة جميع القراءات ، يمكننا استخدام نفس الفهرس للعثور على التداخلات بكفاءة عالية.

ويمكنك تصور هذا على أنه مجرد النظر إلى القراءة التي لديك في يدك والبحث عنها في الفهرس. وستجد جميع الأماكن التي تقرأ فيها لاحقة أو بادئة تلك الدفعات. ويمكنك تتبعها حتى تجد كل الأماكن التي تتطابق فيها حيث وصلت إلى نهاية القراءة. وهذه كلها تتوافق مع حواف الرسم البياني.

واتضح أن هذا ذكي للغاية لدرجة أنه يزيل الحواف الزائدة عن الحاجة. لذلك ، على سبيل المثال ، إذا قرأت أن تبدو هكذا حيث قرأت واحدة تتداخل مع قراءة اثنين والتي تتداخل مع قراءة ثلاثة. وقراءة واحدة وقراءة ثلاثة تتداخل أيضًا. سيكون للرسم البياني غير المصغر تمثيل كهذا.

لكن اتضح أنه لا يتعين علينا القيام بذلك لأننا نستطيع ببساطة اختصار التمثيل البياني إلى هذا لأننا نعرف أنه نقرأ واحدًا ونقرأ ثلاثة. في الواقع ، هذا هو الرسم البياني الذي سيكون لدينا والذي سيكون غير مختزل. يمكننا تقليل الرسم البياني لإزالة هذه الحافة المتعدية وتمثيلها ببساطة بهذه الطريقة. لذلك عندما نستخدم هذه المؤشرات ، فإننا نتخلص من هذه الحواف المتعدية كما سنرى على الفور.

هذا مثال على الرسم البياني. يظهر التسلسل في الأسفل. أطوال القراءة بطول سبع قواعد. وسننظر في جميع التداخلات بحجم أدنى ثلاثة. وتسمية الحافة هي الطول الفعلي للتداخل بين القراءات. ويمكنك أن ترى في البداية أن هذه الرسوم البيانية المتداخلة ليست بالضرورة بسيطة. إن تتبع مسار الرسم البياني الذي يمثل السلسلة الأصلية ليس واضحًا تمامًا وبشكل كامل.

لذلك نحن بحاجة إلى التوصل إلى طريقة لتوضيح مقاييسنا لكيفية تتبع مسار إلى الرسم البياني لإعادة بناء الجينوم. وهذا يتعلق بمسألة التخطيط ، وهي كيف نصوغ مشكلة تتبع مسار من خلال رسم بياني متداخل؟

لذلك سنبدأ أولاً بفكرة أقصر سلسلة فائقة مشتركة. أقصر سلسلة فرعية شائعة من سلسلة S هي أقصر سلسلة تحتوي على جميع السلاسل في S كسلاسل فرعية لطول معين من السلسلة الفرعية. لذلك ، على سبيل المثال ، إذا لم يكن لدينا قيود الأقصر ، فسيكون مجرد العثور على سلسلة تحتوي على جميع السلاسل الفرعية أمرًا سهلاً. أنت فقط جمعتهم جميعًا معًا. ولكن إذا أردنا الأقصر ، فنحن بحاجة إلى أن نكون أكثر تفكيرًا فيما يتعلق بالطريقة التي نحسب بها هذه السلسلة الفرعية الأقصر المشتركة. وهنا مثال لأقصر سلسلة فرعية مشتركة للأوتار الفرعية التي أظهرتها لك هناك.

لذا فإن إحدى طرق التفكير في مشكلة التجميع هي أننا نحاول حساب أقصر سلسلة فرعية مشتركة لجميع القراءات التي لدينا. وسيكون هذا هو التمثيل الأكثر فعالية لتلك القراءات في تسلسل خطي. الآن ، يمكننا وصف هذه المشكلة من خلال رسم بياني متداخل.

وإذا فكرت في الطريقة التي سنحل بها هذا في الرسم البياني المتداخل ، في أقصر السلاسل ، فنحن نريد أكبر قدر من التداخل. لذلك نريد تتبع مسار من خلال الرسم البياني المتداخل الذي يعطينا أكبر قدر من التداخل ، والذي يعطينا أقصر سلسلة. حق؟ لذلك إذا رفضنا التداخلات ، فإننا نريد تقليل التكلفة الإجمالية للرسم البياني.

الآن ، اتضح أن هذه المشكلة معروفة بأنها مشكلة حسابية صعبة للغاية. إنه في فئة شيء يسمى NP-hard لأنه يُعرف باسم مشكلة البائع المتجول. وعندما تفكر في حقيقة أننا سنحصل على مئات الملايين من القراءات ، فلن يكون هذا حقًا قابلاً للتتبع. إذا تخلصنا من الأوزان ، وأردنا ببساطة إيجاد مسار من خلال التمثيل البياني ، فهذا يسمى مسألة مسار هاميلتوني. هذا أيضًا NP-Complete.

لذا فإن أقصر سلسلة فرعية مشتركة هي طريقة للتفكير في التجميع. لكن لا يمكننا بالضرورة تحسين المقاييس لأنها ستكون مستعصية على الحل. لذا فكر في طرق أكثر جشعًا للقيام بذلك. هذا مثال على كيفية حساب أقصر سلسلة فرعية مشتركة بدءًا من السلسلة الأولى. وكل خطوة على طول الطريق ، عبارة عن سلسلة من السلاسل أو انهيار السلاسل التي تعمل على بناء أقصر سلسلة فرعية مشتركة.

ونحصل على سلسلة الإدخال وسلسلة الإخراج. لذلك يمكننا صياغة مشكلة التجميع لدينا كخوارزمية SCS جشعة لمحاولة تجميع كل القراءات معًا للتوصل إلى سلسلة فائقة. واسمحوا لي فقط أن أصف لكم أن هذا سيعطينا فكرة عن الخطأ الذي يحدث في التجمع في لحظة.

لكننا نعلم أن هناك بعض الحدود لهذا - أنه إذا قمنا بالفعل بعمل الخوارزمية الجشعة ، فإن التجميع الذي حصلنا عليه سيكون أطول مرتين ونصف من أقصر سلسلة فرعية مشتركة حقيقية. هذا لا يريحنا كثيرًا حقًا. لذلك علينا أن نبتكر طرقًا مختلفة وأكثر إرشادية للتعامل مع مشكلة التجميع.

هنا مثال آخر. الآن ، هذا هو الذي أريد أن أريكم من أين نبدأ بسلسلة في الأعلى حيث سنبحث عن تداخلات بحد أدنى من ثلاثة وهذه القراءات بطول ستة. وعندما نقوم بهذه الخوارزمية الجشعة ، نتوصل إلى سلسلة أقصر من سلسلة البداية الأصلية التي بدأنا بها.

هل يستطيع أحد أن يرى ما حدث هنا؟ لماذا نفتقد جزء من السلسلة الأصلية؟ نعم؟

الجمهور: كانت القراءات قصيرة بما يكفي. وقد كرروا ما يكفي لدرجة أننا لم نكتشف أبدًا أنها كانت من الطول الذي كانت عليه بالفعل. ولذا فنحن فقط [غير مسموع] فعلناه [غير مسموع].

البروفيسور: كانت النقطة أن القراءات كانت أقصر من أن تكون قادرة على تحديد عدد التكرارات الطويلة التي كانت لدينا في التسلسل الأصلي بشكل لا لبس فيه. هذا صحيح تمامًا. لذلك نحن غير قادرين على إزالة الغموض عما كان يحدث. وربما إذا عدنا إلى شكلية الرسم البياني ، يمكننا حل هذه المشكلة ، أليس كذلك؟ لأن لدينا هنا الرسم البياني الخاص بنا والتداخلات مكتوبة على حواف القواعد العددية التي تتداخل كل منها. وكل ما علينا فعله هو تتبع هذا التمثيل البياني لإيجاد السلسلة الأصلية.

إذن ، هذا تتبع واحد ، والذي يعطي تداخلًا إجماليًا لـ 39 ، والذي يعيد إنتاج السلسلة الأصلية بأمانة ، أليس كذلك؟ ومع ذلك ، هذا ليس أفضل تتبع. سيكون التتبع الأفضل من خلال هذا الرسم البياني أو المسار عبر الرسم البياني هو هذا ، مما يعطينا مزيدًا من التداخل ويعطينا سلسلة أقصر. ولكن كما نعلم ، على الرغم من أنه أفضل وفقًا لهذا المقياس ، إلا أنه ليس مثاليًا حقًا لأنه يعطينا إجابة خاطئة. إنه أفضل ولكنه خاطئ.

لذلك علينا أن نأخذ في الاعتبار أشياء أخرى عندما نقوم بتجميعنا وتتبعنا لهذا الرسم البياني حتى نتمكن من التوصل إلى أفضل تجميع ممكن. لذلك إذا قمنا بزيادة طول القراءة كما أشير إلى أنه يمتد بشكل مناسب ، فسنكون قادرين على إعادة بناء التسلسل الأصلي. والفكرة من هذا المثال هي أننا بحاجة إلى أخذ هذا في الاعتبار عندما نفكر في استعادة الهياكل المتكررة في الجينوم.

لذا إذا لم يكن لدينا قراءات طويلة بما يكفي ، في هذه الحالة يقرأ بطول 8 ، فلن نذهب لاستعادة بنية التكرار الأصلية. وإذا نظرنا إلى هذا ، فإن التكرارات هي حقًا لعنة المجمعين إلى حد ما. وكما تعلم ، ما يقرب من 50٪ من الجينوم البشري عبارة عن محتوى متكرر. لذلك نحن بحاجة إلى أن نكون حذرين للغاية فيما يتعلق بالطريقة التي نستخدم بها القراءات حتى نتمكن من استعادة أفضل تقريب لتسلسل الجينوم الخاص بنا.

هذا مثال آخر حيث ننظر إلى l هو الحد الأدنى على الطول و k هو طول القراءات. ويمكنك أن ترى التسلسل الذي نحاول استعادته-- It_was_the_best_of_times_it_was_the_worst_of_times-- والإخراج من مجمع SCS الجشع. وكما ترى ، نحتاج إلى الحصول على طول قراءة يصل إلى 13 حرفًا حتى نتمكن من تجميع الجملة الأصلية بشكل صحيح.

لذا فإن الرسالة الأساسية هنا هي أنه ما لم تكن قد قرأت طويلة بما يكفي لتكرار التكرار ، فلن تذهب لاستعادة التسلسل الأصلي تمامًا. ويمكن أيضًا التفكير في هذا في المثال التالي. تخيل أن لديك تكرارات تتكرر جنبًا إلى جنب في نهاية التسلسل. ونحن نستخدم اللغة الإنجليزية هنا لأنه من الأسهل رؤيتها إذا وضعت مجموعة من التسلسلات الجينومية. لكن ، بالطبع ، المبادئ هي نفسها.

يمكنك أن ترى أنه ما لم نكن قد قرأنا في الواقع تسلسلًا ثابتًا وفريدًا ويمتد نحو تسلسل متكرر ، فلا يمكننا حقًا تحديد عدد مرات تكرار الكلمات. الاحتمال الآخر هو أننا يمكن أن نأتي بالفعل من كلا الجانبين. وإذا تمكنا من تثبيت قراءاتنا وتسلسلنا الفريد على كلا الجانبين الأيسر والأيمن لعنصر متكرر ، فيمكننا حينئذٍ معرفة عدد النسخ الموجودة لشيء مثل الأجراس.

لكن في غياب ذلك ، لا يمكننا فعل ذلك حقًا. في الواقع ، ننتهي بهيكل يشبه هذا. ننتهي - ها هو - بنية حيث لدينا - دعنا نقول فقط أن هناك أربعة امتدادات مختلفة من الجينوم في أجزاء متباينة من الكروموسومات ونكرر التسلسل في المنتصف. الأجزاء الزرقاء من الكروموسومات هي تسلسل فريد. والأجزاء الحمراء عبارة عن تسلسلات متكررة.

ما سيحدث هو أنه إذا لم تكن القراءات طويلة بما يكفي ، فسنكون قادرين على اكتشاف في كل موقع من المواقع الأربعة التي انتقلنا من تسلسل فريد إلى تكرار التسلسل. ثم نضيع في منتصف هذا التسلسل المكرر المتطابق. ثم في الجانب الأيمن ، سننتقل مرة أخرى من التسلسل المتكرر إلى التسلسل الفريد. لكننا لن نعرف كيف نضع الأشياء معًا في المنتصف. حق؟ لن نتمكن من معرفة المسار من خلال هذه العناصر المتكررة.

هذه هي النقطة الأساسية التي أود أن أذكرها بشأن التكرارات. ويمكننا الآن أن ننتقل إلى مسألة التخطيط وكيفية معالجة الرسم البياني المتداخل من أجل عمل contigs. هذا هو الرسم البياني الفعلي للتخطيط. عندما نفكر في تلك الجملة هناك. ونقول أن الحد الأدنى على هذا الطول هو أربعة أحرف. ولدينا قراءات من سبعة أحرف خارج التسلسل. يمكنك أن ترى أنه رسم بياني فوضوي جدًا.

إذا قمنا بتنظيف الرسم البياني عن طريق إزالة الحواف الزائدة عن الحاجة ، والحواف مثل هذه التي تمتد فوق القراءة والمضمنة في قراءات أخرى ، فيمكننا إزالة الحواف المتعدية لقراءة واحدة أو قراءتين. الآن ، سيتحدث عرضي التقديمي عن كيفية إزالة هذه الحواف. ومع ذلك ، كما قلت في البداية ، إذا كنت تستخدم الخوارزمية بواسطة Simpson وآخرون آل. ، أنت في الواقع لا تنشئ هذه الحواف المتعدية في المقام الأول.

لكن بافتراض أنك لم تستخدم خوارزمية وأنك قمت بإنشائها بالفعل ، فأنت تريد التخلص من هذه الحواف المتعدية مثل ذلك. ويبدأ في أن يصبح أبسط إلى حد ما عندما تبدأ في تبسيط الرسم البياني ، وإزالة هذه الحواف المتعدية. وبعد ذلك يمكننا إزالة الحواف التي تتخطى عقدتين. إذن ، هذا ما يحدث بعد إزالة الحواف المتعدية المفردة في هذا الرسم البياني. نعم؟

الجمهور: لذلك يبدو أن الحواف المتعدية واللفظية أعطتنا القليل من المعلومات حول الجينوم. هل نفقد بعض مبادئ الترتيب المفيدة من خلال -

الأستاذ: يقدمون معلومات زائدة عن الحاجة. لا يقدمون حقًا أي معلومات إضافية. إنه نفس التسلسل الخطي الذي تشير إليه تلك الحواف. أي أسئلة أخرى؟

يمكننا بعد ذلك إزالة الحواف التي تمتد على عقدتين. ونحصل على رسم بياني أبسط كهذا. بدأ هذا الآن يبدو أكثر قابلية للتتبع لأنه يمكننا النظر إلى هذا ويمكننا إخراج contigs التي تتوافق مع الأجزاء الخطية من الرسم البياني ، والتي يجب أن تكون تسلسلًا خطيًا. وعندما نفعل ذلك ، فإن ما ننتهي به هو نوعان من contigs. وهناك مشكلة صغيرة في المنتصف ، وهي أننا غير قادرين على حل الجزء الموجود في المنتصف ونتيجة لذلك ، نعلم أن هذا هو عدد المصطلحات الموجودة في الجملة الأصلية لأننا لم نفعل قراءة طويلة بما يكفي لتكون قادرًا على حل ذلك.

المشكلة الأخرى التي يمكن أن نواجهها عند القيام بهذا النوع من التخطيط هي أنه عندما تكون هناك أجزاء من الجينوم تحدث أو تظهر تسلسلات في الجينوم عدة مرات ، عندما نقوم بالفعل بهذا التخطيط ، فقد نجد أن أجزاء الجينوم التي تحدث في موقعين متباينين ​​تصطف مع بعضها البعض. وقد يكون أنه عند الخروج من الجزء الذي تمت مشاركته ، تحصل على قاعدة غير متطابقة.

لذلك قد يكون سبب عدم التطابق هذا هو وجود أجزاء متباينة من الجينوم والتي لها في الواقع تسلسل متشابه للغاية. أو قد يكون لديك خطأ في القراءة في نهاية قراءتك. ومن الصعب التمييز بين الاثنين إلا بمقدار التغطية التي لديك. سنتحدث عن كيفية تقليم مثل هذه الرسوم البيانية في لحظات قليلة.

ولكن على أي حال ، بافتراض أننا قمنا بتشذيب الرسم البياني ، فقد قمنا بعمل التداخل. لقد انتهينا من تخطيطنا. لقد وجدنا مساراتنا إلى الرسم البياني الخاص بنا. ثم ما وجدناه هو أنه لكل كونتي قراءات كثيرة. وسنأخذ هذه القراءات. وسوف ننظر إليهم. وكما تتذكر ، يمكن أن يكون لدينا أخطاء تسبب الخلاف بين القراءات.

يمكن أن يكون لدينا اختلافات أليلية بين الأم والأبي تسبب تلك الأخطاء ، حسنًا ، ليس في الحقيقة أخطاء - اختلافات. وبعد ذلك يمكننا الحصول على إجماع للتوصل إلى ماهية الجينوم أحادي العدد. هذه هي الفكرة الأساسية لمجمع إجماع التخطيط المتداخل. نحسب الرسم البياني المتداخل. أثناء مرحلة التخطيط ، نقوم بالفعل بتبسيط الرسم البياني. ونجد المرور من خلاله. وأثناء مرحلة الإجماع ، نأخذ قراءاتنا ، ونبني تسلسلًا إجماعيًا للجينوم.

وكما قلت ، يمكن أن يكون بناء الرسم البياني بطيئًا. على الرغم من أننا سنتحدث عن مدى بطئها هنا في غضون لحظة. ويتمثل التحدي في أن مجموعات بيانات التسلسل الحديثة هي مئات الملايين من القراءات. لذلك دعونا نتحدث عن مُجمِّع معاصر قائم على التداخل - شيء يسمى مُجمِّع الرسم البياني للتيار ، والذي يتم إجراؤه في سانجر في المملكة المتحدة. وهناك ثلاث خطوات منفصلة يمر بها.

الخطوة الأولى هي محاولة تصحيح القراءات. والطريقة التي يفعل بها ذلك هي أنه ينظر في الواقع إلى كل k-mers التي تحدث في القراءات - يحاول العثور على متواليات نادرة جدًا جدًا والعثور على متواليات قريبة في قاعدة التسلسل ليست نادرة. ويمكنه تصحيح القواعد التي يعتقد أنها أخطاء تسلسلية.

الخطوة التالية هي التجميع بمجرد أخذ كل هذه القراءات وتصحيحها. يقوم بفهرسة جميع القراءات كما اقترحت سابقًا باستخدام فهرس FM. وبعد ذلك يمكن العثور على التداخل من مؤشر FM هذا مباشرة. وجزء من عملية التجميع هو التخلص من القراءات المكررة والتخلص من القراءات ذات درجات الجودة المنخفضة.

هذه هي خطوة التصفية. ثم لديها مجموعة contigs التي تم إنشاؤها. ومن الأمور المثيرة للاهتمام العثور على السقالات هو أنها تأخذ الخطوط التي تم تجميعها من حيث التسلسل الخطي. ويقوم بإعادة فهرستها بالكامل مرة أخرى باستخدام فهرس FM.

وبعد ذلك يأخذ كل القراءات التي بدأت بها. وتقوم بتعيينهم مرة أخرى على contigs. ومن خلال تعيين القراءات المزدوجة مرة أخرى على contigs ، يمكن في الواقع تحديد contigs الذي يجب تشكيله في سقالات حيث توجد ثقوب يتم اختراقها بواسطة هذه القراءات الأطول. لذا فهي تستخدم فهرسة FM للتصحيح لاكتشاف k-mers القريبة للتجميع للعثور على التداخلات والسقالات لتجميع الأشياء معًا. ويقوم بفهرسته ثلاث مرات مختلفة.

ولمجرد إعطائك فكرة عن المدة التي يستغرقها جينوم بحجم الإنسان ، فهو في الواقع مكلف للغاية من حيث وقت وحدة المعالجة المركزية. لقد استغرق الأمر عدة أيام لتجميع جينوم بشري كامل في الوقت الحالي. وقد استغرق الأمر آلاف ساعات وحدة المعالجة المركزية (CPU) لتجميع الجينوم معًا بدءًا من نقطة الصفر. حسنًا ، هذه هي الفكرة الأساسية للمجمع القائم على التداخل. هل هناك أي أسئلة على الإطلاق حول المجمعات القائمة على التداخل؟ نعم؟

الجمهور: في حالة حدوث خطأ ، من الواضح كيف تسمي ذلك. لكن في اختلاف أليلي ، من الناحية الافتراضية ، سيكون هناك 50٪ من القراءات سيكون لها واحدة و 50٪ من القراءات سيكون لها أخرى.

الجمهور: في هذه الحالة ، هل يتجمع - هل تحيز فقط أيهما لم يتم تضخيمه بسهولة؟ أو هل تقوم بتجميع تسلسلين؟

الأستاذ: تنتج معظم المجمعات تسلسلًا واحدًا. وأنا لا أعرف كيف يقرر SGA بين الأليلات المختلفة لأنني لا أتذكر ما قالته الصحيفة عنهم.لكن عليهم أن يقلبوا عملة معدنية للتوصل إلى تسلسل أحادي العدد. نعم؟

الجمهور: قلت إن هناك ثلاث مرات مختلفة تقوم فيها بالفهرسة. ما الثلاثة؟

البروفيسور: نعم ، كان السؤال هو أنني قلت أن هناك ثلاثة أنواع مختلفة تم فهرستها. قاموا بالفهرسة في البداية للعثور على الأخطاء. قاموا بفهرسة المرة الثانية لإجراء حساب التداخل. وقاموا بفهرسة المرة الثالثة لإعادة محاذاة جميع القراءات الأصلية مع contigs التي يتعين عليهم تحديد contigs لتجميعها في سقالات. حق؟

لكن لديهم هذه المنصة التأسيسية الأساسية ، وهي مؤشر FM. ولذا يستخدمون ذلك مرارًا وتكرارًا ليكونوا قادرين على القيام بالتجميع. هذه جميعها أسئلة جيدة. حسنًا ، أي أسئلة أخرى حول المجمعات القائمة على التداخل. ويمكنك أن ترى أنه إذا فكرت في مقدار التغطية التي يحصلون عليها من مجمع مثل هذا ، فإنه في الواقع ، سنقارن جميع المجمعات في النهاية.

ولكن إذا نظرت إلى عدد قواعد الجسيمات الذاتية والكروموسوم X المغطى بالتجميع ، يمكنك اعتبار ذلك كدالة للحد الأدنى لطول المحاذاة للجينوم المشار إليه. ومع ارتفاع الحد الأدنى لطول المحاذاة ، فهذا يعني أنه يجب عليك مطابقة أجزاء أطول وأطول من الجينوم المرجعي حتى يتم حساب كونتيج التجميع الخاص بك. يمكنك أن ترى أن عدد القواعد انخفض إلى حد ما. هنا يظهرون أنهم يقومون بعمل أفضل من مجمع آخر يسمى SOAPdenovo.

لكنهم يحصلون على تغطية جيدة إلى حد ما. من ناحية أخرى ، لا يحصلون على تغطية في أي مكان قريب من مستوى جيد كما قد يقترح Lander-Waterman لأن التغطية يجب أن تشير إلى أن احتمال وجود قاعدة مكشوفة باستخدام Lander-Waterman سيكون تقريبًا e إلى 40 ناقص - شيء من هذا القبيل. و e مرفوعًا إلى 40 هو مثل 4 ضرب 10 مرفوعًا إلى 18 ناقصًا. لذا فهم ليسوا قريبين مما نعتقد أن محدد Lander-Waterman سيكون للتجميع.

لذلك تحدثنا عن هذه المجمعات القائمة على التداخل. الآن سأنتقل إلى مجمعات الرسم البياني De Bruijn. كم عدد الأشخاص الذين سمعوا عن الرسوم البيانية لـ De Bruijn من قبل؟ اي شخص؟ شخص واحد؟ لذا قبل أن نتحدث عن الرسوم البيانية De Bruijn نفسها ، دعنا نتحدث فقط عن المصطلحات. لذلك عندما أستخدم المصطلحات ، فنحن جميعًا على نفس الصفحة حيث كنا نتحدث عن k-mers حيث كلمة mer مأخوذة من "الجزء" اليوناني.

ونتحدث عن 4-m من المتتالية الأصلية على أنها تسلسل طوله أربع قواعد. ويمكننا التفكير في كل المرات الثلاثة من المتتالية الأصلية. لذلك نتحدث كثيرًا عن k-mers. و k ناقص 1-mer عبارة عن سلسلة فرعية بطول k ناقص 1 بوضوح من k-mer. لذا إذا فكرنا في مجموعة القراءات - فهذه هي أدوات التسلسل الاقتصادية فائقة البساطة التي تنتج قراءات بطول ثلاثة فقط ، وهو أمر يائس للغاية. لكن على أي حال سوف نتبع ذلك في الوقت الحالي.

ونفكر في أن كل واحدة من هذه القراءات تحتوي على أ يسار k ناقص 1-Mer و a يمين k ناقص 1-Mer. نقسمهم إلى نصفين بهذه الطريقة. وسنقوم ببناء رسم بياني على النحو التالي. سنأخذ كل k ناقص 1-mers - في هذه الحالة 2-m. ولكل قراءة ، سنرسم حافة بين 2 مير الأيسر و 2 مير الأيمن.

حسنًا ، مرة أخرى ، لكل قراءة ، هذا النوع من قراءة فقر الدم ، ثلاثة أزواج أساسية ، سنرسم حافة بين 2-Mer الأيسر و 2-Mer الأيمن. ويتداخلان في قاعدة واحدة. إذن جميع الرسوم البيانية التي تمثل رسوم De Bruijn تمثل الحواف تداخلًا لقاعدة واحدة. نعم؟ لذا ، إذا نظرت إلى الرسم البياني في الأسفل ، فإن هذا يمثل التداخلات الموجودة في التسلسل الأصلي. أنت تلاحظ أن لدينا AA كواحد من عامين. ومن الواضح أن نصفه الأيسر ونصفه الأيمن يتداخلان مع قاعدة واحدة.

تحتوي القراءة الثلاثية A على AA كقراءة يسرى و AA كقراءة صحيحة - تتداخل في قاعدة واحدة. ولهذا السبب لدينا تلك الحافة الدائرية من A إلى نفسها. والحافة التالية من AA إلى AB تأتي من القراءة التالية - قراءة AAB. إذن ، تمثل كل حافة تداخلًا لقاعدة واحدة. وبالتالي ، فإن كل حافة تمثل تسلسل k-mer فريدًا.

لذا فإن طريقة التفكير في هذا الرسم البياني هي أن جميع الحواف تمثل القراءات الأصلية. وقد قمنا بتمثيل k ناقص 1 كلمة على أنها عقد. نعم؟ إذن يمكننا أخذ هذا الرسم البياني وتعميم هذه الفكرة. وإذا نظرنا إلى كيفية تغير الرسم البياني كلما أضفنا المزيد من البنية ، ستجد هنا أننا أضفنا b إضافية. ونحصل على حافة أخرى في الرسم البياني تعود إلى نفس العقدة.

لذلك عندما نبني هذه الرسوم البيانية ، إذا أمكن ، نعيد استخدام عقدة موجودة بالفعل. الآن طريقة التفكير في العودة إلى التسلسل الأصلي هي إيجاد مسار من خلال هذا الرسم البياني وتسلسل الانبعاث بينما نتتبع المسار. ونود أن يكون لدينا مسار يمر عبر جميع العقد.

ولذا لدينا بعض التعريفات هنا ، وهي أن العقدة متوازنة إذا كانت غير متجانسة تساوي أنها خارج الدرجة. ويمكنك أن ترى أنه ليست كل العقد متوازنة أسفل الرسم البياني للركن الأيمن السفلي. ويكون متصلًا إذا أمكن الوصول إلى جميع المكونات أو العقد. وزيارة Eulerian لكل حافة مرة واحدة بالضبط ، وهو ما نود بالفعل أن نأخذ رسمًا بيانيًا لـ De Bruijn ونبعث تسلسل الجينوم.

الآن ، ليست كل الرسوم البيانية لها هذه المسارات. والرسوم البيانية تفعل أويلر. ولن نفرق بين الأنواع المختلفة من هذه الرسوم البيانية. وإذا كان الرسم البياني يحتوي على عقدتين شبه متوازنتين وجميع العقد المتبقية متوازنة ، فسيتم السير عبرها. لذلك إذا فكرنا في الرسم البياني الأصلي لدينا ، فهناك حجتان لمثل هذه المسيرة. الحجة الأولى هي أننا نعرض السير. والثاني هو أن لدينا عقدتين شبه متوازنتين وبقية العقد متوازنة.

لذا فإن سبب اهتمامنا بهذا هو أننا نريد دراسة الحالات التي يحدث فيها خطأ. لذلك لبناء رسم بياني De Bruijn للجينوم ، سنأخذ قراءات التسلسل الأصلية. وسنأخذ كل القيم k التي تحدث في تلك القراءات. وسنضيف حوافًا إلى مخطط De Bruijn بناءً على قيم k-m.

لذا ، إذا كان لدينا قراءة كهذه ، واعتبرنا k-mer في القراءة ، فسنضيف حافة في الرسم البياني بين اليسار k ناقص 1-mer واليمين k ناقص 1-mer. وسنفعل ذلك لكل k-mer في القراءة. لاحظ الآن أن ما يفعله هذا هو أنه يدمر بعض المعلومات. إنه يدمر المعلومات حول ترتيب بعض k-mers في هذه القراءة ، مما يؤدي فقط إلى تدمير تواصُل القراءة من أجل وضع بعض الافتراضات المبسطة لتمثيل ترتيب التسلسل لهذه k ناقص 1-mers في الرسم البياني. لذلك قمنا ببناء الرسم البياني بهذه الطريقة ، وإذا كنت سأبني الرسم البياني مثل هذا ، فما هو الحد الأدنى من تداخل التسلسل لقراءتين لمشاركة حافة في الرسم البياني الناتج؟ هل يمكن لأي شخص أن يرى كم من الوقت يجب أن يكون التسلسل في القراءة الثانية حتى يتداخل فعليًا عند الحافة مع القراءة الأولى؟

حسنًا ، إذا كانت هذه القراءة الثانية تحتوي أيضًا على k-mer ، أليس كذلك؟ سينتج هيكل آخر مثل هذا تمامًا إذا تداخل هذان الشكلان. وبالتالي فإن الحافة الناتجة عن هذه القراءة والحافة الناتجة عن هذه القراءة ستتداخل هكذا. وبالتالي فإن جميع العقد التي جاءت من هذا الجزء من قراءة واحدة ستغذي هذا الرسم البياني. وبعد ذلك ستخرج جميع العقد التي ستخرج من k-mer من القراءة الأرجواني مثل ذلك ، أليس كذلك؟

وبالتالي ، عندما نتتبع الرسم البياني ، تكمن الفكرة في أن الرسم البياني سيكون متصلاً. وسنكون قادرين على الخروج بين هذه القراءات وإعادة بناء التسلسل الذي اقترحه التداخل. لكن الشيء الذي يجب أن تلاحظه في هذا - نعم ، سؤال؟

الجمهور: إذن أنت تختار قراءتين k ناقص 1 هناك - هل هؤلاء من قراءات مختلفة؟ أو من قراءة الأبيض؟

البروفيسور: لا ، إنها من قراءة الأبيض. هذه هي 2k ناقص 1-mers التي خرجت من هذه القراءة. لذا فهي في الواقع متداخلة.

الجمهور: نعم ، لكنك تحدثت بعد ذلك عن كيف كان اللون أرجوانيًا في هذه الحالة.

البروفيسور: حسنًا ، هذا هو نفس التسلسل ، دعنا نقول. هذا هو نفس التسلسل الدقيق هنا. لذا ، إذا كانت هي نفسها ، المتتالية الدقيقة ، فسيكون لها نفس k ناقص 1-mers. وعندما نبني الرسم البياني إذا كانت العقدة موجودة بالفعل ، فإننا نعيد استخدامها. وبالتالي إذا أعدنا استخدام العقد التي تم إنشاؤها عندما قمنا ببناء عقد وحواف الرسم البياني للقراءة البيضاء ، فعندما تأتي القراءة الأرجواني ، سنضع حافة أخرى هنا بين هذين k ناقص 1-mers لأنهم واردة هنا أيضًا. لذا فهذه متواليات متطابقة لهذا لأن هاتين القراءات متداخلة. وهذا الجزء هو نفس تسلسل هذا الجزء.

الجمهور: نعم ، فلماذا تحتاج إلى k ناقص 1-mers إذا تداخلت مع k؟

المحاضر: لأن الطريقة التي نجد بها هذه التداخلات هي من خلال الرسم البياني. ونحن لا نفهرس الأشياء ذات الحجم k ، أليس كذلك؟ نقوم بفهرسة الأشياء ذات الحجم k ناقص 1. في كل حافة يمثل سلسلة من الطول k لأننا نعلم أن هذا التسلسل يتداخل مع قاعدة واحدة.

لذلك عندما نجد حافة هي نفسها بين الأبيض والأرجواني للقراءة ، نعلم أنهما متداخلان بواسطة قاعدتي k. هل هذا منطقي بالنسبة لك؟

البروفيسور: لا ، حسنًا ، لنحاول مرة أخرى.

الجمهور: يمكنك الاستمرار.

الأستاذ: لا ، لا بأس. لنبدأ بالقراءة الأرجواني لنبدأ للحظة لأنني أعتقد أنه إذا كان لديك سؤال ، فقد يكون لدى الآخرين سؤال. إذن لدينا هذا التسلسل ، وهو هذا التسلسل هنا ، أليس كذلك؟ ثم لدينا هذا التسلسل ، وهو التسلسل هنا. تتداخل مع قاعدة واحدة. وهكذا نضع حدًا بينهما على هذا النحو في الرسم البياني. نعم؟

الجمهور: ألا يتداخلون مع أكثر من قاعدة واحدة؟ يمكن أن تحتوي على قاعدة واحدة فقط من كل k-mer.

الأستاذ: أنا آسف. هذا ما قصدته. نعم. ثم نفس الشيء صحيح هنا. إذن سنجد هذا k ناقص 1-Mer وهذا k ناقص 1-Mer. ثم يتداخلان. بالنسبة لتجميع الجينوم ، نسجل القراءات التكميلية الأمامية والعكسية في عقدتين. ولن نعرض ذلك لأنه يعقد الرسوم البيانية دون إضافة أي قوة توضيحية.

ونختار دائمًا أن يكون k غريبًا بحيث لا يمكن أن تكون العقدة مكملها المعكوس الخاص بها. وهنا الرسم البياني يتزايد إذا فكرنا في k يساوي 5. إذن فقد قرأنا طول خمسة. ونضيف متواليات إلى التمثيل البياني. وتلاحظ أن التمثيل البياني غير دوري حتى نصل إلى التسلسل المكرر.

ونصل إلى الطول الثاني الذي يعود فيه المتسلسل ويبدأ في التكرار مرة أخرى على نفسه. وإذا أخذنا في الاعتبار الجزء الأخير من بناء الرسم البياني لـ De Bruijn ، فسننتهي بالرسم البياني النهائي على الجانب الأيمن. ويمكنك أن ترى أن تعدد الأضلاع يتوافق مع عدد المرات التي يتكرر فيها الطول في هذا الرسم البياني.

مرة أخرى ، تتسبب التكرارات في البنية الدائرية ، والتي لا يمكن حلها إلا إذا كانت لدينا قراءات طويلة بما فيه الكفاية ، وهو ما ليس لدينا في هذه الحالة بالذات. ومع ذلك ، إذا أخذنا في الاعتبار التسلسل المثالي ، فلدينا دائمًا مسار إلى الرسم البياني. والسبب هو أن الجزء الأيسر من الجينوم ، إذا جاز التعبير ، سيكون شبه متوازن. وسيكون الجزء الموجود في أقصى اليمين شبه متوازن. وستكون جميع الأجزاء بينهما متوازنة.

لذا فإن k ناقص 1-Mer في الطرف الأيسر شبه متوازن و k ناقص 1-Mer على اليمين شبه متوازن. وجميع العقد بينهما متوازنة. الآن ، هذا لا يسمح لأخطاء بالطبع. ونتحدث عن اتباع مسار أويلر هذا للعثور على التسلسل الأصلي. لكن السؤال الذي يمكننا طرحه على أنفسنا هو ما إذا كانت هذه المسيرة تتوافق دائمًا مع تسلسل الجينوم الأصلي أم لا.

اتضح أنه يمكنني أن أريكم هذا المثال ، والذي لدينا هذا الرسم البياني لهذا التسلسل. وهناك مساران مختلفان في هذا الرسم البياني. وأنتج المساران المختلفان تسلسلين مختلفين. ويعتمدون على الطريقة التي تبدأ بها المشي من العقدة AB.

مرة أخرى ، رأينا هنا أنه حتى عندما يكون لدينا مسار إلى الرسم البياني ، فقد لا يكون المسار فريدًا. قد لا يكون قادرًا على إنشاء التسلسل الأصلي الذي بدأنا به. لذا فإن المشكلة الأخرى التي يمكن أن نواجهها عندما نبني رسمًا بيانيًا كهذا هي أن الفجوات في التغطية يمكن أن تخلق ثقوبًا في الرسم البياني.

لذا إذا حذفنا بعض قراءاتنا ، فسنخرج برسم بياني مقسم إلى جزأين. وهذا يتوافق مع فكرة أننا سننشئ توابعين مختلفتين متجاورتين متجاورتين لكنهما لن يكونا قادرين على ملء الجزء الأوسط. نعم؟

لذلك يمكن أن يكون لدينا أيضًا اختلافات في تغطية الرسم البياني عندما يكون لدينا قراءات إضافية في مواقع معينة في الجينوم. وهذا يتسبب في اختلاف الدرجات على العقد الفردية ويؤدي إلى عدم قدرتنا على الاعتماد على الدرجة المستقلة والمتفوقة كمقياس مطلق لكيفية تتبع مسار من خلال الرسم البياني.

والأمر الآخر هو أنه إذا كان لديك اختلافات بين الكروموسومات ، والتي تحدثنا عنها في المرة الأخيرة في مُجمّع توافق التخطيط المتداخل ، فيمكن أن يتسبب أيضًا في تقسيم الرسوم البيانية والحصول على رسوم بيانية فرعية تتوافق مع أليل واحد مقابل الأليل الآخر ، والذي ربما في الرسم البياني الرئيسي.

حسنًا ، هذا هو الحال في الواقع أن هذه الرسوم البيانية جذابة لسبب مهم جدًا ، وهو أن بنائها فعال للغاية. هذا من أجل إنشاء رسم بياني مثل هذا ، عليك أن تأخذ كل واحد من هذه k ناقص 1-mers وتجد العقدة بالفعل ، وهو ما يمكنك القيام به عن طريق التجزئة ثم وضع الحواف في الرسم البياني. وهكذا تجد أنك بحاجة إلى وضع حد ونقطتين لكل k-mer. وإذا كان لديك خريطة تجزئة تقوم بتشفير هذه العقد والحواف ، فهذا وقت العمل المستمر. لذلك ينتهي بك الأمر برسم بياني يكلف ترتيب عدد القراءات المراد إنشاؤها.

إذن فهي مشكلة إنشاء رسم بياني زمني خطي. تذكر أن بناء التداخل الأخير لدينا ، اعتقدنا أنه يمكننا الوصول إلى N log N. وهنا مثال على جزء الإعداد الفرعي لجينوم lambda phage باستخدام مجمع الرسم البياني De Bruijn. ويمكنك أن ترى أن الوقت المطلوب تقريبًا لتجميع أجزاء من الجينوم يكون خطيًا في مقدار تسلسل الجينوم الذي تمنحه إياه.

لذلك تم تفضيل هذه المجمعات في وقت مبكر في أيام التجميع القصير القراءة جزئيًا لأنها كانت فعالة للغاية. وعادة في بعض المشاريع ، لديك تغطية عالية جدًا. وهكذا ينتهي بك الأمر مع الرسوم البيانية التي تحتوي في الواقع على عدد ضخم من الحواف بين العقد. ويمكن تلخيص ذلك في شكل رسم بياني يوضح الحواف بعدد الحالات.

وهكذا يكون لديك رسم بياني مرجح على الجانب الأيمن ، والذي يسهل تتبعه إلى حد ما لأنه يمكننا الآن البدء في التخلص من الحواف منخفضة التغطية باعتبارها حالات شاذة محتملة. لكن الفكرة الأساسية هي تتبع هذه الرسوم البيانية لإنتاج تسلسل الجينوم النهائي. وللقيام بذلك ، قد نحتاج إلى تصحيح بعض الأخطاء.

لذلك تحدثنا في وقت سابق عن فكرة أنه إذا كان لدينا خطأ ، فسنقوم بالفعل بإنتاج جزء من الرسم البياني يتدلى في الفضاء الخارجي. ويمكننا قطع هذه النصائح المسدودة للرسم البياني إذا كانت ذات تغطية منخفضة لأنها من المفترض أنها تتوافق مع الأخطاء.

إذا حصلنا على خطأ في منتصف القراءة ، فيمكننا أن ننتهي بما يسمى بالفقاعة في الرسم البياني ، والتي تعد مرة أخرى تغطية منخفضة. ويمكننا التخلص من هذه الفقاعات بطريقة مماثلة. ومن الممكن أيضًا الحصول على حواف خيمرية للرسم البياني. ويمكن أن تحدث هذه الأخطاء أيضًا. ويمكننا قص تلك الحواف.

إذن ، هناك أنواع مختلفة من تصحيح الخطأ يمكننا إجراؤها في الرسم البياني. كل هذه هي مجريات الأمور تماما. كل مُجمّع لديه مجموعته الخاصة من الاستدلال حول كيفية التعامل مع الانحرافات في الرسم البياني وكيفية إزالة الحواف في الرسم البياني للسماح بالتجميع. لكن هذه هي التخلص من النصائح المسدودة والفقاعات المنبثقة والتخلص من الحواف الوهمية وهي أشياء مهمة يجب مراعاتها لأي مجمع.

لذا فإن قيود هذه الرسوم البيانية هي فكرة أننا نقوم على الفور بتقسيم هذه القراءات إلى تمثيل k-mer هذا ، والذي يدمر المعلومات. وللتغلب على هذا ، فإن أحد الأشياء التي فعلها الناس في مجمعات الرسوم البيانية De Bruijn هو أخذ القراءات الأصلية وإعادة رسم خريطة لها على الرسم البياني.

لذلك عندما تحاول تتبع المسار من خلال الرسم البياني ، فإن ما تفعله هو أن تأخذ القراءات الأصلية. أنت خيطهم من خلال الرسم البياني. وأنت تعلم أن القراءة الأصلية تمثل تسلسل جينوم متجاور. لذلك فهو يوفر لك مسارًا عبر الرسم البياني تعرف أنه جيد.

كان الأشخاص يفعلون ذلك جزئيًا لأنهم لم يرغبوا في الانتقال إلى تنفيذ الرسم البياني المتداخل بالكامل بسبب التكلفة. لكني أعتقد أن تطبيقات الرسم البياني المتداخلة هذه الآن معقدة بدرجة كافية لدرجة أنني سأستخدمها شخصيًا بدلاً من مجمع الرسم البياني De Bruijn. وبالتالي فإن المفاضلة تتمحور حقًا حول السرعة والفضاء مقابل الدقة.

حتى نتمكن من إلقاء نظرة على بعض أمثلة المجمعين وإلقاء نظرة على أدائهم. ولكن قبل أن أفعل ذلك ونترك الرسوم البيانية لـ De Bruijn ، هل هناك أي أسئلة أخرى حول مجمعات الرسوم البيانية De Bruijin؟

الجمهور: ما هي مدة k عادةً؟

البروفيسور: سوف نتحدث عن ذلك. عادةً ما يكون k في مكان ما حول 60 - شيء من هذا القبيل - في مكان ما في ذلك الحي. إنه في الواقع - يجب أن يكون غريبًا ، أليس كذلك؟ إذن 61 ، 57-- شيء من هذا القبيل. سؤال جيد. أي أسئلة أخرى حول مجمعات الرسم البياني De Bruijin؟

لذا ، بالعودة مرة أخرى إلى الهندسة المعمارية لدينا ، لدينا هذه القراءات. نحن بحاجة لإنتاج contigs. في حالة الرسوم البيانية المتداخلة ، سنقوم بتتبع الرسوم البيانية المتداخلة. في حالة الرسوم البيانية لـ De Bruijn ، سنقوم بتتبع الرسم البياني لـ De Bruijn.

بالنسبة للسقالات ، يمكننا استخدام أزواج القراءة لإعادة تجميع السقالات مرة أخرى. وهنا بعض المقارنة لأداء هؤلاء المجمعين المختلفين. لذا فإن أول مُجمِّع - SGA - عبارة عن مُجمِّع تخطيط متداخل بنمط توافق الآراء. Velvet / Abyss و SOAPdenovo كلها مجمعات De Bruijn تعتمد على الرسم البياني. هذه كلها مجمعات معاصرة يستخدمها الناس لتجميع الجينوم.

مقياس مهم للمجمعات هو شيء يسمى N50 ، وهو حجم كونتيج أو سقالة حيث يوجد بهذا الطول أو أكبر 50 ٪ من القواعد في سقالات بهذا الطول. لذلك ، على سبيل المثال ، بالنسبة لـ SGA ، يقولون إن حجم السقالة N50 يبلغ 26.3 كيلو قاعدة ، مما يعني أنه في السقالات التي يبلغ طولها 26.3 كيلو قاعدة أو أكبر ، تقع نصف قواعد التجميع.

لذلك كلما كان N50 أكبر ، كلما كانت السقالات التي تغطي الأشياء أكبر. وتريد سقالات أو كونتيجات أكبر وأكبر بحيث يكون لديك فجوات أقل في التجميع الخاص بك. لذا فإن رقم N50 هو مقياس مقارنة أساسي عندما يفكر المرء في المجمعات.

لذلك في هذه الحالة بالذات ، بالنسبة إلى SGA ، كان مقياس التداخل هو أن القراءات يجب أن تتداخل بما لا يقل عن 75 قاعدة أو أكثر. وكانت هذه قراءات زوجية مكونة من 100 قاعدة. يمكنك رؤية التفاصيل على البيانات المقروءة في المحصلة النهائية هناك. طالما أن القراءات تتداخل مع 75 قاعدة ، فقد تم تجميعها معًا في الرسم البياني.

وكان لكل مجمعات الرسم البياني De Bruijn الرقم الأمثل الخاص بها لـ k. والطريقة التي تقوم بها بضبط هذه المعلمات هي تشغيل المُجمّع على نطاق من قيم k. وترى أي قيمة k أنتجت التجميع بأعلى N50. وأنت تختار هذا k.

هل يمكن لأي شخص أن يفكر في سبب أنه على الرغم من أن هذه كلها تقريبًا في نفس الملعب ، قد يكون للمجمِّعين المختلفين قيم k مختلفة نظرًا لأن التكنولوجيا الأساسية متشابهة تمامًا؟ أي تخمينات حول ما يجري هنا؟

حسنًا ، نعلم أن الاختلافات في المجمعات متجذرة حقًا في الطريقة التي يعالجون بها الرسوم البيانية والطريقة التي يبسطونها بها. وبالتالي ، على المرء أن يتخيل أن الاختلافات تكمن في المعالجة اللاحقة للرسم البياني بمجرد بنائه وأن مُجمِّعات معينة مثل قيم k الأكبر. في حين أن القيم الأخرى يمكن أن تتسامح مع قيم k الأصغر.

ويمكنك أن ترى إذا نظرنا إلى الإحصائيات الجارية لهذه ، أن أداء SGA إذا نظرت إلى القواعد المرجعية التي تغطيها contigs أكبر من كيلو بايت واحد يمكن مقارنتها تقريبًا بجميع المجمعات الأخرى. لكن أداءها غير المتطابق أفضل بكثير. هذا هو المجمّع الآخر الذي ينتج - حسنًا ، سأعيده باستثناء SOAPdenovo. لكنه يقوم بعمل جيد في تصحيح القراءات في الخروج بالتسلسل الصحيح.

ومع ذلك ، تحكي الأسطر الأخيرة القصة حول وقت التشغيل ، وهو أن مجمع التوافق المتداخل يستغرق 41 ساعة من وقت وحدة المعالجة المركزية لتجميع جينوم C. elegans. في حين أن المجمعات الأخرى ، فإن مجمع De Bruijn يعمل بشكل أسرع.

لذا فإن الشيء الذي أردت التأكيد عليه اليوم هو أنه بمجرد أن يكون لديك الرسم البياني النهائي سواء كان رسمًا بيانيًا متداخلًا أو رسمًا بيانيًا لـ De Bruijn ، والذي يمثل الطرق الممكنة لإعادة تجميع أحجية الصور المقطوعة معًا مرة أخرى ، فلا يزال من الفن أن تكون قادرًا لبناء مُجمّع يستخدم الاستدلال المناسب لتتبع الرسم البياني للتوصل إلى تسلسل الجينوم.

وأعتقد أن هناك درسًا آخر وهو أن التكرار يمثل مشكلة كبيرة. مع قراءات قصيرة ، لا يمكننا حقًا حل التكرارات تمامًا. نتيجة لذلك ، عندما نفكر في أي جينوم مرجعي نتعامل معه ، إذا أخذنا في الاعتبار حجم القراءات التي تم استخدامها لتجميع هذا الجينوم ، فنحن بحاجة إلى الانتباه إلى ما يخبرنا به ذلك حول ما إذا كان تكرار البنية التي نلاحظها في الجينوم هي في الحقيقة ترجمة دقيقة لما يحدث في الجينوم نفسه.

وأخيرًا ، أعتقد أننا تحدثنا اليوم عن مشكلة تجميع الجينوم من مجموعة من القراءات التي تمثل فردًا واحدًا موحدًا وإن كان مع احتمالات وجود اختلافات في الأليلات بين الأم والأب في كائن ثنائي الصبغة. ومع ذلك ، فإن التسلسل البيئي حيث يأخذ المرء ماء البحر أو عينات أخرى ويتسلسل جميع الكائنات الحية الموجودة فيه ثم يحاول تجميع تلك الكائنات دي نوفو يعترف بإمكانية وجود العديد من الجينومات المختلفة التي تفكر فيها.

وهذا ، بالطبع ، يخلق مجموعة جديدة كاملة من مشاكل البحث ، والتي أعتقد أنها لم يتم حلها جزئيًا بسبب روابط القراءة التي نتعامل معها حاليًا. هل هناك أسئلة أخيرة حول التجميع؟ حسنا عظيم. حسنًا ، سنراكم يوم الخميس حيث سنتحدث عن تحليل ChIP-seq و IDR. حتى ذلك الحين ، أتمنى لك يوم أربعاء رائعًا. شكرا جزيلا.


مراجع

Booch ، G. ، Rumbaugh ، J. and Jacobson ، I. (1997). دليل مستخدم لغة النمذجة الموحدة: أديسون ويسلي.

Brachman ، R.J. ، McGuinness ، DL ، Patel-Schneider ، P.F. ، Resnick ، ​​LA and Borgida ، A. (1991). التعايش مع الكلاسيك: متى وكيف تستخدم لغة شبيهة بـ KL-ONE. مبادئ الشبكات الدلالية. JF Sowa ، محرر ، Morgan Kaufmann: 401-456.

بريكلي ، دي وجوها ، R.V. (1999). مواصفات مخطط إطار وصف الموارد (RDF). التوصية المقترحة ، اتحاد شبكة الويب العالمية: http://www.w3.org/TR/PR-rdf-schema.

Chimaera (2000). بيئة علم الوجود Chimaera. www.ksl.stanford.edu/software/chimaera

دوينفيلد ، AJ ، ستوتر ، R. ، Weiden ، M.R. ، Kenepa ، B. and Benjamins ، V.R. (2000). WonderTools؟ دراسة مقارنة لأدوات الهندسة الأنطولوجية. المجلة الدولية لدراسات الإنسان والحاسوب 52(6): 1111-1133.

فاركوهار ، أ. (1997). برنامج أونتولينجوا التعليمي. http://ksl-web.stanford.edu/people/axf/tutorial.pdf

جوميز بيريز ، أ. (1998). تبادل المعرفة وإعادة استخدامها. كتيب النظم الخبيرة التطبيقية. ليبويتز ، محرر ، CRC Press.

جروبر ، ت. (1993). نهج ترجمة لمواصفات علم الوجود المحمولة. اكتساب المعرفة 5: 199-220.

جرونينجر ، وفوكس ، إم إس. (1995). منهجية لتصميم وتقييم الأنطولوجيات. في: وقائع ورشة العمل حول القضايا الأنطولوجية الأساسية في تبادل المعرفة ، IJCAI-95، مونتريال.

هندلر ، ج. وماكجينيس ، د. (2000). لغة ترميز وكيل DARPA. أنظمة IEEE الذكية 16(6): 67-73.

همفريز ، ب. وليندبرج ، د. (1993). مشروع UMLS: عمل اتصال مفاهيمي بين المستخدمين والمعلومات التي يحتاجون إليها. نشرة جمعية المكتبات الطبية 81(2): 170.

McGuinness ، DL ، Abrahams ، M.K. ، Resnick ، ​​LA ، Patel-Schneider ، P.F. ، Thomason ، RH ، Cavalli-Sforza ، V. and Conati ، C. (1994). دروس نظام تمثيل المعرفة الكلاسيكية. http://www.bell-labs.com/project/classic/papers/ClassTut/ClassTut.html

McGuinness، DL، Fikes، R.، Rice، J. and Wilder، S. (2000). بيئة لدمج واختبار الأنطولوجيا الكبيرة. مبادئ تمثيل المعرفة والاستدلال: وقائع المؤتمر الدولي السابع (KR2000). A.G Cohn، F. Giunchiglia and B. Selman، editors. سان فرانسيسكو ، كاليفورنيا ، دار نشر مورجان كوفمان.

ماكجينيس ، د. ورايت ، ج. (1998). النمذجة المفاهيمية للتكوين: نهج قائم على الوصف المنطقي. الذكاء الاصطناعي للتصميم الهندسي والتحليل والتصنيع - إصدار خاص حول التكوين.

موسن ، ماجستير (1992). أبعاد تبادل المعرفة وإعادة استخدامها. الكمبيوتر والبحوث الطبية الحيوية 25: 435-467.

أونتولينجوا (1997). الدليل المرجعي لنظام Ontolingua. http://www-ksl-svc.stanford.edu:5915/doc/frame-editor/index.html

برايس ، سي و سباكمان ، ك. (2000). المصطلحات السريرية SNOMED. BJHC & ampIM-British Journal of Healthcare Computing & amp Information Management 17(3): 27-31.

المحمي (2000). مشروع المحمي. http://protege.stanford.edu

روش ، إي (1978). مبادئ التصنيف. الإدراك والتصنيف. R. E. و B. B. Lloyd ، المحررين. هيلسايد ، نيوجيرسي ، دار نشر لورانس إيرلبوم: 27-48.

Rothenfluh، T.R.، Gennari، J.H.، Eriksson، H.، Puerta، A.R.، Tu، S.W. وموسن ، ماجستير (1996). الأنطولوجيا القابلة لإعادة الاستخدام وأدوات اكتساب المعرفة وأنظمة الأداء: حلول PROT G-II لـ Sisyphus-2. المجلة الدولية لدراسات الإنسان والحاسوب 44: 303-332.

رامبو ، ج. ، بلاها ، إم ، بريميرلاني ، دبليو ، إيدي ، إف ، ولورنسن ، دبليو (1991). النمذجة والتصميم الكينوني. إنجليوود كليفس ، نيو جيرسي: برنتيس هول.

Uschold، M. and Gruninger، M. (1996). علم الوجود: المبادئ والطرق والتطبيقات. مراجعة هندسة المعرفة 11(2).

[1] نكتب أسماء الفئات بحروف كبيرة ونبدأ أسماء الفتحات بأحرف صغيرة. نستخدم أيضًا خط الآلة الكاتبة لجميع المصطلحات من مثال الأنطولوجيا.

[2] يمكننا أيضًا عرض الفئات على أنها مسندات أحادية & # 151 سؤالًا لها وسيطة واحدة. على سبيل المثال ، & # 147Is this object a wine؟ & # 148 المسندات الأحادية (أو الأصناف) تتناقض مع المسندات الثنائية (أو الفتحات) & # 151 الأسئلة التي لها وسيطان. على سبيل المثال ، & # 147 هل نكهة هذا الكائن قوية؟ & # 148 & # 147 ما هي نكهة هذا الكائن؟ & # 148

[3] تحدد بعض الأنظمة نوع القيمة مع فئة بدلاً من طلب بيان خاص لنوع المثيل.

[4] اخترنا تمثيل الموانئ الحمراء فقط في الأنطولوجيا لدينا: الموانئ البيضاء موجودة لكنها غير شائعة للغاية.

[5] هنا نفترض أن كل عضو تشريحي هو فئة لأننا نرغب أيضًا في التحدث عن & # 147John & # 146s الأول من الضلع الأيسر. & # 148 سيتم تمثيل الأعضاء الفردية للأشخاص الحاليين كأفراد في علم الوجود لدينا.


شاهد الفيديو: Красивое пончо спицами. Подробное видео МК центрального ажурного узора с шишечками. (أغسطس 2022).