معلومة

16s rRNA تسلسل من ميكروبيوم الأمعاء (البراز)

16s rRNA تسلسل من ميكروبيوم الأمعاء (البراز)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

هل أقوم باستخراج الحمض النووي الريبي أو الحمض النووي من ميكروبيوم الأمعاء (عينات البراز) إذا كنت تريد إجراء تسلسل الرنا الريباسي 16 ثانية؟


بشكل عام ، تقوم باستخراج الحمض النووي ، ثم PCR خارج مناطق تشفير 16rRNA وأخيراً تسلسلها. هنا بعض الروابط

http://press.igsb.anl.gov/earthmicrobiome/protocols-and-standards/16s/

http://journals.plos.org/plosone/article؟id=10.1371/journal.pone.0068739

https://support.illumina.com/content/dam/illumina-marketing/documents/products/other/16s-metagenomics-faq-1270-2014-003.pdf


16S rRNA تسلسل الجينات مقابل تسلسل ميتاجينوميك البندقية

هل أنت شركة أو معمل أو باحث تخطط لدراسة ميكروبيوم جديدة؟إذا كان الأمر كذلك ، فمن المحتمل أنك تفكر في إجراء تسلسل جيني 16S rRNA أو التسلسل الميتاجينومي للبندقية. على الرغم من أن التسلسل الجيني 16S rRNA كان أكثر شيوعًا في دراسات الميكروبيوم حتى الآن ، فإن metagenomics البندقية أصبح أكثر سهولة وشعبية في أبحاث الميكروبيوم. ومع ذلك ، فإن كل طريقة لها مزاياها وعيوبها والتي يجب أخذها في الاعتبار قبل أن تقرر طريقة التسلسل التي يجب استخدامها. إليك دليلك الشامل لتسلسل الجينات 16S rRNA مقابل تسلسل البندقية لمساعدتك في إنشاء أفضل البيانات لبحثك.


مقدمة

في حين تم الاعتراف منذ فترة طويلة بالميكروبات التي تعيش في جسم الإنسان وداخله على أنها ضرورية لفهم مجموعة متنوعة من الأمراض البشرية ، إلا أننا بدأنا للتو في فهم دورها الحاسم بنفس القدر في الحفاظ على صحة الإنسان. لتسهيل هذا الفهم ، أطلقت المعاهد الوطنية للصحة مشروع ميكروبيوم الإنسان (HMP) في عام 2008 [1] لتسلسل ميكروبيوم الأشخاص الأصحاء (http://commonfund.nih.gov/hmp). يتمثل أحد الأهداف الأساسية لـ HMP في توصيف الميكروبيوم البشري للأفراد الأصحاء ، ووصف الميكروبيوم الأساسي ، إن أمكن. سجلت المعاهد الوطنية للصحة أكثر من 200 من الأشخاص الأصحاء ، من الذكور والإناث ، وجمعت عينات من الحمض النووي الميكروبي من 18 موقعًا مختلفًا في الجسم [2]. الباحثون من العديد من المؤسسات الأكاديمية المختلفة هم جزء من مجموعة عمل تحليل بيانات HMP التي تقوم بتحليل بيانات تسلسل HMP للإجابة على عدد من الأسئلة الأساسية لفهم أساسي للميكروبيوم البشري السليم. يستخدم HMP كلاً من تسلسل علامة الرنا الريباسي 16S لتوضيح أنواع الميكروبات ووفرة نسبتها وتسلسل ميتاجينوميك البندقية لمعرفة الوظائف التي قد تؤديها هذه الميكروبات. هذه التحليلات ، التي تم نشرها كمخطوطة عامة [3] وسلسلة من الأوراق المصاحبة ، تضع الأساس لمزيد من البحث في الميكروبيوم البشري: أوجه التشابه والاختلاف بين الأفراد ومواقع الجسم ، وعبر الوقت ، أعداد وأنواع الميكروبات و ما هو الدور الذي يلعبونه في صحة الإنسان.

يعتبر الجين 16S rRNA المعيار الذهبي لدراسات علم الوراثة للمجتمعات الميكروبية ولتعيين أسماء تصنيفية للبكتيريا. إن انفجار بيانات التسلسل الناتج عن تسلسل الجيل التالي (NGS) يسلط الضوء على ثراء الميكروبات الذي لم يكن متوقعًا من قبل. NGS تأتي مع مقايضة واضحة. عدد القراءات المتسلسلة أكبر بأوامر من حيث الحجم من الطرق السابقة (على سبيل المثال ، تسلسل سانجر) ، لكن القراءات أقصر بكثير. زاد طول القراءة باستخدام تقنية Roche GS-FLX ("454") سريعًا من 100 nt في عام 2006 إلى أكثر من 400 nt في الوقت الحالي. لسوء الحظ ، لا يستطيع علماء التصنيف تقديم أسماء تصنيفية لجميع الكائنات الحية الجديدة التي اكتشفها هذا العمق غير المسبوق لأخذ العينات. حتى في أقسام الشجرة البكتيرية التي تم وصفها جيدًا ، فإن الأدوات الموجودة بشكل عام ليست كافية لتوفير أسماء الأنواع أو معلومات النشوء والتطور لملايين القراءات القصيرة. على سبيل المثال ، الأداة الأكثر استخدامًا لتعيين التصنيف لعلامات 16S ، مصنف Ribosomal Database Project (RDP) [4] ، في أفضل الأحوال يصنف تسلسلات 16S فقط بقدر مستوى الجنس ، على الرغم من وجود العديد من التسلسلات البعيدة عن الاستخدام الشائع لا يمكن وصف التسلسلات المرجعية أو الغامضة من الناحية التصنيفية إلا لمستويات الفئة أو الترتيب أو العائلة. لاستكمال التحليلات التي تعتمد على أسماء تصنيفية محدودة ، يمكن تجميع متواليات الرنا الريباسي 16S معًا في وحدات تصنيف تشغيلية (OTUs) عند تشابه 97٪ (فرق 3٪). يتم التعرف على هذا المستوى من التجميع المستند إلى التسلسل بشكل عام على أنه يوفر تمايزًا بين الكائنات البكتيرية تحت مستوى الجنس ، على الرغم من أنه سيكون من غير الدقيق افتراض أن هذا المستوى من التجميع يحدد باستمرار الأنواع الميكروبية أو السلالات.

أظهرت الدراسات السابقة قدرًا كبيرًا من التباين في ميكروبيوتا الأمعاء والأنف بين الأفراد [5] ، [6] ، [7] ، [8] ، [9] ، وفي الكائنات الحية الدقيقة في مواقع مختلفة من الجسم داخل فرد واحد [10] ]. تستخدم هذه الدراسة أكبر عدد من الموضوعات الصحية حتى الآن للبحث عن إمكانية وجود مجموعة من OTUs الأساسية الشائعة عبر الأفراد ومواقع الجسم ضمن سياق التباين الأكبر. باستخدام نهج OTU ، نقوم بتحليل بيانات تسلسل علامات HMP 16S للبحث عن الكائنات الحية التي تحدث في معظم أو جميع الموضوعات الصحية. لا يكفي عمق التسلسل لكل عينة في هذا المشروع لفهم طبيعة أو مدى الكائنات النادرة التي غالبًا ما تلعب دورًا مهمًا في الصحة والمرض بدلاً من ذلك ، فنحن نركز على الكائنات الحية الأكثر وفرة الشائعة بين الأفراد.


تحليل المعلوماتية الحيوية

شكل 1. بيانات Illumina MiSeq 16S rRNA المأخوذة من عينات اللعاب المحفوظة لأكثر من 6 سنوات باستخدام جهاز Norgen's Saliva DNA لجمع وحفظ الحمض النووي (Cat. RU49000). تم عزل الحمض النووي للعاب باستخدام مجموعة Norgen's Saliva DNA Isolation Kit (Cat. RU45400) من اللعاب الذي تم حفظه لفترات زمنية مختلفة تصل إلى 6 سنوات في درجة حرارة الغرفة. يتم عرض الوفرة النسبية (٪) لكل عينة ، وتوضح العشرة الأوائل الأكثر وفرة حسب الجنس.

شكل 1. بيانات Illumina MiSeq 16S rRNA المأخوذة من عينات اللعاب المحفوظة لأكثر من 6 سنوات باستخدام جهاز Norgen's Saliva DNA لجمع وحفظ الحمض النووي (Cat. RU49000). تم عزل الحمض النووي للعاب باستخدام مجموعة Norgen's Saliva DNA Isolation Kit (Cat. RU45400) من اللعاب الذي تم حفظه لفترات زمنية مختلفة تصل إلى 6 سنوات في درجة حرارة الغرفة. يتم عرض الوفرة النسبية (٪) لكل عينة ، وتوضح العشرة الأوائل الأكثر وفرة حسب الجنس.

الشكل 2. يستخدم منحنى خلخلة ألفا لتقييم ثراء الأنواع. يتم إنشاء المنحنى عن طريق حساب كمية OTUs المختلفة (وحدة التصنيف التشغيلية) فيما يتعلق بحجم العينة.

الشكل 2. يُستخدم منحنى خلخلة ألفا لتقييم ثراء الأنواع. يتم إنشاء المنحنى عن طريق حساب كمية OTUs المختلفة (وحدة التصنيف التشغيلية) فيما يتعلق بحجم العينة.

الشكل 3. بيانات ميكروبيوم 16S التي تم إنشاؤها بواسطة Illumina MiSeq. تم عزل الحمض النووي للبراز باستخدام مجموعة عزل البراز Norgen (نظام حبة Magenetic) (Cat. 55700) من 200 مجم من البراز من 9 متبرعين. تنوع شانون هو مقياس تنوع ألفا شائع يقيس ثراء وتنوع السكان.

الشكل 3. بيانات ميكروبيوم 16S التي تم إنشاؤها بواسطة Illumina MiSeq. تم عزل الحمض النووي للبراز باستخدام مجموعة عزل البراز Norgen (نظام حبة Magenetic) (Cat. 55700) من 200 مجم من البراز من 9 متبرعين. تنوع شانون هو مقياس تنوع ألفا شائع يقيس ثراء وتنوع السكان.

الشكل 4. تم عزل الحمض النووي للتربة عالي الجودة بنجاح من عينات التربة باستخدام (أ) مجموعة عزل الحمض النووي للتربة من Norgen (نظام الخرزة المغناطيسية) (Cat. 58100) و (B) مجموعة Norgen لعزل الحمض النووي للتربة (Cat. 64000) على التوالي. ثم تم استخدام الحمض النووي المنقى بنجاح في تسلسل ميكروبيوم الرنا الريباسي 16S. بمجرد تجميع العينات المتسلسلة في OTUs (وحدة تصنيف تشغيلية) بناءً على هوية 97 ٪ وتمثل شجرة النشوء والتطور العلاقة التطورية بين هذه OTUs.

الشكل 4. تم عزل الحمض النووي للتربة عالي الجودة بنجاح من عينات التربة باستخدام (A) Norgen’s Soil DNA Isolation System (Cat. 58100) و (B) Norgen’s Soil DNA Isolation Plus Kit (Cat. 64000) على التوالي. ثم تم استخدام الحمض النووي المنقى بنجاح في تسلسل ميكروبيوم الرنا الريباسي 16S. بمجرد تجميع العينات المتسلسلة في OTUs (وحدة تصنيف تشغيلية) بناءً على هوية 97 ٪ وتمثل شجرة النشوء والتطور العلاقة التطورية بين هذه OTUs.

الشكل 5. تحليل الإحداثيات الرئيسية (PCoA) لعينة 26 والذي يوضح الاختلافات في توزيع التصنيف التصنيفي بين العينات من مستوى الجنس ، باستخدام مقياس Unifrac غير الموزون. مقياس Unifrac غير الموزون حساس للاختلافات في الميزات منخفضة الوفرة.

الشكل 5. تحليل الإحداثيات الرئيسية (PCoA) لعينة 26 والذي يوضح الاختلافات في توزيع التصنيف التصنيفي بين العينات من مستوى الجنس ، باستخدام مقياس Unifrac غير الموزون. مقياس Unifrac غير الموزون حساس للاختلافات في الميزات منخفضة الوفرة.

  1. شكل 1.
  2. الشكل 2.
  3. الشكل 3.
  4. الشكل 4.
  5. الشكل 5.

نتائج

بالنسبة لمجموعة بيانات WEHI ، تراوحت أحجام المكتبات بعد تصفية الجودة ، والتجميع ، والجمع بين نسخ PCR من 30000 إلى 250000 تسلسل لكل عينة ، بمتوسط ​​67000 (الشكل S1A) مجمعة في 12652 OTUs من الحجم الأدنى 20. بالنسبة لبيانات BCM مجموعة ، تراوحت أحجام المكتبة من 5000 إلى 56000 ، بمتوسط ​​27000 (الشكل S1B) متجمعة في 3،675 OTU من الحجم الأدنى 20. يعكس العدد النهائي للتسلسلات بروتوكولات التسلسل والتصفية المختلفة ، بما في ذلك استخدام تكرار PCR متعدد في WEHI .

نظرة عامة تصنيفية

هيمنت العينات على مستوى الشعبة بواسطة الجراثيم و الحزم، كما هو متوقع. كان متوسط ​​النسبة المجمعة لهاتين الشُعبين 94٪ ، وتتراوح من 71.9٪ إلى 99.7٪ بين العينات الفردية. وبالمثل ، فإن طلبًا واحدًا من كل من هاتين الشعبتين ، الجراثيم و كلوستريدياليس، مع ثلاثة أوامر من الشعبة بروتيوباكتيريا يساهم بنسبة 1-2٪ أخرى بشكل عام (الشكل 2 أ ، د انظر أيضًا الشكل S2).

نظرة عامة على الميكروبيوم البكتيري البرازي من التسلسل في WEHI (أ ، ب ، ج) أو BCM (د ، ه ، ف). (ميلادي) الأجناس البكتيرية السائدة في عينات البراز ، أو الأصناف الأعلى حيث لم يكن الجنس متاحًا. الأشرطة مشفرة بالألوان بواسطة phyla: أحمر الجراثيم، أزرق الحزم، لون أخضر بروتيوباكتيريا، بنى أكتينوباكتيريا، أصفر فيروكوميكروبيا. (يكون) تنوع ألفا داخل العينات. يتم عرض مقياسين: العدد الملحوظ من OTUs لكل عينة ، وتقدير الثراء ، ومؤشر Inverse-Simpson الذي يشير إلى تكافؤ العينة. تم أخذ عينات فرعية إلى أصغر حجم للعينة ، والقيم هي متوسط ​​10 عينات فرعية عشوائية. تظهر المربعات النطاق الربيعي للطرق الأربع في ثلاثة أيام. (ج ، واو) تنوع بيتا. تنسيق NMDS لمسافة UniFrac بين العينات ، وهو تمثيل للتشابه التطوري.

يستخدم تنوع ألفا (α) لوصف ثراء الميكروبيوم وتساوي (عدم تجانسه) أو توزيع النسب. أظهرت العينات انتشارًا كبيرًا لتنوع ألفا (الشكل 2 ب ، هـ). كانت العينات المأخوذة من الفرد 66 لديها أدنى ثراء ملحوظ (عدد OTUs لكل عينة) وأدنى مؤشر تنوع معكوس Simpson ، يشير الأخير إلى هيمنة عدد أقل من OTUs. ينعكس هذا في مخططات الأجناس (الشكل 2 أ ، د). في المقابل ، كان لدى العينات المأخوذة من الأفراد 11 ثراءً ملحوظًا مرتفعًا ولكن مؤشر Inverse-Simpson منخفض نسبيًا ، بما يتوافق مع وجود عدد قليل من الأجناس ذات الوفرة العالية والمتعددة منخفضة الوفرة.

أظهر تحليل β التنوع بواسطة تنسيق القياس متعدد الأبعاد غير المتري (NMDS) لمسافة UniFrac أن العينات تتجمع بقوة من قبل الفرد ، مع فصل ملحوظ بين الأفراد (الشكل 2C ، F).

الاختلافات بين مجموعات بيانات WEHI و BCM

بالنسبة لمجموعات بيانات WEHI و BCM ، كانت أكثر الشعب وفرة متشابهة ، لكن نسب الشعب الأقل وفرة ودقة التصنيف الأعلى اختلفت. على سبيل المثال ، متوسط ​​نسبة الجنس أكرمانسيا بالترتيب فيروكيوميكروباليس كان أكبر في مليار متر مكعب (0.7٪) من WEHI (0.02٪). نسبة باكتيرويدس كان أقل في بعض العينات الفردية لـ BCM من WEHI (الشكل 2B أيضًا S2).

أسفرت مجموعة بيانات BCM عن عدد أقل من OTUs وبالتالي كان لها قيم أقل للثراء الملحوظ (الشكل 2 ب ، هـ). كان عدد وحدات OTU التي تمت ملاحظتها لكل عينة يعتمد على قيم عمق أخذ العينات (الشكل S3) المبينة بناءً على أحجام العينات الأصغر لكل مجموعة من مجموعتي البيانات. كان الثراء متشابهًا بين مجموعات بيانات WEHI و BCM ، حيث أظهرت العينات المأخوذة من الأفراد 66 أدنى تنوع ألفا وتلك من الفرد 44 هي الأعلى. بالنسبة لمؤشر تنوع Inverse-Simpson ، الذي لا يعتمد على حجم المكتبة في عمق التسلسل هذا ، فإن مجموعة بيانات BCM لديها نطاق أكبر من القيم ، ونطاق أكبر للعينات من بعض الأفراد. كان لكلتا مجموعتي البيانات أنماط متشابهة من تنوع بيتا بين الأفراد (الشكل 2C ، F) ، على الرغم من أن مجموعة بيانات BCM بها العديد من القيم المتطرفة.

تم إجراء التحليل الأولي بشكل منفصل على مجموعتي بيانات WEHI و BCM. لمقارنة أفضل بين التصنيفات ، أعيد تطبيق خط أنابيب المعلومات الحيوية على مجموعة بيانات تشتمل على متواليات BCM وواحدة من التكرارات التقنية الثلاثة لـ WEHI (الشكل 3). يُظهر مخطط التنسيق تأثيرات "الدُفعة" بين مركزي التسلسل واختلافات أكبر بين العينة في مجموعة بيانات BCM.

تنوع بيتا بين العينات من مركزي التسلسل. مؤامرة رسامة لمسافات براي كيرتس بين العينات ، باستخدام تحليل المراسلات المنحرفة. تمثل النقاط عينات من BCM ونسخة تقنية واحدة من WEHI.

تم استخدام DESeq2 لعمل نماذج خطية معممة للتهم في مستويات اللغات والترتيب و OTU (الجدول 1). تضمن النموذج المعرف الفردي واليوم وطريقة معالجة المجموعة كعوامل. على مستوى اللجوء ، كان التغيير الأكبر في فيروكوميكروبيا. على مستوى OTU ، كانت 3 ٪ من OTUs مختلفة اختلافًا كبيرًا (الشكل S4 ، بيانات إضافية S1). تنتمي معظم OTUs الوفيرة بشكل تفاضلي إلى الأوامر كلوستريدياليس (63٪) و الجراثيم (31٪). لم يكن اتجاه التغيير في OTU ثابتًا ، ولم تكن هناك فروق ذات دلالة إحصائية في التهم كلوستريدياليس و الجراثيم بين مجموعات بيانات WEHI و BCM.

تأثير طريقة معالجة التحصيل على التحليل التصنيفي

لم يكشف اختبار مجموعة بيانات WEHI عن الوفرة التفاضلية بين طرق معالجة التجميع ، باستخدام DESeq2 مع تصميم يتحكم في تأثير الشخص واليوم ، عن عدم وجود فروق ذات دلالة إحصائية في التهم حسب الشعبة أو الترتيب أو العائلة (الجدول 2 ، الشكل 4 أ). كانت خمسة OTUs (0.04٪ من OTUs التي تشتمل على 0.2٪ من التسلسلات) مختلفة تحت طريقة معالجة التجميع A. مع مجموعة بيانات BCM ، كانت طرق معالجة التجميع A و B مختلفة من الناحية التصنيفية ، مع انخفاض في أكتينوباكتيريا في الطريقة أ (الشكل 4 د) وزيادة في Lentisphaerae، على الرغم من أن الأعداد كانت منخفضة جدًا (p & lt 0.001 ، الجدول الإضافي S1). Lentisphaerae زادت أيضًا في الطريقة A مقارنة بالطريقتين C و D (p & lt 0.05).

تأثير طريقة معالجة المجموعات من التسلسل في WEHI (أ,ب,ج) أو BCM (د,ه,F). (ميلادي) سجل الأعداد المعيارية (المقاسة حسب حجم المكتبة) للشُعَب الأربعة الأكثر وفرة. توضح النقاط متوسط ​​الانحراف المعياري (sd) لكل فرد وطريقة معالجة المجموعة. الطريقة أ بها أصغر متوسط ​​sd لـ الجراثيم و أكتينوباكتيريا. (يكون) مؤشر التنوع Inverse-Simpson α لكل عينة (قارن مع الشكل 2). (ج ، واو) متوسط ​​السجل (العد المعياري) مرسوم مقابل المتوسط ​​على طرق معالجة المجموعة ، وتطبيق الانحدار الخطي. الطريقة (أ) لها أكبر انحراف متوسط ​​عن النموذج الخطي لمجموعة بيانات WEHI.

اختلف التنوع داخل العينة اعتمادًا على طريقة معالجة المجموعة (الشكل 4 ب ، هـ) ولكن التأثير كان صغيرًا وغير متسق. بعد تركيب نموذج خطي مع مدخلات للطريقة والفرد ، لم يتم احتساب 20-30٪ من التباين ، بينما شكلت طريقة معالجة المجموعة 2٪ فقط. بشكل عام ، كان تنوع ألفا أقل قليلاً مع الطريقة أ في مجموعة بيانات WEHI ، وأعلى مع الطريقة ب في مجموعة بيانات BCM. (الجدول 3).

قد تؤدي الطرق المختلفة لمعالجة المجموعة أيضًا إلى زيادة التباين بين العينات ، مما يقلل من إمكانية تكرار النتيجة. تم استخدام طريقتين لاختبار هذا. إن التباين الأكبر بين العينات يعادل مسافة أكبر بين العينات ببعض المقاييس. تم حساب الاختلاف بين Bray-Curtis بين عدد OTU لأزواج من العينات من كل فرد وطريقة ، وتم تطبيق اختبار Tukey Honest للفرق الكبير على نموذج خطي للاختلاف. لم يكن هناك دليل على أن الاختلاف بين العينات كان مختلفًا بالنسبة لطرق معالجة التجميع (أصغر p = 0.1) في مجموعة بيانات WEHI. كانت هناك فروق ذات دلالة إحصائية في مسافات Bray-Curtis بين العينات في مجموعة بيانات BCM (p & lt 0.001) ، مع طريقة معالجة التجميع A المرتبطة باختلافات أصغر بين العينات من نفس الفرد من الطرق B و C و D (جدول إضافي S2) .

بالإضافة إلى ذلك ، بحثنا عن الاختلافات في تباين الشعب الأربعة الأكثر وفرة. التهم المعيارية المحولة في السجل لـ الجراثيم, الحزم, بروتيوباكتيريا و أكتينوباكتيريا تمت مقارنة كل عينة مع المتوسط ​​عبر طرق معالجة المجموعة لكل فرد (الشكل 4C ، F). في مجموعة بيانات WEHI ، أعطت الطرق B و C و D نتائج مماثلة ، بينما كان للطريقة A تباين أقل داخل العينات من نفس الفرد ولكن انحرافًا أكبر عن المتوسط ​​مقارنة بالطرق الأخرى.

تأثير طريقة معالجة المجموعات على حجم المكتبة

تمت مقارنة طرق معالجة التجميع بعد تصفية الجودة واستخراج الباركود والتكتل. في مجموعة بيانات WEHI ، لم يكن عدد تسلسلات الحمض النووي المستخرجة لكل عينة مختلفًا عن طريق طريقة معالجة التجميع في مجموعة بيانات BCM ، وأسفر أسلوب معالجة التجميع D عن تسلسلات أقل من طرق معالجة التجميع الأخرى ، ولكن الفرق كان صغيرًا مقارنة مع الاختلاف الكلي (الشكل S5). كانت تأثيرات الدُفعات (تشغيل التسلسل) أكثر أهمية (p & lt 10 −5) من طريقة معالجة المجموعة ، ولكن ساهمت الدُفعات والطريقة معًا بأقل من 5٪ من التباين في حجم المكتبة.


التصنيف التصنيفي للمتواليات البكتيرية

تظل تعيينات التصنيف الدقيقة المستندة إلى محاذاة التسلسل تمثل تحديًا حسابيًا لكل من مكتبات 16S ومكتبات البنادق ، بسبب أطوال قراءة NGS القصيرة. قبل التصنيف التصنيفي ، يتم تجميع متواليات علامات الجينات amplicon ، مثل مناطق جين الرنا الريباسي 16S البكتيري ، من خلال نهجين رئيسيين (Sun et al. ، 2012 Chen et al. ، 2013). أولاً ، يمكن تجميع التسلسلات في أنماط طيفية وفقًا لتشابهها مع التسلسلات المشروحة مسبقًا في قاعدة بيانات مرجعية (Liu et al. ، 2008). ثانيًا ، يمكن إنشاء وحدات التصنيف التشغيلية (OTUs) عن طريق تجميع التسلسلات من جديد، استنادًا إلى تشابههما تمامًا (Schloss and Westcott ، 2011 Sun et al. ، 2012) ، وهو أكثر كثافة من الناحية الحسابية. لذلك يوصى باستخدام طريقة هجينة تجمع بين كلا النهجين. في جميع الحالات ، يتم استخدام عتبة تشابه تعسفية للتمييز بين المجموعات. يتم قبول عتبة التشابه البالغة 99 ٪ بشكل عام كبديل جيد للأنواع (Stackebrandt and Ebers ، 2006). ومع ذلك ، فإن هذه العتبة غالبًا ما تكون غير كافية للتمييز بين الأنواع وثيقة الصلة ، مثل أعضاء مختلفين من فصيلة Enterobacteriaceae و Clostridiaceae و Peptostreptococcaceae. الأهم من ذلك ، تم نشر أدوات تحليلية عالية الدقة تغلبت على بعض القيود المرتبطة بخوارزميات التجميع (إرين وآخرون ، 2013 ، 2014 تيخونوف وآخرون ، 2015).

تم تجميع قواعد بيانات مرجعية شاملة للتعليق التوضيحي لميتاجينوم البكتيريا المتسلسلة. بالنسبة لجينات الرنا الريباسي 16S ، يتضمن ذلك قاعدة بيانات Greengenes (DeSantis et al. ، 2006) ، ومشروع قاعدة بيانات الريبوسوم (RDP) (Cole et al. ، 2014) ، و SILVA (Quast et al. ، 2013). بالإضافة إلى كتالوجاتهم الشاملة لتسلسلات الرنا الريباسي 16S المنسقة والمتاحة للتنزيل ، تقدم كل من هذه البوابات أيضًا سلسلة من أدوات المعلوماتية الحيوية لتحليل تسلسلات NGS. تتوفر أيضًا خوادم التحليل الشامل مثل MG-RAST للجمهور ، والتي تحتوي بالفعل على قواعد بيانات محدثة لأغراض التعليقات التوضيحية (Meyer et al. ، 2008). وبشكل أكثر تحديدًا ، يحتفظ مشروع الميكروبيوم البشري (HMP) بمجموعة منسقة من متواليات الكائنات الحية الدقيقة المرتبطة بجسم الإنسان ، بما في ذلك حقيقيات النوى والبكتيريا والعتائق والفيروسات ، من كل من مشاريع التسلسل الخاصة بالبندقية و 16 S (C. Human Microbiome Project، 2012a، b ). تتمثل إحدى الطرق لزيادة دقة التصنيف التصنيفي للتسلسلات في تجميع قواعد البيانات التي تحتوي فقط على التسلسلات التي يحتمل وجودها في البيئة قيد الدراسة. على سبيل المثال ، تم إنشاء قواعد بيانات متخصصة تضم أعضاء فقط من الجراثيم المعوية البشرية (Ritari et al. ، 2015 Forster et al. ، 2016).

كما تم تطوير مناهج قوية للمعلومات الحيوية لتحليل بيانات البندقية (Riesenfeld et al.، 2004 Schloss and Handelsman، 2008 Wu and Eisen، 2008 Huson et al.، 2011 Boisvert et al.، 2012 Gevers et al.، 2012 Kultima et al.، 2012 Kultima et al. . ، 2012 Namiki et al. ، 2012 Segata et al. ، 2012). تعد جينات الواسمات الفريدة الخاصة بالكليد (Mende et al. ، 2013) وأساليب تحديد المواقع الأكثر شيوعًا (LCA) من بين أكثر الجينات شيوعًا. بالنسبة للأولى ، يتم حساب كتالوج علامات الجينات مسبقًا من جينومات بكتيرية متسلسلة مسبقًا ويتم تصنيف التسلسلات تصنيفيًا عن طريق الاستعلام عن الكتالوج. بالنسبة لنهج LCA ، يتم تصنيف التسلسلات المحاذاة مسبقًا بشكل هرمي على شجرة تصنيف باستخدام خوارزمية وضع (Aho et al. ، 1973 Huson et al. ، 2011). يتم وضع التسلسلات التي تتجاوز عتبة الاختلاف (نقاط البت) بشكل تدريجي على مستويات تصنيف أعلى.


أساليب

مقارنة في السيليكو لتسلسل الجين الكامل مقابل الجزئي 16S

تم إجراء تحليل in-silico بشكل منفصل على قاعدتي بيانات عامتين غير زائدين عن الحاجة: Greengenes v13.8.99 29 وقاعدة بيانات الميكروبيوم البشري عن طريق الفم (HOMD) v13 30. يتم الإبلاغ عن نتائج قاعدة بيانات Greengenes فقط في النص الرئيسي. بالنسبة لـ HOMD ، تم اختيار تسلسل واحد بشكل عشوائي لتمثيل كل الأنواع الموجودة في قاعدة البيانات. نظرًا لأن Greengenes لا تقدم باستمرار تصنيفًا تصنيفيًا على مستوى الأنواع ، فقد تم اختيار جميع التسلسلات ذات التصنيف على مستوى الجنس وتم استخدام التسلسلات التي تمثل 99 ٪ من مجموعات تشابه التسلسل لتمثيل أنواع متميزة. يشير الشكل التكميلي & # x000a0 2a (وبيانات المصدر) إلى المدى النسبي الذي تم فيه تمثيل الأصناف البكتيرية المختلفة داخل قاعدة البيانات المشتقة من Greengenes.

تم إنشاء أمبليكونات في السيليكو تحدد مناطق فرعية مختلفة من جين 16S عن طريق تقليم المناطق المحددة بواسطة مجموعات التمهيدي المحددة (الجدول التكميلي & # x000a0 1) باستخدام Cutadapt v1.4.2 31 ، مما يسمح بما يصل إلى ثلاثة حالات عدم تطابق داخل محاذاة التمهيدي. تم تجاهل التسلسلات إذا تعذر تحديد منطقة متغيرة واحدة أو أكثر (بما في ذلك V1 & # x02013V9) بواسطة أداة القطع ، أو تحتوي على N & # x02019s ، أو إذا كان amplicon الناتج & # x0003e2 SDs بعيدًا عن متوسط ​​الطول المرصود للمنطقة المعنية. احتفظت خطوات المعالجة هذه بنسبة 15 ٪ و 75 ٪ من التسلسلات في قواعد بيانات Greengenes و HOMD ، على التوالي (الجدول التكميلي & # x000a0 2). تمت محاذاة أمبليكونات كاملة الطول (V1 & # x02013V9) باستخدام MUSCLE 32 وتم حساب إنتروبيا شانون في كل موضع أساسي على طول واحد. بكتريا قولونية شارع. K-12 substr. MG1655 (الشكل & # x000a0 1a) تسلسل الجينات 16S (معرف الجين NCBI 947777). وفقًا لذلك ، يتم تمثيل عمليات الحذف داخل تسلسلات 16S الأخرى في مؤامرات الانتروبيا ، في حين أن عمليات الحذف ضمن التسلسل المرجعي ليست كذلك.

لتحديد الدقة التصنيفية التي توفرها المناطق المتغيرة المختلفة ، تم تصنيف كل أمبليكون in-silico مقابل قاعدة البيانات المرجعية المصفاة التي تم إنشاؤها منها باستخدام الأمر mothur classify.seqs 33 مع نطاق من عتبات الثقة الدنيا (-cutoff 30 & # x0201398 ). لإنشاء OTUs ، تمت تصفية مجموعات البيانات in-silico amplicon التي تم إنشاؤها لكل منطقة فرعية لإزالة التسلسلات غير الفريدة وإعادة ترتيبها لتتوافق مع ترتيب التسلسل في مجموعة البيانات V1 & # x02013V9. تم تعيين وفرة وحدوية لكل amplicon وتم إنشاء OTUs في مجموعة متنوعة من عتبات التشابه (97٪ ، 98٪ ، و 99٪) باستخدام أمر USEARCH cluster_otus 34 ، مع تعطيل الكشف عن الوهم باستخدام الخيار -uparse_break & # x02212999.

بناء مجتمع محاكاة البكتيريا

استنادًا إلى البيانات المتاحة من مشروع Microbiome البشري وقاعدة بيانات Human Oral Microbiome ، تم اختيار 36 سلالة بكتيرية لتمثيل الميكروبات المنتشرة في مواقع جسم الإنسان بما في ذلك الممرات الهوائية والأمعاء وتجويف الفم والجلد والمسالك المهبلية (الجدول التكميلي # x000a0 3) . تم الحصول على DNA من عشر سلالات مباشرة من ATCC (www.atcc.org). تمت زراعة السلالات الـ 26 الأخرى في وسط مناسب وظروف بيئية حتى وصلت الثقافات إلى المرحلة اللوغاريتمية المتأخرة (الجدول التكميلي # x000a0 3) ​​35 & # x02013 38. ما لم يذكر خلاف ذلك ، فقد نمت اللاهوائية تحت جو 90٪ N2، 5٪ ح2، و 5٪ من أول أكسيد الكربون2. تم عزل الحمض النووي عن طريق تعليق الثقافات في المخزن المؤقت TE الذي يحتوي على 20 & # x02009mg & # x02009ml & # x022121 lysozyme وحضنت في 37 & # x02009 & # x000b0C لمدة 30 & # x02009 دقيقة. بعد ذلك ، تمت إضافة المخزن المؤقت AL (Qiagen ، فالنسيا ، كاليفورنيا) الذي يحتوي على 1.23 & # x02009mg & # x02009ml & # x022121 Proteinase K وتم تحضين العينات عند 56 & # x02009 & # x000b0C بين عشية وضحاها. تم تحضين العينات بعد ذلك عند 95 & # x02009 & # x000b0C لمدة 5 & # x02009min وتم عزل الحمض النووي باستخدام مجموعة DNeasy Blood and Tissue (Qiagen). تمت التصفية من الحمض النووي في محلول MD5 (MoBio Laboratories ، Carlsbad ، CA). تم تجميع الحمض النووي المعزول بطريقة تمثل أعدادًا مختلفة من نسخ الجين 16S rRNA لكل نوع. باختصار ، حجم الجينوم (ن) في bp تم تقديره لكل كائن حي واستخدم لحساب كتلة الحمض النووي (م) لكل جينوم باستخدام الصيغة م& # x02009 = & # x02009 (ن) (1.096 & # x02009 & # x000d7 & # x0200910 & # x0221221 & # x02009g & # x02009bp & # x022121). تم بعد ذلك تطبيع كتلة الجينوم بناءً على رقم النسخة المتوقع لجين 16S rRNA (الجدول التكميلي & # x000a0 3) ​​وتم حساب الكتلة المناسبة من الحمض النووي التي تحتوي على رقم نسخة 16S المطلوب لكل نوع.

إعداد تسلسل بندقية إعداد مكتبة Illumina والتجميع

تم إجراء تسلسل WGS لـ 19 عضوًا من المجتمع الوهمي الذي لم يكن لديه بيانات تسلسل WGS متاحة للجمهور. تم إنشاء المكتبات باستخدام مجموعة Illumina TruSeq Nano DNA HT وفقًا لتعليمات الشركة المصنعة & # x02019s ، وتم تسلسلها على منصة Illumina MiSeq أو HiSeq. تم تجميع الجينوم للكائنات المتسلسلة بشكل فردي باستخدام SPAdes v3.5.0 39 مع تمكين المعالجة اللاحقة (& # x02013 دقيق).

إعداد مكتبة PacBio وتسلسلها

تم إعداد مكتبات التسلسل عن طريق تضخيم منطقة V1 & # x02013V9 من جين 16S rRNA باستخدام الاشعال 27F و 1492R (الجدول التكميلي & # x000a0 1) ، و Accuprime Taq polymerase (Thermo Fisher Scientific ، Waltham ، MA). تمت تنقية الأمبليكون باستخدام مجموعات تنقية PCR (Qiagen ، Hilden ، ألمانيا) و 1 & # x02009 & # x003bcg من الحمض النووي تم استخدامه في SMRTbell 1.0 Template Prep Kit (Pacific Biosciences ، Menlo Park ، CA). تم تشغيل التسلسلات المتوافقة مع SMRTbell على منصة Pacific Biosciences (PacBio) RS II باستخدام كيمياء P6C4v2. تمت معالجة ملفات الإخراج وتجميعها في قراءات CCS باستخدام CCS2 v3.0.1 لتعيين الحد الأدنى من التمريرات إلى 3 ، والحد الأدنى & # x000a0 نسبة الإشارة إلى الضوضاء (SNR) إلى 4 ، والحد الأدنى للطول إلى 1200 ، والدقة الدنيا المتوقعة إلى 0.9 ، والحد الأدنى ض- النتيجة إلى & # x022125. تم تجاهل تسلسلات الإجماع الأطول من 1600 & # x02009bp.

تحليل المجتمع البكتيري الوهمي

تم تنزيل تسلسل الجين المرجعي 16S rRNA المطابق للسلالات في المجتمع الوهمي في البداية من قاعدة بيانات RDP 40. احتوت العديد من تسلسلات الجينات المرجعية على مكالمات أساسية غامضة. لذلك تمت محاذاة كل تسلسل مع مجموعة WGS الخاصة به واستخراج منطقة التجميع المتوافقة لإنشاء مجموعة جينات مرجعية محسنة تحتوي على تسلسل جيني تمثيلي واحد لـ 16S rRNA لكل عضو في المجتمع الوهمي.

لتحديد تباين التسلسل في بيانات PacBio CCS ، تمت محاذاة القراءات التي تم إنشاؤها من المجتمع الوهمي مع مجموعة الجين المرجعي الوهمي باستخدام Cross_match 41 مع تعيين الحد الأدنى من درجة المحاذاة (-minscore) إلى 750 ، وتعيين عقوبة الاستبدال (-العقوبة) على & # x022129 ، وتم الإبلاغ عن أفضل محاذاة لكل قراءة فقط (-masklevel 0). تم تحليل محاذاة الإخراج لتحديد عدد وموقع عمليات الإدراج والحذف والاستبدال في القراءات المحاذاة لكل تسلسل جيني 16S rRNA مرجعي.

لتحديد تواتر وموضع اختلاف التسلسل المتوقع & # x02014 يعزى إلى وجود نسخ متعددة ومتباعدة من جين 16S rRNA داخل جينوم واحد & # x02014 المتغيرات السبعة لنسخ الجينات المعروفة بوجودها في بكتريا قولونية K-12، MG1655 sub-strain (<"type": "entrez-nucleotide"، "attrs": <"text": "NC_000913.3"، "term_id": "556503834"، "term_text": "NC_000913. تم تنزيل 3 ">> NC_000913.3) من RefSeq ومحاذاة باستخدام MUSCLE. لتوفير تقدير ثانٍ للتغير المتوقع في تسلسل الجينوم داخل الجينوم ، تمت محاذاة قراءات تسلسل Illumina WGS إلى المستوى الفردي. بكتريا قولونية التسلسل المرجعي الموجود في قاعدة بيانات مرجعية المجتمع النموذجية وموقع عمليات الإدراج والحذف والاستبدال التي تم استنتاجها باستخدام الأمر SAMtools pileup 42.

أخذ عينات وتسلسل ميكروبيوم البراز البشري

تم جمع عينات البراز من أربعة راكبي دراجات يتمتعون بصحة جيدة وتنافسية مسجلين في الدراسة التي وصفها Petersen et al. 20 . تم الحصول على موافقة مستنيرة من جميع المشاركين من البشر وتم تنفيذ العمل بإشراف مجلس المراجعة الداخلية لمختبر جاكسون (أرقام IRB 1503000013 و 16-JGM-07). تم جمع مادة البراز ذاتيًا باستخدام حاويات جمع عينات البولي إيثيلين (Fisher Scientific) وتم وضعها في عبوات مجمدة قبل شحنها إلى مختبر جاكسون للطب الجيني. بمجرد استلامها ، تم تخزين العينات في & # x0221280 & # x02009 & # x000b0C قبل الاستخراج. تم استخراج الحمض النووي باستخدام PowerSoil DNA Isolation Kit (MO BIO Laboratories ، Inc.). تم إعداد مكتبات تسلسل mWGS على النحو الموصوف لمجتمع الصور البكتيرية وتم إنشاء قراءات نهائية مزدوجة مكونة من 150 قاعدة على منصة Illumina NextSeq. تم تجاهل التسلسلات المكررة الدقيقة بافتراض أنها كانت قطع أثرية لـ PCR وتم فحص القراءات المتبقية مقابل الجينوم المرجعي البشري (GRCh38) باستخدام BMTagger 43. تم قطع المحولات والقواعد منخفضة الجودة باستخدام Flexbar 44.

تم إعداد مكتبات Amplicon وتسلسلها لمنطقة V1 & # x02013V9 (PacBio RS II) ومنطقة V1 & # x02013V3 (Illumina MiSeq) كما هو موصوف لمجتمع محاكاة البكتيريا.

قياس البكتيريا في ميكروبيوم البراز البشري

تم إنشاء تقديرات الوفرة التصنيفية من بيانات mWGS عن طريق محاذاة القراءات المتسلسلة مع قاعدة البيانات المرجعية لعلم الجينوم في الوقت الحقيقي & # x02122 (RTG) لتجمعات الجينوم البكتيري (الإصدار 2.0) ، باستخدام أوامر الخريطة والأنواع ضمن حزمة المعلوماتية الحيوية RTG-core (www. realtimegenomics.com/products/rtg-core).

تم تجميع بيانات تسلسل Amplicon للمنطقة V1 & # x02013V3 و V1 & # x02013V9 من جين 16S rRNA وإعادة نسخها باستخدام USEARCH (v8.0.1517) ، قبل أن يتم تجميعها في OTUs عند عتبات تشابه 97٪ أو 99٪ باستخدام -cluster_otus الأمر 34. تم بعد ذلك إعادة تعيين متواليات Amplicon من كل عينة لكل OTU بنفس عتبة التشابه المستخدمة للتجميع من أجل الحصول على تقديرات الوفرة النسبية لـ OTU. تم تحديد جنس كل OTU باستخدام مصنف RDP v2.2 11 بالتزامن مع قاعدة بيانات Greengenes ، الإصدار 13.5 عند حد ثقة يبلغ 0.8.

V1–V3 and V1–V9 amplicons belonging to the genus باكتيرويدس were selected by directly classifying individual amplicon sequences using the RDP classifier. Sequences were then clustered into OTUs at either 97% or 99% identity thresholds using USEARCH. Representative sequences of باكتيرويدس OTUs generated for each variable region/identity threshold combination were assigned a putative species classification by aligning each sequence to the RTG reference database (v2.0) using the USEARCH local alignment algorithm 45 , allowing up to 50 top hits for each aligned sequence.

The suitability of the RTG database as a reference for discriminating different باكتيرويدس species was assessed by extracting the 16S rRNA gene sequences for each باكتيرويدس genome contained therein. Extracted sequences were globally aligned using MUSCLE, a maximum-likelihood tree was constructed using FastTree v2 46 , and visualized using the R package ape 47 . The resulting tree (Supplementary Fig.  11 ) indicated that sequence variation within the 16S gene was sufficient to resolve most major باكتيرويدس species contained within this database.

The suitability of either 97% or 99% identity thresholds for clustering V1–V3 and V1–V9 amplicons at the species level was assessed by determining the frequency with which OTUs for each variable region/identity threshold aligned optimally to a single species in the RTG reference database (Supplementary Fig.  12 ).

V1–V9 amplicon sequences assigned to the single OTU identified as B. vulgatus (OTU_1 Supplementary Data  1 ) were detected at high relative abundance in two human stool microbiome samples (Scott and IronHorse). Sequences from each sample were therefore extracted and aligned to the single 16S rRNA gene reference sequence used in the mock community analysis. Sequence alignment was performed using Cross_match and alignment errors were calculated as described above.

Isolation and sequencing of bacteria from human stool

Stool samples were again contributed by competitive cyclists enrolled in the study described by Petersen et al. 20 . Ethical oversight and sample collection were as described above. Bacteria were cultured on a variety of media and under anaerobic conditions, unless otherwise stated (Supplementary Data  2 ). Individual colonies were picked and DNA extracted using the MasterPure™ Gram Positive DNA Purification Kit (Lucigen). Samples were multiplexed and sequenced on a PacBio RS II. A subset of multiplexed libraries were sequenced on multiple SMRT cells at varying loading concentrations (Supplementary Data  2 ) resulting in different numbers of total reads. Each repeated run was therefore treated as a technical replicate to determine (i) the measurement error for the estimation of intragenomic 16S gene SNP frequencies attributable to the sequencing platform and (ii) the relationship between measurement error and sequencing depth.

Computational analysis of individual isolates

Sequence data for each isolate were quality filtered and adapters removed as described above. Filtered sequences were reoriented using the mothur command align.seqs, with the Silva gold database as a reference and the arguments flip = ر, threshold =𠂐.5. Gaps in alignments were subsequently removed with the mothur command degap.seqs. Filtered, reoriented fasta files were then de-replicated using the USEARCH command -derep_fulllength and then sorted with -sortbysize, with the argument -minsize 1. The most abundant unique sequence for each isolate was then extracted (on the assumption it was the least likely to contain sequencing errors) and was used as a reference against which to align all reads for that isolate. Sequence alignment was performed using Cross_match with the arguments -minscore 1200, -masklevel 0, and alignment errors (substitutions, insertions, and deletions) calculated as described above.

Due to the prevalence of sequencing errors in processed reads (e.g., Supplementary Fig.  10 ), insertion and deletion errors were ignored when generating nucleotide substitution profiles. Substitution errors in alignments were filtered in a multi-step process to separate true intragenomic SNPs from background error. First, samples with fewer than 200 aligned reads were discarded, because preliminary investigation indicated they had insufficient signal-to-noise ratio for the detection of true SNPs. Second, the distribution of the frequency of substitution errors was calculated across the entire aligned region of the 16S gene. Base positions where the substitution error frequency was well outside instrument error (nine interquartile ranges above the upper quartile) were identified as true SNPs. Finally, samples with SNPs at ϣ% of base positions were discarded, as this threshold was empirically determined to exclude impure isolates.

We assessed SNP measurement error ( ζ w ) 48 for a subset of cultured isolates where replicate sequencing was performed on multiple SMRT cells using varying input library concentrations (Supplementary Data  2 ). We also took advantage of variation in sequencing depth between replicates to determine whether the measurement error was affected by the number of reads available for SNP phasing. Across 271 samples, the median ζ w was 1.8% (Supplementary Fig.  13a ). There was no obvious relationship between measurement error and sequencing depth for samples with >� reads (Supplementary Fig.  13b ).

Taxonomic identification of sequenced isolates

Isolates were assigned a putative taxonomy using BLAST 49 . The most abundant unique sequence for each isolate was searched against the NCBI 16S Microbial database using blastn, with the argument -max_target_seqs 20. Resulting hits were sorted first by ه-value, then bitscore and the taxonomy of the highest scoring sequence was reported. In addition, sequences were clustered into OTUs at 99% sequence identity using USEARCH command -cluster_otus with the arguments -otu_radius_pct 1.0, -uparse_break �. The phylogenetic relationship between isolates was determined by aligning the most abundant unique sequence for each isolate, then constructing a maximum-likelihood tree using FastTree v2.

To determine the total number of unique nucleotide substitution profiles generated from sequenced isolates, all isolates identified as belonging to the same OTU were compared with one another. Two isolates were considered different if the substitution frequency at one or more SNP loci differed more than 3 SDs above the mean measurement error (i.e., 6.58%, Supplementary Fig.  13 ).

Reporting summary

Further information on research design is available in the  Nature Research Reporting Summary linked to this article.


5. Viromic Sequencing

Viruses are key constituents of microbial communities which contribute to their evolution and homeostasis. Viromic sequencing has been used to study the intestinal viruses in different diseases, including type 1 diabetes [8], inflammatory bowel disease [10,125], alcohol-associated liver disease [126], non-alcoholic fatty liver disease [127], colorectal cancer [128,129], human immunodeficiency virus [130], and autoimmune diseases [11]. Because of the highly diverse nature of viruses and the lack of universal marker genes, it is difficult to use amplicon-based approach to amplify them with universal markers. Instead, shotgun metagenomic sequencing approaches can be used to characterize viruses and identify novel viruses.

Although in most environment, viruses outnumber microbial cells 10:1, viral DNA only represents 0.1% of the total DNA in a microbial community. Isolation of viral particles is the initial step in viromic sequencing, which is necessary to obtain a deep sequence coverage of viruses in the human gut microbiome, followed by viral particle purification. Large particles in the fecal samples, such as undigested or partially digested food fragments and microbial cells, are generally removed by serial filtration steps with osmotic neutral buffer or by ultracentrifugation with cesium chloride density gradient. The next step is nucleic acid extraction, during which the nucleic acid of the virus must first be isolated so that all the non-viral origin fractions are removed. DNAase and RNAase are usually used to remove the non-encapsulated nucleic acids. Depending on the type of viruses being studied, the library preparation protocol also varies. For example, bacteriophages are parasitic, special steps are required when isolating the DNA. For RNA virus, due to its unstable nature, reverse transcriptase to cDNA is required. In addition, virome contains active and silent fractions. For studying both the active and silent fraction of the virome, total nucleic acid isolation is needed [131]. For the active fraction of the virome, it is often required to use a filter, chemical precipitation or centrifugation to isolate the virus DNA.

The initial analysis of the sequences obtained after DNA sequencing is also quality control, which includes filtering of bad quality reads, decontamination of 16S rRNA, 18S rRNA and human sequence reads. Viruses have higher homology to prokaryotic or eukaryotic genes, therefore filtering of bad quality sequences is a key step in the viromic analysis. The resulting sequences are analyzed by either alignment-based approach or assembly approach. With alignment-based approach, different mapping algorithms are used to compare the resulting sequence reads against viral genomes and viral databases. Although the databases have expanded recently, the number of genomes deposited in the databases is far less than the sequenced virotypes and most of sequences reads lack similarity to the sequences in the databases, which are poorly annotated. The lack of sequence identity typically results in 60%�% sequences in the viral metagenomes [132]. Due to the highly diverse nature of viruses and the lack of similarity in current existing databases, de novo assembly approaches are often used in the viromic analysis [131,133,134]. Different assemblers are used for viral metagenomic data, such as VICUNA [135]. Popular shotgun metagenome assemblers such as MetaVelvet has also been applied to viral metagenome assembly. There are some virome-specific computational pipelines available, such as Metavir [136,137] and the Viral MetaGenome Annotation Pipeline (VMGAP) [138], which generally include open reading frame (ORF)-finding algorithms to predict coding sequences, followed by comparison with different protein databases.


نتائج

Sanger sequencing

Sanger sequencing resulted in 1242 reads of 16S rRNA gene sequences ('Sanger'-dataset). After aligning the reads against SILVA database, using BLASTN, we imported the results into MEGAN, where 1228 reads could be assigned. Surprisingly, we found a high abundance of البكتيريا الزرقاء in the Sanger data set.

454 sequencing

454 sequencing resulted in 72,571 reads of 16S rRNA gene sequences ('16S-454'-dataset). After aligning the reads against the SILVA database, using BLASTN, we imported the results into MEGAN, where 72,350 reads could be assigned. The abundance of البكتيريا الزرقاء was much lower in 454 sequences compared to the Sanger sequences. Furthermore, we detected slightly more الجراثيم than الحزم in this dataset, and also phyla being less abundant compared to الجراثيم و الحزم مثل فيروكوميكروبيا و أكتينوباكتيريا easily overlooked when using Sanger sequencing. بروتيوباكتيريا و Clostridiaceae were only detectable at a low level by this approach.

SOLiD sequencing

16S sample: After filtering low quality sequences (during conversion from 'csfasta' to 'fasta', as mentioned above) we obtained 3,767,260 reads (2,155,456 forward and 1,611,804 reverse) for 16S samples ('16S-SOLiD' dataset). All sequences were blasted against the SILVA database and then imported into MEGAN, leading to assignments for 2,530,912 reads.

Shotgun sample: The above-mentioned conversion from 'csfasta' to 'fasta' format with quality filtering resulted in 10,764,512 forward and 9,997,372 reverse-reads for the 'Shotgun-SOLiD' dataset. Of these 3,168,307 forward and 4,577,127 reverse reads have length 40 bp or above. There were 791,321 mate pairs in which both reads had length of 40 bp or more. Further, there were 861,344 mate pairs in which only the forward read has length 40 bp or more and 1,798,245 matepairs in which only the reverse read had a length of 40 bp or more. In total, we considered 3,450,910 mate sequences or a total of 6,901,820 sequences for which at least one of the mates was at least 40bp long (for details see Table ​ Table1 1 ).

الجدول 1

Details of sequence reads of 'Shotgun-SOLiD' dataset.

Data type (shotgun sample)File consisting forward readsFile consisting reverse reads
Fasta file after quality filter10,764,5129,997,372
Reads of length 40+ bp3,168,3074,577,127
Reads where both the mates are 40+bp791,321791,321
Mates where one read is 40+bp other is 𼐋p861,344 forward (40+bp) reads has 𼐋p reverse mates1,798,245 reverse (40+bp) reads has 𼐋p forward mates
Total number of reads processed for BLAST3,450,9103,450,910

After adapter removal, all of these sequences were aligned against the NCBI-NR database using BLASTX and imported into MEGAN. Using the above-mentioned thresholds 1,100,372 reads could be assigned to some node in the NCBI taxonomy.

A comparison of main abundances of bacterial groups on four taxonomic levels derived from the different sequencing technologies is shown in Figure ​ Figure1. 1. Additional file 1 shows the tree view of normalized comparison of the data obtained from these four methods. We have highlighted the nodes (showing sum and assigned read numbers) that are used to create Figure ​ Figure1. 1. Further when judged, as overview in Figure ​ Figure1, 1 , 16S-Sanger and 16S-SOLiD generally look similar to each other except 'species' level, this is because using 16S-SOLiD we have much more reads compared to Sanger, and that helped us to achieve more species richness.

Comparison of abundances of bacterial groups on different taxonomic levels obtained by 'Sanger', '16S-454', '16S-SOLiD' and 'Shotgun-SOLiD' sequencing. (A) Phylum level, (B) class level, (C) genus level, and (D) species level. Columns are organized according to clustering results based on normalized Euclidean distance analysis of the phylogenetic tree on each taxonomic level, as displayed on the left.

Comparison of 16S and shotgun samples obtained using SOLiD technology

Figure ​ Figure2 2 shows a normalized comparative tree-view of the assignments at 'family' level of NCBI taxonomy. Beside information about the composition of the microbiome (as is the case with 16S rRNA sequences), the shotgun DNA includes information about the encoded proteins. While a higher percentage of the 16S rRNA sequences could be taxonomically assigned, the composition of the microbiota inferred by both approaches was comparable. However, there were microbial species that outweighed in one approach compared to the other. In shotgun sequencing, more أكتينوباكتيريا, الجراثيم, Bacillales, Lactobacillales, Clostridiaceae, Eubacteriaceae, Gammaproteobacteria, Selenomonadales و Fusobacteriacae were detectable. On the other hand, in 16S rRNA gene sequencing, we found confirmation for the high abundance of البكتيريا الزرقاء. In contrast, we could find only a few reads assigned to البكتيريا الزرقاء in shotgun sequencing. On the one hand, this over-representation could be caused by preferential amplification of the 16S rRNA genes of البكتيريا الزرقاء as argued in the Sanger sequencing results section. Furthermore, we found more reads that map to Verrucomicrobiacea, Clostridiales و بروتيوباكتيريا in 16S rRNA gene sequencing than in shotgun sequencing. The two major phyla in the intestinal microbiome, the الحزم و الجراثيم, are represented differently by the two approaches. While 16S rRNA sequencing revealed more الحزم, shotgun sequencing resulted in more الجراثيم. This difference could be due to artifacts of the amplification of 16S rRNA genes.

Normalized comparison result obtained using MEGAN for '16S-SOLiD' dataset and 'Shotgun-SOLiD' dataset. Normalized comparison result obtained using MEGAN for '16S-SOLiD' dataset (magenta) and 'Shotgun-SOLiD' dataset (yellow). '16S-SOLiD' dataset is blasted against the SILVA database and 'Shotgun-SOLiD' dataset is blasted against the NCBI_NR database. The tree is collapsed at 'family' level of NCBI taxonomy. Circles are scaled logarithmically to indicate the number of assigned of reads.

The results reported here are based on using all mate pairs for which at least one of the two reads has a length of 40 bp or more. If one would consider only those mate pairs, for which both reads have a length of at least 40 bp, then the number of reads considered would drop by 75%, resulting in a huge decline of computational requirements, but one will lose 33% of assigned reads (see Additional file 2) which leads to 21 more species. Hence, in some studies it may be sufficient to only consider mate pairs in which both reads are longer than 40 bp, if there are plenty of such reads.

Comparison of 16S samples from three technologies (Sanger, 454 and SOLiD)

As SOLiD sequencing is substantially more cost-efficient than Sanger sequencing, it is possible to produce many more SOLiD reads at a very small fraction of the cost of a Sanger run. SOLiD sequencing produces very short sequences and many of them cannot be assigned, and these are shown as 'No hits' node in the above figures. Sanger sequencing does not have this limitation and 454 data are also less affected in this respect. Hence, we ignored the 'No hits' node in the comparison. Figure ​ Figure3 3 depicts a normalized comparison tree view of the all the 16S samples obtained from three technologies at 'Family' level of the NCBI taxonomy. To facilitate visual comparison, nodes are scaled by 'summarized reads', that is, the number of reads assigned to or below a given node. It is clearly visible that we were able to find many phyla, such as أكتينوباكتيريا, and the domain of العتيقة using SOLiD sequencing that were not detected by Sanger sequencing and appeared only with a few reads in the 454 dataset. Furthermore, important bacterial groups such as فيروكوميكروبيا, Lactobacilli, فوسوباكتيريا and special members of the Clostridiales were not found by Sanger sequencing at all. In the 454 sample we detected فيروكوميكروبيا, but not the other two. We found comparable amounts between Sanger and 16S rRNA SOLiD sequencing for one the two major phyla of the intestinal microbiome, the Baceriodetes (Figure ​ (Figure3, 3 , Figure ​ Figure1 1 ).

Normalized comparison between 16S samples obtained using three technologies: 'Sanger', '16S-454' and '16S-SOLiD' datasets. Normalized comparison result obtained using MEGAN for 'Sanger'-dataset (blue), '16S-454' dataset (cyan) and '16S-SOLiD' dataset (magenta) without considering 'No hits' node. The tree is collapsed at 'family' level of NCBI taxonomy. Circles are scaled logarithmically to indicate the number of summarized reads.

A detailed absolute comparison between 1242 16S-Sanger reads, 72571 reads of 16S-454 and the 300,000 reads from '16S SOLiD' dataset is depicted in Additional file 3. Here we can see that 300,000 reads of '16S-SOLiD' datasets already provides much resolution in the analysis when compared to 16S sequences from Sanger or 454 technologies. Furthermore, according to Sanger sequencing reads, assignments to phyla such as the بروتيوباكتيريا و ال الحزم are dominant, possibly because of easier cloning and particular amplification procedures. This amplification process could be the cause for the differences seen when comparing the amounts of باكتيرويدس, Gammaproteobacteria, Alphaproteobacteria and Bacilli in 16S sequencing. It was already shown in Figure ​ Figure2 2 that they are highly present in the shotgun dataset. Furthermore, the SOLiD datasets give information about the abundance of potentially pathogen microorganisms like Camphylobacter, الليستيريا و النيسرية. In the 'Sanger' dataset, these organisms were not detected due to their low abundance. The overrepresentation of the البكتيريا الزرقاء in the Sanger dataset was much less pronounced in the '16S-SOLiD' dataset. In the 'Sanger' dataset, the البكتيريا الزرقاء were the dominant group and had more reads than all other bacteria. In the '16S-SOLiD' dataset, they were still a group with a high abundance but the other bacterial groups were well represented, too. Low abundance of البكتيريا الزرقاء in the 'Shotgun-SOLiD' dataset could be explained by the missing amplification process in SOLiD technology. The advantage of SOLiD sequencing over Sanger sequencing is visible here. Due to the large number of reads, the overrepresentation of a bacterial group was less pronounced. Furthermore, the shotgun approach has the advantage of the avoiding amplification preferences for some bacterial groups. Figure ​ Figure2 2 illustrates that the bacterial groups of أكتينوباكتيريا, الجراثيم, Bacilli, ألفا- و Gammaproteobacteria و Clostridiaceae are underrepresented when amplification processes were used.

Furthermore, paired reads using SOLiD technology achieved much more resolution than 454 single reads at a lower cost (see Additional file 4).

In total, these data suggest that SOLiD sequencing is a viable and cost efficient option for the analysis of the intestinal microbiome in spite of the short read length.

Functional analyzes using SEED and KEGG

In this classification, genes are assigned to functional roles and different functional roles are grouped into subsystems. The SEED classification can be represented as a rooted tree in which internal nodes represent different subsystems and where leaves represent functional roles. MEGAN's functional analyzes using SEED classification is shown in Additional file 5.

For pathway analysis using KEGG, the program MEGAN matches each read to a KEGG orthology (KO) accession number, using the best hit to a reference sequence for which a KO accession number is known. The program reports the number of hits to each KEGG pathway. Additional file 6 depicts the result of such an analysis at the highest level of the KEGG hierarchy. To perform a functional analysis, MEGAN assigns each read to the functional role of the highest scoring gene in a BLAST or similar comparison against a protein database. To perform a KEGG analysis, then it attempts to match each read to a KEGG orthology (KO) accession number, using the best hit to a reference sequence for which a KO accession number is known. Thus from the functional analyses we can be informed about the possibility of metabolisms to be active. Thus this KEGG analysis is technically preliminary therefore only a detailed examination of individual pathways will allow on to decide which pathways are actual active.

Comparison with other approaches

To evaluate the performance of the MEGAN4 analysis based on a BLASTN comparison of the reads against the SILVA database, we ran the data through the RDP classifier [22](using 'Confidence threshold': 80%) (see Additional file 7). For RDP, we didn't specify minimum alignment length in order to allow all the assignments with previous threshold. The MEGAN analysis resulted in very similar annotation as with RDP. We also analyzed the data using MOTHUR software [23]. However, MOTHUR uses a simple best-hit assignment strategy that assigns all reads to the leaves of the NCBI taxonomy, regardless of the presence of other, equally similar reference sequences. Hence, a direct comparison against analyses performed using the LCA approach is hardly possible.

Beside these analyses an overall diversity was compared at genus level of the both 16S-SOLiD and 16S-454 data, using the Shannon-Weaver index and Simpson Reciprocal index, a measurement that combines diversity (the number of different nodes at a certain level) and evenness (the relative abundance of each node). Considering all the nodes at 'genus' level, we obtained for 16S SOLiD data Shannon and Simpson index values of 2.212 and 2.879, respectively. For 16S-454 data these two indices attain much lower values of 1.220 and 1.845, respectively.


توافر الكود

Software versions used are listed in Table  8 .

Table 7

16S alignment validation. Region(s) covered by 16S reads with exact matches to the SILVA database. The first column represents the region(s) called by our pipeline, while the third and fourth show the exact matching positions in the SILVA database. This shows consistency between the variable region called by our pipeline and the expected position it occupies along the 16S gene. SILVA IDs: باء الهشة: FQ312004.3243020.3244552 B. vulgatus: CP000139.2183533.2185042 F. nucleatum: AE009951.530422.531923 R. gnavus: AZJF01000012.178214.179732.

RegionصنفيبدأEnd
v2F. nucleatum134389
v2R. gnavus108362
v2B. vulgatus110364
v2باء الهشة108361
v3B. vulgatus330540
v3باء الهشة327537
v4F. nucleatum531818
v4R. gnavus500788
v4B. vulgatus522810
v6v7F. nucleatum9441207
v6v7R. gnavus9171177
v6v7B. vulgatus9361194
v6v7باء الهشة9331193

Code for sequence quality control and trimming, shotgun and 16S metagenomics profiling and generation of figures in this paper is freely available and thoroughly documented at https://gitlab.com/JoanML/colonbiome-pilot. This repository includes instructions for the analysis and reproduction of the figures on this paper from the publicly available samples, as well as pipelines used for the analysis. This repository is arranged in folders, each containing a README:

• qc: Scripts for quality control and preprocessing of samples

• analysis_shotgun: Scripts to run softwares for metagenomics analysis

• regions_16s: In-house scripts for splitting IonTorrent reads into new FASTQ files

• analysis_16s: DADA2 pipeline adapted to this dataset

• assembly: Scripts to run the assembly, binning and quality control software

• figures: Scripts used to generate the figures in this manuscript

• shannon_index_subsamples: Scripts used to compute alpha diversity in subsampled FASTQs


شاهد الفيديو: 16s rRNA (يونيو 2022).


تعليقات:

  1. Mooguran

    في رأيي ، إنه مخطئ. أنا متأكد. نحن بحاجة إلى مناقشة. اكتب لي في رئيس الوزراء ، يتحدث إليك.

  2. Garett

    لديك مقالة مسلية وممتعة. على عكس معظم الأنواع المماثلة الأخرى ، يوجد حد أدنى من الماء!

  3. Pacorro

    في رأيي لم تكن على حق. I am assured. يمكنني ان ادافع عن هذا المنصب.

  4. Suhayb

    أعتقد أنك كنت مخطئا. أنا متأكد. أنا قادر على إثبات ذلك. اكتب لي في PM.

  5. Fabio

    حسنًا ، حسنًا ... سيكون من الضروري إلقاء نظرة فاحصة على هذه المنطقة :)



اكتب رسالة