معلومة

كيف تقيد بحث بلاست ليشمل فقط عدد قليل من متواليات البروتين؟

كيف تقيد بحث بلاست ليشمل فقط عدد قليل من متواليات البروتين؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أقوم بإجراء بحث BLAST وأحتاج إلى تصفية الإخراج لعائلة معينة من البروتينات.

على وجه التحديد ، أحتاج إلى الحصول على تطابقات داخل عائلة CYP152 لبروتينات السيتوكروم P450. يمكنني تحليل النتائج إلى بروتينات P450 فقط بسهولة إلى حد ما حيث سيحتوي حقل "hit def" في الإخراج على "Cytochrome P450" في مكان ما هناك إذا كان في الواقع تسلسل بروتين P450 ، ولكن الأمر نفسه غير صحيح بالنسبة لـ CYP152.

هل هناك طريقة للقيام بذلك؟ أنا أستخدم ExPASy BLAST:

http://web.expasy.org/blast/

شكرا لك مقدما


تعتمد معرفات الجينات التي تحصل عليها في إخراج بلاست على المعرفات المستخدمة أثناء إنشاء قاعدة بيانات بلاست. لذلك قد لا تجد المعرف الدقيق الذي تبحث عنه.

لتقييد نتائج بلاست بمجموعة أصغر من البروتينات / الحمض النووي ، يمكنك اختيار أي من الاثنين:

  1. قم بإنشاء قاعدة بيانات بتسلسلات Fasta للبروتينات / الأحماض النووية التي تريدها. يجب عليك تثبيت BLAST وتشغيله من سطر الأوامر. يستخدمmakeblastdbلجعل قاعدة البيانات. الآن تقوم بمحاذاة استفساراتك مع قاعدة البيانات هذه. لاحظ أن قيمك الإلكترونية الآن لن تكون هي نفسها التي ستحصل عليها من البحث في قاعدة البيانات الأكبر.
  2. كما قلت في السؤال ، يمكنك تحليل النتائج لاحقًا. سيتعين عليك معرفة المعرفات التي تم استخدامها في قاعدة بيانات الانفجار التي بحثت عنها. من المحتمل أن يستخدم ExPASy-BLAST معرفات UniProt (يوجد محول معرف في موقع ويب UniProt لتعيين معرفات UniProt إلى معرفات أخرى). إذا كنت تستخدم NCBI-BLAST (قاعدة بيانات nr) ، فستحتاج إلى معرفة معرّفات GenBank.

تحسين المقارنة الزوجية لتسلسل البروتين مع التواجد المشترك للمجال

تعد مقارنة تسلسل البروتينات ومواءمتها مهمة أساسية في المعلوماتية الحيوية. وبشكل أكثر تحديدًا ، تُستخدم أدوات المحاذاة المحلية مثل BLAST على نطاق واسع لتحديد سلاسل البروتين الفرعية المحفوظة ، والتي من المحتمل أن تتوافق مع مجالات البروتين أو الأشكال الوظيفية. ومع ذلك ، للحد من عدد الإيجابيات الخاطئة ، يتم استخدام هذه الأدوات مع عتبات تشابه تسلسل صارمة ، وبالتالي يمكن أن تفوت العديد من النتائج ، خاصة بالنسبة للأنواع البعيدة نسبيًا عن الكائنات المرجعية. يكون حل هذه المشكلة بعد ذلك هو دمج معلومات سياقية إضافية في الإجراء. هنا ، نقترح استخدام التواجد المشترك للمجال لزيادة حساسية مقارنات التسلسل الزوجي. يعد التواجد المشترك في المجال سمة قوية للبروتينات ، حيث تميل معظم مجالات البروتين إلى الظهور مع عدد محدود من المجالات الأخرى على نفس البروتين. نقترح طريقة لأخذ هذه المعلومات في الاعتبار في تحليل بلاست نموذجي وإنشاء مجموعات مجال جديدة على أساس هذه النتائج. كنا المتصورة المنجلية كدراسة حالة لتقييم طريقتنا. أظهرت النتائج التجريبية زيادة بنسبة 14 ٪ في عدد مرات الوصول إلى BLAST وزيادة بنسبة 25 ٪ من منطقة البروتين التي يمكن تغطيتها بمجال. حددت طريقتنا 2240 مجالًا جديدًا لا يمكن ، في معظم الحالات ، ربط أي نموذج لقاعدة بيانات Pfam بها. علاوة على ذلك ، تُظهر دراستنا لجودة المجالات الجديدة من حيث المحاذاة والخصائص الفيزيائية والكيميائية أنها قريبة من مجالات Pfam القياسية. شفرة المصدر للنهج المقترح والبيانات التكميلية متاحة على: https://gite.lirmm.fr/menichelli/pairwise-comparison-with-cooccurrence


بلاست API

يتم استخدام BLAST (أداة البحث عن المحاذاة المحلية الأساسية) لإجراء عمليات بحث عن تشابه التسلسل. غالبًا ما يعني هذا أنه يتم استخدام بلاست للبحث في تسلسل (إما DNA أو بروتين) مقابل قاعدة بيانات للتسلسلات الأخرى (إما كل النيوكليوتيدات أو البروتين بالكامل) من أجل تحديد التسلسلات المماثلة. يحتوي BLAST على العديد من النكهات المختلفة ولا يمكنه فقط البحث عن الحمض النووي مقابل الحمض النووي أو البروتين ضد البروتين ، ولكن يمكنه أيضًا ترجمة استعلام النيوكليوتيد والبحث فيه مقابل قاعدة بيانات البروتين وكذلك العكس. يمكنه أيضًا حساب "ملف تعريف" لتسلسل الاستعلام واستخدامه لمزيد من عمليات البحث بالإضافة إلى البحث في الاستعلام مقابل قاعدة بيانات لملفات التعريف. يتوفر BLAST كخدمة ويب في NCBI ، باعتباره ثنائيًا قائمًا بذاته ، وهو مدمج في أدوات أخرى. إنه برنامج متعدد الاستخدامات وربما أكثر برامج البحث عن التشابه استخدامًا في العالم. يعمل BLAST على العديد من الأنظمة الأساسية المختلفة التي تشمل Windows و MacOS و LINUX والعديد من نكهات UNIX. كما أنه قيد التطوير المستمر مع ابتكارات خوارزمية جديدة. يمكن العثور على مراجع متعددة لـ BLAST على https://blast.ncbi.nlm.nih.gov/Blast.cgi؟CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=References.

تمت إعادة كتابة إصدار BLAST في NCBI C ++ Toolkit من البداية بناءً على الإصدار الموجود في C Toolkit الذي تم تقديمه في الأصل في عام 1997. تم اتخاذ قرار بتقسيم رمز الإصدار الجديد من BLAST إلى فئتين مختلفتين. يوجد الكود "الأساسي" لـ BLAST المكتوب بلغة Vanilla C ولا يستخدم أي جزء من NCBI C أو C ++ Toolkits. هناك أيضًا رمز "API" مكتوب بلغة C ++ ويستفيد بشكل كامل من الأدوات التي توفرها مجموعة أدوات NCBI C ++. كان السبب في كتابة الجزء الأساسي من الكود في Vanilla C هو أنه يمكن استخدام نفس الكود في C Toolkit (لاستبدال إصدار 1997) بالإضافة إلى تمكين الباحثين المهتمين بتطوير الخوارزمية من العمل مع جوهر بلاست بشكل مستقل عن أي مجموعة أدوات. على الرغم من أن الجزء الأساسي قد تمت كتابته بدون الاستفادة من مجموعة أدوات C ++ أو C ، فقد تم بذل جهد للتوافق مع فصل سياسات البرمجة والإرشادات في هذا الكتاب. تُستخدم التعليقات على غرار Doxygen للسماح بإنشاء وثائق API تلقائيًا (راجع رابط BLAST Doxygen على https://www.ncbi.nlm.nih.gov/IEB/ToolBox/CPP_DOC/doxyhtml/group__AlgoBlast.html). يمكن العثور على كل من الأجزاء الأساسية و API من BLAST تحت algo / blast في C ++ Toolkit.

جرت محاولة لعزل مستخدم واجهة برمجة تطبيقات BLAST (كما هو مكشوف في algo / blast / api) من جوهر BLAST ، بحيث تكون التحسينات الخوارزمية أو إعادة هيكلة هذا الرمز شفافة لمبرمج واجهة برمجة التطبيقات قدر الإمكان . نظرًا لأن BLAST قيد التطوير باستمرار والعديد من التطورات تتضمن ميزات جديدة ، فليس من الممكن أو المرغوب دائمًا عزل مبرمج API عن هذه التغييرات. سيركز هذا الفصل على API لمجموعة أدوات C ++. سيتم مناقشة عدد قليل من فئات البحث المختلفة. تتضمن هذه الفئة CLocalBlast ، والتي تُستخدم عادةً للبحث في استعلام (أو استعلامات) مقابل قاعدة بيانات BLAST CRemoteBlast ، وتستخدم لإرسال عمليات البحث إلى خوادم NCBI وكذلك CBl2Seq ، وهي مفيدة للبحث عن تسلسل الهدف الذي لم يتم تنسيقه كقاعدة بيانات بلاست.


نتائج

كما هو مبين في الجدول 1 ، يستخدم ProSplicer مادة على 21786 جينًا من ENSEMBL [5] ، بإجمالي 2311460 تسلسلًا بما في ذلك متواليات البروتين ، و mRNA ، و EST ، لاستكشاف أوجه التشابه في التسلسل المحلي التي يمكن أن تكشف عن متغيرات الربط البديلة. يظهر عدد مرشحي exon الناتج عن أدوات المحاذاة في الجدول 1: 442،077 ، 395،619 ، و 12361،685 مرشحًا من exon يتم توقعه من خلال محاذاة متواليات البروتين وتسلسلات mRNA وتسلسلات EST ، على التوالي ، مقابل التسلسلات الجينومية. يأخذ ProSplicer أيضًا تسلسل بروتين الفأر في الاعتبار للكشف عن مقارنة الأنواع المتقاطعة لمتغيرات التضفير البديلة للجين. أي أن تسلسلات بروتين الفأر تتماشى مع تسلسل الجينوم البشري ويتم إنشاء الكتل المطابقة لتكون مرشحة إكسون.

واجهات الاستعلام

في ProSplicer ، جميع متواليات الأدلة ذات الصلة ، أي mRNA و EST وتسلسلات البروتين التي يتم الاحتفاظ بها في قاعدة البيانات ، تتماشى مسبقًا مع تسلسل الجينوم. يتم أيضًا تخزين جميع متغيرات الربط البديلة التي تم الكشف عنها بواسطة المحاذاة بعد مرحلة التصفية. يتم توفير كل من المعلومات النصية والرسومية في ProSplicer ، بالإضافة إلى واجهات الاستعلام المتوفرة عبر الويب.

من خلال النظر في أشكال التضفير البديلة للجين المتوفرة في ProSplicer ، قد يتم استبعاد exon أو اختياره بعد مقارنته بتسلسلات أخرى من البروتين أو mRNA أو EST. يتم تضمين الأنواع الثلاثة الرئيسية لأحداث التضفير البديلة ، بما في ذلك تخطي exon ، ومواقع مانحة الربط البديلة 5 ، ومواقع تقبل التضفير البديلة 3 [6] في قاعدة البيانات. يوضح الشكل 1 مثالاً لثلاثة أنواع من أحداث الربط البديلة. يمكن عرض الأنواع الثلاثة لأشكال الربط البديلة مباشرة في واجهة المستخدم الرسومية في ProSplicer ، كما هو موضح في الشكل 2.

مقارنة أزواج من النسخ من نفس الجين تظهر ثلاثة أنواع من أحداث التضفير البديلة. تشير الأشرطة المظللة إلى أن exon يرشح الخطوط الرفيعة التي تشير إلى مناطق intron.

مثال على تحليل ProSplicer يوضح كيفية عرض الأنواع الثلاثة لحدث الربط البديل.

ادوات البحث

يوفر ProSplicer العديد من معايير البحث عن الكلمات الرئيسية ، مثل أرقام تعريف الجينات Ensembl ورموز أو أسماء الجينات ومعرف البروتين ومعرف UniGene. يمكن للمستخدمين إرسال رمز الجين ككلمة رئيسية وتعيد قاعدة البيانات نتيجة الاستعلام التي تحتوي على الكلمة الأساسية. يتم أيضًا توفير جميع المعلومات المتعلقة بالجينات ، بما في ذلك الأدلة الداعمة ، وهي mRNA و EST وتسلسل البروتين ، في الواجهة. يمكن أيضًا تقديم معرف البروتين ومعرف UniGene بواسطة المستخدم وتعيد نتيجة الاستعلام الجينات التي تدعمها تسلسلات بروتين الاستعلام أو مجموعات UniGene.

معلومات الجينات

يوفر ProSplicer روابط مرجعية ذات صلة بقواعد البيانات البيولوجية الأخرى والتسلسلات المتعلقة بالجينات المختارة. تتضمن التعليقات التوضيحية ذات الصلة وروابط قاعدة البيانات المرجعية للجين أرقام معرف المجموعة ورموز الجينات والمواقع الجينية وأوصاف الجينات. كما هو موضح في الشكل 3 ، تشمل الروابط المرجعية المتاحة GO (بيانات علم الوجود الجيني) [7] ، HUGO (توفير الوصول إلى قائمة رموز الجينات البشرية المعتمدة حاليًا) [8] ، GeneCard [9] (دمج الجينات البشرية ومنتجاتها ومشاركتهم في الأمراض) ، LocusLink [10] (تنظيم المعلومات حول الجينات لإنشاء محور مركزي للوصول إلى المعلومات الخاصة بالجينات) ، RefSeq [11] (توفير معايير التسلسل المرجعي للجينومات والنسخ والبروتينات) و OMIM [12] .

معلومات الجينات والروابط في ProSplicer.

عرض الربط الرسومي

يتكون عرض الربط من جزأين - "نظرة عامة" و "عرض تفصيلي". توفر واجهة النظرة العامة عرضًا رسوميًا لموقع الجين المحدد على الكروموسوم. يوضح الشكل 4 العرض التفصيلي في ProSplicer. هناك نوعان من العناصر الرسومية في العرض التفصيلي. الأول هو شريط الضبط لتوسيع نطاق العارض وتحريكه على طول الكروموسوم. يوضح الثاني نتيجة المحاذاة لتسلسل mRNA و EST وتسلسل البروتين مقابل التسلسل الجيني الجيني للكشف عن متغيرات التضفير البديلة. توفر الواجهة الرسومية الوظائف التالية.

الواجهة الرسومية "العرض التفصيلي" في ProSplicer.

القفز إلى منطقة معينة. يمكنك القفز إلى منطقة محددة من قبل المستخدم من التسلسل الجيني (انظر أ في الشكل 4) حيث يتم أيضًا عرض جميع التسلسلات ذات الصلة ونتائج المحاذاة في العرض التفصيلي.

تحجيم العرض. يمكنك قياس العرض إلى 1/8،1 / 4،1 / 2 أو 2 أو 4 أو 8 أضعاف حجم النافذة الحالية (انظر B في الشكل 4).

تحريك العرض. يمكنك الانتقال إلى يسار أو يمين العرض الحالي (انظر C في الشكل 4).

يظهر أيضًا في الشكل 4 العرض الرسومي الرئيسي لطريقة عرض الربط البديلة. يشتمل هذا على معلومات الجينات الأساسية: معرف الجين (D) ، ورمز الجين (E) ، ووصف الجين (F). العناصر المتوفرة في عرض الربط هي: جودة المحاذاة (G) ، مع درجة التشابه بين الكتل المطابقة ، أي ، مرشحات exon ، ممثلة بألوان مختلفة بطول منطقة الجين المحددة (H) وتحديد التسلسل ( I) - كل "معرف تسلسل" للنيوكليوتيدات أو تسلسل البروتين مرتبط تشعبيًا بـ SWISS-PROT و GenBank و dbEST. عندما تنقر على مرشح exon (J) ، تفتح نافذة تصفح جديدة تعرض ملف المحاذاة الثابت. تشير تعبئة الألوان المختلفة لكتل ​​exon إلى جودة المحاذاة كما هو موضح في G. عند النقر فوق كتلة intron ، يتم فتح نافذة تصفح جديدة تعرض ملف المحاذاة المسطح. تتضمن الشاشة أيضًا معلومات عن الأنسجة ، مع تمثيل أنسجة مختلفة بألوان مختلفة ، ومعلومات عن الأنواع عن الكائن الحي المصدر للبروتين أو تسلسل الرنا المرسال.

مقارنة بين قواعد بيانات وأدوات الربط البديلة الحالية

تم إنشاء العديد من قواعد بيانات الربط البديلة ، مثل AsMamDB [13] و ASDB [14] و SpliceDB [15] ، على أساس الجينات المشروحة التي تحتوي على الكلمات الرئيسية "التضفير البديل". يحتوي AsMamDB على معلومات حول التضفير البديل في العديد من الثدييات. تجمع SpliceNest [16] ، و SpliceDB ، و AsMmDB ، و HASDB [17] مجموعة ESTs على الحمض النووي الجيني البشري لحساب الهياكل الجينية ومتغيرات لصق. يأخذ PALS db [6] أطول تسلسل mRNA في كل مجموعة UniGene [18] كتسلسل مرجعي ، والذي يتماشى مع تسلسل ESTs و mRNA في نفس المجموعة للتنبؤ بمواقع الربط البديلة. خادم BLAT [19] عبارة عن أداة محاذاة شبيهة بـ BLAST تعمل على محاذاة تسلسل نوكليوتيد الإدخال للتسلسلات الجينية البشرية ، و mRNA ، و EST وتسلسلات البروتين. ينشئ BLAT فهرسًا لقاعدة البيانات ثم يمسح خطيًا عبر تسلسل الاستعلام للمحاذاة المحلية. ثم يقوم بربطها معًا في محاذاة أكبر. أخيرًا ، يقوم BLAT بإعادة النظر في exons الداخلية الصغيرة التي ربما تكون مفقودة في المرحلة الأولى ، وحيثما يكون ذلك ممكنًا ، يعدل حدود الفجوة الكبيرة التي تحتوي على مواقع لصق متعارف عليها. يعتبر BLAT أكثر دقة وأسرع 500 مرة من الأدوات الشائعة الموجودة لمحاذاة mRNA / DNA. تعتبر BLAT فعالة جدًا في إجراء المحاذاة بين mRNA والحمض النووي الجيني من نفس النوع ، ويمكن أن تكشف عن متغيرات التضفير من نتيجة المحاذاة. تقوم ProSplicer بمحاذاة متواليات الجينات المعروفة والجديدة مسبقًا لتسلسلات mRNA و EST والبروتين المتوفرة. يكون ProSplicer مفيدًا عندما يريد المستخدم العثور على متغيرات تضفير بديلة عن طريق إدخال الجين. نلخص باختصار الفرق بين ProSplicer و BLAT على النحو التالي.

أولاً ، يمكن للباحثين إدخال أسماء الجينات في ProSplicer بدلاً من تسلسل النوكليوتيدات في مرحلة الاستعلام. ثانيًا ، من المرجح أن تكون طرق محاذاة التسلسلات وترشيحها مختلفة جدًا. نصف طريقتنا بشكل كامل في قسم المواد والطريقة. ثالثًا ، في ProSplicer ، يتم توفير روابط لقواعد بيانات مختلفة ومعلومات وظيفية عن جينات معينة (OMIM و RefSeq و GO و HUGO وما إلى ذلك).

يتم إعطاء مقارنة بين العديد من قواعد بيانات وأدوات الربط البديلة في الجدول 2. يشير العمود "التسلسل المشار إليه" إلى التسلسلات الجينية ، أو تسلسل mRNA الأطول في مجموعات UniGene عند استخدامه. يُظهر عمود "أنواع التسلسل المدعوم" المواد ، بما في ذلك تسلسل البروتينات أو mRNA أو EST ، والتي تُستخدم لتحليل أشكال التضفير البديلة للجينات ثم التحقيق فيها. يتم عرض أداة المحاذاة المستخدمة في كل نهج أيضًا. ما إذا كان معيار التضفير البديل لإدراج الجينات قد تم تحديده من خلال البحث في الأدبيات أم لا في الجدول 2 أيضًا.


تتوفر قواعد بيانات ribosomal RNA BLAST الجديدة على خدمة الويب BLAST وللتنزيل

لدينا مجموعة منسقة من التسلسلات المرجعية للحمض النووي الريبوزي (الرنا الريباسي) (المواقع المستهدفة) مع مصادر الكائنات الحية التي يمكن التحقق منها والأسماء الحالية. هذه المجموعة ضرورية لتحديد وتصنيف بدائية النواة (البكتيريا والعتائق) والعينات الفطرية بشكل صحيح (الجدول 1). لتوفير وصول سهل إلى هذه التسلسلات ، أضفنا مؤخرًا ملف قواعد بيانات rRNA / ITS قسم في صفحة بلاست النيوكليوتيدات لهذه التسلسلات المستهدفة التي تجعل من الملائم تحديد الكائنات الحية المصدر بسرعة (الشكل 1)


خدمة بلاست¶

1. تحديد موقع خدمة بلاست¶

في الجزء العلوي من أي صفحة PATRIC ، ابحث عن علامة التبويب الخدمات. انقر فوق بلاست.

سيؤدي هذا إلى فتح الصفحة المقصودة لـ BLAST حيث يمكن للباحثين إجراء عمليات بحث BLAST عن الأحماض الأمينية أو النيوكليوتيدات.

II. تحميل تسلسل واختيار نوع الانفجار¶

قص ولصق تسلسل في مربع التسلسل. اعتمادًا على التسلسل ، سيؤدي هذا إلى فتح المربع المنسدل أسفل البرنامج ، والذي يعرض أنواع BLAST المتاحة (1). تعريفات أنواع عمليات البحث بلاست هي كما يلي:

بلاست: يبحث في قواعد بيانات النوكليوتيدات باستخدام استعلام نيوكليوتيد

BLASTP: يبحث في قواعد بيانات البروتين باستخدام استعلام البروتين

BLASTX: يبحث في قواعد بيانات البروتين باستخدام استعلام نيوكليوتيد مترجم

TBLASTX: يبحث في قواعد بيانات النوكليوتيدات المترجمة باستخدام استعلام نيوكليوتيد مترجم

TBLASTN: للبحث في موضوعات النيوكليوتيدات المترجمة باستخدام استعلام عن البروتين

لاحظ أن جميع التنسيقات لجميع عمليات إرسال بلاست تتطلب أن يبدأ السطر الأول بـ & gt. إذا كان السطر الأول يفتقر إلى & gt ، فستفشل مهمة BLAST.

سيؤدي النقر فوق الخوارزمية المختارة إلى إغلاق المربع المنسدل وعرض الاختيار في مربع نص البرنامج.

ثالثا. اختيار قاعدة بيانات¶

يوفر PATRIC مجموعة متنوعة من قواعد البيانات التي يمكن مقارنة التسلسلات المحددة بها. إذا كان التسلسل المحدد عبارة عن بروتين ، فإن قواعد البيانات المتاحة هي كما يلي:

يتضمن المرجع أو بروتينات الجينوم التمثيلية (faa) تلك الجينومات التي منحتها RefSeq حالة خاصة (2). تمثل الجينومات المرجعية أعلى مجموعة بيانات جودة مدعومة من قبل طاقم عمل NCBI العلمي ، والجينومات التمثيلية هي اختيار آخر عالي الجودة تم تحديده في RefSeq من خلال تجميع الجينومات وتطبيق مقاييس الترجيح التي تشمل النظر في التصنيف التصنيفي على مستوى الأنواع ( على سبيل المثال ، تفضيل لسلالة النوع) وجودة التجميع (على سبيل المثال ، تفضيل الجينوم الكامل لكن WGS مسموح به).

تتضمن بروتينات جينومات Transcriptomics (faa) جميع البروتينات الموجودة في أي من تجارب المصفوفات الدقيقة المضمنة في PATRIC.

تحتوي البروتينات المرجعية للجينات المتخصصة (faa) على جميع الجينات المستخدمة بواسطة PATRIC لتمييز الجينات ذات الأهمية الخاصة. وتشمل هذه الجينات التي تم تحديدها على أنها عوامل ضراوة ، وهي مهمة في مقاومة المضادات الحيوية أو القابلية للتأثر بها ، أو المتجانسات مع الجينات البشرية ، أو التي تم التحقيق فيها على أنها هدف دوائي.

يسمح البحث داخل جين (جينات) محدد للباحثين باختيار جينومات معينة يرغبون في مواجهتها.

يسمح البحث ضمن مجموعة الجينوم المختارة للباحث بإجراء بلاست ضد أي من مجموعات الجينوم التي قاموا بإنشائها وتخزينها في مساحة العمل الخاصة بهم.

البحث باستخدام أصناف مختارة يسمح للباحثين بتفجير تسلسلهم مقابل أي مستوى تصنيف متاح في PATRIC.

إذا كان التسلسل المحدد لتحليل بلاست هو نوكليوتيد ، فإن قواعد البيانات المتاحة هي كما يلي: • جينات الجينوم المرجعية أو التمثيلية (fna) ، أو حمض نووي فاستا ، تتضمن تلك الجينومات التي منحها المرجع RefSeq حالة خاصة (2). يستخدم .fna بشكل عام لتحديد الأحماض النووية. تمثل الجينومات المرجعية أعلى مجموعة بيانات جودة مدعومة من قبل طاقم عمل NCBI العلمي ، والجينومات التمثيلية هي اختيار آخر عالي الجودة تم تحديده في RefSeq من خلال تجميع الجينومات وتطبيق مقاييس الترجيح التي تشمل النظر في التصنيف التصنيفي على مستوى الأنواع ( على سبيل المثال ، تفضيل لسلالة النوع) وجودة التجميع (على سبيل المثال ، تفضيل الجينوم الكامل لكن WGS مسموح به). وسيشمل ذلك التسلسلات غير المشفرة ، مثل المناطق بين الجينات.

ميزات الجينوم المرجعي أو التمثيلي (ffn) هي نوكليوتيد FASTA لمناطق الجينات ، وتحتوي قاعدة البيانات هذه على جميع مناطق الترميز عبر هذا التحديد الخاص للجينومات.

ميزات الجينوم المرجعي والممثل (frn) هي RNA غير المشفر لـ FASTA ، وتشمل جميع مناطق RNA غير المشفرة للجينوم (tRNA ، rRNA).

تتضمن جينات PATRIC 16sRNA (frn) جميع جينات الرنا الريباسي 16s عبر جميع الجينومات المتوفرة في PATRIC.

سوف تنفجر جينومات النسخ (ffn) ضد جميع تسلسلات الجينوم التي تحتوي على بيانات تعبير مرتبطة بها والمتاحة للجمهور في PATRIC. وسيشمل ذلك التسلسلات غير المشفرة ، مثل المناطق بين الجينات.

ميزة جينومات النسخ (ffn) سوف تنفجر ضد جميع تسلسلات الترميز من الجينومات التي تحتوي على بيانات تعبير مرتبطة بها والمتاحة للجمهور في PATRIC.

سوف تنفجر contigs البلازميد (fna) ضد جميع التسلسلات المحددة على أنها قادمة من البلازميدات المتوفرة في PATRIC. وسيشمل ذلك التسلسلات غير المشفرة ، مثل المناطق الجينية.

يسمح البحث داخل الجينومات المختارة للباحثين باختيار جينومات معينة يرغبون في ضدها.

يسمح البحث ضمن مجموعة الجينوم المختارة للباحث بإجراء بلاست ضد أي من مجموعات الجينوم التي قاموا بإنشائها وتخزينها في مساحة العمل الخاصة بهم.

البحث باستخدام أصناف مختارة يسمح للباحثين بتفجير تسلسلهم مقابل أي مستوى تصنيف متاح في PATRIC.

رابعا. التفجير ضد الميزات الجينية أو كونتيجس¶

اعتمادًا على نوع الاستعلام ، سيتمكن الباحثون من اختيار البحث في الجينوم بأكمله أو قصر البحث على الميزات فقط. عند تحديد BLASTN أو TBLASTN أو TBLASTX ، يمكن للباحثين اختيار البحث في أي من contigs أو الميزات. عند تحديد BLASTP أو BLASTX ، يقتصر البحث على الميزات.

V. ضبط الانفجار¶

بمجرد تحديد قاعدة بيانات لـ BLAST ضدها ، يكون للباحثين خيار تحسين وظيفة BLAST باستخدام الخيارات المتقدمة.

يمكن للباحثين ضبط كل من عدد النتائج التي تم إرجاعها ، وعتبة القيمة E. هناك حدود لعدد الزيارات التي تم إرجاعها. لرؤية الرقم المتاح ، انقر فوق السهم الموجود في نهاية مربع النص ضمن Max Hits. سيؤدي هذا إلى فتح مربع منسدل يسمح للباحثين باختيار 1 أو 10 أو 50 أو 100 أو 500 نتيجة.

السادس. تقديم مهمة بلاست¶

بمجرد تحميل التسلسل ، واختيار البرنامج وقاعدة البيانات ، وضبط معلمات BLAST ، يمكن بدء المهمة بالنقر فوق الزر "بحث" في أسفل الصفحة.

سابعا. فحص نتائج بلاست¶

عندما تكون نتائج بلاست جاهزة ، ستتم إعادة تحميل الصفحة مع إظهار اسم الكائن ، والاستعلام وتغطية الموضوع ، والنتيجة وقيمة E. اعتمادًا على نوع BLAST المحدد ، سيرى الباحثون أيضًا علامات الموقع ورموز الجينات والأوصاف الوظيفية للميزات أو معلومات حول contigs الجينومي.

سيؤدي النقر فوق خانة اختيار واحدة أمام عودة معينة إلى القيام بأمرين. سيقوم بتعبئة الشريط الأخضر العمودي بجميع أدوات أو عمليات التحليل النهائية الممكنة التي يمكن نشرها مع هذا التحديد. مع خيار واحد ، تشمل هذه الاحتمالات

القدرة على تنزيل المعلومات على التسلسل

ملف فاستا (بروتين أو نيوكليوتيد)

القدرة على النظر إلى المعرفات الأخرى المرتبطة بالجين بواسطة أداة تحديد الهوية ، ما هو المسار الذي يتضمن الجين المحدد

القدرة على إنشاء مجموعة جديدة تتضمن الميزة ، أو إضافتها إلى مجموعة موجودة ،

رابط مباشر لصفحة الجينوم المقصودة التي تنتمي إليها الميزة.

رابط مباشر إلى الصفحة المقصودة لميزة ذلك الجين أو البروتين. عند تحديد نتيجة واحدة ، تظهر المعلومات الخاصة بهذا الاختيار المحدد أيضًا خارج الشريط الأخضر.

سيؤدي النقر فوق مربعات الاختيار المتعددة أيضًا إلى ملء الشريط الأخضر الرأسي بأدوات أو عمليات تحليل المصب. هذه مشابهة لتلك التي تم تمكينها عند اختيار عائد واحد ، مع بعض الاختلافات التي تشمل:

القدرة على إنشاء محاذاة متعددة التسلسل (MSA)

القدرة على الانتقال إلى صفحة مقصودة محددة تلخص جميع البيانات عبر الميزات المحددة (رمز الميزات)

القدرة على الانتقال إلى صفحة مقصودة محددة تلخص جميع البيانات عبر الجينومات التي تحتوي على الميزات المحددة (رمز الجينوم)

تم توضيح بعض الأمثلة على عملية المصب ، وتحديدًا الحصول على التسلسلات ، وتوليد أشجار الجينات / محاذاة التسلسل المتعدد ، وتلخيص الجينات المحددة على خريطة مسار KEGG.

ثامنا. إرسال مهمة تفجير أخرى¶

في الجزء العلوي من صفحة نتائج بلاست ، يمكن للباحثين النقر فوق الزر تحرير من وإعادة الإرسال لبدء مهمة بلاست أخرى

سيؤدي هذا إلى إعادة تحميل الصفحة ، مع إظهار المعلمات الأصلية المستخدمة لوظيفة BLAST الأولى. يمكن تعديلها ، مع تقديم وظيفة ثانية عن طريق النقر فوق الزر "بحث" في أسفل الصفحة.


توصيف متواليات بروتين التاناز للبكتيريا والفطريات: دراسة في السيليكو

تم استرداد تسلسل بروتين التاناز من 149 بكتيريا و 36 فطريات من قاعدة بيانات NCBI. من بينها تم أخذ 77 تسلسلًا بكتيريًا و 31 فطريًا فقط من التاناز والتي تحتوي على تركيبات مختلفة من الأحماض الأمينية. تم تحليل هذه التسلسلات من أجل الخصائص الفيزيائية والكيميائية المختلفة ، والبحث عن العائلات الفائقة ، ومحاذاة التسلسل المتعدد ، وبناء شجرة النشوء والتطور ، وإيجاد الحافز لمعرفة الدافع الوظيفي والعلاقة التطورية فيما بينها. كشف البحث عن العائلة الفائقة عن هذه التاناز عن وجود البرولين مثل إيمينو ببتيداز ، وبروتين التخليق الحيوي للبيوتين BioH ، و O-acetyltransferase ، و carboxylesterase / thioesterase 1 ، و carbon – carbon bond hydrolase ، و haloperoxidase ، و propyl oligopeptidase ، و c-terminal domain و alphaacterial / عائلة بيتا هيدرولاز. أظهرت بعض المتواليات البكتيرية والفطرية تشابهًا مع العائلات المختلفة بشكل فردي. أظهرت المحاذاة متعددة التسلسل لتسلسل بروتين التاناز مناطق محفوظة على امتدادات مختلفة مع أقصى قدر من التماثل من بقايا الأحماض الأمينية 389-469 و 482-523 والتي يمكن استخدامها لتصميم بادئات متدهورة أو مجسات خاصة بإنتاج التاناز للأنواع البكتيرية والفطرية. أظهرت شجرة النشوء والتطور مجموعتين مختلفتين ، إحداهما بها بكتيريا فقط والأخرى بها فطريات وبكتيريا تظهر بعض العلاقة بين هذه الأجناس المختلفة. على الرغم من أنه تم العثور في المجموعة الثانية بالقرب من جميع الأنواع الفطرية معًا في زاوية مما يشير إلى تشابه مستوى التسلسل بين الأجناس الفطرية. كشفت توزيعات تحليل أربعة عشر شكلاً عن موتيف 1 بتسلسل حمض أميني مميز من 29 حمضًا أمينيًا ، أي GCSTGGREALKQAQRWPHDYDGIIANNPA ، لوحظ بشكل موحد في 83.3٪ من سلاسل التاناز المدروسة التي تمثل مشاركتها في التركيب والوظيفة الأنزيمية.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


بعد دراسة الفيزياء في البداية ، حصل جيش على درجة A.B. حاصل على درجة البكالوريوس في الكيمياء الحيوية من جامعة كاليفورنيا ، بيركلي ، وأكمل عمله للحصول على درجة الدكتوراه. شهادة في البيولوجيا الجزيئية من نفس المؤسسة عام 1988. [1]

يُعرف Gish بشكل أساسي بمساهماته في NCBI BLAST ، [4] [5] إنشائه لخدمة شبكة بلاست و لا قواعد البيانات (غير الزائدة عن الحاجة) ، وإصداره عام 1996 من النسخة الأصلية بلاست (WU-BLAST 2.0) ، وآخرها تطويره ودعمه لـ AB-BLAST. في جامعة واشنطن في سانت لويس ، قاد غيش أيضًا مجموعة تحليل الجينوم التي قدمت شرحًا توضيحيًا لجميع بيانات الجينوم البشري والفأر والفئران النهائية التي أنتجها مركز تسلسل الجينوم التابع للجامعة من عام 1995 حتى عام 2002.

كطالب متخرج ، قام Gish بتطبيق خوارزمية Quine-McCluskey لتحليل تسلسل التعرف على موقع لصق. في عام 1985 ، بهدف التعرف السريع على مواقع التعرف على إنزيمات التقييد في الحمض النووي ، طور Gish مكتبة وظائف DFA بلغة C. اقترح مايك كارلس فكرة تطبيق آلة الحالة المحدودة على هذه المشكلة. كان تنفيذ DFA الخاص بـ Gish هو نفس بنية آلة Mealy ، وهي أكثر إحكاما من آلة Moore المكافئة وبالتالي أسرع. كان بناء DFA هو O (ن)، أين ن هو مجموع أطوال تسلسلات الاستعلام. يمكن بعد ذلك استخدام DFA لمسح تسلسل الموضوع في مسار واحد دون الرجوع في O (م) الوقت أين م هو الطول الإجمالي للموضوع (ق). تم التعرف على طريقة إنشاء DFA لاحقًا على أنها دمج لخوارزميتين ، الخوارزميات 3 و 4 التي وصفها ألفريد ف.آهو ومارغريت جيه كوراسيك. [6]

أثناء العمل في جامعة كاليفورنيا. بيركلي في ديسمبر 1986 ، قام غيش بتسريع برنامج FASTP [7] (المعروف لاحقًا باسم FASTA [8]) لـ William R. Pearson و David J. Lipman بمقدار 2 إلى 3 أضعاف دون تغيير النتائج. عندما تم إرسال تعديلات الأداء إلى Pearson و Lipman ، اقترح Gish أيضًا أن DFA (بدلاً من جدول البحث) من شأنه أن يؤدي إلى تحديد k-tuple أسرع ويحسن السرعة الإجمالية للبرنامج بنسبة تصل إلى 10٪ في بعض الحالات. اعتبر المؤلفون أن مثل هذا التحسين الهامشي حتى في أفضل الأحوال لا يستحق التعقيد الإضافي للشفرة. تصور Gish أيضًا في هذا الوقت خدمة بحث مركزية ، حيث سيتم الاحتفاظ بجميع تسلسلات النيوكليوتيدات من GenBank في الذاكرة للتخلص من اختناقات الإدخال / الإخراج - وتخزينها في شكل مضغوط للحفاظ على الذاكرة - مع استدعاء العملاء لعمليات بحث FASTN عن بُعد عبر الإنترنت.

تم تقديم مساهمات Gish الأولى في BLAST أثناء العمل في NCBI ، بدءًا من يوليو 1989. حتى في النماذج الأولية المبكرة ، كان BLAST عادةً أسرع بكثير من FASTA. أدرك Gish الفائدة الإضافية المحتملة في هذا التطبيق لاستخدام DFA للتعرف على الكلمات. قام بتحويل رمز DFA السابق الخاص به إلى شكل مرن قام بدمجه في جميع أوضاع بحث بلاست. تشمل مساهماته الأخرى في BLAST ما يلي: استخدام متواليات النوكليوتيدات المضغوطة ، كتنسيق تخزين فعال وكتنسيق بحث أصلي سريع ومعالجة موازية المعينة للذاكرة I / O ، واستخدام وحدات بايت الحارس والكلمات الحارس في البداية والنهاية من التسلسلات لتحسين سرعة امتداد الكلمات التي تصل إلى التطبيقات الأصلية لـ بلاستكس, [9] TBLASTN [4] و TBLASTX (غير منشور) الاستخدام الشفاف للبرامج الخارجية (المكونات الإضافية) مثل شريحة, xnu، و تراب لإخفاء المناطق منخفضة التعقيد في تسلسل الاستعلام في وقت التشغيل ، فإن NCBI BLAST E-mail Service مع اتصالات اختيارية مشفرة بالمفتاح العام ، وخدمة NCBI Experimental BLAST Network Service ، NCBI غير زائدة عن الحاجة (لا) قواعد بيانات تسلسل البروتين والنيوكليوتيدات ، التي يتم تحديثها عادةً على أساس يومي بجميع البيانات من GenBank و Swiss-Prot و PIR. طور Gish أول واجهة برمجة تطبيقات BLAST ، والتي تم استخدامها في EST [10] التعليقات التوضيحية وإنتاج بيانات Entrez ، وكذلك في مجموعة تطبيقات الإصدار 1.4 من NCBI BLAST (Gish ، غير منشورة). كان Gish أيضًا منشئ ومدير المشروع لأول مرسل NCBI للخدمات الموزعة (مستوحى من وسيط طلبات الكائنات في CORBA). تم افتتاح NCBI Experimental BLAST Network Service لأول مرة للمستخدمين الخارجيين في ديسمبر 1989 ، والتي تقوم بتشغيل أحدث برامج BLAST على أجهزة SMP مقابل أحدث إصدارات قواعد بيانات التسلسل الرئيسية ، وسرعان ما أنشأت NCBI كمتجر مناسب وقفة واحدة للبحث عن تشابه التسلسل .

في جامعة واشنطن في سانت لويس ، أحدث Gish ثورة في البحث عن التشابه من خلال تطوير مجموعة BLAST الأولى من البرامج للجمع بين محاذاة التسلسل السريع مع طرق التقييم الإحصائي المناسبة لنتائج المحاذاة. كانت برامج البحث الناتجة أكثر حساسية بشكل ملحوظ ولكنها كانت أبطأ بشكل هامشي فقط من BLAST غير المربوطة ، بسبب التطبيق الجديد لدرجة إسقاط BLAST X أثناء تمديد محاذاة فجوة. تم تحسين حساسية BLAST المفلطح من خلال التطبيق الجديد لإحصائيات Karlin-Altschul Sum [11] لتقييم درجات المحاذاة المتعددة في جميع أوضاع بحث بلاست. Sum statistics were originally developed analytically for the evaluation of multiple, ungapped alignment scores. The empirical use of Sum statistics in the treatment of gapped alignment scores was validated in collaboration with Stephen Altschul, from 1994-1995. In May 1996, WU-BLAST version 2.0 with gapped alignments was publicly released in the form of a drop-in upgrade for existing users of ungapped NCBI BLAST and WU-BLAST (both at version 1.4, after having forked in 1994). Little NIH funding was received for his WU-BLAST development, with an average of 20% FTE starting in November 1995, and ending shortly after the September 1997 release of the NCBI gapped BLAST (“blastall”). As an option to WU-BLAST, Gish implemented a faster, more memory-efficient and more sensitive two-hit BLAST algorithm than was used by the NCBI software for many years. In 1999, Gish added support to WU-BLAST for the Extended Database Format (XDF), the first BLAST database format capable of accurately representing the entire draft sequence of the human genome in full-length chromosome sequence objects. This was also the first time any BLAST package introduced a new database format transparently to existing users, without abandoning support for prior formats, as a result of abstracting the database I/O functions away from the data analysis functions. WU-BLAST with XDF was the first BLAST suite to support indexed-retrieval of NCBI standard FASTA-format sequence identifiers (including the entire range of NCBI identifiers) the first to allow retrieval of individual sequences in part or in whole, natively, translated or reverse-complemented and the first able to dump the entire contents of a BLAST database back into human-readable FASTA format. In 2000, unique support for reporting of الروابط (consistent sets of HSPs also called السلاسل in some later software packages) was added, along with the ability for users to limit the distance between HSPs allowed in the same set to a biologically relevant length (على سبيل المثال ، the length of the expected longest intron in the species of interest) and with the distance limitation entering into the calculation of ه-القيم. Between 2001-2003, Gish improved the speed of the DFA code used in WU-BLAST. Gish also proposed multiplexing query sequences to speed up BLAST searches by an order of magnitude or more (MPBLAST) implemented segmented sequences with internal sentinel bytes, in part to aid multiplexing with MPBLAST and in part to aid analysis of segmented query sequences from shotgun sequencing assemblies and directed use of WU-BLAST as a fast, flexible search engine for accurately identifying and masking genome sequences for repetitive elements and low-complexity sequences (the MaskerAid [12] package for RepeatMasker). With doctoral student Miao Zhang, Gish directed development of EXALIN, [13] which significantly improved the accuracy of spliced alignment predictions, by a novel approach that combined information from donor and acceptor splice site models with information from sequence conservation. Although EXALIN performed full dynamic programming by default, it could optionally utilize the output from WU-BLAST to seed the dynamic programming and speed up the process by about 100-fold with little loss of sensitivity or accuracy.

In 2008, Gish founded Advanced Biocomputing, LLC, where he continues to improve and support the AB-BLAST package. [ بحاجة لمصدر ]


خلفية

Horizontal gene transfer can be defined as the movement of genetic material between phylogenetically unrelated organisms by mechanisms other than parent to progeny inheritance. Any biological advantage provided to the recipient organism by the transferred DNA creates selective pressure for its retention in the host genome. A number of recent reviews describe several well-established pathways of horizontal transfer [1–4]. Evidence for the unexpectedly high frequency of horizontal transmission has spawned a major re-evaluation in scientific thinking about how taxonomic relationships should be modeled [4–9]. It is now considered a major factor in the process of environmental adaptation, for both individual species and entire microbial populations. Horizontal transfer has also been proposed to play a role in the emergence of novel human diseases, as well as determining their virulence [10, 11].

There is currently no single bioinformatics tool capable of systematically identifying all laterally acquired genes in an entire genome. Available methods for identifying horizontal transfer generally rely on finding anomalies in either nucleotide composition or phylogenetic relationships with orthologous proteins. Nucleotide content and phylogenetic relatedness methods have the advantage of being independent of each other, but often give completely different results. There is no 'gold standard' to determine which, if either, is correct, but it has been suggested that different methodologies may be detecting lateral transfer events of different relative ages [2, 12].

In addition to having good sensitivity and specificity, ideal tools for identifying horizontal transfer at the genomic level should be computationally efficient and automated. The current environment of rapid database expansion may require analyses to be re-performed frequently, in order to take advantage of both new genome sequences and new annotation information describing previously unknown protein functions. Re-analysis using updated data may provide new insights, or even change conclusions completely.

A variety of strategies have been used to predict horizontal gene transfer using nucleotide composition of coding sequences. Early methods flagged genes with atypical G + C content later methods evaluate codon usage patterns as predictors of horizontal transfer [13–15]. A variety of so called 'genomic signature' models have been proposed, using nucleotide patterns of varying lengths and codon position. These models have been analyzed both individually and in various combinations, using sliding windows, Bayesian classifiers, Markov models, and support vector machines [16–19].

One limitation of nucleotide signature methods is that they can suggest that a particular gene is atypical, but provide no information as to where it might have originated. To discover this information, and to verify the validity of positive candidates, signature-based methods rely on subsequent validation by phylogenetic methods. These cross-checks have revealed many clear examples of both false positive and false negative predictions in the literature [20–23].

The fundamental source of error in predictions based on genomic signature methods is the assumption that a single, unique pattern can be applied to an organism's entire genome [24]. This assumption fails in cases where individual proteins require specialized, atypical amino acid sequences to support their biological function, causing their nucleotide composition to deviate substantially from the 'average' consensus for a particular organism. Ribosomal proteins, a well known example of this situation, must often be manually removed from lists of horizontal transfer candidates generated by nucleotide-based identification methods [25].

The assumption of genomic uniformity is also incorrect in the case of eukaryotes that have historically acquired a large number of sequences through horizontal transfer from an internal symbiont, or an organelle like mitochondrion or chloroplast. For example, the number of genes believed to have migrated from chloroplast to nucleus represents a substantial portion of the typical plant genome [26]. In this case, patterns of nucleotide composition should fall into at least two distinct classes, requiring multiple training sets to build successful models using machine learning algorithms. To avoid this complexity, many authors propose limiting application of their genomic signature methods to simple prokaryotic or archaeal systems.

Phylogenetic methods seek to identify horizontal transfer candidates by comparison to a baseline phylogenetic tree (or set of trees) for the host organism. Baseline trees are usually constructed using ribosomal RNA and/or a set of well-conserved, well-characterized protein sequences [27]. Each potential horizontal transfer candidate protein is then evaluated by building a new phylogenetic tree, based on its individual sequence, and comparing this tree to the overall baseline for the organism. Unexpectedness is usually defined as finding one or more nearest neighbors for the test sequence in disagreement with the baseline tree. More recently, a number of automated tree building methods have used statistical approaches to identify trees for individual genes that do not fit a consensus tree profile [28–32].

Although phylogenetic trees are generally considered the best available technique for determining the occurrence and direction of horizontal transfer, they have a number of known limitations. Analysts must choose appropriate algorithms, out-groups, and computational parameters to adjust for variability in evolutionary distance and mutation rates for individual data sets. Results may be inconclusive unless a sufficient number and diversity of orthologous sequences are available for the test sequence. In some cases, a single set of input data may support multiple different tree topologies, with no one solution clearly superior to the others. Building trees is especially challenging in cases where the component sequences are derived from organisms at widely varying evolutionary distances.

Perhaps the biggest drawback to using tree-based methods for identifying horizontal transfer candidates is that these methods are very computationally expensive and time consuming it is currently impractical to perform them on large numbers of genomes, or to update results frequently as new information is added to underlying sequence databases. Even a relatively small prokaryotic genome requires building and analyzing thousands of individual phylogenetic trees. To manage this computational complexity, many authors exploring horizontal transfer events have been forced to limit their calculations to one or a few candidate sequences at a time.

More recently, semi-automated methods have become available for building multiple phylogenetic trees at once [33, 34]. These methods are suitable for application to whole genomes, and include screening routines to identify trees containing potential horizontal transfer candidates. However, to achieve reasonable sensitivity without an unacceptable false positive rate, these methods still require each candidate tree identified by the automated screening process to be manually evaluated. One recent publication described the automated creation of 3,723 trees, of which 1,384 were identified as containing potential horizontal candidates [35]. After all 1,384 candidate trees were inspected manually, approximately half were judged too poorly resolved to be useful in making a determination. Of the remaining trees, only 31 were ultimately selected as containing horizontally transferred proteins. Despite the Herculean effort involved in producing these data, the authors concluded that it was only a 'first look' at horizontal transfer, which would need to be repeated when more sequence data became available for closely related organisms.

Given the time and difficulty of creating phylogenetic trees from scratch, a tool that automatically coupled amino acid sequence data with known lineage information could avoid an enormous amount of repetitive effort in re-calculating well-established facts. It is, therefore, somewhat surprising that currently available methods do not generally take advantage of resources like the NCBI Taxonomy database, which links phylogenetic information for thousands of different species to millions of protein sequences. One notable exception has been the work of Koonin وآخرون. [1], who searched for horizontal transfer in 31 bacterial and archaeal genomes by a combination of BLAST searches with semi-automated and manual screening techniques. To avoid false positive results, these authors felt it necessary to manually check every 'paradoxical' best hit, in many cases amounting to several hundred matches per microbial genome. While this strategy undoubtedly improved the quality of results presented, the extensive amount of time and labor required for manual inspection precludes applying the techniques used by these authors to larger eukaryotic genomes, or to the hundreds of new microbial genomes sequenced since 2001.

One potential problem in using taxonomy database information as a horizontal transfer identification tool is the difficulty of establishing reliable surrogate criteria for orthology, which might avoid the need for extensive re-building of phylogenetic trees. It is well known that 'top hit' sequence alignments identified by the BLAST search algorithm do not necessarily return the phylogenetically most appropriate match [36]. In addition to incorrect ranking of BLAST matches, other difficulties to be overcome include differences in BLAST score significance due to mutation rate variability, unequal representation of different taxa in source databases, and potential gene loss from closely related species [37]. Finally, any detection system dependent on identifying phylogenetically distant matches may sacrifice sensitivity in detecting horizontal transfer between closely related organisms.

To address these issues, the DarkHorse algorithm combines a probability-based, lineage-weighted selection method with a novel filtering approach that is both configurable for phylogenetic granularity, and adjustable for wide variations in protein sequence conservation and external database representation. It provides a rapid, systematic, computationally efficient solution for predicting the likelihood of horizontally transferred genes on a genome-wide basis. Results can be used to characterize an organism's historical profile of horizontal transfer activity, density of database coverage for related species, and individual proteins least likely to have been vertically inherited. The method is applicable to genomes with non-uniform compositional properties, which would otherwise be intractable to genomic signature analysis. Because the procedure is both rapid and automated, it can be performed as often as necessary to update existing analyses. Thus, it is particularly useful as a screening tool for analyzing draft genome sequences, as well as for application to organisms where the number of database sequences available for taxonomic relatives is changing rapidly. Promising results can be then prioritized and analyzed in more depth using independent criteria, such as nucleotide composition, manual construction of phylogenetic trees, synteneic neighbor analysis, or other more detailed, labor-intensive methods.


Result Formats:

HTML hypertext

Normal text

بروتين:
RANK, STATUS, SCORE, E-VALUE, PROGRAM, Gap Penalties (Existence), Gap Penalty (Extension), EMPTY, EMTPY, MATRIX, TEMPFILENAME, QUERY LENGTH, empty, QUERY NAME, DATASET, Target length, empty, DESCRIPTION, empty, empty, empty, empty, empty, empty, empty, empty, empty, Identities, Positives, Gaps, Percentage ratio of identical matches to the length of the alignment, Percentage ratio of identical matches to the length of the query, unknown, unknown, Percentage ratio of identical matches to the length of the target, unknown, unknown, Query Start, Query End, Target Start, Target End, empty, QUERY NT, COMPARISON, TARGET NT


شاهد الفيديو: التخلص من مشكلة عدم معرفة المستوى البنائي للبروتين الى الابد باذن الله #بالقرآننحيا (قد 2022).


تعليقات:

  1. Bemelle

    انا لا اعرف

  2. Yogul

    جملتك ببساطة ممتازة

  3. Tejas

    بالتأكيد ، الرسالة الممتازة

  4. Gormain

    إنه وهم.

  5. Lorenzo

    قال بثقة ، من الواضح. أقدم لكم محاولة البحث عن Google.com



اكتب رسالة