معلومة

الطرق الرئيسية المستخدمة للتنبؤ بالشروح الوظيفية في GO

الطرق الرئيسية المستخدمة للتنبؤ بالشروح الوظيفية في GO


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

هل يمكن لأي شخص أن يزودني ببعض المعلومات حول الطريقة الرئيسية المستخدمة للتنبؤ بـ استنتاج الشروح الإلكترونية في علم الوجود الجيني؟


أعتقد أن المصدر الأكثر شيوعًا للتعليقات التوضيحية الإلكترونية يأتي من تحليل تسلسل الببتيد. تم إنشاء مجموعة من تعيينات InterPro to GO يدويًا ويمكنها إنشاء تعليقات GO. سيتم إعطاء مجالات ربط الحمض النووي لعوامل النسخ "ربط DNA" كما تقول تعليقات GO.

هذه الطريقة بها عيوبها - إذا كان المجال المكتشف قد تطور بعيدًا عن الوظيفة المستخدمة في قائمة Interpro إلى GO ، فهناك احتمال لحدوث خطأ في هذه الطريقة.


يمكنك إحالة وثائق وكالة الطاقة الدولية (IEA) التي يحتفظ بها اتحاد GO للحصول على فكرة حول رموز الأدلة المخصصة تلقائيًا باستخدام IEA. يرجى أيضًا ملاحظة أن التقييم البيئي المتكامل يختلف عن أكواد أدلة التحليل الحسابي

  • ISS: مستنتج من التسلسل أو التشابه الهيكلي
  • ISO: مستخلص من Sequence Orthology
  • ISA: تم الاستدلال عليه من محاذاة التسلسل
  • ISM: مستنتج من نموذج التسلسل
  • IGC: مستنتج من سياق الجينوم
  • IBA: مستنتج من الجانب البيولوجي للجد
  • IBD: مستنتج من الجانب البيولوجي للسليل
  • IKR: مستنتج من المخلفات الرئيسية
  • IRD: مستنتج من الاختلاف السريع
  • RCA: تم الاستدلال عليه من التحليل الحسابي الذي تمت مراجعته

التنبؤ بوظيفة البروتين وتعليق المسارات المعقدة باستخدام التعلم الآلي

البروتينات هي وحدات العمل الرئيسية في علم الأحياء. يعد تحديد وفهم ما تفعله البروتينات أمرًا بالغ الأهمية لعلماء الأحياء الذين يأملون في حل التفاعلات المعقدة والأنظمة التي تقود العمليات الخلوية. على الرغم من ضرورة التحقق من صحة وظيفة البروتين يدويًا في المختبر الرطب ، يحتاج الباحثون أولاً إلى فرضية من أجل تصميم المقايسات ، والتي يمكنها بعد ذلك تحديد الوظيفة المحتملة للبروتين.

المعلوماتية الحيوية للتنبؤ بوظيفة البروتين
يمكن لعلماء الأحياء بناء مثل هذه الفرضيات الخاصة بوظيفة الجينات باستخدام أجهزة الكمبيوتر. نظرًا لأن تسلسل الجينوم أصبح أمرًا روتينيًا في المختبرات التجريبية ، فقد أصبح التنبؤ بوظيفة الجينات الحسابية أيضًا ذا أهمية متزايدة. تعتبر الطرق الحسابية مناسبة جدًا للتنبؤ بالوظيفة لأنه يمكن الاستدلال على المعلومات الوظيفية للجين من البحث في قاعدة البيانات الذي يحدد التشابه بين الجين والبروتينات المعروفة أو البيانات التجريبية. تعد أدوات تشابه التسلسل مثل أداة البحث عن المحاذاة المحلية الأساسية (BLAST) إحدى هذه الطرق التي تبحث في جميع التسلسلات المسجلة مسبقًا وتقترح قائمة مسجلة بالأدوار المحتملة لها.

مشاكل الطرق الحسابية السابقة
ومع ذلك ، فإن أدوات المعلومات الحيوية الحالية لا يمكنها دائمًا التنبؤ بوظيفة البروتين بدقة ، وغالبًا ما ينتهي بها الأمر بتعليق البروتينات بشكل غير صحيح داخل نظام بيولوجي. عادةً ما تكون أدوات التنبؤ بوظائف البروتين التقليدية مثل BLAST موثوقة عند اكتشاف تشابه تسلسل عالٍ ، لكن دقتها تنخفض بسرعة بالنسبة للتسلسلات ذات أوجه التشابه الأقل. على سبيل المثال ، تختلف وظائف الإنزيم بشكل كبير عندما تنخفض درجات التشابه إلى ما دون مستوى معين. علاوة على ذلك ، في كثير من الحالات ، لا تشرح الطرق التقليدية أي وظيفة إذا لم يتم العثور على تسلسلات متشابهة للغاية ، مما يترك العديد من الجينات بدون توضيح. بالإضافة إلى ذلك ، يمكن استخدام مقاييس أخرى مثل التشابه في البنية ثلاثية الأبعاد أو التعبير الجيني أو بيانات التفاعل. ومع ذلك ، غالبًا ما يكون كل من هذه المقاييس مفقودًا بالنسبة للعديد من البروتينات قيد البحث ، وبالتالي فإن قابليتها للتطبيق محدودة في البحث الموثوق.

أدوات جديدة لدقة أفضل
في الآونة الأخيرة ، تم تطوير العديد من طرق التعليقات التوضيحية الجديدة للبروتين لتحسين دقة التنبؤ الإجمالية. أحد هؤلاء المطورين هو الدكتور Daisuke Kihara من جامعة Purdue ، الذي طور أساليب التنبؤ الوظيفي باستخدام أطر منطقية جديدة. في عام 2009 ، أنشأ فريقه خوارزمية تنبؤية آلية ، تسمى طريقة مجموعة التشابه الموسعة (ESG) ، والتي تدير نظام مقارنة مستمر ، بدلاً من بحث واحد. من كل تسلسل تم العثور عليه من الاستفسار الأول ، تقوم خوارزمية ESG بإجراء بحث ثانٍ من خلال قاعدة البيانات. من خلال الجمع بين النتائج من هذا التكتيك متعدد المستويات ، تعمل طريقة ESG على تحسين الدرجات الوظيفية لبروتينات الاستعلام بشكل كبير وتتفوق على خوارزميات التنبؤ بالوظائف السابقة.

لكن الفريق لم يتوقف عند هذا الحد. في ورقة بحثية صدرت عام 2019 ، قاموا بدمج أدوات بناء شجرة النشوء والتطور مع التنبؤ التقليدي القائم على التسلسل ، والذي يُطلق عليه طريقة Phylo-PFP. أكدوا أولاً أن أوجه التشابه الوثيقة في تسلسل البروتين لا تتماشى مع مسافات البروتينات على شجرة النشوء والتطور. من خلال إضافة هذه المسافات إلى نقاط تجانس التسلسل ، أصبحت تصنيفات استعلام البروتين أكثر موثوقية ، ويمكن ربطها بشكل أكثر دقة بمصدرها الجيني. مما لا يثير الدهشة ، أن الدراسة أثبتت أن Phylo-PFP حسنت بشكل كبير دقة التنبؤ بالوظائف على الطرق الحالية.

شرح وظيفة مجموعة البروتين
عادةً ما يتم تشغيل التعليق التوضيحي لوظيفة البروتين على نهج مكون من بروتين واحد ووظيفة واحدة ، ومع ذلك يمكن لهذه العقلية أن تزيد بشكل كبير من تبسيط عالم وظيفة البروتين. في الواقع ، تجد معظم التجارب عشرات البروتينات المتفاعلة المرتبطة بحدث بيولوجي واحد. لفهم دور مجموعة البروتين بأكملها ، يجب تحديد وظيفتها من المجموعة ككل ، حتى لو كانت وظيفة كل بروتين فردي غير معروفة. هذه ليست مهمة بسيطة.

يطور الدكتور دايسوك كيهارا من جامعة بوردو طرق التنبؤ بالوظائف باستخدام أطر منطقية جديدة.

لذلك ، ركز فريق الدكتور كيهارا على نهج حسابي جديد لشرح وظائف مجموعات البروتين. في عام 2019 ، اقترحوا طريقة توقع وظيفة المجموعة التكرارية (iGFP) ، والتي تحمل إطارًا منطقيًا جديدًا تمامًا في جوهرها. تعتبر خوارزمية iGFP مجموعة من البروتينات كمدخلات ، وتتوقع دور وظيفة المجموعة بأكملها ، بالإضافة إلى أعضائها الفرديين. تمزج خوارزمية iGFP بيانات التسلسل من مصادر متعددة وتبني شبكة تكميلية. تقوم الطريقة بعد ذلك بفصل البروتينات إلى مجموعات لها صلة وظيفية وتقارنها بناءً على العلاقات الوظيفية والتفاعلية.

تقوم خوارزمية iGFP بشكل متكرر بتعيين الوظائف لمجموعات البروتين والبروتينات الفردية في المجموعات.

علاوة على ذلك ، يفترض النظام تلقائيًا أن بعض البروتينات غير معروفة ويستخدم مجموعة من الميزات المقارنة الأخرى لعمل تنبؤ دقيق. أثناء هذا الفحص ، تأخذ الخوارزمية في الاعتبار تفاعلات البروتين والبروتين ، وتشابه ملف تعريف النشوء والتطور ، والتعبير المشترك للجين ، وتشابه المسار على نطاق واسع ، والتشابه في علم الوجود الجيني. يمكن أن يكون هذا النوع من التنبؤ بوظيفة المجموعة الشاملة انعكاسًا محسنًا تمامًا للآليات الحقيقية في العمل ، على سبيل المثال ، المسارات التنموية أو المسببة للأمراض.

التعرف على البروتينات ذات الوظائف المتعددة
بالإضافة إلى تحليل مجموعات البروتين ، اتخذ فريق Kihara خطوة أخرى بعيدًا عن مخطط بروتين واحد ووظيفة واحدة من خلال دراسة البروتينات متعددة الوظائف. لا تأخذ معظم أدوات المعلومات الحيوية في الحسبان أن البروتينات ، وخاصة الإنزيمات ، يمكن أن تكون متعددة الوظائف. وبالتالي ، يهدف مختبر Kihara إلى التنبؤ بما إذا كان بروتين الاستعلام هو بروتين يعمل على ضوء القمر - وهو بروتين له وظائف مستقلة متعددة وغالبًا ما تكون غير مرتبطة. يصعب شرح هذه البروتينات ، نظرًا لأن وظائفها ليست خاصة بالجينوم أو عائلة البروتين ، ولا ترتبط بمؤشرات أخرى ، مثل آلية التبديل المشتركة. ومع ذلك ، تلعب هذه البروتينات أدوارًا رئيسية في حالات الأمراض الخلوية مثل السرطانات ، وبالتالي فإن تحديدها أمر مهم.

يناقش آشيش جاين والدكتور كيهارا الوظائف المخصصة لمسار التمثيل الغذائي.

لحل المشكلة ، طور فريق الدكتور كيهارا طريقة منهجية جديدة لدراسة البروتينات الإضافية. في عام 2016 ، اقترح الفريق إطارًا آليًا للتنبؤ يستخدم العديد من البيانات غير المستندة إلى التسلسل لتحديد بروتينات العمل الإضافي. استخدموا مصنفات التعلم الآلي للتنبؤ بالبروتينات متعددة الوظائف ، وبعد ذلك قاموا بالتحقق من صحة النتائج باستخدام قواعد البيانات الموجودة. يمكن لفريق الدكتور Kihara توقع بروتينات ضوء القمر التي لديها بيانات تسلسل جيني سابقة بدقة 98 ٪. حتى في حالة عدم توفر بيانات التسلسل ، أظهر النظام دقة مذهلة بلغت 75٪.

تعتبر خوارزمية iGFP مجموعة من البروتينات كمدخلات وتتوقع وظيفة المجموعة بأكملها ، بالإضافة إلى بروتيناتها الفردية.

علاوة على ذلك ، في ورقة بحثية نُشرت عام 2018 ، استخدم الفريق التعلم العميق لاكتشاف بروتينات العمل الإضافي من الأدبيات المنشورة سابقًا. يمكن لأداة التنقيب عن النص DextMP اكتشاف ما إذا كان للبروتين وظائف متعددة أم لا بناءً على معلومات من منشورات المجلات والأوصاف الوظيفية من قواعد بيانات البروتين. باستخدام أدوات معالجة الأدبيات المنهجية ، يمكن للباحثين تقليل الوقت بشكل كبير لتوضيح بروتينات الإضاءة الإضافية والاقتراب من توضيح التفاعل المعقد للبروتينات داخل الخلية.

التحسينات والتوقعات المستقبلية
تحتاج البيولوجيا الحاسوبية بشدة إلى طرق جديدة لتعكس بدقة الطبيعة الحقيقية للعمليات البيولوجية. قام فريق الدكتور كيهارا بخطوات مبتكرة للابتعاد عن الجهد التقليدي المكون من بروتين واحد ووظيفة واحدة والوظائف المحددة لمجموعات البروتين بأكملها. تتفوق الخوارزميات الخاصة بهم على الأساليب السابقة القائمة على التسلسل من خلال وضع طبقات متعددة من خصائص البروتين ومراعاة العلاقات التطورية ، والتي يمكن أن تكون مؤشرات أفضل للوظائف المشتركة من العمود الفقري البسيط للأحماض الأمينية. علاوة على ذلك ، يمكن لطرق التعلم الآلي للفريق أن تتنبأ بما إذا كان البروتين يؤدي دورًا مزدوجًا ، وما إذا كان قد تم وصف هذه البروتينات دون علم في الأدبيات السابقة.

على الرغم من هذه التطورات الواعدة ، فإن أدوات التنبؤ بالمعلومات الحيوية لا تتمتع إلا بذكاء تصميمها ، ولا تزال هناك طريقة للمضي قدمًا نحو بحث مؤتمت بالكامل يحركه الذكاء الاصطناعي في شرح وظيفة البروتين. بشكل عام ، يقترح فريق الدكتور كيهارا أن الجمع بين الأساليب السابقة والأساليب الناشئة من تجارب omics وتحليل مسافة التطور سيعزز دقة التنبؤ الوظيفي في المستقبل.

استجابة شخصية

ما نوع الدور الذي سيلعبه التعلم الآلي في التنبؤ بوظيفة البروتين وفهم العمليات البيولوجية؟

يلعب التعلم الآلي بالفعل دورًا كبيرًا في التنبؤ بوظيفة البروتين ، وعلى نطاق أوسع ، في المعلوماتية الحيوية. إنه فعال بشكل خاص في تحديد التوقيعات الدقيقة التي يتجاهلها البشر بسهولة في بيانات الإدخال بما في ذلك تسلسلات البروتين ذات الصلة بوظائف معينة. كما أنها مناسبة جدًا لدمج العديد من أنواع البيانات المختلفة معًا لعمل تنبؤات.


1 المقدمة

1.1 خلفية

تلتقط قواعد بيانات الشروح الجينية المعرفة البيولوجية الحالية مما يسمح للباحثين بتفسير نتائج تجارب علوم الحياة. على الرغم من أهميتها التي لا جدال فيها ، لا تزال هناك مشاكل كبيرة تتعلق بقواعد بيانات التعليقات التوضيحية. تتمثل إحدى المشكلات في أن قواعد بيانات التعليقات التوضيحية غير مكتملة حاليًا. بالنسبة لجميع الكائنات الحية المتسلسلة تقريبًا ، لا يُعرف سوى مجموعة فرعية من الجينات ، ويتم شرح مجموعة فرعية أصغر من الجينات وظيفيًا [28]. مع تراكم المزيد من المعرفة ، تتم إضافة الجينات والشروح تدريجياً إلى قواعد البيانات هذه. هذا يعني أنه في أي وقت من الأوقات ، من المحتمل أن تحتوي قاعدة بيانات التعليقات التوضيحية على مجموعة فرعية فقط من جميع جينات الكائن الحي المحدد ، وحتى بالنسبة لتلك الجينات التي تم تضمينها ، ربما توجد مجموعة فرعية فقط من وظائفها في قاعدة البيانات . بالإضافة إلى ذلك ، يتم تقديم معظم التعليقات التوضيحية بواسطة القيمين الذين يفحصون الأدبيات يدويًا. في هذه العملية ، من الممكن أن يتم التغاضي عن بعض الحقائق المؤكدة الواردة في المنشورات الحالية [25]. تحدث مشكلة أخرى بسبب الطريقة التي يتم بها تخزين هذه التعليقات التوضيحية في بنية علم الوجود الجيني (GO). هناك ، على سبيل المثال ، الجينات التي تم شرحها لوظيفة جزيئية معينة ولكن لم يتم شرحها للعملية البيولوجية المقابلة. هذه ليست مشكلة لأمين قاعدة البيانات أو عالم الحياة الذي يبحث عن التعليقات التوضيحية لجين معين ، حيث يمكن للإنسان بسهولة إجراء استقراءات واضحة. ومع ذلك ، ليست هذه هي الطريقة التي يتم بها استخدام قواعد البيانات هذه في معظم الأوقات. في سيناريو أكثر نموذجية ، سيحاول الباحث تفسير نتائج تجربة عالية الإنتاجية باستخدام برنامج يقوم بإجراء تحليل وجودي [11] ، [12] ، [24] ، [27] ، [26] ، [2 ] ، [4] ، [21] ، [35] ، [42] ، [43]. ستقوم هذه البرامج بالاستعلام عن قاعدة بيانات التعليقات التوضيحية في كل من الفروع الثلاثة الرئيسية للرسم البياني لـ GO وتحسب أهمية إحصائية بناءً على البيانات المسترجعة بدقة ، دون إجراء أي استقراء. يفشل هذا النوع من التحليل في حساب الدلالة الإحصائية للجينات المعنية بشكل صحيح إذا لم يتم شرحها بشكل صحيح كل من فئات GO الثلاث. يجب أن نلاحظ هنا أنه بغض النظر عن مدى دقة التعليقات التوضيحية ، مع تحسن معرفتنا ، ستستمر إضافة وظائف جديدة ، وسيتم تغيير بعض الوظائف القديمة أو إلغاؤها. وبالتالي ، نظرًا للتطور الجوهري للمعرفة العلمية ، من المرجح أن تحافظ التعليقات التوضيحية الجينية على طابع ديناميكي ، وبالتالي من غير المحتمل اعتبارها مكتملة في أي وقت في المستقبل القريب.

للتغلب على بعض هذه المشكلات ، اقترحنا سابقًا طريقة قادرة على العثور على ارتباطات وظائف الجينات غير الممثلة بشكل صريح في قواعد بيانات التعليقات التوضيحية [25]. تستخدم هذه التقنية نهج الفهرسة الدلالية الكامنة (LSI) وتم توضيحها باستخدام شروح الجينوم البشري. استخدمت هذه المحاولة الأولى تمثيلًا ثنائيًا للعلاقات بين الجينات وشروحها الوظيفية. ومع ذلك ، فشل التمثيل الثنائي في التقاط العلاقات الهرمية بين المصطلحات المختلفة بشكل صحيح. أظهرت الأبحاث السابقة في استرجاع المعلومات (IR) أن استخدام التمثيل الموزون ، بدلاً من التمثيل الثنائي ، يمكن أن يحسن جودة عمليات الاسترجاع. حدسيًا ، يحاول ترجيح مصطلح IR استغلال ملاحظتين بسيطتين: 1) المصطلحات التي تظهر بشكل متكرر في مستند هي أكثر ملاءمة لوصف موضوع المستند أكثر من المصطلحات التي نادرًا ما يتم استخدامها ، و 2) المصطلحات غير المتكررة عبر مجموعة المستندات هي عوامل تفاضل أفضل بين المستندات بدلاً من المصطلحات التي تظهر في معظم المستندات أو في كل المستندات. قد توجد علاقات مماثلة بين الجينات وشروحها. الوظائف التي ترتبط فقط بجينات قليلة تحمل المزيد من المعلومات حول الجينات ويمكن أن تفرق بينها بشكل أفضل. على العكس من ذلك ، فإن العديد من الوظائف وثيقة الصلة المرتبطة بجين معين ستصف بشكل أفضل ما يفعله الجين بالفعل.

تستكشف هذه الورقة استخدام مخططات ترجيح نموذج الفضاء المتجه (VSM) في سياق التحليل الدلالي للتعليقات التوضيحية البيولوجية. التقنية الموصوفة هنا قادرة على اكتشاف العلاقات الضمنية بين وظائف الجينات واقتراحها على الباحثين والقيمين على قاعدة البيانات كتعليقات توضيحية جديدة. نقدم النتائج التي تم الحصول عليها من خلال العديد من مخططات الترجيح على شروح الجينوم البشري المخزنة في قاعدة بيانات Onto-Tools [11] ، [24] ، والتي تتضمن جميع التعليقات التوضيحية المعروفة من GO Consortium.

1.2 الأعمال ذات الصلة

تم استخدام VSM [5] ، [6] ، [16] سابقًا لتجميع الجينات عن طريق إنشاء مساحة ناقلات من الجينات وملخصات MEDLINE للأبحاث التي تناقش تلك الجينات المحددة [17]. تم تقييم التشابه بين الجينات عن طريق حساب المسافة بين النواقل التي كانت تمثلهم. وقد وجد أن النواقل الموزونة حسنت النتائج بشكل ملحوظ على النواقل المنطقية [17]. تم استخدام VSM أيضًا لحساب التشابه بين مصطلحات GO ، وتمت مقارنة النتائج بطريقتين أخريين غير مرنين لتحليل الرسم البياني GO [7]. تم استخدام LSI [5] ، [6] ، [9] مؤخرًا لتحليل بيانات التعبير على مستوى الجينوم [3]. تم استخدام LSI أيضًا لتحديد العلاقات بين الجينات عن طريق إنشاء مساحة ناقلات من الجينات ومستخلصات MEDLINE [20]. أظهرت أبحاث سابقة لـ IR أن إل إس آي (LSI) أكثر فعالية بنسبة 30 بالمائة من طرق مطابقة الكلمات [9]. تم استخدام علم الوجود في الماضي القريب للتغلب على قيود البحث القائم على الكلمات الرئيسية ، خاصة بعد ظهور الويب الدلالي [32] ، [39]. في [39] ، يصف المؤلفون طريقة IR التي تجمع بين شرح الوثيقة وتوسيع الاستعلام باستخدام مصطلحات الأنطولوجيا وترتيب النتائج باستخدام VSM. يتم استخدام تقنيات مماثلة بواسطة MELISA [1] و Textpresso [30] ، وهما أداتان للبحث في الأدبيات الطبية. تستخدم MELISA الأنطولوجيا الخاصة بـ MEDLINE & # x02019s ، MeSH ، لإثراء استفسارات المستخدم بشكل جوهري. تقوم Textpresso ببناء أنطولوجيا ، يعتمد 80 في المائة منها على مصطلحات GO ، وتستخدمها للتعليق التوضيحي للمستند وتوسيع الاستعلام.

توجد أيضًا طرق أخرى للتنبؤ بالشروح الوظيفية لجين معين. يستخدم الأسلوب الأكثر شيوعًا للتنبؤ بالوظيفة تشابه التسلسل. يعتمد هذا النهج على الفرضية القائلة بأنه يمكن نقل وظيفة بين متواليات متشابهة في كائنات مختلفة حيث تم الحفاظ على هذا التشابه على مدى فترات طويلة من التطور [10]. يمكن أن تؤدي طريقة نقل التعليقات التوضيحية هذه إلى تنبؤات وظيفية غير صحيحة لأسباب مثل تباين الوظيفة داخل البروتينات المتماثلة. علاوة على ذلك ، يمكن أن يكون هذا النوع من الاستدلال غير صحيح أيضًا لأن التعليقات التوضيحية يتم نقلها فقط من أقرب تجانس [23]. من أجل التغلب على هذه المشاكل ، تم اقتراح نهج تجمع بين بيانات تشابه التسلسل مع المعلومات الهيكلية [14] ، [38]. نهج الذنب بالارتباط (GBA) [33] ، [40] ، [44] ، استنادًا إلى ملاحظة أن الجينات المرتبطة وظيفيًا تميل إلى مشاركة ملفات تعريف تعبير mRNA مماثلة ، تم تطبيقه أيضًا على نطاق واسع للتنبؤ بوظائف الجينات [8] ، [ 13] ، [22] ، [36] ، [41]. يقوم هذا النهج بتجميع الجينات بناءً على ملفات تعريف التعبير الخاصة بها من أجل التنبؤ بوظائف الجينات. تتأثر مناهج GBA بقضايا مثل تحويل البيانات [15] ، [31] والتصفية التي تهدف إلى تعزيز نسبة الإشارة إلى الضوضاء [19]. يستخدم نهج بديل تشابه التسلسل وبيانات مجال البروتين من أجل التنبؤ بالتعليقات التوضيحية الوظيفية [37]. Raychaudhuri وآخرون. [34] اقترح أسلوب معالجة اللغة الطبيعية لاستخراج ارتباطات وظائف الجينات تلقائيًا من ملخصات الأدبيات.


أساليب

نظرة عامة على التجربة

يتبع الخط الزمني لتجربة CAFA الثانية تلك الخاصة بالتجربة الأولى وهو موضح في الشكل 1. باختصار ، تم الإعلان عن CAFA2 في يوليو 2013 وبدأ رسميًا في سبتمبر 2013 ، عندما 100،816 التسلسلات المستهدفة من 27 نوعًا تم توفيرها للمجتمع. طُلب من الفرق تقديم درجات التنبؤ ضمن النطاق (0،1] لكل زوج من البروتينات التي اختاروا التنبؤ بها. تم تحديد موعد الإرسال النهائي لإيداع هذه التنبؤات في كانون الثاني (يناير) 2014 (النقطة الزمنية ر 0). ثم انتظرنا حتى سبتمبر 2014 (النقطة الزمنية ر 1) للتعليقات التوضيحية التجريبية الجديدة لتتراكم على البروتينات المستهدفة وتقييم أداء طرق التنبؤ. سوف نشير إلى مجموعة جميع البروتينات المشروحة تجريبياً المتوفرة في ر 0 مثل عدة التدريبات وإلى مجموعة فرعية من البروتينات المستهدفة التي جمعت التعليقات التوضيحية التجريبية أثناء (ر 0,ر 1] وتستخدم للتقييم باسم مجموعة مرجعية. من المهم ملاحظة أن البروتينات المعيارية والتحليل الناتج يختلفان بناءً على اختيار النقطة الزمنية ر 1. على سبيل المثال ، تم تقديم تحليل أولي لتجربة CAFA2 خلال اجتماع مجموعة الاهتمام الآلي للتنبؤ بالوظائف (AFP-SIG) في مؤتمر الأنظمة الذكية للبيولوجيا الجزيئية (ISMB) في يوليو 2014.

الخط الزمني لتجربة CAFA2

تم تقييم الأساليب المشاركة وفقًا لقدرتها على التنبؤ بالمصطلحات في GO [3] وعلم أنماط النمط الظاهري البشري (HPO) [8]. على عكس CAFA1 ، حيث تم إجراء التقييم فقط لعلم الوجود الجزيئي (MFO) وعلم الوجود للعمليات البيولوجية (BPO) ، في CAFA2 قمنا أيضًا بتقييم الأداء للتنبؤ بمصطلحات علم المكونات الخلوية (CCO) في GO. تم استخدام مجموعة البروتينات البشرية أيضًا لتقييم الطرق وفقًا لقدرتها على ربط هذه البروتينات بمصطلحات مرضية من HPO ، والتي تضمنت جميع الفئات الفرعية لمصطلح HP: 0000118 ، "خلل النمط الظاهري".

في المجموع ، شاركت 56 مجموعة قدمت 126 طريقة في CAFA2. من بين هؤلاء ، قدمت 125 طريقة تنبؤات صحيحة حول عدد كافٍ من التسلسلات. علاوة على ذلك ، قدمت 121 طريقة تنبؤات لواحد على الأقل من معايير GO ، بينما شاركت 30 طريقة في مهام التنبؤ الجيني للمرض باستخدام HPO.

تقييم

وسعت تجربة CAFA2 تقييم التنبؤ بالوظيفة الحسابية مقارنةً بـ CAFA1. يتضمن ذلك زيادة عدد الأهداف والمعايير والأنطولوجيا ومقاييس مقارنة الطرق.

نحن نميز بين نوعين رئيسيين من تقييم الطريقة. الأول، التقييم المتمحور حول البروتين، بتقييم دقة أداء الطرق التي تتنبأ بجميع المصطلحات الوجودية المرتبطة بتسلسل بروتين معين. النوع الثاني التقييم المرتكز على المدى، بتقييم دقة أداء الطرق التي تتنبأ بما إذا كان مصطلح وجودي منفرد مرتبطًا بتسلسل بروتين معين [2]. يمكن النظر إلى التقييم المتمحور حول البروتين كمشكلة تعليمية متعددة التسمية أو مُخرجات مُنظَّمة للتنبؤ بمجموعة من المصطلحات أو رسم بياني لا دوري موجه (رسم بياني فرعي للأنطولوجيا) لبروتين معين. نظرًا لأن الأنطولوجيا تحتوي على العديد من المصطلحات ، فإن مساحة الإخراج في هذا الإعداد كبيرة للغاية ويجب أن تتضمن مقاييس التقييم وظائف التشابه بين مجموعات المصطلحات المترابطة بشكل متبادل (الرسوم البيانية غير الدورية الموجهة). على النقيض من ذلك ، فإن التقييم المتمحور حول المصطلح هو مثال على التصنيف الثنائي ، حيث يتم تعيين مصطلح وجودي معين (أو لا) لتسلسل بروتين الإدخال. هذه الأساليب شائعة بشكل خاص في تحديد أولويات الجينات المرضية [9]. وبعبارة أخرى ، فإن التقييم المرتكز على البروتين يأخذ في الاعتبار ترتيب مصطلحات الأنطولوجيا لبروتين معين ، في حين أن التقييم المتمحور حول المصطلح يأخذ في الاعتبار ترتيب تسلسل البروتين لمصطلح وجودي معين.

كلا النوعين من التقييم لهما مزايا في تقييم الأداء. ويرجع ذلك جزئيًا إلى الاعتماد الإحصائي بين مصطلحات الأنطولوجيا ، والاعتماد الإحصائي بين متواليات البروتين ، وكذلك الطبيعة غير الكاملة والمتحيزة للتعليق التوضيحي التجريبي لوظيفة البروتين [6]. في CAFA2 ، نقدم كلا النوعين من التقييم ، لكننا نؤكد على السيناريو المرتكز على البروتين لإجراء مقارنات أسهل مع CAFA1. نستخلص أيضًا استنتاجات مهمة بشأن تقييم الأسلوب في هذين السيناريوهين.

مجموعات المعايير لا المعرفة والمعرفة المحدودة

في CAFA1 ، كان البروتين مؤهلاً ليكون في مجموعة المعايير إذا لم يكن لديه أي تعليقات توضيحية تم التحقق منها تجريبياً في أي من أنظمة GO في الوقت المناسب ر 0 ولكن تراكم مصطلح وظيفي واحد على الأقل مع رمز دليل تجريبي بينهما ر 0 و ر 1 نشير إلى البروتينات المعيارية مثل لا معرفة المعايير. في CAFA2 أدخلنا البروتينات مع معرفة محدودة، وهي تلك التي تم شرحها تجريبيًا في واحدة أو اثنتين من أنظمة GO (ولكن ليس في الثلاثة جميعًا) في الوقت المناسب ر 0. على سبيل المثال ، بالنسبة لتقييم الأداء في MFO ، تم السماح لبروتين بدون أي تعليق توضيحي في MFO قبل الموعد النهائي للتقديم بتعليقات توضيحية تجريبية في BPO و CCO.

خلال مرحلة النمو ، أصبحت أهداف عدم المعرفة التي اكتسبت شروحًا تجريبية في واحد أو أكثر من علم الوجود معايير مرجعية في تلك الأنطولوجيات. أصبحت أهداف المعرفة المحدودة التي اكتسبت تعليقات توضيحية إضافية معايير مرجعية فقط لتلك الأنطولوجيات التي لم تكن لها تعليقات توضيحية تجريبية سابقة. كان سبب استخدام أهداف المعرفة المحدودة هو تحديد ما إذا كان يمكن استغلال الارتباطات بين التعليقات التوضيحية التجريبية عبر الأنطولوجيات لتحسين التنبؤ الوظيفي.

تم فصل اختيار البروتينات المعيارية لتقييم تنبئ HPO عن تحليلات GO. لقد أنشأنا مجموعة معايير عدم المعرفة فقط في فئة HPO.

طرق التقييم الجزئي والكامل

تنطبق العديد من طرق التنبؤ بالوظائف فقط على أنواع معينة من البروتينات ، مثل البروتينات التي تتوفر لها بيانات بنية ثلاثية الأبعاد ، أو بروتينات من أصناف معينة ، أو مواقع محلية فرعية محددة. لاستيعاب هذه الأساليب ، زود CAFA2 المتنبئين بخيار اختيار مجموعة فرعية من الأهداف للتنبؤ بها طالما أنها قدمت تعليقات حسابية على الأقل 5000 هدف ، منها عشرة مصطلحات تجريبية متراكمة على الأقل. نشير إلى وضع التقييم الذي تم فيه تقييم التنبؤات فقط بناءً على تلك المعايير التي قدم النموذج لها توقعًا واحدًا على الأقل عند أي عتبة وضع التقييم الجزئي. في المقابل ، فإن وضع التقييم الكامل يتوافق مع نفس النوع من التقييم الذي تم إجراؤه في CAFA1 حيث تم استخدام جميع البروتينات المعيارية للتقييم وتم معاقبة الطرق لعدم إجراء تنبؤات.

في معظم الحالات ، لكل فئة معيارية ، لدينا نوعان من المعايير ، عدم المعرفة والمعرفة المحدودة ، وطريقتان للتقييم ، الوضع الكامل والوضع الجزئي. الاستثناءات هي جميع فئات HPO التي ليس لها سوى معايير عدم المعرفة. يعد الوضع الكامل مناسبًا لإجراء مقارنات بين طرق الأغراض العامة المصممة لعمل تنبؤات بشأن أي بروتين ، بينما يعطي الوضع الجزئي فكرة عن مدى جودة أداء كل طريقة على مجموعة فرعية مختارة ذاتيًا من الأهداف.

مقاييس التقييم

تم استخدام منحنيات الدقة والاسترجاع ومنحنيات عدم اليقين والمعلومات الخاطئة المتبقية كمقياسين رئيسيين في الوضع المتمحور حول البروتين [10]. نوفر أيضًا مقياسًا واحدًا لتقييم كلا النوعين من المنحنيات كمقياس قياسي ذي قيمة حقيقية لمقارنة الطرق ، ومع ذلك ، نلاحظ أن أي اختيار لنقطة واحدة على تلك المنحنيات قد لا يتطابق مع أهداف التطبيق المقصودة لخوارزمية معينة. وبالتالي ، فإن الفهم الدقيق لمقاييس التقييم المستخدمة في CAFA ضروري لتفسير النتائج بشكل صحيح.

الدقة (العلاقات العامة) ، الاستدعاء (RC) ، والنتيجة F الأعلى يتم تعريفها على أنها

أين ص أنا(τ) يشير إلى مجموعة المصطلحات التي توقعت درجات أكبر من أو تساوي τ لتسلسل البروتين أنا, تي أنا يشير إلى مجموعة المصطلحات المطابقة لهذا التسلسل ، م(τ) هو عدد التسلسلات التي تحتوي على درجة واحدة على الأقل متوقعة أكبر من أو تساوي τ، ( mathbbm <1> left ( cdot right) ) هي دالة مؤشر ، و ن ه هو عدد الأهداف المستخدمة في طريقة معينة من التقييم. في وضع التقييم الكامل ن ه=ن، عدد البروتينات المعيارية ، بينما في وضع التقييم الجزئي ن ه=م(0) ، أي عدد البروتينات التي تم اختيارها ليتم توقعها باستخدام طريقة معينة. لكل طريقة نشير إليها م(0)/ن مثل تغطية لأنه يوفر جزءًا من البروتينات المعيارية التي قامت الطريقة على أساسها بأي تنبؤات.

عدم اليقين المتبقي (ru) ، والمعلومات الخاطئة (ميل) ، والحد الأدنى للمسافة الدلالية الناتجة (س دقيقة) على أنها

أين جيم (F) هو محتوى المعلومات لمصطلح الأنطولوجيا F [10]. يقدر بأقصى احتمالية على أنه اللوغاريتم الثنائي السالب للاحتمال الشرطي للمصطلح F موجود في التعليق التوضيحي للبروتين بالنظر إلى أن جميع مصطلحاته الأصلية موجودة أيضًا. لاحظ أنه هنا ، ن ه=ن في وضع التقييم الكامل و ن ه=م(0) في وضع التقييم الجزئي ينطبق على كل من ru و mi.

بالإضافة إلى المقاييس الرئيسية ، استخدمنا مقياسين ثانويين. كانت تلك هي النسخة الموزونة لمنحنيات الدقة - الاسترجاع وإصدار منحنيات عدم اليقين - المعلومات الخاطئة المتبقية التي تم تطبيعها مع الفاصل [0،1]. يتم عرض هذه المقاييس ونتائج التقييم المقابلة في ملف إضافي 1.

بالنسبة للتقييم المتمحور حول المصطلح ، استخدمنا المنطقة الواقعة تحت منحنى خاصية تشغيل المستقبِل (ROC) (AUC). تم حساب AUCs لجميع المصطلحات التي حصلت على ما لا يقل عن عشرة متواليات مشروحة إيجابية ، في حين تم استخدام المعايير المتبقية كسلبيات. تم استخدام التقييم المتمحور حول المصطلح لكل من نماذج التصنيف والتمييز بين المصطلحات الجيدة والسيئة التي يمكن التنبؤ بها. يتم توفير أداء كل نموذج على كل مصطلح في ملف إضافي 1.

نظرًا لأننا طلبنا من جميع الطرق الاحتفاظ برقمين مهمين لدرجات التنبؤ ، الحد الأدنى τ في جميع المقاييس المستخدمة في هذه الدراسة تفاوتت من 0.01 إلى 1.00 بحجم خطوة 0.01.

مجموعات البيانات

تم استخراج التعليقات التوضيحية لوظيفة البروتين لتقييم GO ، كاتحاد ، من ثلاث قواعد بيانات بروتين رئيسية متاحة في المجال العام: Swiss-Prot [11] و UniProt-GOA [12] والبيانات من موقع اتحاد GO على الويب [ 3]. استخدمنا أكواد الأدلة EXP و IDA و IPI و IMP و IGI و IEP و TAS و IC لبناء مجموعات معيارية وحقيقة أساسية. تم تنزيل التعليقات التوضيحية لتقييم HPO من قاعدة بيانات HPO [8].

يلخص الشكل 2 المعايير التي استخدمناها في هذه الدراسة. يوضح الشكل 2 أ الأحجام المعيارية لكل من علم الوجود ويقارن هذه الأرقام مع CAFA1. يتم سرد جميع الأنواع التي تحتوي على 15 بروتينًا على الأقل في أي من الفئات المعيارية في الشكل 2 ب.

انهيار معيار CAFA2. أ حجم المعيار لكل من الأنطولوجيات الأربعة. ب تفصيل المعايير لكلا النوعين لأكثر من 11 نوعًا (مع ما لا يقل عن 15 بروتينًا) مصنفة وفقًا للعدد الإجمالي للبروتينات المعيارية. لكلا اللوحتين ، ألوان داكنة (أزرق, أحمر، و أصفر) تتوافق مع أنواع عدم المعرفة (NK) ، في حين أن لون فاتح يتوافق النظراء مع أنواع المعرفة المحدودة (LK). يتم عرض توزيعات محتويات المعلومات المطابقة لمجموعات المعايير في ملف إضافي 1. يظهر حجم معايير CAFA 1 في رمادي. ببو علم الوجود للعملية البيولوجية ، CCO علم الوجود المكون الخلوي ، HPO علم الوجود النمط الظاهري البشري ، لوسي المعرفة المحدودة القوة المتعددة الجنسيات علم الوجود الوظيفي الجزيئي ، NK لا معرفة

مقارنة بين أساليب CAFA1 و CAFA2

قارنا النتائج من CAFA1 و CAFA2 باستخدام مجموعة مرجعية أنشأناها من أهداف CAFA1 وأهداف CAFA2. بتعبير أدق ، استخدمنا التنبؤات المخزنة للبروتينات المستهدفة من CAFA1 وقارناها بالتنبؤات الجديدة من CAFA2 على المجموعة المتداخلة من معايير CAFA2 وأهداف CAFA1 (يجب أن يكون التسلسل هدفًا غير معرفي في كلتا التجربتين ليكون مؤهلاً لهذا التقييم). بالنسبة لهذا التحليل فقط ، استخدمنا إصدار GO الاصطناعي من خلال أخذ تقاطع لقطتي GO (إصدارات من يناير 2011 ويونيو 2013) وذلك للتخفيف من تأثير تغييرات علم الوجود. وبالتالي ، قمنا بجمع 357 بروتينًا معياريًا لمقارنات MFO و 699 لمقارنات BPO. تم تدريب طريقتين أساسيتين على شروح Swiss-Prot لكلتا المنطقتين بحيث تكون بمثابة ضوابط لتغيير قاعدة البيانات. على وجه الخصوص ، احتوى SwissProt2011 (لـ CAFA1) على 29،330 و 31،282 بروتينًا لـ MFO و BPO ، بينما احتوى SwissProt2014 (لـ CAFA2) على 26،907 و 41،959 بروتينًا لكلا الأنطولوجيين.

لإجراء تحليل وجهاً لوجه بين أي طريقتين ، أنشأنا ب= 10000 عينة تمهيد والسماح للطرق بالتنافس على كل مجموعة معيارية من هذا القبيل. تحسين الأداء δ من CAFA1 إلى CAFA2 تم حسابه على أنه

أين م 1 و م 2 الوقوف على الطرق من CAFA1 و CAFA2 ، على التوالي ، و (F _ < max> ^ <(b)> ( cdot) ) يمثل F الأعلى لطريقة تم تقييمها على بمجموعة مرجعية التمهيد التمهيد.

النماذج الأساسية

قمنا ببناء طريقتين أساسيتين ، Naïve و BLAST ، وقارناهما بكل الطرق المشاركة. تتنبأ طريقة Naïve ببساطة بتكرار المصطلح الذي يتم شرحه في قاعدة البيانات [13]. اعتمد بلاست على نتائج البحث باستخدام برنامج أداة البحث عن المحاذاة المحلية الأساسية (بلاست) مقابل قاعدة بيانات التدريب [14]. سيتم توقع المصطلح باعتباره أعلى هوية تسلسل محاذاة محلية بين جميع نتائج BLAST المشروحة بالمصطلح. تم تدريب كلتا الطريقتين على البروتينات المشروحة تجريبياً المتوفرة في Swiss-Prot في الوقت المناسب ر 0، باستثناء HPO حيث تم تدريب النموذجين الأساسيين باستخدام التعليقات التوضيحية من ر 0 الافراج عن HPO.


الاستنتاجات

نقدم مفهومًا جديدًا للتنبؤ بمصطلحات GO ، أي نقل التعليقات التوضيحية بناءً على تشابه الزخارف التي تم الحصول عليها من نماذج لغة التعلم العميق (LMs). يستبدل هذا النهج من الناحية المفاهيمية معلومات التسلسل عن طريق عمليات التضمين المعقدة التي تلتقط بعض المعلومات غير المحلية بما يتجاوز تشابه التسلسل. إن LMs الأساسيين (SeqVec & amp ProtBert) متورطان للغاية ومعقدان ، كما أن تدريبهم يستغرق وقتًا طويلاً ويستهلك الكثير من البيانات. بمجرد الانتهاء من ذلك ، يمكن تطبيق LMs المدربين مسبقًا ، ويمكن نقل فهمهم المجرد للغة الحياة كما تم التقاطها بواسطة تسلسل البروتين للحصول على طريقة بسيطة للغاية وفعالة لنقل التعليقات التوضيحية. طريقة التنبؤ الجديدة هذه تكمل الاستدلال القائم على التماثل. على الرغم من بساطتها ، فقد تفوقت هذه الطريقة الجديدة على عدة هوامش ذات أهمية إحصائية للاستدلال القائم على التماثل ("BLAST") باستخدام Fالأعلى قيم BPO + 11 ± 2٪ (فالأعلى(التضمين) -Fالأعلى(تسلسل)) ، MFO + 8 ± 3٪ و CCO + 11 ± 2٪ (الجدول 1 ، الشكل 1) ربما وصلت إلى المراكز العشرة الأولى ، لو أنها شاركت في CAFA3 (الشكل 1). ظل النقل المستند إلى التضمين أعلى من المتوسط ​​للنقل المستند إلى التسلسل حتى بالنسبة لأزواج البروتين مع PIDE & lt 20٪ (الشكل 2) ، أي أن التشابه التضمين يعمل للبروتينات التي تباعدت عن التعرف في المحاذاة الزوجية (الشكلان S2 و amp S3) . يعد النقل المستند إلى التضمين سريعًا للغاية للحساب ، أي حوالي 0.05 ثانية لكل بروتين. الخطوة الوحيدة التي تستغرق وقتًا طويلاً هي حساب عمليات التضمين لجميع البروتينات في قاعدة بيانات البحث والتي يجب إجراؤها فقط بمجرد أن يستغرق الأمر حوالي 30 دقيقة للبروتين البشري بأكمله. أدت التعليقات التوضيحية لـ GO التي تمت إضافتها من 2017 إلى 2020 إلى تحسين نقل التعليقات التوضيحية القائمة على التسلسل والتضمين بشكل كبير (الجدول 1). جانب آخر من البساطة هو أنه ، على الأقل في سياق تقييم CAFA3 ، لم يكن اختيار أي من المعلمتين المجانيتين مهمًا حقًا: تم إجراء عمليات التضمين من كلا LMs المختبرين ، في المتوسط ​​، بالتساوي ، وعدد أفضل النتائج (k -أقرب الجيران) لا يهم كثيرًا (الجدول S2). تتولد قوة هذا المفهوم الجديد من الدرجة التي تلتقط بها حفلات الزفاف ضمنًا معلومات مهمة ذات صلة بهيكل البروتين والتنبؤ بالوظيفة. كان أحد أسباب نجاح مفهومنا الجديد هو الارتباط المحدود بين حفلات الزفاف والتسلسل (الجدول 2). بالإضافة إلى ذلك ، يبدو أن تجريد معلومات التسلسل في حفلات الزفاف يجعل المعلومات ذات المغزى الأساسي متاحة بسهولة (الشكل S6). هذا يعني أن حفلات الزفاف لديها القدرة على إحداث ثورة في طريقة إجراء مقارنات التسلسل.


مناقشة

يمكن لـ DeepPheno التنبؤ بمجموعات من ارتباطات النمط الظاهري الجيني من التعليقات التوضيحية الوظيفية للجينات. على وجه التحديد ، تم تصميمه للتنبؤ بالأنماط الظاهرية التي تنشأ من فقدان الوظيفة (حيث يتم تمثيل الوظائف باستخدام علم الوجود الجيني) وقد أوضحنا كيف يربط DeepPheno فقدان الوظائف بتأثيرات النمط الظاهري المصب. بينما تم تدريب DeepPheno باستخدام الأنماط الظاهرية الناشئة عن فقدان وظيفة الجين ، فإن اعتماده على الوظائف (بدلاً من الميزات الهيكلية) قد يسمح أيضًا بتطبيقها على تعديلات مختلفة في وظيفة الجين مثل الفقد الجزئي للوظيفة. جنبًا إلى جنب مع طرق التنبؤ بالوظائف مثل DeepGOPlus [31] ، يمكن لـ DeepPheno ، من حيث المبدأ ، توقع ارتباطات النمط الظاهري للجينات المشفرة للبروتين باستخدام تسلسل الأحماض الأمينية للبروتين فقط. ومع ذلك ، تم تدريب DeepGOPlus على التسلسلات المشروحة تجريبياً للعديد من الكائنات الحية ، بما في ذلك العديد من الكائنات الحية النموذجية. كما أنه يجمع بين تشابه التسلسل العالمي ونموذج التعلم العميق الذي يتعلم التعرف على أشكال التسلسل بالإضافة إلى بعض عناصر بنية البروتين. يتم استخدام مزيج هذه المعلومات بشكل ضمني في DeepGOPlus وتنبؤاته ، وبالتالي فهو قادر على التنبؤ بالوظائف الفسيولوجية التي ترتبط ارتباطًا وثيقًا بالأنماط الظاهرية غير الطبيعية التي تنبأ بها DeepPheno.

تقييم

قمنا بتقييم DeepPheno على مجموعتي بيانات وقارننا توقعاته مع أفضل الطرق أداءً في تحدي CAFA2. أظهر DeepPheno بشكل عام أفضل أداء في التقييم مع تقسيم على أساس الوقت. ومع ذلك ، عندما قارنا أداء DeepPheno في التحقق من صحة 5 أضعاف في مجموعة التدريب على تحدي CAFA2 مع طرق التصنيف الهرمي الأخرى مثل PhenoStruct [15] و HTD / TPR [34] ، فإن طريقتنا لم تتفوق على أساليب HTD / TPR مجتمعة مع المصنفات الآلية المتجهية وأسفرت عن نفس أداء PhenoStruct. نعتقد أن السبب الرئيسي لذلك هو أننا نعتمد فقط على التعليقات التوضيحية للوظائف والطرق الأخرى تستخدم ميزات إضافية مثل تفاعلات البروتين والبروتين والأدب والمتغيرات المسببة للأمراض المرتبطة من خلال ارتباطات الأمراض الجينية من HPO [10]. لم نستخدم بيانات التعبير الجيني لأنها لم تكن متوفرة أثناء تحدي CAFA2. ومع ذلك ، في تجربتنا مع البيانات الحديثة ، أظهرنا أن DeepPheno يمكنه بسهولة الجمع بين الميزات من مصادر متعددة مما أدى إلى تحسين أدائه.

المصنف الهرمي

قمنا بتنفيذ شبكة عصبية جديدة ذات تسلسل هرمي في DeepPheno. كانت مستوحاة من التصنيف الهرمي السابق في DeepGO [32]. ومع ذلك ، فإن الإصدار المستخدم في DeepPheno أسرع بشكل ملحوظ وقابل للتطوير. يتمثل الاختلاف الرئيسي هنا في أن DeepPheno يستخدم طبقة واحدة فقط تخزن بنية الأنطولوجيا بينما كان لدى DeepGO طبقة لكل فئة في علم الوجود والتي تتطلب اتصالاً بفصول الأطفال.أيضًا ، يحقق نموذجنا الجديد تناسقًا هرميًا من خلال عملية ضرب مصفوفة بسيطة متبوعة بطبقة MaxPooling ولا يتطلب عمليات معقدة. في DeepGO ، يمكن أن يتنبأ أكبر نموذج بحوالي 1000 فئة بينما يتوقع DeepPheno حوالي 4000.

نحن نقارن DeepPheno على وجه التحديد مع طرق التصنيف الهرمي الأخرى مثل PhenoStruct [15] و HTD / TPR [34]. أيضًا ، نستخدم قاعدة المسار الحقيقي [27] لإصلاح التبعيات الهرمية لمصنفات DeepPhenoFlat ومقارنتها بمصنفاتنا الهرمية. في جميع الحالات ، تتفوق نماذج DeepPheno على المصنفات المسطحة التي تطبق قاعدة المسار الحقيقي بعد التنبؤات.

كما تم استخدام الشبكات العصبية العميقة الهرمية لمحاكاة التفاعلات بين العمليات داخل الخلية والتنبؤ بالأنماط الظاهرية (الخلوية) ، لا سيما في نموذج DCell [59]. أنشأ DCell مراسلات بين مكونات الشبكة العصبية العميقة وفئات الأنطولوجيا ، لنمذجة التنظيم الهرمي للخلية ولتوفير وسيلة لشرح تنبؤات النمط الجيني والنمط الظاهري من خلال تحديد أجزاء الشبكة العصبية (وبالتالي مكونات الخلية أو وظائف) نشطة عند إجراء تنبؤ. يستخدم DeepPheno علم الوجود كمدخلات ومخرجات ولضمان توافق التنبؤات مع HPO ، لكنه لا يتيح إمكانية تفسير نماذج مثل DCell بشكل مباشر. يحل DeepPheno أيضًا مشكلة مختلفة مقارنة بـ DCell بينما يربط DCell الأنماط الجينية (الخميرة) بالأنماط الظاهرية للنمو ، ويتنبأ DeepPheno بالعواقب المظهرية لفقدان الوظيفة بينما يمكن لـ DCell محاكاة العمليات داخل الخلية ، ويهدف DeepPheno إلى محاكاة بعض جوانب فسيولوجيا الإنسان و الطرز المظهرية الناتجة عن تغيير الوظائف الفسيولوجية.

القيود والبحوث المستقبلية

حاليًا ، يعاني DeepPheno من عدة قيود. أولاً ، نستخدم بشكل أساسي التعليقات التوضيحية الوظيفية والتعبيرات الجينية كميزات. يمنح هذا نموذجنا القدرة على التنبؤ بالأنماط الظاهرية للعديد من الجينات ، ومع ذلك ، لا تعتمد الأنماط الظاهرية على وظائف المنتجات الجينية الفردية فحسب ، بل إنها تنشأ أيضًا من التفاعلات الجينية والبيئية المعقدة. قد يؤدي تضمين مثل هذه المعلومات إلى تحسين نموذجنا. على وجه التحديد ، نخطط لتضمين أنواع مختلفة من التفاعلات بين الجينات من أجل تحسين التنبؤ بالأنماط الظاهرية المعقدة.

ثانيًا ، لا يمكن لـ DeepPheno حاليًا التنبؤ إلا بعدد محدود من الأنماط الظاهرية التي نجد لها ما لا يقل عن 10 جينات مشروحة. هذا القيد ناتج عن الحاجة إلى تدريب نموذج شبكتنا العصبية ويحد من قدرة DeepPheno على التنبؤ بأنماط ظاهرية معينة هي الأكثر إفادة. تتمثل إحدى طرق التغلب على هذا القيد في تضمين ارتباطات النمط الظاهري بأدلة مختلفة ، مثل تلك المستمدة من دراسة GWAS بدلاً من استخدام الأنماط الظاهرية فقط الناتجة عن مرض مندليان كما هو مدرج في قاعدة بيانات HPO.

أخيرًا ، يستخدم DeepPheno طبقة بسيطة متصلة بالكامل وتمثيلًا متناثرًا للتعليقات التوضيحية الوظيفية ولا يأخذ في الاعتبار المجموعة الكاملة من البديهيات في GO و HPO. على الرغم من أن هذا النموذج أعطانا أفضل أداء في تجاربنا ، إلا أننا نعتقد أن طرق التعلم الأكثر "تعقيدًا" والتي تشفر جميع الدلالات في الأنطولوجيات يجب أخذها في الاعتبار في المستقبل.


التنبؤ بوظيفة البروتين باستخدام آلات Boltzmann المقيدة بعمق.

البروتينات هي المكونات الرئيسية للخلايا الحية ، فهي الأساس المادي الرئيسي الذي يشكل ويحافظ على أنشطة الحياة. تشارك البروتينات في أنشطة بيولوجية مختلفة ، مثل تحفيز التفاعلات الكيميائية الحيوية ونقلها إلى توصيل الإشارة [1 ، 2]. تنتج التقنيات الحيوية عالية الإنتاجية نموًا هائلاً للبيانات البيولوجية. بسبب التقنيات التجريبية والتحيز البحثي في ​​علم الأحياء [3 ، 4] ، أصبحت الفجوة بين متواليات الجينوم المكتشفة حديثًا والتعليقات التوضيحية الوظيفية لهذه التسلسلات أكبر وأكبر. ادعى اتحاد مشروع البروتين البشري مؤخرًا أنه لا يزال لدينا القليل جدًا من المعلومات حول الوظائف الخلوية لما يقرب من ثلثي البروتينات البشرية [5]. يمكن لتجارب المعمل الرطب التحقق بدقة من وظائف البروتينات ، لكن القيام بذلك يستغرق وقتًا طويلاً ومكلفًا. في الممارسة العملية ، يمكن لتقنيات المعمل الرطب التحقق فقط من جزء من وظائف البروتينات. بالإضافة إلى ذلك ، من الصعب التحقق بكفاءة من التعليقات التوضيحية الوظيفية للبروتينات الضخمة باستخدام تقنيات المختبر الرطب. لذلك ، من المهم والضروري تطوير نماذج حسابية للاستفادة من التعليقات التوضيحية الوظيفية المتاحة للبروتينات ومجموعة متنوعة من البيانات الجينومية والبروتينية ، لاستنتاج وظائف البروتين تلقائيًا [2 ، 6].

تم اقتراح طرق حسابية مختلفة للتنبؤ بالشروح الوظيفية للبروتينات. غالبًا ما تكون هذه الأساليب مدفوعة بنماذج حسابية كثيفة البيانات. قد تأتي البيانات من تسلسل الأحماض الأمينية [7] ، وتفاعلات البروتين والبروتين [8] ، والمسارات [9] ، وأنواع متعددة من اندماج البيانات البيولوجية [10-12]. علم الوجود الجيني (GO) هو أداة معلوماتية حيوية رئيسية لتوحيد سمات منتجات الجينات عبر جميع الأنواع ، ويستخدم مصطلحات GO لوصف سمات منتجات الجينات [13] ، وهذه المصطلحات منظمة في مخطط دائري موجه (DAG). يمكن اعتبار كل مصطلح GO في الرسم البياني بمثابة تسمية وظيفية ويرتبط بمعرف أبجدي رقمي مميز ، أي GO: 0008150 (عملية بيولوجية). GO ليس ثابتًا. يساهم الباحثون واتحاد GO في تحديث GO باعتبارها المعرفة البيولوجية الدوارة. حاليًا ، معظم التعليقات التوضيحية الوظيفية للبروتينات ضحلة وبعيدة عن الاكتمال [3-5]. بالنظر إلى قاعدة المسار الحقيقي لـ GO [13] ، إذا تم شرح البروتين بمصطلح GO ، فسيتم أيضًا شرح جميع شروط السلف لهذا المصطلح بالبروتين ، ولكن من غير المؤكد ما إذا كان يجب إضافة تعليق توضيحي للمصطلحات التابعة له على البروتين أم لا. لذلك ، من المستحسن معرفة التعليقات التوضيحية المحددة للبروتين ، بدلاً من التعليقات العامة ، ويمكن للمصطلحات المحددة المقابلة أن توفر معلومات بيولوجية أكثر من تلك الضحلة ، والتي هي شروط أسلاف لهذه المصطلحات المحددة. في هذا العمل ، نحقق في توقع التعليقات التوضيحية العميقة (أو المحددة) للبروتين بناءً على التعليقات التوضيحية المتاحة للبروتينات.

تم توظيف الروابط الوظيفية بين البروتينات وهيكل GO بشكل مباشر للتنبؤ بوظائف البروتين [14-18]. يمكن ترميز التعليقات التوضيحية الوظيفية للبروتينات بواسطة مصفوفة ارتباط وظيفة البروتين ، حيث يتوافق كل صف مع بروتين ويمثل كل عمود نوعًا من الوظائف. King et al. [14] استخدم مُصنِّف شجرة القرار مباشرةً (أو مُصنِّف بايز) في نمط التعليقات التوضيحية لاستنتاج شروح إضافية للبروتينات. لكن هذين المصنفين يحتاجان إلى تعليقات توضيحية كافية ويحصلان على أداء ضعيف إلى حد ما بشروط GO محددة ، والتي تم شرحها بأقل من 10 بروتينات. خاطري وآخرون [15] استخدم التحليل المقطوع للقيمة المفردة (tSVD) لتجديد الوظائف المفقودة للبروتينات بناءً على مصفوفة وظيفة البروتين. هذا النهج قادر على التنبؤ بالتعليقات التوضيحية المفقودة في قواعد بيانات التعليقات التوضيحية الموجودة وتحسين دقة التنبؤ. لكن هذه الطريقة لا تستفيد من العلاقات الهرمية والمسطحة بين مصطلحات GO. أثبتت الأبحاث السابقة أن التسلسل الهرمي للأنطولوجيا يلعب أدوارًا مهمة في التنبؤ بوظيفة البروتين [2،16،18]. تم وآخرون. [16] استخدم نموذج فضاء متجه وعدد من مخططات الترجيح ، جنبًا إلى جنب مع نهج الفهرسة الدلالية الكامنة لاستخراج العلاقات الدلالية الضمنية بين البروتينات وتلك الموجودة بين الوظائف للتنبؤ بوظائف البروتين. هذه الطريقة تسمى NtN [16]. تأخذ NtN في الحسبان بنية GO الهرمية ويمكنها أن تزن مصطلحات GO المختلفة الموجودة في مواقع مختلفة من GO DAG [19]. تاو وآخرون. [17] اقترح طريقة تسمى التشابه الدلالي القائم على نظرية المعلومات (ITSS). يحسب ITSS أولاً التشابه الدلالي بين مصطلحات GO الزوجية في تسلسل هرمي ، ثم يلخص هذا التشابه الزوجي لمصطلحات GO الزوجية المشروحة ببروتينين. بعد ذلك ، يستخدم مصنف kNN للتنبؤ بالتعليقات التوضيحية الجديدة للبروتين. يو وآخرون. [18] اقترحت مسارات عشوائية نزولية (dRW) للتنبؤ بالوظائف المفقودة (أو الجديدة) للبروتينات المشروحة جزئيًا. على وجه الخصوص ، يطبق dRW مسارات عشوائية نزولية مع إعادة التشغيل [20] على GO DAG ، والتي تبدأ بشروط مشروحة للبروتين ، للتنبؤ بالتعليقات التوضيحية الإضافية للبروتين.

غالبًا ما يشارك البروتين في العديد من الأنشطة البيولوجية ، وبالتالي يتم شرحه بعدة مصطلحات GO. يمكن اعتبار كل مصطلح على أنه تسمية وظيفية ، ويمكن نمذجة التنبؤ بوظيفة البروتين كمشكلة تعلم متعددة العلامات [21 ، 22]. من وجهة النظر هذه ، يمكن نمذجة التنبؤ بوظيفة البروتين باستخدام التعليقات التوضيحية غير المكتملة كمشكلة تعليمية ضعيفة متعددة التسميات [22]. في الآونة الأخيرة ، يو وآخرون. [23] اقترح طريقة تسمى PILL لتجديد الوظائف المفقودة للبروتينات المشروحة جزئيًا باستخدام معلومات غير كاملة عن التسميات الهرمية. فو وآخرون. [24] اقترح طريقة تسمى dHG للتنبؤ بالوظائف الجديدة للبروتينات باستخدام رسم بياني هجين موجه ، والذي يتكون من GO DAG ، وشبكة تفاعل البروتين البروتين ، والجمعيات الوظيفية المتاحة بين مصطلحات GO والبروتينات. يمكن اعتبار هذه الأساليب المذكورة أعلاه (باستثناء DRBM) أساليب التعلم الآلي الضحلة [25]. فهي لا تلتقط ارتباطات عميقة بين البروتينات ومصطلحات GO.

في هذا البحث ، نتحرى عن الأسلوب المطبق مؤخرًا على نطاق واسع ، التعلم العميق [25] ، لالتقاط الارتباطات العميقة بين البروتينات ومصطلحات GO ، ولتجديد التعليقات التوضيحية المفقودة للبروتينات غير المشروحة بشكل كامل. في هذا التحقيق ، نطبق آلات Boltzmann المقيدة بعمق (DRBM) للتنبؤ بالتعليقات التوضيحية الوظيفية للبروتينات. يستخدم DRBM التعليقات التوضيحية المؤرشفة لأربعة أنواع نموذجية (Homo sapiens و Saccharomyces cerevisiae و Mus musculus و Drosophila) لاستكشاف الارتباطات المخفية بين البروتينات ومصطلحات GO والعلاقة الهيكلية بين مصطلحات GO. في الوقت نفسه ، يعمل على تحسين معلمات DRBM. بعد ذلك ، نتحقق من صحة أداء DRBM من خلال مقارنة تنبؤاته بتعليقات GO التوضيحية المؤرشفة مؤخرًا لهذه الأنواع الأربعة. تظهر الدراسة التجريبية والمقارنة أن DRBM تحقق نتائج أفضل من الطرق الأخرى ذات الصلة. يعمل DRBM أيضًا بشكل أسرع من بعض طرق المقارنة هذه.

تم تنظيم هيكل هذه الورقة على النحو التالي. يستعرض القسم 2 بإيجاز بعض تقنيات التعلم العميق ذات الصلة التي تم تطبيقها مؤخرًا للتنبؤ بوظيفة البروتين. يقدم القسم 3 آلة Boltzmann المقيدة وآلة Boltzmann المقيدة العميقة للتنبؤ بوظيفة البروتين. تمت مناقشة مجموعات البيانات التجريبية والإعداد والنتائج في القسم 4. الاستنتاجات متوفرة في القسم 5.

قام بعض الرواد بالفعل بتطبيق التعلم العميق لبعض مشاكل المعلوماتية الحيوية [26] ، ولكن تم الإبلاغ عن القليل من الأعمال للتنبؤ بوظيفة البروتين. يمكن للشبكات العصبية للتشفير التلقائي (AE) معالجة البيانات الهيكلية المعقدة بشكل أفضل من طرق التعلم الآلي الضحلة [25 ، 27 ، 28]. تم تطبيق AE في رؤية الكمبيوتر [28] ، والتعرف على الكلام [25 ، 27] ، والتنبؤ بملامسات بقايا البروتين [26]. شيكو وآخرون [29] استخدمت مؤخرًا AE العميق للتنبؤ بوظائف البروتين. تظهر التجارب أن AE العميق يمكنه استكشاف الارتباطات العميقة بين البروتينات ومصطلحات GO وتحقيق أداء أفضل من طرق التنبؤ بالوظائف القائمة على التعلم الآلي الضحلة الأخرى ، بما في ذلك tSVD [29].

يستغرق التعريض الضوئي العميق العميق وقتًا أطول بكثير في ضبط الشبكة إذا كانت الشبكة عميقة جدًا ، فسيؤدي ذلك إلى اختفاء مشكلة التدرج. في هذا العمل ، نقترح استخدام آلات Boltzmann المقيدة بعمق (DRBM) ، بدلاً من AE ، للتنبؤ بالتعليقات التوضيحية الوظيفية للبروتينات. تتمتع DRBM بسرعة تقارب سريعة واستقرار جيد. تم استخدام DRBM لبناء شبكات المعتقدات العميقة [30] ، للتعرف على الكلام [31 ، 32] ، والترشيح التعاوني [33] ، والبيولوجيا الحسابية [34] ، ومجالات أخرى. في الآونة الأخيرة ، اقترح وانج وزينج [34] التنبؤ بالتفاعلات المستهدفة للدواء باستخدام آلات بولتزمان المقيدة وحققا أداء تنبؤًا جيدًا. في الآونة الأخيرة ، Li et al. [35] استخدمت آلات Boltzmann المقيدة المشروطة لالتقاط علاقات اعتماد عالية المستوى على الملصقات وتسهيل التعلم متعدد التسميات باستخدام تسميات غير كاملة. أثبتت التجارب فعالية آلات Boltzmann المقيدة في معالجة التعلم متعدد العلامات مع تسميات غير كاملة.

على حد علمنا ، تقوم فرق قليلة بالتحقيق في DRBM للتنبؤ بالوظائف المفقودة على نطاق واسع. لهذا الغرض ، قمنا بدراستها للتنبؤ بوظائف بروتينات الإنسان العاقل ، والسكاروميسيس سيريفيسياي ، والعضلات العضلية ، وذبابة الفاكهة ومقارنتها بعدد من الطرق ذات الصلة. تظهر النتائج التجريبية أن DRBM تحقق نتائج أفضل من طرق المقارنة هذه على مقاييس التقييم المختلفة.

في هذا القسم ، سنصف آلات Boltzmann المقيدة بعمق للتنبؤ بتعليقات GO المفقودة للبروتينات.

3.1. آلة بولتزمان المقيدة. آلة Boltzmann المقيدة (RBM) عبارة عن شبكة من نموذج رسومي غير موجه بوحدات ثنائية عشوائية [32]. كما هو مبين في الشكل 1 ، فإن RBM عبارة عن رسم بياني ثنائي الطبقة من طبقتين بنوعين من الوحدات ، ومجموعة من الوحدات المرئية v [عضو في] <0،1> ، ومجموعة من الوحدات المخفية h [عضو في] <0 ، 1>. وحدات الإدخال والوحدات المخفية متصلة بالكامل ولا يوجد اتصال بين العقد في نفس الطبقة. في هذا البحث ، عدد الوحدات المرئية يساوي عدد مصطلحات GO ، وهذه الوحدات تأخذ مصفوفة ارتباط وظيفة البروتين كمدخلات.

RBM هي طريقة غير خاضعة للرقابة تتعلم فيها طبقة واحدة من الميزات المخفية. عندما يكون عدد الوحدات المخفية أصغر من عدد الوحدات المرئية ، يمكن للطبقة المخفية التعامل مع التبعية المعقدة غير الخطية وهيكل البيانات ، والتقاط العلاقة العميقة من بيانات الإدخال [30] ، وتمثيل بيانات الإدخال بشكل أكثر إحكاما. يتم تمثيل قيم الميزات الكامنة من خلال الوحدات المخفية وتشفير الوحدات المرئية تعليقات GO التوضيحية المتاحة للبروتينات. افترض أن هناك c (عدد مصطلحات GO) وحدات مرئية و m وحدات مخفية في RBM. يشير [v.sub.i] (i = 1، c) إلى حالة الوحدة المرئية ith ، حيث [v.sub.i] = 1 يعني أن المصطلح ith مُضاف إلى البروتين و [v.sub.i] = 0 تعني أن المصطلح ith غير مرتبط بالبروتين. المتغير الثنائي [h.sub.j] (j = 1، m) يشير إلى حالة الوحدة المخفية ، و [h.sub.j] = 1 يشير إلى الوحدة المخفية jth النشطة. لنفترض أن [W.sub.ij] هو الوزن المرتبط بالصلة بين [v.sub.i] و [h.sub.j]. (ت ، ح) هو تكوين مشترك لنظام الإدارة القائمة على النتائج.

يمكن نمذجة وظيفة الطاقة التي تلتقط أنماط التفاعل بين الطبقة المرئية والطبقة المخفية على النحو التالي:

[التعبير الرياضي غير قابل للتكرار] ، (1)

حيث [ثيتا] = <[W.sub.ij] ، [a.sub.i] ، [b.sub.j]> هي معلمات لـ RBM ، بينما [a.sub.i] و [b.sub.j ] هي تحيزات للمتغيرات المرئية والمخفية ، على التوالي. W [عضو في] [R.sup.cxm] يشفر أوزان الاتصال بين المتغيرات المرئية c والمتغيرات المخفية m. بعد ذلك ، يمكن تعريف تكوين الاحتمال المشترك لـ v و h على أنه

حيث Z هو ثابت تطبيع أو دالة قسم ، [التعبير الرياضي غير قابل للتكرار]. التوزيع الهامشي على البيانات المرئية هو

[التعبير الرياضي غير قابل للتكرار]. (3)

لا يوجد اتصال بين الوحدات المرئية (أو الوحدات المخفية) في RBM ، يتم إعطاء التوزيعات الشرطية على الوحدات المرئية والمخفية بواسطة الوظائف اللوجستية على النحو التالي:

P ([v.sub.i] = 1 | h) = [سيجما] ([a.sub.i] + [j.summation over ([h.sub.j] [W.sub.ij])) ( 4)

P ([v.sub.i] = 1 | v) = [سيجما] ([b.sub.j] + [i.summation over ([v.sub.i] [W.sub.ij])) ، (5)

حيث [sigma] (x) = 1 / (1 + exp (-v)) هي دالة لوجستية سينية.

من الصعب تدريب نظام الإدارة القائمة على النتائج بعدد كبير من المعلمات. لتدريب الإدارة القائمة على النتائج بكفاءة ولتحسين المعلمات ، نقوم بتعظيم احتمالية البيانات المرئية فيما يتعلق بالمعلمات. لتحقيق هذا الهدف ، يمكن اعتماد مشتق احتمالية تسجيل بيانات التدريب المشتقة من (4) لضبط الأوزان بشكل تدريجي على النحو التالي:

[التعبير الرياضي غير قابل للتكرار] ، (6)

حيث تشير & lt * & gt إلى التوقعات في ظل التوزيع. من السهل جدًا معرفة احتمالية تسجيل بيانات التدريب:

[التعبير الرياضي غير قابل للتكرار] ، (7)

حيث يتحكم [epsilon] في معدل التعلم. نظرًا لعدم وجود اتصالات مباشرة في الطبقة المخفية من RBM ، يمكننا الحصول على عينة غير متحيزة من [& lt [v.sub.i] [h.sub.j] & gt.sub.data] بسهولة. لسوء الحظ ، من الصعب حساب عينة غير متحيزة من [& lt [v.sub.i] [h.sub.j] & gt.sub.model] ، لأنها تتطلب وقتًا أسيًا. لتجنب هذه المشكلة ، اقترح هينتون خوارزمية التعلم السريع ، تسمى التباين التباين (CD) [36]. يحدد القرص المضغوط المتغيرات المرئية كبيانات التدريب. ثم يتم حساب جميع الحالات الثنائية للوحدات المخفية بالتوازي باستخدام (5). بمجرد أن يتم اختيار الحالات للوحدات المخفية ، يتم إنشاء "إعادة بناء" عن طريق تعيين كل v إلى 1 مع احتمال محدد بواسطة (4). بالإضافة إلى ذلك ، يتم تعديل الأوزان أيضًا في كل تصريح تدريب على النحو التالي:

[التعبير الرياضي غير قابل للتكرار]. (8)

[& lt [v.sub.i] [h.sub.j] & gt.sub.data] هي القيمة المتوسطة لجميع بيانات الإدخال لكل تحديث و [& lt [v.sub.i] [h.sub.j] & gt.sub.recon] هي القيمة المتوسطة على إعادة الإعمار وتعتبر بمثابة تقريب جيد لـ [& lt [v.sub.i] [h.sub.j] & gt.sub.model].

3.2 عميق RBM. في هذه الورقة ، سوف نستخدم آلة Boltzmann المقيدة المتصلة بالكامل وننظر في تعلم أنظمة RBM متعددة الطبقات (كما هو موضح في الشكل 2). في بنية الشبكة ، تلتقط كل طبقة ارتباطات معقدة بين الطبقة المخفية والطبقة السفلية لها.

تم اعتماد DRBM لعدة أسباب [38]. أولاً ، تتمتع DRBM ، مثل شبكات المعتقدات العميقة ، بإمكانية تعلم التمثيلات الداخلية التي تزداد تعقيدًا وتعتبر طريقة واعدة لحل المشكلات المعقدة [30]. ثانيًا ، يمكن بناء التمثيلات عالية المستوى من مدخلات حسية غير مكتملة كبيرة الحجم وبيانات ذات علامات نادرة ثم استخدامها لتكشف عن النموذج. أخيرًا ، يمكن لـ DRBM نشر معلومات عدم اليقين وبالتالي التعامل بقوة مع المدخلات الغامضة. هينتون وآخرون. [30] قدم خوارزمية تعلم جشعة غير خاضعة للإشراف طبقة تلو طبقة تتكون من تعلم مجموعة من نظم الإدارة القائمة على النتائج. بعد تعلم نظم الإدارة القائمة على النتائج المكدسة ، يمكن اعتبار المكدس بأكمله نموذجًا احتماليًا واحدًا. في هذا البحث ، نستخدم تلك الخوارزمية الجشعة لتحسين معاملات DRBM. يقوم DRBM بتدريب كومة من أكثر من اثنين من RBMs بجشع ، ولا يحتاج التعديل إلا لاستخدامه لأول وآخر RBMs في المكدس. تتكون إعادة التدريب من تعلم كومة من RBMs كل RBM لديها طبقة واحدة فقط من أجهزة الكشف عن المعالم. يتم استخدام تنشيط الميزة التي تم تعلمها لإحدى طرق الإدارة القائمة على النتائج كبيانات إدخال لتدريب الإدارة القائمة على النتائج التالية في المكدس. بعد ذلك ، تنبثق (أو تتكشف) هذه القذائف RBM لإنشاء DRBM.من خلال التدريب أعلاه ، يمكننا تحسين معلمات DRBM ثم أخذ مخرجات الشبكة كنتائج لتنبؤ وظيفة البروتين.

4.1 مجموعات البيانات والإعداد التجريبي. لدراسة أداء DRBM في التنبؤ بشروح GO المفقودة للبروتينات المشروحة بشكل غير كامل. قمنا بتنزيل ملف GO (http://geneontology.org/page/downloadontology) (تاريخ مؤرشف: 2015-10-22) ، والذي يصف العلاقات الهرمية بين مصطلحات GO باستخدام DAG. تنقسم مصطلحات GO هذه إلى ثلاثة فروع ، تصف الوظائف الجزيئية (MF) ، والمكون الخلوي (CC) ، ووظائف العملية البيولوجية (BP) للبروتينات. قمنا أيضًا بتنزيل ملفات Gene Ontology Annotation (GOA) (المؤرشفة: 2014-27) (http://geneontology.org/page/downloadannotations) الخاصة بـ Saccharomyces cerevisiae و Homo sapiens و Mus musculus و Drosophila. لقد عالجنا ملف GO مسبقًا لاستبعاد مصطلحات GO التي تحمل علامة "عفا عليها الزمن". لتجنب التنبؤ الدائري ، قمنا بمعالجة ملف GOA لاستبعاد التعليقات التوضيحية برمز الدليل "IEA" (المستنتج من التعليقات التوضيحية الإلكترونية). غالبًا ما تتوافق التعليقات التوضيحية المفقودة على البروتين مع أحفاد المصطلحات الموضحة حاليًا بالبروتين. لذا فإن المصطلحات المقابلة لهذه التعليقات التوضيحية المفقودة تقع على مستوى أعمق من شروط أسلافها ، وهذه المصطلحات تميز وظائف بيولوجية أكثر تحديدًا للبروتينات من أسلافها. عادة ما يتم شرح هذه المصطلحات المحددة بما لا يزيد عن 30 بروتينًا وتعتبر وظائف متفرقة. من ناحية أخرى ، فإن المصطلحات الجذرية ، GO: 0008150 لـ BP ، GO: 0003674 لـ MF ، و GO: 0005575 لـ CC ، مشروحة لغالبية البروتينات ، والتنبؤ بهذه الشروط ليس مثيرًا للاهتمام ، لذلك أزلنا هذه المصطلحات الجذرية الثلاثة. احتفظنا بالمصطلحات مشروحة على الأقل بروتين واحد في ملف GOA للتجارب. يتم سرد إحصائيات تعليقات GO المجهزة مسبقًا للبروتينات في هذه الأنواع النموذجية الأربعة في الجدول 1.

قمنا أيضًا بتنزيل ملفات GOA المؤرشفة مؤخرًا (التاريخ: 12/10/2015) من هذه الأنواع الأربعة للتحقق من أداء DRBM ومعالجة ملفات GOA هذه بطريقة مماثلة. نستخدم البيانات المؤرشفة في 2014 لتدريب DRBM ثم نستخدم البيانات المؤرشفة في 2015 للتحقق من صحتها.

من أجل تقييم أداء DRBM نسبيًا ، نقارنه بـ SvD [15] و NtN [16] و dRW [18] و AE [29]. إن SVD و NtN و dRW هي خوارزميات ضحلة للتعلم الآلي. AE و DRBM هما طريقتان عميقتان للتعلم الآلي. تم تعيين DRBM بمعدل تعلم 0.01 لـ 25 تكرارًا [29]. يتم استخدام تنظيم L2 على جميع الأوزان ، والتي يتم تهيئتها عشوائيًا من التوزيع المنتظم بين 0 و 1. قمنا بتعيين وظيفة الوحدة المخفية على أنها Sigmoid وعدد الوحدات المخفية كنصف الوحدات المرئية وعدد الطبقة المخفية الثانية كنصف من الطبقة المخفية الأولى وما إلى ذلك. عدد الطبقات المخفية هو 5. في التجارب التالية ، لمنع فرط الملاءمة ، استخدمنا انحلال الوزن والتسرب. يضيف تسوس الوزن مصطلحًا إضافيًا إلى التدرج الطبيعي. هذا المصطلح الإضافي هو مشتق من دالة تعاقب الأوزان الكبيرة. استخدمنا أبسط وظيفة جزاء L2. بالإضافة إلى ذلك ، التسرب هو أسلوب تنظيم لتقليل فرط التخصيص في الشبكات العصبية عن طريق منع التكيفات المعقدة على بيانات التدريب [39].

يمكن تقييم دقة التنبؤ بوظيفة البروتين من خلال مقاييس التقييم المختلفة ، ويتأثر أداء نماذج التنبؤ المختلفة بمقاييس التقييم المعتمدة. لإجراء مقارنة عادلة وشاملة ، استخدمنا أربعة مقاييس للتقييم ، MacroAvgF 1 ، و AvgROC ، و RankingLoss ، و Fmax. تقيس مقاييس التقييم هذه أداء التنبؤ بوظيفة البروتين من جوانب مختلفة. تم تطبيق المقاييس الثلاثة الأولى لتقييم نتائج التعلم متعدد العلامات [40]. يُنصح باستخدام AvgROC و Fmax كمقاييس لتقييم التنبؤ بوظيفة البروتين [6 ، 41]. يحصل MacroAvgFl على درجة F1 لكل مصطلح ثم يأخذ متوسط ​​درجة F1 عبر جميع المصطلحات. يحسب AvgAUC أولاً المنطقة الواقعة تحت منحنى تشغيل المستقبل لكل مصطلح ثم يأخذ متوسط ​​قيمة هذه المناطق ككل لقياس الأداء. Fmax [6] هو أقصى متوسط ​​توافقي عام للتذكر والدقة عبر جميع العتبات الممكنة على مصفوفة ارتباط وظيفة البروتين المتوقعة. يحسب RankingLoss الكسر المتوسط ​​لترتيب التعليقات التوضيحية التي تم توقعها بشكل خاطئ قبل تعليقات الحقيقة الأساسية للبروتينات. للتوافق مع مقاييس التقييم الأخرى ، نستخدم 1 -RankLoss بدلاً من RankingLoss. أي أنه كلما زادت قيمة هذه المقاييس ، كان الأداء أفضل. يمكن العثور على التعريف الرسمي لهذه المقاييس في [6 ، 22 ، 40]. نظرًا لأن هذه المقاييس تلتقط جوانب مختلفة من طريقة التنبؤ بالوظيفة ، فمن الصعب على نهج ما أن يتفوق باستمرار على الآخرين في جميع مقاييس التقييم.

4.2 نتائج تجريبية. استنادًا إلى البروتوكولات التجريبية المقدمة أعلاه ، نجري تجارب للتحقيق في أداء DRBM في التنبؤ بوظيفة البروتين.

في الجدول 2 ، أبلغنا عن النتائج التجريبية على بروتينات Homo sapiens المشروحة بشروط BP و CC و MF ، على التوالي. النتائج على Mus musculus و Saccharomyces cerevisiae و Drosophila متوفرة في الجداول 3-5. في هذه الجداول ، تظهر أفضل النتائج بخط عريض.

من هذه الجداول ، يمكننا أن نرى أن DRBM تحقق نتائج أفضل من NtN و dRW و SVD و AE في معظم الحالات. قمنا أيضًا بتحليل الاختلافات بين DRBM وطرق المقارنة هذه عن طريق اختبار تصنيف موقع Wilcoxon [42 ، 43] ، ووجدنا أن أداء DRBM أفضل بكثير من NtN و dRW و SVD في المقاييس الثلاثة الأولى (حيث تكون قيم p أصغر من 0.004 ) ، ويحصل أيضًا على أداء أفضل من AE العميق عبر هذه المقاييس الأربعة (قيمة p أصغر من 0.001). غالبًا ما تحصل dRW على Fmax أكبر من DRBM والسبب المحتمل هو أن dRW تستخدم العتبة لتصفية بعض التنبؤات وبالتالي تزيد من المعدل الإيجابي الحقيقي.

يطبق dRW مسارات عشوائية نزولية مع إعادة التشغيل على الرسم البياني غير الدوري الموجه GO للتنبؤ بوظيفة البروتين يأخذ dRW في حساب علاقة الهيكل الهرمي بين مصطلحات GO ويحقق نتائج أفضل من NtN و SVD. تؤكد هذه الملاحظة أن العلاقة الهرمية بين المصطلحات تلعب أدوارًا مهمة في التنبؤ بوظيفة البروتين. على الرغم من أن dRW تستخدم علاقة الهيكل الهرمي بين المصطلحات ، إلا أنها لا تزال طريقة تعلم آلي ضحلة ولا تلتقط الارتباطات العميقة بين البروتينات ومصطلحات GO كما يفعل DRBM ، لذلك غالبًا ما يتفوق عليها DRBM.

دائمًا ما تكون نتائج NtN و SVD أقل من نتائج AE و DRBM. السبب المحتمل هو أن تحلل القيمة المفردة على مصفوفة متفرقة غير مناسب لهذا النوع من مشاكل التنبؤ بوظيفة البروتين ، حيث توجد علاقات هرمية معقدة بين مصطلحات GO. تستخدم NtN التسلسل الهرمي الأنطولوجي لضبط أوزان ارتباطات وظائف البروتين ، ولكنها لا تحصل على نتائج أفضل من SVD. والسبب هو أن NtN تعطي أوزانًا كبيرة لتعليقات توضيحية محددة ولكن أوزانًا صغيرة للتعليقات التوضيحية السطحية. من قاعدة المسار الحقيقي ، يتم شرح مصطلحات السلف بشكل عام لبروتينات أكثر من المصطلحات المتحدرة منها. لهذا السبب ، غالبًا ما يتفوق SVD على NtN ولا تقل شيئًا عن AE و DRBM. تعد كل من AE و DRBM من تقنيات التعلم الآلي العميقة ، ولكن أداء DRBM غالبًا ما يكون أفضل من AE. وذلك لأن قدرة التعميم لـ AE ليست مثل قدرة DRBM ، ومن السهل أن تقع AE في المستوى المحلي الأمثل. باختصار ، توضح هذه النتائج والمقارنات أن DRBM يمكن أن يلتقط ارتباطات عميقة بين البروتينات ومصطلحات GO ، وبالتالي يحقق أداءً أفضل من الأساليب الأخرى ذات الصلة عبر مقاييس التقييم المختلفة. DRBM هو نهج بديل فعال للتنبؤ بوظيفة البروتين.

4.3 تحليل وقت التشغيل. هنا ، ندرس تكلفة وقت التشغيل (بما في ذلك مرحلة التدريب ومرحلة الاختبار) لطرق المقارنة هذه على Homo sapiens و Mus musculus في GO BP subontology ، نظرًا لأن هذا الجزء الفرعي يتضمن الكثير من التعليقات التوضيحية وشروط GO. النظام الأساسي التجريبي هو Windows Server 2008 ، Intel Xeon E7-4820 ، 64 جيجابايت من ذاكرة الوصول العشوائي. تم الإبلاغ عن وقت التشغيل المسجل لطرق المقارنة هذه في الجدول 6.

من هذا الجدول ، يمكننا أن نرى أن DRBM أسرع من طرق المقارنة هذه ، باستثناء SVD. يقضي NtN و dRW الكثير من الوقت لحساب التشابه الدلالي بين مصطلحات GO ، لذلك يستغرقان وقتًا أطول من غيرهما. في المقابل ، يطبق SVD تحلل المصفوفة مباشرة على مصفوفة ارتباط وظيفة البروتين وتكون المصفوفة متفرقة ، لذلك يستغرق SVD وقتًا أقل من DRBM. تستخدم AE الشبكات العصبية ذات الانتشار الخلفي لضبط المعلمات التي تكلف قدرًا كبيرًا من الوقت. يستخدم DRBM الاختلاف التقابلي ، وهو خوارزمية سريعة التعلم ، لتحسين المعلمات ، لذلك يكون وقت تشغيلها أقل من AE. تؤكد هذه المقارنة أيضًا أن DRBM هو حل بديل فعال وفعال للتنبؤ بوظيفة البروتين.

في هذه الورقة ، ندرس كيفية التنبؤ بالتعليقات التوضيحية الوظيفية الإضافية للبروتينات المشروحة. نحن نحقق في آلات Boltzmann المقيدة بشدة (DRBM) لهذا الغرض. توضح دراستنا التجريبية على بروتينات Saccharomyces cerevisiae و Homo sapiens و Mus musculus و Drosophila أن DRBM يتفوق على العديد من الأساليب التنافسية ذات الصلة ، خاصة نماذج التعلم الآلي الضحلة. ستقود هذه الورقة البحثية إلى مزيد من البحث حول استخدام تقنيات التعلم الآلي العميق للتنبؤ بوظيفة البروتين. كجزء من عملنا المستقبلي ، سنقوم بدمج أنواع أخرى من البيانات البروتينية مع DRBM لزيادة تعزيز أداء التنبؤ.

يعلن المؤلفون أنه لا يوجد تضارب في المصالح فيما يتعلق بنشر هذه الورقة.

هذا العمل مدعوم جزئيًا من قبل مؤسسة العلوم الطبيعية في الصين (رقم 61402378) ، ومؤسسة العلوم الطبيعية لـ CQ CSTC (رقم cstc2014jcyjA40031 و cstc2016jcyjA0351) ، وتطوير العلوم والتكنولوجيا في مقاطعة جيلين الصينية (20150101051JC و 20160520099JH) ، ومؤسسة العلوم والتكنولوجيا Guizhou (المنحة رقم QKHJC20161076) ، مشروع دعم المواهب من الدرجة الأولى في العلوم والتكنولوجيا للكليات والجامعات في Guizhou (المنحة رقم QJHKY2016065) ، وصناديق البحوث الأساسية للجامعات المركزية في الصين (رقم XDJK2016B009 و 2362015XK07).

[1] R.J. Roberts ، "تحديد وظيفة البروتين ، دعوة للعمل المجتمعي ،" PLoS Biology ، المجلد. 2 ، لا. 3 ، ص. e42 ، 2004.

[2] جي باندي ، ف. كومار ، وم. شتاينباخ ، في المناهج الحسابية للتنبؤ بوظيفة البروتين: مسح ، ص 6-28 ، قسم علوم وهندسة الكمبيوتر ، جامعة مينيسوتا ، مسح ، 2006.

[3] A.M Schnoes ، D.C Ream ، A.W Thorman ، P.C Babbitt ، and I. Friedberg ، "التحيزات في التعليقات التوضيحية لوظيفة البروتين وتأثيرها على فهمنا لمساحة وظيفة البروتين ،" PLoS Computational Biology ، المجلد. 9 ، لا. 5 ، معرف المقالة e1003063 ، 2013.

[4] P D. Thomas، V. Wood، C.J Mungall، S.E Lewis، and J.A Blake، "On the use of gene ontology antology antology to Evaluation the Functional antology and paralogs: a short report،" PLoS Computational Biology، vol. 8 ، لا. 2 ، معرف المقالة e1002386 ، 2012.

[5] P Legrain ، R. Aebersold ، A. Archakov et al. ، "مشروع البروتينات البشرية: الحالة الحالية والاتجاه المستقبلي ،" Molecular & amp ؛ CellularProteomics ، المجلد. 10 ، لا. 7 ، المادة 009993 ، 2011.

[6] P Radivojac، W. Clark، T. Oron et al. ، "تقييم واسع النطاق لتنبؤ وظيفة البروتين الحاسوبي ،" Nature Methods ، المجلد. 10 ، لا. 3 ، ص 221 - 227 ، 2013.

[7] D. Lee ، O. Redfern ، و C. Orengo ، "التنبؤ بوظيفة البروتين من التسلسل والبنية ،" Nature Reviews Molecular Cell Biology ، المجلد. 8 ، لا. 12 ، ص 995-1005 ، 2007.

[8] R. Sharan، I. Ulitsky، and R. Shamir، "التنبؤ المستند إلى الشبكة لوظيفة البروتين" Molecular Systems Biology ، المجلد. 3 ، ص. 88 ، 2007.

[9] M. Cao، C.M Pietras، X. Feng et al.، "الاتجاهات الجديدة للتنبؤ الشبكي القائم على الانتشار لوظيفة البروتين: دمج المسارات بثقة" المعلوماتية الحيوية ، المجلد. 30 ، لا. 12 ، ص. I219-I227 ، 2014.

[10] N. Cesa-Bianchi ، M. Re ، و G. Valentini ، "تآزر المجموعات الهرمية متعددة العلامات ، ودمج البيانات ، والطرق الحساسة للتكلفة للاستدلال الوظيفي للجينات ،" Machine Learning ، المجلد. 88 ، لا. 1-2 ، ص 209-241 ، 2012.

[11] G. Yu ، C. Domeniconi ، H. Rangwala ، G. Zhang ، and Z. Yu ، "Transductive multi-labelling group class للتنبؤ بوظيفة البروتين ،" في Proceedings of the 18th ACM SIGKDD المؤتمر الدولي حول اكتشاف المعرفة و تنقيب البيانات ، KDD 2012 ، ص 1077-1085 ، chn ، أغسطس 2012.

[12] G. Yu، G. Fu، J. Wang، and H. Zhu، "Predicting Protein Function via Semantic Integration of Multiple Networks،" IEEE / ACM Transactions on Computational Biology and Bioinformatics، vol. 13 ، لا. 2 ، ص 220-232 ، 2016.

[13] M. Ashburner، C. A. Ball، J. A. Blake et al.، "Gene ontology: tool for the unification of biology،" Nature Genetics، vol. 25 ، لا. 1 ، ص 25-29 ، 2000.

[14] O.D King، R.E Foulger، S. S. Dwight، J.V White، and F. P. Roth، "Predicting gene function from pattern of anotation،" Genome Research، vol. 13 ، لا. 5 ، ص 896-904 ، 2003.

[15] P. Khatri، B. Done، A. Rao، A. Done، and S. Draghici، "A semantic analysis of the human genome،" Bioinformatics، vol. 21 ، لا. 16 ، ص 3416-3421 ، 2005.

[16] B. Done، P Khatri، A. Done، and S. Draghici، "توقع شروح جديدة لعلم الوجود الجيني البشري باستخدام التحليل الدلالي ،" IEEE / ACM Transactions on Computational Biology and Bioinformatics، vol. 7 ، لا. 1 ، ص 91-99 ، 2010.

[17] Y. Tao ، L. Sam ، J. Li ، C. Friedman ، and Y.A Lussier ، "نظرية المعلومات المطبقة على شبكة التعليقات التوضيحية للأنطولوجيا الجينية المتفرقة للتنبؤ بوظيفة الجينات الجديدة ،" المعلوماتية الحيوية ، المجلد. 23 ، لا. 13 ، ص. i529-i538 ، 2007.

[18] G. Yu ، H. Zhu ، C. Domeniconi ، و J. Liu ، "التنبؤ بوظيفة البروتين عن طريق المشي العشوائي إلى أسفل على علم الأنطولوجيا الجينية ،" BMC Bioinformatics ، المجلد. 16 ، لا. 1 ، المادة لا. 271 ، 2015.

[19] G. Salton، A. Wong، and C. S. Yang، "A vector space model for auto indexing،" Communications of the ACM، vol. 18 ، لا. 11 ، ص 613-620 ، 1975.

[20] هـ. تونج ، ك. فالوتسوس ، وج. Pan ، "مسيرة عشوائية مع إعادة التشغيل: حلول وتطبيقات سريعة" ، نظم المعرفة والمعلومات ، المجلد. 14 ، لا. 3 ، ص 327-346 ، 2008.

[21] G. Yu ، H. Rangwala ، C. Domeniconi ، G. Zhang ، and Z. Yu ، "توقع وظيفة البروتين مع التعليقات التوضيحية غير المكتملة ،" IEEE / ACM Transactions on Computational Biology and Bioinformatics ، المجلد. 11 ، لا. 3 ، ص 579-591 ، 2013.

[22] G. Yu ، C. Domeniconi ، H. Rangwala ، and G. Zhang ، "توقع وظيفة البروتين باستخدام تعظيم الاعتماد ،" في وقائع المؤتمر الأوروبي المشترك حول التعلم الآلي واكتشاف المعرفة في قواعد البيانات ، المجلد. 8188 من ملاحظات المحاضرات في علوم الكمبيوتر ، ص 574-589 ، سبرينغر برلين هايدلبرغ.

[23] G. Yu ، H. Zhu ، و C. Domeniconi ، "التنبؤ بوظائف البروتين باستخدام تسميات هرمية غير مكتملة ،" BMC Bioinformatics ، المجلد. 16 ، لا. 1 ، المادة لا. 1 ، 2015.

[24] جي فو ، جي يو ، جيه وانج ، زانج ، "التنبؤ بوظيفة البروتين الجديدة باستخدام رسم بياني هجين مباشر ،" Science China-Information Science ، المجلد. 46 ، لا. 4 ، ص 461-475 ، 2016.

[25] L. Deng and D. Yu ، "التعلم العميق: الأساليب والتطبيقات ،" Foundations and Trends in Signal Processing ، المجلد. 7 ، لا. 3-4 ، ص 197-387 ، 2013.

[26] J. Eickholt و J. Cheng ، "توقع اتصالات بقايا البروتين باستخدام الشبكات العميقة والتعزيز ،" المعلوماتية الحيوية ، المجلد. 28 ، لا. 23 ، ص 3066-3072 ، 2012.

[27] Y. LeCun، Y. Bengio، and G. Hinton، "Deep Learning،" Nature، vol. 521 ، لا. 7553 ، الصفحات من 436 إلى 444 ، 2015.

[28] G.E Hinton و R. R. Salakhutdinov ، "تقليل أبعاد البيانات مع الشبكات العصبية" ، الرابطة الأمريكية لتقدم العلوم. العلوم ، المجلد. 313 ، لا. 5786 ، الصفحات 504-507 ، 2006.

[29] D. Chicco ، P. Sadowski ، و P Baldi ، "الشبكات العصبية العميقة للتشفير التلقائي للتنبؤات التوضيحية لعلم الجينات ،" في وقائع مؤتمر ACM الخامس حول المعلوماتية الحيوية والبيولوجيا الحاسوبية والمعلوماتية الصحية ، ACMBCB 2014 ، ص 533 -540 ، الولايات المتحدة الأمريكية ، سبتمبر 2014.

[30] جي إي هينتون ، إس. أوسيندو ، و واي.-دبليو. Teh ، "خوارزمية التعلم السريع لشبكات المعتقدات العميقة ،" Neural Computation ، المجلد. 18 ، لا. 7 ، ص 1527-1554 ، 2006.

[31] إي.فاسل وجي بيري ، "شبكات المعتقدات العميقة لاستخراج ملامح اللسان في الوقت الحقيقي من الموجات فوق الصوتية أثناء الكلام" ، في وقائع المؤتمر الدولي العشرين للتعرف على الأنماط ، ICPR 2010 ، ص 1493-1496 ، تور ، أغسطس 2010.

[32] أ. فيشر وسي إيجل ، "مقدمة لآلات بولتزمان المقيدة ،" قيد التقدم في التعرف على الأنماط ، وتحليل الصور ، ورؤية الكمبيوتر ، والتطبيقات ، المجلد. 7441 of Lecture Notes in Computer Science، pp.14-36، Springer Berlin Heidelberg، Berlin، Heidelberg، 2012.

[33] R. Salakhutdinov، A. Mnih، and G. Hinton، Restricted Boltzmann Machines for Cooper Filtering، in Proceedings of the 24th International Conference on Machine Learning (ICML '07)، vol. 227 ، ص 791-798 ، كورفاليس ، أوريغون ، يونيو 2007.

[34] Y. Wang and J. Zeng ، "توقع تفاعلات هدف المخدرات باستخدام آلات Boltzmann المقيدة ،" Bioinformatics ، المجلد. 29 ، لا. 13 ، ص 1126-1134 ، 2013.

[35] X. Li ، F. Zhao ، and Y. Guo ، "آلات boltzmann المقيدة الشرطية للتعلم متعدد العلامات مع تسميات غير كاملة" ، في وقائع المؤتمر الدولي الثامن عشر حول الذكاء الاصطناعي والإحصاء ، ص 635 -643 ، 2015.

[36] جي إي هينتون ، "منتجات تدريب الخبراء عن طريق تقليل الاختلاف التباين ،" Neural Computation ، المجلد. 14 ، لا. 8 ، ص 1771-1800 ، 2002.

[37] جي هينتون ، "دليل عملي لتدريب آلات بولتزمان المقيدة ،" في الشبكات العصبية: خدع التجارة ، جي. مونتافون ، جي بي أور ، وك. مولر ، محرران ، المجلد. 7700 من ملاحظات محاضرة في علوم الكمبيوتر ، ص.599-619 ، سبرينغر ، برلين ، ألمانيا ، الطبعة الثانية ، 2012.

[38] R. Salakhutdinov and G.E Hinton، Deep Boltzmann Machines، in Proceedings of the In Proceedings of 12th International Intelligence and Statistics، pp. 448-455، 2009.

. 15 ، لا. 1 ، ص 1929-1958 ، 2014.

[40] M.-L. تشانغ و Z.-H. Zhou ، "مراجعة حول خوارزميات التعلم متعددة العلامات" IEEE Transactions on Knowledge and Data Engineering ، المجلد. 26 ، لا. 8 ، ص 1819-1837 ، 2014.

[41] Y. Jiang ، "يُظهر تقييم موسع لطرق التنبؤ بوظيفة البروتين تحسنًا في الدقة ،" Genome Biology، vol. 17 ، لا. 1-19 ، ص 1819-1837 ، 2016.

[42] L. Wilcoxon ، "المقارنة الفردية عن طريق طرق الترتيب ،" Biometrics ، المجلد. 1 ، لا. 6 ، ص 80-83 ، 1945.

[43] جيه ديمسار ، "مقارنات إحصائية للمصنفات عبر مجموعات بيانات متعددة ،" مجلة أبحاث التعلم الآلي ، المجلد. 7 ، لا. 1 ، ص 1-30 ، 2006.

Xianchun Zou و Guijun Wang و Guoxian Yu

كلية علوم الحاسب والمعلومات ، جامعة ساوث ويست ، تشونغتشينغ ، الصين


الطرق الرئيسية المستخدمة للتنبؤ بالشروح الوظيفية في GO - Biology

وظيفة SIG: شرح وظيفة الجينات والبروتين

عروض مسار COSI

نظرة عامة على العرض التقديمي: تبين

يمكن استخدام تحليل التطور المترابط بين الجينات لاستنتاج التفاعلات الوظيفية بين البروتينات التي تقوم بتشفيرها. غالبًا ما يتم التحقق من صحة التحليلات التطورية المشتركة من خلال قدرتها على تحديد البروتينات المنخرطة في معقد فيزيائي أو بمسار استقلابي مشترك. ومع ذلك ، بالإضافة إلى التنبؤ بالتفاعل ، فقد توفر أيضًا معلومات قيمة حول الاستقلال. باستخدام استقلاب الفولات كدراسة حالة ، وجدنا زوجًا من الإنزيمات التي تتطور معًا ، إحصائيًا وتجريبيًا ، مع بعضها البعض ، ولكن بشكل مستقل عن بقية المسار. ستساعد إستراتيجية تحديد مجموعات البروتينات التي تتكيف وتعمل كوحدات قائمة بذاتها على جعل الأنظمة الخلوية أكثر قابلية للتتبع والتنبؤ ، وتقترح استراتيجيات عملية للهندسة الأيضية.

  • جوزيبي بروفيتي ، جامعة بولونيا وإليكسير إيطاليا ، إيطاليا
  • Castrense Savojardo ، جامعة بولونيا ، إيطاليا
  • بيير لويجي مارتيلي ، جامعة بولونيا ، إيطاليا
  • ريتا كاساديو ، جامعة بولونيا ، إيطاليا

نظرة عامة على العرض التقديمي: تبين

يعد التقييم النقدي لخوارزميات التعليقات التوضيحية لوظيفة البروتين (CAFA) تحديًا علميًا يتم إجراؤه كل عامين ، ويتألف من التنبؤ بمصطلحات علم الوجود الجيني (GO) من تسلسل البروتين.
يصدر المنظمون مجموعة من متواليات البروتين ، وينبغي إيداع تنبؤات المشاركين بحلول يناير التالي ، ويتم إجراء التقييم على التعليق التوضيحي التجريبي المتراكم في الأشهر التالية (6 على الأقل).
عادة ما يتم نشر ورقة مع النتائج قبل الدفعة التالية من التحدي: تم نشر نتائج CAFA1 (2010-2011) في 2013 ، CAFA2 (2013-2014) في 2016 ، وتقييم CAFA3 2016-2017 لا يزال قيد التقدم.
تتطلب المجلات مثل إصدار NAR Web Server نتائج CAFA للتنبؤات المقدمة للنشر ، ولكن هذه النتائج متاحة بعد سنوات من اختبار الطريقة في CAFA ، وعلى أي حال يتم تشغيل التحدي كل عامين. يؤدي هذا إلى فجوة: إما أن يستخدم العلماء الدرجات القديمة ، أو يجب عليهم إجراء تقييمات "داخلية" شبيهة بـ CAFA.
بالنظر إلى هذا السيناريو ، نقترح أن يكون لدينا نظام تقييم مستمر مركزي للتقييمات الشبيهة بـ CAFA. سيساعد ذلك في الحصول على درجات متسقة ومعتمدة ومراجع مجموعة بيانات واضحة وانفتاح. يمكن استغلال منصات قياس الأداء الحالية مثل OpenEBench بهذا المعنى.

  • بيتر فريدولينو ، جامعة ميتشيغان ، الولايات المتحدة
  • مهدي رحيمبور ، جامعة ميتشجن ، الولايات المتحدة
  • شينجشين زانج ، جامعة ميتشيغان ، الولايات المتحدة
  • يانغ زانغ ، جامعة ميتشيغان ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

كثيرًا ما يتم إعاقة التعليقات التوضيحية الوظيفية الحسابية بسبب الافتقار إلى قوالب عالية الهوية لأي هدف جديد محل اهتمام. لقد قمنا مؤخرًا بتطوير خط أنابيب هجين يجمع بين التنبؤ / المحاذاة الهيكلية ومحاذاة التسلسل ومعلومات تفاعل البروتين البروتين للحصول على تنبؤات هيكلية مجمعة وشروح وظيفية للبروتينات بأكملها. نجد أن تضميننا للمعلومات الهيكلية يجعل سير العمل لدينا قويًا بشكل غير عادي في الأداء على الأهداف الصعبة مع تحديد تسلسل محدد للبروتينات المشروحة. الأهم من ذلك ، نلاحظ أيضًا أنه في التنبؤ بالهيكل السيليكو يمكن الآن استبدال الهياكل التجريبية لأغراض خطوط أنابيب التعليقات التوضيحية الوظيفية. توفر تنبؤات الهيكل / الوظيفة المدمجة التي يوفرها خط الأنابيب لدينا ثراءً غير معتاد من المعلومات ، ونعرض العديد من حالات الاستخدام حيث توجه البصيرة من هذه التنبؤات تجارب المتابعة بدقة.

يكشف فحص تنبؤاتنا على العديد من البروتينات النموذجية عن مجموعة من الوظائف التي يتم تمثيلها بشكل مفرط بشكل شائع بين البروتينات ذات التعليقات التوضيحية الضعيفة ، بما في ذلك عوامل النسخ ، والكينازات / الفوسفاتازات ، والجينات المسببة للأمراض. توفر النتائج التي توصلنا إليها نظرة ثاقبة جديدة أساسية حول القدرة الجينية المشفرة في البروتينات عبر جميع مجالات الحياة ، وتنتج مصدرًا جديدًا غنيًا للمعلومات لبذر بحث مفصل عن وظائف العديد من جينات ترميز البروتين الغامضة سابقًا ، وتمهيد الطريق أمام نطاق واسع شرح الهيكل / الوظيفة لمجموعة أوسع من البروتينات ذات الأهمية.

  • لينهوا وانج ، كلية الطب في إيكان ، ماونت سيناي ، الولايات المتحدة
  • جيفري لو ، فرجينيا تك ، الولايات المتحدة
  • شيف كالي ، فرجينيا تك ، الولايات المتحدة
  • تي إم مورالي ، فرجينيا تك ، الولايات المتحدة
  • غوراف باندي ، كلية الطب في إيكان في جبل سيناء ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

يتمثل النهج الفعال للاستفادة من تكامل الطرق المقترحة للتنبؤ بوظيفة البروتين (PFP) في استيعابها في مجموعات غير متجانسة. لقد أوضحنا أن مثل هذه المجموعات يمكن أن توفر مكاسب كبيرة في الأداء على متنبئ PFP الفردي. ومع ذلك ، فقد اقتصر عملنا السابق على عدد قليل من مصطلحات GO نظرًا للتكاليف الحسابية لإنشاء هذه المجموعات. هنا ، نقوم بالإبلاغ عن نتائج PFP على نطاق واسع باستخدام مجموعات غير متجانسة.

على وجه التحديد ، قمنا ببناء وتقييم مجموعات لـ 277 مصطلح GO باستخدام 12 مصنفًا أساسيًا متنوعًا ، ونوعين من الطرق ، وهما التكديس مع 8 مصنفات وصفية مختلفة وخوارزمية اختيار المجموعة (CES) من Caruana et al. كان التكديس باستخدام الانحدار اللوجستي (SLR) هو الأفضل أداءً ، كما كان أداؤه تنافسيًا مع CES. تفوقت SLR بشكل عام على أفضل مصنف أساسي ، مع زيادة متوسط ​​تحسين Fmax مع حجم مصطلح GO ، أي 0.010 (p = 0.21) ، 0.027 (p = 1.1x10-7) و 0.033 (p = 1.7x10-10) للصغار (200- 500 بروتين) ، متوسط ​​(500-1000 بروتين) وكبير (أكثر من 1000 بروتين) على التوالي. علاوة على ذلك ، استغرقت العملية الحسابية بأكملها أقل من 48 ساعة على مجموعة حوسبة كبيرة. توضح هذه النتائج أن PFP على نطاق واسع باستخدام مجموعات غير متجانسة تم إنشاؤها بشكل منهجي باستخدام التكديس و CES يمكن أن تكون تنبؤية ومجدية من الناحية الحسابية.

  • سيرجي نيبومنياكي ، جامعة تل أبيب ، إسرائيل
  • نير بن تل ، جامعة تل أبيب ، إسرائيل
  • راشيل كولودني ، جامعة حيفا ، إسرائيل

نظرة عامة على العرض التقديمي: تبين

إعادة الاستخدام - الخيار المشترك لأجزاء من بروتينات غير مرتبطة لإنتاج بروتينات جديدة - هو أساس تطور البروتين. وبالتالي ، فإن توصيف إعادة الاستخدام يمكن أن يقدم رؤى لوظيفة البروتين وتطوره. لدراسة أنماط إعادة الاستخدام ، قمنا بتطوير خوارزمية تحدد "السمات" - الأجزاء المعاد استخدامها من تسلسل وبنية متشابهة من محاذاة البروتين. تعثر الخوارزمية الخاصة بنا على موضوعات ذات أطوال متفاوتة تتراوح بين 35-200 وحدة بنائية. باستخدامه ، نقوم بتحديد ودراسة إعادة الاستخدام في قاعدة بيانات ECOD للمجالات وفي PDB. في الواقع ، إعادة استخدام الموضوع منتشر ، وإعادة الاستخدام أكثر شمولاً عند تضمين موضوعات أقصر. المجالات الهيكلية ، والتي هي أجزاء بروتين مطوية بشكل مستقل وأفضل أشكال إعادة الاستخدام في البروتينات ، هي مجرد واحدة من العديد من الآثار التطورية المعقدة والمتشابكة. تشتمل الأنواع الأخرى على موضوعات طويلة مشتركة بين عدد قليل من البروتينات ، والتي تشمل وتتداخل مع موضوعات أقصر تتكرر في المزيد من البروتينات. يتوافق التعقيد الملحوظ مع التطور عن طريق الازدواجية والاختلاف ، مما يشير إلى أن بعض الموضوعات قد تشمل أحفاد شرائح الأجداد. آثار الأقدام العودية المرصودة ، حيث يمكن للحمض الأميني نفسه أن يشارك في نفس الوقت في العديد من الموضوعات المتشابكة ، لها تداعيات مثيرة للاهتمام لتوصيف التطور والتنبؤ بوظيفة البروتين.

  • ماجدالينا أنتزاك ، جامعة كنت ، المملكة المتحدة
  • مارك واس ، جامعة كينت ، المملكة المتحدة

نظرة عامة على العرض التقديمي: تبين

بعد ما يقرب من 20 عامًا من نشر تسلسل الجينوم البشري الأول ، لا تزال معرفتنا وفهمنا لوظائف الجين / البروتين محدودة. يتضح هذا من خلال التحديد الأخير للجينوم البكتيري الأدنى الذي كشف أن ثلث (149 من 438) البروتينات في هذا الجينوم كانت ذات وظيفة غير معروفة. تؤدي هذه الجينات أدوارًا أساسية ، لكن ليس لدينا أي فكرة عن الوظائف التي تؤديها.
أجرينا تحليلًا مكثفًا في السيليكو لتوسيع فهمنا للحد الأدنى من الجينوم. بشكل عام ، استنتج تحليلنا وظائف أكثر إفادة لـ 59 من أصل 149 بروتينًا غير معروف الوظيفة. تغطي الوظائف المستنتجة مجالات متعددة بما في ذلك تخليق البروتين وانقسام الخلايا ونقلها. تشير نتائجنا إلى أن أكثر من 50٪ من الحد الأدنى من الجينوم مطلوب لعمليات الحياة الأساسية للحفاظ على المعلومات الجينية والتعبير عنها. ومن المثير للاهتمام أننا حددنا العديد من بروتينات الغشاء في مجموعة البروتينات غير المميزة وتوقعنا أن أكثر من 70٪ منها لها وظائف ناقلة. يوفر تحليلنا نظرة ثاقبة لوظائف البروتينات في الحد الأدنى من الجينوم البكتيري ، والتي ستكون الآن ذات أهمية للتوصيف التجريبي. علاوة على ذلك ، فإنه يسلط الضوء على القدرة على استخدام الأساليب الحسابية لتوسيع معرفتنا وفهمنا لوظيفة البروتين.

  • نيرفانا نورسيمولو ، جامعة تورنتو ، كندا
  • ليون شو ، جامعة تورنتو ، كندا
  • جيمس واسموت ، جامعة كالجاري ، كندا
  • إيفان كروكوف ، جامعة كالجاري ، كندا
  • جون باركنسون ، مستشفى الأطفال المرضى ، كندا

نظرة عامة على العرض التقديمي: تبين

النمذجة الأيضية طريقة فعالة لفهم العوامل التي تؤثر على نمو الكائنات الحية. في نهاية المطاف ، تعتبر هذه النماذج أساسية لأغراض مثل هندسة التمثيل الغذائي وتصميم الأدوية. ومع ذلك ، فإن عمليات البحث عن تشابه التسلسل - التي تُستخدم عادةً لتوضيح الوظيفة الأنزيمية لهذه النماذج - تنتج تنبؤات إنزيم موجبة خاطئة وتفشل في مراعاة تنوع التسلسل داخل فئات الإنزيم. لذلك ، تم تطوير طرق مختلفة ، بالنظر إلى ما وراء تشابه التسلسل لعناصر مثل المجال ووجود الموقع التحفيزي. هنا ، نبدأ بتقديم DETECT (أداة تقدير الكثافة لتصنيف الإنزيم). في DETECT ، يتم التقاط تنوع التسلسل داخل كل فئة إنزيم من خلال ملفات تعريف الكثافة. بعد ذلك ، يقوم بحساب درجات الاحتمالية لتسلسل استعلام بالنظر إلى تطابقه مع تسلسل فئات الإنزيم المختلفة. إن استخدام قطع النتيجة الخاصة بالإنزيم المحسوبة من التحقق المتقاطع يمنح DETECT دقة واسترجاع أعلى مقارنة بالطرق الحالية. يبقى أن الطرق المختلفة هي الأنسب للتنبؤ بفئات إنزيم معينة مقارنة بالآخرين. وهكذا ، في الجزء الثاني ، نقدم نهجًا تكامليًا لتعليق الإنزيم ، حيث تُستخدم القواعد الخاصة بالإنزيم للجمع بين تنبؤات الأدوات المختلفة. بشكل عام ، نقترح طرقًا لإنشاء نماذج أيضية عالية الثقة لدفع الاكتشاف البيولوجي.

  • كوكولابالان ويمالاناثان ، جامعة ولاية آيوا ، الولايات المتحدة
  • إيدو فريدبرج ، جامعة ولاية آيوا ، الولايات المتحدة
  • كارسون أندورف ، وزارة الزراعة الأمريكية - ARS ، الولايات المتحدة
  • كارولين لورانس ديل ، جامعة ولاية آيوا ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

الذرة هي نوع من أنواع المحاصيل ونموذج لأبحاث علم الوراثة وعلم الجينوم. تستخدم تعليقات Maize GO التوضيحية من Gramene و Phytozome على نطاق واسع لاشتقاق فرضيات لتحسين المحاصيل والعلوم الأساسية. مشروع الذرة الصفراء هو محاولة لتقييم شروح الذرة GO الحالية وتحسين نوعية وكمية التعليقات التوضيحية. لقد صممنا ونفذنا أداة شرح توضيحية قابلة للتكرار خاصة بالمصنع (GO-MAP) تستخدم طرق مكونات متنوعة بما في ذلك تشابه التسلسل ووجود المجال وثلاث أدوات CAFA (Argot2 و FANN-GO و Pannzer) ، للتنبؤ بمصطلحات GO إلى جينات الذرة وتجميع التعليقات التوضيحية المتوقعة كمجموعة بيانات مجمعة. تم تقييم ومقارنة التعليقات التوضيحية من Gramene و Phytozome و Maize-GAMER. مقارنةً بـ Gramene و Phytozome ، تشرح مجموعة بيانات Maize-GAMER المزيد من الجينات وتخصص المزيد من مصطلحات GO لكل جين. تم تقييم جودة التعليقات التوضيحية باستخدام مجموعة بيانات مستقلة ذات معيار ذهبي (2002 GO الشروح لـ 1619 جينًا) من MaizeGDB. في فئة CC ، كانت maize-GAMER هي الأفضل أداءً ، لكنها احتلت مرتبة متأخرة قليلاً عن Gramene في فئتي MF و BP. تم إصدار التعليقات التوضيحية لـ Maize-GAMER GO علنًا ، وسيتم قريبًا إطلاق أداة GO-MAP المعبأة في حاويات لتسهيل شرح البروتينات النباتية الأخرى.

نظرة عامة على العرض التقديمي: تبين

الكازيمات (الإنزيمات النشطة للكربوهيدرات) هي من بين أهم الإنزيمات للطاقة الحيوية والصناعات الزراعية. يعتبر الكازيم مهمًا أيضًا لصحة الإنسان ، لأن الميكروبات التي تعيش في أحشاء الإنسان تشفر أعلى نسبة من الكازيمات لتحطيم الكربوهيدرات الغذائية المختلفة والكربوهيدرات المضيفة ، وسيؤثر تغيير الكربوهيدرات الغذائية على بنية ميكروبيوتا الأمعاء ويزيد من التأثير على صحة الإنسان. لقد قمنا ببناء قاعدة بيانات على الإنترنت dbCAN-seq (http://cys.bios.niu.edu/dbCAN_seq) لتوفير تسلسل CAZyme المحسوب مسبقًا وبيانات التعليقات التوضيحية لـ 5349 جينومًا بكتيريًا. مقارنةً بموارد CAZyme الأخرى ، تتمتع dbCAN-seq بالميزات الجديدة التالية: (1) صفحة تنزيل ملائمة للسماح بتنزيل دفعة لجميع بيانات التسلسل والتعليقات التوضيحية (2) صفحة تعليق توضيحي لكل CAZyme لتوفير بيانات التعليقات التوضيحية الأكثر شمولاً (3) صفحة بيانات وصفية لتنظيم الجينومات البكتيرية وفقًا لبيانات وصفية للأنواع مثل المرض والموئل ومتطلبات الأكسجين ودرجة الحرارة والتمثيل الغذائي. وظيفة البحث للسماح بالاستعلام عن البيانات بسرعة وكفاءة. مع هذه الأدوات المساعدة الفريدة ، سيصبح dbCAN-seq موردًا قيِّمًا على الويب لأبحاث CAZyme ، مع تركيز مكمل لـ dbCAN (خادم التعليقات التوضيحية الآلي لـ CAZyme) و CAZy (تصنيف عائلة CAZyme وقاعدة البيانات المرجعية).

  • تونكا دوجان ، EMBL-EBI ، CanSyL ، METU ، المملكة المتحدة
  • أحمد سوريا رفاي أوغلو ، جامعة الشرق الأوسط التقنية ، تركيا
  • ربيع السعيدي ، EMBL-EBI ، المملكة المتحدة
  • ماريا مارتن ، EMBL-EBI ، المملكة المتحدة
  • فولكان أتالاي ، جامعة الشرق الأوسط التقنية ، تركيا
  • Rengul Atalay ، METU ، تركيا

نظرة عامة على العرض التقديمي: تبين

الشرح الوظيفي للجزيئات الحيوية في قواعد بيانات الجينات والبروتينات غير مكتمل في الغالب. هذا صالح بشكل خاص للبروتينات متعددة المجالات. توجد منطقة رمادية في موارد بيانات وظيفة البروتين ، حيث تتواجد الوظائف السلبية حقًا وتلك التي يمتلكها البروتين ولكن لم يتم اكتشافها أو توثيقها بعد (أي السلبيات الخاطئة) معًا. في كثير من الحالات ، يمكن أن تكون المعلومات حول الوظائف الغائبة عن الجزيء الحيوي المستهدف بنفس أهمية الوظائف المعينة. من الممكن حل جزء من هذه المنطقة الرمادية من خلال التنبؤ بالوظائف التي لا تمتلكها البروتينات المستهدفة على الأرجح. في هذه الدراسة ، نقدم طريقة لإنتاج تعليقات توضيحية وظيفية سلبية لتسلسل البروتين ، جنبًا إلى جنب مع الارتباطات الإيجابية المنتظمة. باستخدام هذا النهج ، قمنا بتطوير أداة آلية للتنبؤ بالوظائف "UniGOPred". تم قياس أداء التنبؤ السلبي (الاسترجاع) على أنه 0.82 لكل من MF و BP ، و 0.66 لشروط CC GO (مع درجات التنبؤ ≤ 0.3) ، في التحقق المتقاطع. على حد علمنا ، يتم التحقيق هنا لأول مرة في قدرة طريقة التنبؤ بوظيفة البروتين على التنبؤ بالوظائف السلبية باستخدام ميزات التسلسل. UniGOPred متاح كأداة وصول مفتوح على http://cansyl.metu.edu.tr/UniGOPred.html.

  • مرتضى بوريزا شهري ، جامعة ولاية مونتانا ، الولايات المتحدة
  • مادهوسودان سرينيفاسان ، جامعة ولاية مونتانا ، الولايات المتحدة
  • Upulee Kanewala ، جامعة ولاية مونتانا ، الولايات المتحدة
  • إنديكا كاهاندا ، جامعة ولاية مونتانا ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

يعد التقييم النقدي لخوارزميات التعليقات التوضيحية لوظيفة البروتين (CAFA) تجربة واسعة النطاق لتقييم النماذج الحسابية للتنبؤ بالوظائف الآلية (AFP). أظهرت النماذج المقدمة في CAFA وعدًا ممتازًا من حيث دقة التنبؤ ، ولكن تم إيلاء ضمان الجودة اهتمامًا أقل نسبيًا. التحدي الرئيسي المرتبط بإجراء اختبار منهجي على برنامج AFP هو عدم وجود اختبار أوراكل ، والذي يحدد النجاح أو الفشل في حالة الاختبار للأسف ، والنتائج المتوقعة الدقيقة ليست محددة جيدًا لمهمة AFP. اختبار التحول (MT) هو أسلوب يستخدم لاختبار البرامج التي تواجه مشكلة أوراكل من خلال تحديد العلاقات المتحولة (MRs). يحدد MR ما إذا كان الاختبار قد نجح أو فشل عن طريق تحديد كيفية تغيير المخرجات وفقًا لتغيير معين يتم إجراؤه على الإدخال. في هذا العمل ، نستخدم MT لاختبار خمس أدوات CAFA2 AFP على شبكة الإنترنت من خلال تحديد مجموعة من MRs التي تطبق تحويلات الإدخال على مستوى البروتين. وفقًا لهذا الاختبار الأولي ، نلاحظ انتهاكات MR. حاليًا ، نحن نعمل على تطوير MRs الخاصة بالمجال بناءً على تعديلات التسلسل. في المستقبل ، نخطط لتطوير أداة مسرح ماجنت شاملة ومتاحة بسهولة لمجتمع وكالة فرانس برس.

  • Naihui Zhou ، جامعة ولاية أيوا ، الولايات المتحدة
  • يوكسيانج جيانغ ، جامعة إنديانا بلومنجتون ، الولايات المتحدة
  • مايكل جيرتن ، جامعة ولاية آيوا ، الولايات المتحدة
  • تيموثي بيرجكويست ، جامعة واشنطن ، الولايات المتحدة
  • نافيز حميد ، جامعة ولاية آيوا ، الولايات المتحدة
  • ديبورا أ. هوجان ، كلية جيزل للطب في دارتموث ، الولايات المتحدة
  • كيمبرلي أ.لويس ، كلية جيزل للطب في دارتموث ، الولايات المتحدة
  • أليكس دبليو كروكر ، كلية دارتموث ، الولايات المتحدة
  • جورج جورغيو ، EMBL-EBI ، المملكة المتحدة
  • ماريا مارتن ، EMBL-EBI ، المملكة المتحدة
  • كلير أودونوفان ، EMBL-EBI ، المملكة المتحدة
  • ساندرا أوركارد ، EMBL-EBI ، المملكة المتحدة
  • شون د موني ، جامعة واشنطن ، الولايات المتحدة
  • كيسي س. جرين ، جامعة بنسلفانيا ، الولايات المتحدة
  • بريدراج راديفوجاك ، جامعة إنديانا بلومنجتون ، الولايات المتحدة
  • إيدو فريدبرج ، جامعة ولاية آيوا ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

أصدر تحدي CAFA الثالث (CAFA3) أهدافه للتنبؤ في سبتمبر 2016 ، وتم الإعلان عن النتائج الأولية في يوليو 2017. أظهر CAFA3 مسارًا مرتكزًا على المصطلح حيث طُلب من المتنبئين ربط مجموعة كبيرة من الجينات (الجينومات الكاملة للمبيضات البيض و Pseudomonas aeruginosa) مع مجموعة محدودة من الوظائف. من خلال التعاون مع علماء الأحياء التجريبية ، تمكنا من استخدام نتائج شاشة الجينوم الكامل غير المنشورة لتقييم هذه التنبؤات. لمعالجة هذا السؤال على وجه التحديد ، استضفنا تحديًا إضافيًا CAFA 3.14 (CAFA-Pi) مخصص لتقييم التنبؤات التي تتمحور حول المصطلح. سيتم إصدار ومناقشة نتائج CAFA3 النهائية بالإضافة إلى نتائج CAFA-Pi الأولية ومناقشتها ، بالإضافة إلى أبرز التقييمات التي تتمحور حول المصطلح والبروتينات المعيارية.

  • ينج زانج ، جامعة رود آيلاند ، الولايات المتحدة
  • جون ستيفنسن ، جامعة رود آيلاند ، الولايات المتحدة
  • كيث دوفولت طومسون ، جامعة رود آيلاند ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

يشكل التمثيل الغذائي الأساس لفهم العمليات الخلوية في جميع الكائنات الحية وهو ضروري في التوسط في المجتمع الميكروبي وجمعيات الميكروبات المضيفة.على الرغم من التطبيق الواسع لنماذج مقياس الجينوم في دراسة وظيفة وتطور شبكات التمثيل الغذائي ، لا يزال هناك نقص في الفهم الشامل لعمليات التمثيل الغذائي المتنوعة بسبب التعقيد الكبير والتنوع في التفاعلات الأيضية بين الأنواع المختلفة. لتمكين التعليق التوضيحي وتصور شبكات التمثيل الغذائي المعقدة خارج نطاق قواعد بيانات المسار الأيضي الحالية ، قمنا بتطوير خوارزمية جديدة ، FindPrimaryPairs ، للتنبؤ تلقائيًا بأزواج المواد المتفاعلة / المنتج التي تنقل العناصر وبالتالي تتبع الاتصالات الأولية للمستقلبات في شبكات التمثيل الغذائي . تم تطبيق الخوارزمية لتمكين تصور مسارات التمثيل الغذائي. في العرض التقديمي ، سوف نعرض تطبيقات جديدة لنهجنا في شرح التعاون الأيضي للمضيف والميكروب ومناقشة المزيد من تكامل المعلومات الهيكلية والوظيفية للبروتين في دراسة تطور التفاعلات الأيضية بين الأنواع المختلفة.

  • فلاديمير جليجوريجيفيتش ، معهد فلاتيرون ، الولايات المتحدة
  • لقاء مع باروت ، معهد فلاتيرون ، الولايات المتحدة
  • دا تشين إميلي كو ، جامعة نيويورك ، الولايات المتحدة
  • ريتشارد بونو ، جامعة نيويورك ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

أدى انتشار الأساليب التجريبية عالية الإنتاجية إلى وفرة شبكات التفاعل الجزيئي والوظيفي على نطاق واسع. يوفر اتصال هذه الشبكات مصدرًا غنيًا للمعلومات لاستنتاج التعليقات التوضيحية الوظيفية للجينات والبروتينات. كان التحدي المهم هو تطوير طرق للجمع بين هذه الشبكات غير المتجانسة لاستخراج تمثيلات خصائص البروتين المفيدة للتنبؤ بالوظيفة. تستخدم معظم الأساليب الحالية لتكامل الشبكة نماذج ضحلة لا يمكنها التقاط هياكل شبكات معقدة وغير خطية للغاية. وبالتالي ، فإننا نقترح deepNF ، وهي طريقة اندماج شبكة تعتمد على أجهزة تشفير تلقائية عميقة متعددة الوسائط لاستخراج ميزات عالية المستوى للبروتينات من شبكات تفاعل متعددة غير متجانسة. نطبق deepNF على شبكات 6 STRING لإنشاء تمثيل مدمج منخفض الأبعاد يحتوي على ميزات بروتين عالية المستوى. نقدم تحليلاً شاملاً للأداء يقارن طريقتنا بأحدث أساليب تكامل الشبكات مثل GeneMANIA و Mashup. بالإضافة إلى التحقق المتبادل ، يتضمن التحليل أيضًا تقييمًا للتحقق من صحة الانتظار المؤقت مشابهًا للتدابير في CAFA. تتفوق طريقتنا على الأساليب السابقة لكل من شبكات STRING البشرية والخميرة. تؤدي الميزات المكتسبة من خلال طريقتنا إلى تحسينات جوهرية في دقة التنبؤ بوظيفة البروتين ، والتي يمكن أن تتيح اكتشافات جديدة لوظيفة البروتين.

  • يانيك ماهليش ، جامعة ميونخ التقنية ، ألمانيا
  • مارتن شتاينجر ، معهد ماكس بلانك ، جمهورية كوريا
  • بوركهارد روست ، جامعة ميونخ التقنية ، ألمانيا
  • يانا برومبرج ، جامعة روتجرز ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

الدافع: أدى الانخفاض السريع في تكاليف التسلسل إلى إنتاج العديد من سلاسل البروتين (المتوقعة) أكثر مما يمكن شرحه عمليًا بتجارب المعمل الرطب. وبالتالي ، تم تطوير العديد من الأساليب الحسابية لهذا الغرض. تستخدم معظم هذه الطرق الاستدلال القائم على التماثل ، والذي يتم تقريبه عبر محاذاة التسلسل ، لنقل التعليقات التوضيحية الوظيفية بين البروتينات. ومع ذلك ، أدت الزيادة في عدد التسلسلات المتاحة إلى زيادة مساحة البحث بشكل كبير ، مما أدى إلى إبطاء طرق المحاذاة بشكل كبير.
النتائج: هنا نصف HFSP ، وهي طريقة حسابية جديدة تستخدم نتائج خوارزمية محاذاة عالية السرعة ، MMseqs2 ، لاستنتاج التشابه الوظيفي للبروتينات على أساس طول المحاذاة وهوية التسلسل. نظهر أن طريقتنا دقيقة (دقة 83٪) وسريعة (تزيد السرعة بأكثر من 40 ضعفًا عن أحدث التقنيات). يمكن أن يساعد HFSP في تصحيح خطأ بنسبة 20٪ على الأقل في الأعمال الفنية القديمة ، حتى بالنسبة لمورد بجودة عالية مثل Swiss-Prot. تشير هذه النتائج إلى HFSP كمورد مثالي لجهود التعليقات التوضيحية الوظيفية واسعة النطاق.

  • ربيع السعيدي ، EMBL-EBI ، المملكة المتحدة
  • مريم عبد اللهيان ، جامعة كوين ماري بلندن ، المملكة المتحدة
  • جيمس لي ، EMBL-EBI ، المملكة المتحدة
  • تونكا دوجان ، EMBL-EBI ، CanSyL ، METU ، المملكة المتحدة
  • أحمد سوريا رفاي أوغلو ، جامعة الشرق الأوسط التقنية ، تركيا
  • ماريا مارتن ، EMBL-EBI ، المملكة المتحدة

نظرة عامة على العرض التقديمي: تبين

تستخدم كل من خطوط أنابيب UniProt التلقائية واليدوية مجموعات من توقيعات العائلة والمجال لاستنتاج التعليقات التوضيحية الوظيفية للبروتينات. في الآونة الأخيرة ، اقترح عدد من الدراسات أن نفس مجموعة التوقيعات لا تعني بالضرورة نفس التعليقات التوضيحية ، وأن العوامل الأخرى ، مثل ترتيب التواقيع في تسلسل البروتين ، قد يكون لها تأثير على وظيفتها. ومع ذلك ، لم يتم بعد تحديد هذا التأثير كميا. في هذا العمل ، نقدم نهجًا قائمًا على نظرية المعلومات لقياس الاتساق بين مجموعات التوقيع والشروح. نقترح مقياس إنتروبيا جديد يأخذ الطبيعة الديناميكية لعملية التعليق التوضيحي في الاعتبار من خلال تعيين أوزان مختلفة لوجود تعليق توضيحي وغيابه. تظهر النتائج تناسقًا عاليًا بين مجموعات التوقيع والتعليقات التوضيحية في UniProt Knowledgebase. بصرف النظر عن القياس الكمي لاتساق الشرح ، فإن تحليلنا له بعض الآثار الإضافية. أحدهما هو اكتشاف التواقيع ذات الاتساق الكامل للتعليقات التوضيحية والتي يمكن استخدامها بعد ذلك كبذور لتوليد قواعد التعليقات التوضيحية الجديدة. علاوة على ذلك ، لاكتساب فهم أفضل للأسباب الكامنة وراء عدم الاتساق في بعض مجموعات التوقيع ، استخدمنا مفاهيم رسمية لتحديد البروتينات ذات التعليقات التوضيحية غير المكتملة واكتشاف العائلات الفرعية الجديدة المحتملة التي تشترك في التعليقات التوضيحية نفسها.

  • تايلور بروكس ، جامعة بيثون كوكمان ، الولايات المتحدة
  • ريمي جونز ، جامعة بيثون كوكمان ، الولايات المتحدة
  • أنتوينشا هولمان ، جامعة ولاية جاكسون ، الولايات المتحدة
  • رفائيل إيسوكبيهي ، جامعة بيثون كوكمان ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

إن جنس البكتيريا Actinomyces قادر على النمو والتكاثر والتسبب في التهابات في مواقع متعددة من جسم الإنسان بما في ذلك المواقع التي تكون فيها ظروف نمو البكتيريا غير مواتية. تمكن الجينات التي تشفر بروتينات الإجهاد العالمية البكتيريا من الاستجابة للإجهاد والنمو في ظروف غير مواتية مثل نقص المغذيات والظروف الحمضية. كان الهدف من البحث المذكور هنا هو التنبؤ بوظائف بروتينات الإجهاد العالمية المشفرة في جينومات الأنواع الشعاعية. تم استخدام مزيج من المعلوماتية الحيوية وتقنيات التحليلات المرئية لبناء مجموعات البيانات وتحديد الوظيفة واتجاه النسخ والترتيب التشغيلي للجينات المجاورة لبروتينات الإجهاد العالمية للشعيات. كشف تحليل الجينات عن أوبرا من 4 جينات يتضمن جين USP المرتبط بجينوم الشعيات الفموية. يحتوي المشغل على شرح وظيفي لناقل السكروز وإنزيم لتحطيم السكروز. يمكن أن يشير وجود USPs ذات المجال المزدوج إلى القدرة على تكوين الأغشية الحيوية الرقيقة. يعتبر استقلاب السكر أمرًا أساسيًا لسلوك الأنواع الشعاعية السنية القادرة على الاستمرار في الأغشية الحيوية وإنتاج الأحماض وتخزين الجزيئات الشبيهة بالجليكوجين. يمكن أن تقوم دراسات أخرى بتقييم مستويات التعبير لأعضاء المشغل في ظروف بيئية متنوعة.

  • إيلاد سيغف ، معهد حولون للتكنولوجيا ، إسرائيل
  • نعوم تشابنيك ، معهد حولون للتكنولوجيا ، إسرائيل
  • روي يوسف ، معهد حولون للتكنولوجيا ، إسرائيل
  • إدوارد جوركيفيتش ، الجامعة العبرية في القدس ، إسرائيل
  • زوهار باسترناك ، الجامعة العبرية في القدس ، إسرائيل

نظرة عامة على العرض التقديمي: تبين

لم يتم اختبار 99.6 ٪ من جميع البروتينات المعروفة تجريبيًا أو حتى لوحظ تعبيرها ، وبالتالي فإن التنبؤ بوظيفتها يعتمد بشكل أساسي على مقارنة تسلسلها مع المتماثلات المشروحة. ومع ذلك ، حتى مع وجود أدوات آلية جديدة للتعليقات التوضيحية الوظيفية عالية الإنتاجية ، تظل وظيفة العديد من البروتينات غير معروفة نظرًا لعدم وجود متماثلات مشروحة. من أجل تحديد الوظيفة واكتشاف شبكات تفاعل البروتين البروتين ، هدفت دراستنا إلى تحديد البروتينات المرتبطة وظيفيًا بكل منها. قمنا بتحليل أنماط التواجد المشترك لـ 406000 من البروتينات المتعامدة و 118000 البروتين المتماثل من الجينوم غير المتسلسل بالكامل لـ 4350 بكتيريا و 166 حقيقية النواة و 226 عتائق. كشفت عملية التحقق بنجاح عن شبكات معروفة من مسارات مختلفة ، بما في ذلك تثبيت النيتروجين ، وتحلل السكر ، وبروتينات الريبوسوم على سبيل المثال ، باستخدام بروتين الاستعلام AmoA (وحدة فرعية من الأمونيا أحادي أوكسجيناز) ، وشملت الشبكة الوظيفية المحسوبة الناتجة AmoB و AmoC ، وهما وحدتان فرعيتان أخريان.
تم العثور على هذه الطريقة لتكون عملية وفعالة بيولوجية وحاسوبية ، وبالتالي ، فهي تعد بالبقاء فعالة حتى مع المزيد والمزيد من الجينوم قيد التسلسل.

  • جيفري لو ، فرجينيا تك ، الولايات المتحدة
  • شيف كالي ، فرجينيا تك ، الولايات المتحدة
  • تي إم مورالي ، فرجينيا تك ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

تم تسلسل الآلاف من الجينومات البكتيرية وتوضيحها. يعتمد جزء كبير جدًا من التعليقات التوضيحية الوظيفية لـ GO للجينات البكتيرية على تشابه التسلسل ولم تتم مراجعتها من قبل أي أمين. سعينا لفحص مدى قدرتنا على التنبؤ بشكل جيد بتعليقات الجينات البكتيرية مع الأدلة التجريبية باستخدام الأساليب القائمة على الشبكة.

كدليل على المفهوم ، اخترنا 19 نوعًا من البكتيريا المسببة للأمراض ذات الصلة سريريًا وأنشأنا شبكة عبر الأنواع تعتمد على تشابه تسلسل البروتين. لقد قمنا بدمج هذه الشبكة مع شبكات ارتباط وظيفية خاصة بالأنواع لكل مُمْرِض من سلسلة. افترضنا أن الشبكة المتكاملة ستتمتع بقوة تنبؤية أعلى ، على الرغم من حجم الشبكة الكبير وتناثر العقد المشروحة.

قمنا بتقييم قدرة خوارزمية التنبؤ المتعددة المستندة إلى الشبكة على التنبؤ بالتعليقات التوضيحية التجريبية والتعليقات التوضيحية غير التابعة لوكالة الطاقة الدولية باستخدام التحقق المتقاطع من خمسة أضعاف. وجدنا أن خوارزمية SinkSource تفوقت باستمرار على (قيم F-max أعلى) GeneMANIA و FunctionalFlow والطرق الأخرى المستندة إلى BLAST. على الرغم من أن دمج STRING مع شبكة تشابه التسلسل لم يحسن قيم F-max للتعليقات التوضيحية غير التابعة لـ IEA ، إلا أن الشبكة المتكاملة أسفرت عن قيم F-max أعلى للتعليقات التوضيحية التجريبية (زاد متوسط ​​F-max من 0.46 إلى 0.51 لـ SinkSource عبر جميع مصطلحات BP ). توضح هذه النتائج أن دمج أنواع متعددة من البيانات يحسن القدرة التنبؤية للتعليقات التوضيحية التجريبية.

  • Seokjun Seo ، جامعة سيول الوطنية ، كوريا الجنوبية
  • مينسيك أوه ، جامعة سيول الوطنية ، كوريا الجنوبية
  • حديقة يونج جون ، جامعة سيول الوطنية ، كوريا الجنوبية
  • صن كيم ، جامعة سيول الوطنية ، كوريا الجنوبية

نظرة عامة على العرض التقديمي: تبين

يتم إنشاء عدد كبير من البروتينات المتسلسلة حديثًا بواسطة تقنيات التسلسل من الجيل التالي ، ويعد تعيين الوظيفة البيوكيميائية للبروتينات مهمة مهمة. ومع ذلك ، فإن التجارب البيولوجية مكلفة للغاية لتوصيف مثل هذا العدد الكبير من متواليات البروتين ، وبالتالي يتم التنبؤ بوظيفة البروتين بشكل أساسي من خلال طرق النمذجة الحسابية ، مثل نموذج ماركوف المخفي (pHMM) والطرق القائمة على k -mer. ومع ذلك ، فإن الأساليب الحالية لها بعض القيود التي تعتمد على k -mer ليست دقيقة بما يكفي لتعيين وظائف البروتين ، كما أن pHMM ليس بالسرعة الكافية للتعامل مع عدد كبير من تسلسلات البروتين من العديد من مشاريع الجينوم. لذلك ، هناك حاجة إلى طريقة أكثر دقة وأسرع للتنبؤ بوظيفة البروتين.
في هذه الورقة ، نقدم DeepFam ، وهي طريقة خالية من المحاذاة يمكنها استخراج المعلومات الوظيفية مباشرة من التسلسلات دون الحاجة إلى محاذاة تسلسل متعددة. في تجارب مكثفة باستخدام مجموعات المجموعات المتعامدة (COGs) ومجموعة بيانات مستقبلات البروتين المقترنة (GPCR) ، حقق DeepFam أداءً أفضل من حيث الدقة ووقت التشغيل للتنبؤ بوظائف البروتينات مقارنةً بأحدث الأساليب ، كل من الطرق الخالية من المحاذاة والقائمة على المحاذاة. بالإضافة إلى ذلك ، أظهرنا أن DeepFam لديه القدرة على التقاط المناطق المحفوظة لنمذجة عائلات البروتين. في الواقع ، كان DeepFam قادرًا على اكتشاف المناطق المحفوظة الموثقة في قاعدة بيانات Prosite أثناء التنبؤ بوظائف البروتينات. ستكون طريقة التعلم العميق الخاصة بنا مفيدة في توصيف وظائف تسلسلات البروتين المتزايدة باستمرار.
الرموز متاحة على https://bhi-kimlab.github.io/DeepFam.

  • أمير كارجر ، جامعة هارفارد ، الولايات المتحدة
  • فيكتور لوريا ، جامعة هارفارد ، الولايات المتحدة
  • آن أودونيل لوريا ، معهد برود في معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد ، الولايات المتحدة
  • تاران جوجرال ، مركز فريد هاتشينسون لأبحاث السرطان ، الولايات المتحدة
  • جون كين ، جامعة هارفارد ، الولايات المتحدة
  • مارك كيرشنر ، جامعة هارفارد ، الولايات المتحدة

نظرة عامة على العرض التقديمي: تبين

كيف تظهر جينات ترميز البروتين الجديدة ومجالات البروتين الجديدة في التطور هي أسئلة رئيسية في علم الأحياء. بينما تُبنى الجينات الجديدة غالبًا عن طريق تكرار الجينات الموجودة ، وُجد مؤخرًا أن جينات جديدة تنشأ من الحمض النووي الجيني. لفهم كيفية ظهور الجينات الجديدة ، قمنا ببناء نموذج رياضي للولادة والموت يعتمد على أبعاد الجينوم والجينوم والعوامل الديناميكية مثل الطفرة وإعادة التركيب والاختيار. وجدنا أن معظم الجينومات يجب أن تحتوي على العديد من الجينات الجديدة ، مع الحفاظ على القليل منها. ثانيًا ، حددنا الآلاف من جينات de novo المرشحة في 20 جينومًا حقيقيًا للنواة ، باستخدام علم الطبولوجيا وعلم البروتيوميات ، وقمنا بتقييم خصائصها الفيزيائية الحيوية المتوقعة. مقارنة بالبروتينات القديمة ، فإن البروتينات الجديدة أقصر ، وأكثر عرضة للبروتياز ، والمضطربة ، ومن المحتمل أن ترتبط ببروتينات أخرى ، ولكنها أقل عرضة للتجمع السام. لاختبار التنبؤات الهيكلية ، أجرينا تجارب فيزيائية حيوية تقارن البروتينات البشرية الجديدة بالبروتينات القديمة. وجدنا أن الجينات الجديدة تشفر بروتينات قصيرة لها سمات هيكلية مميزة ويتم التعبير عنها في الدماغ والخط التناسلي الذكري ، مما يوفر بسهولة وسيلة للاختبار التطوري للوظيفة. يوفر الخلق والتدمير المستمر للجينات الجديدة مستودعًا ديناميكيًا للتنوع الجزيئي الذي يمكّن السلوك الاستكشافي الجينومي من إيجاد هياكل ووظائف جديدة.


الاستنتاجات

في هذا التحليل ، توقعنا شبكة PPI على مستوى الجينوم للبرتقال الحلو باستخدام طرق تحديد تقويم العظام وطرق دمج المجال ، ثم استخدمنا خوارزمية KNN عالية الدقة لتصفية التفاعلات المتوقعة. تحتوي شبكة PPI الناتجة على 8195 بروتينًا و 124491 تفاعلًا. استخدمنا شرح GO و Mapman لتقييم الشبكة المتوقعة. لقد توقعنا أيضًا 159 مجمعًا بروتينيًا باللون البرتقالي الحلو باستخدام أخصائيي تقويم العظام لمجمعات بروتين الخميرة واستخدمناهم لتقييم CitrusNet. لقد أنشأنا أخيرًا شبكة فرعية PPI تتعلق ببروتينات إشارات الهرمونات ، ووجدنا أن TOR يعمل كمحور مركزي للحديث المتبادل للهرمونات. يوفر CitrusNet مورداً قيماً لتفاعلات البروتين والبروتين في البرتقال الحلو.


ملف إضافي

ملف إضافي 1:

المواد التكميلية. الشكل S1. تم تقييم أداء PFP وفقًا لشروط GO الدقيقة من فئات BP و MF. الشكل S2. تم تقييم أداء PFP و ESG وفقًا لشروط GO الدقيقة من الفئات الثلاث. الشكل S3. أداء PFP باستخدام مصطلحات IEA وغير IEA GO من فئتي BP و MF. الشكل S4. أداء PFP باستخدام شروط IEA وغير IEA GO لجميع فئات GO الثلاثة. الشكل S5. تصنيفات CONS و FPM من بين الطرق المعيارية. (DOCX 202 كيلوبايت)


شاهد الفيديو: How to Write Equity Research Report -II (يونيو 2022).


تعليقات:

  1. Istvan

    لا يمكن قياس الحزن بالدموع.

  2. Amycus

    كل إجازة شخصية اليوم؟

  3. Xuan

    هذا لم يسمع

  4. Fausho

    لقد ابتعدت عن الحديث

  5. Beiste

    ليس قريبا!

  6. Rutledge

    الرسالة الرائعة



اكتب رسالة