معلومة

توافق الرموز في محاذاة تسلسل متعدد

توافق الرموز في محاذاة تسلسل متعدد


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

كنت أستخدم multAlin لمحاذاة مجموعة من التسلسلات المتعددة. يتضمن الإخراج الأول والصادف الوثائق التالية (تصحيح اللغة الإنجليزية):

رموز الإجماع:
! هو أي من الرابع
$ هو أي من LM
النسبة المئوية هي أي من السنة المالية
# هي أي من NDQEBZ

أفهم ما يقوله لكني لا أعرف كيف أفسره أكثر. ما هو تأثير ذلك على محاذاة التسلسل؟


استخدام هذه الرموز في الإخراج من النوع الموضح أدناه هو عرض تقديمي بحت ، لمساعدتك على فحص المحاذاة وتحديد مناطق الحفظ الجزئي.

51 100 CCPC50 SEEGFK.YGE GILEVAEKNP DLTWTEADLI EYVTDPKPWL VKMTDDKGAK CCRF2C TYPEFK.YKD SIVALGASG ... FAWTEEDIA TYVKDPGAFL KEKLDDKKAK CCRF2S TQADFKGYGE GMKEAGAKG ... LAWDEEHFV QYVQDPTKFL KEYTGDAKAK CCQF2R HKDNYA.YSE SYTEMKAKG ... LTWTEANLA AYVKNPKAFV LEKSGDPKAK CCQF2P TFAGYS.YSP GYTVMGQKG ... HTWDDNALK AYLLDPKGYV توافق QAKSGDPKAN ر ...٪ كي ز … على سبيل المثال ، حجم ... ltWt #… l… Yv. # Pk.fl .ek.gD.kAk

هذا مستقل تمامًا عن منطق (خوارزمية) البرنامج ، والذي تدل عليه التعليقات التوثيقية:

جدول مقارنة الرموز: blosum62
وزن الفجوة: 12
وزن طول الفجوة: 2

يوفر هذا أيضًا مرجعًا للورقة الأصلية التي يجب أن تقرأها للعثور على مزيد من المعلومات حول البرنامج.

يُنصح أيضًا بقراءة إدخال ويكيبيديا في محاذاة التسلسل المتعدد وفي محاذاة التسلسل بشكل عام. أود أن أذكر أن هذه طريقة قديمة (كما يشير مظهر الموقع أيضًا). إذا أعطت نتائج مفيدة ، فلا بأس. وإلا يمكنك تجربة برنامج Clustal الأكثر شيوعًا والذي يتم تحديثه بشكل متكرر والمتوفر عبر الإنترنت أو كبرنامج مستقل.


تسلسل إجماع

في البيولوجيا الجزيئية والمعلوماتية الحيوية ، أ تسلسل إجماع هي طريقة لتمثيل نتائج المحاذاة متعددة التسلسلات ، حيث تتم مقارنة التسلسلات ذات الصلة ببعضها البعض ، ويتم العثور على أشكال متسلسلة وظيفية مماثلة. يوضح تسلسل الإجماع البقايا المحفوظة (هي نفسها دائمًا) ، وأي البقايا متغيرة.

معرفة إضافية موصى بها

دليل مهارات المختبر الأساسية

8 خطوات للحصول على توازن نظيف - و 5 حلول للحفاظ على نظافته

اختبار الحساسية اليومي

يعد تطوير برنامج للتعرف على الأنماط موضوعًا رئيسيًا في علم الوراثة والبيولوجيا الجزيئية والمعلوماتية الحيوية. يمكن أن تعمل أشكال التسلسل المحددة كتسلسلات تنظيمية تتحكم في التخليق الحيوي ، أو كسلسلة إشارات توجه جزيءًا إلى موقع معين داخل الخلية أو تنظم نضجه. نظرًا لأن الوظيفة التنظيمية لهذه التسلسلات مهمة ، يُعتقد أنها محفوظة عبر فترات طويلة من التطور. في بعض الحالات ، يمكن تقدير الارتباط التطوري بمقدار الحفاظ على هذه المواقع.

تسمى الزخارف المتسلسلة المحفوظة تسلسل الإجماع وتوضح البقايا المحفوظة والمخلفات المتغيرة. ضع في اعتبارك المثال التالي لتسلسل الحمض النووي:

في هذا الترميز ، تعني A أنه دائمًا ما يوجد A في هذا الموضع. يرمز [CT] إلى C أو T ، N تعني أي قاعدة ، ويعني أي قاعدة باستثناء A. Y تمثل أي بيريميدين ، و R تشير إلى أي بورين.

في هذا المثال ، لا يعطي الترميز [CT] أي إشارة إلى التردد النسبي لـ C أو T الذي يحدث في ذلك الموضع. طريقة بديلة لتمثيل تسلسل إجماع يستخدم شعار تسلسل. هذا تمثيل رسومي لتسلسل الإجماع ، حيث يرتبط حجم الرمز بالتردد الذي يحدث فيه نوكليوتيد معين (أو حمض أميني) في موضع معين. في الشعارات المتسلسلة ، كلما تم حفظ المخلفات بشكل أكبر ، كلما تم رسم رمز تلك البقايا ، كلما قل تكرار ذلك ، كلما كان الرمز أصغر. يمكن إنشاء شعارات التسلسل باستخدام Gestalt Workbench ، وهي أداة تصور متاحة للجمهور كتبها Gustavo Glusman في معهد بيولوجيا الأنظمة.

قد يكون تسلسل الإجماع عبارة عن سلسلة قصيرة من النيوكليوتيدات التي توجد عدة مرات في الجينوم ويعتقد أنها تلعب نفس الدور في مواقعها المختلفة. على سبيل المثال ، تتعرف العديد من عوامل النسخ على تسلسلات إجماع معينة في مروجي الجينات التي تنظمها. بالطريقة نفسها ، عادةً ما تحتوي إنزيمات التقييد على متواليات إجماع متناظرة ، عادةً ما تتوافق مع الموقع الذي تقطع فيه الحمض النووي. تعمل الينقولات بنفس الطريقة في تحديد تسلسل الهدف من أجل التحويل. أخيرًا ، يمكن أيضًا اعتبار مواقع لصق (التسلسلات التي تحيط مباشرةً بحدود exon-intron) كتسلسلات إجماع.

وبالتالي ، يحدد تسلسل الإجماع موقعًا مفترضًا للتعرف على الحمض النووي: يتم الحصول عليه من خلال محاذاة جميع الأمثلة المعروفة لموقع التعرف المحدد ويتم تعريفه على أنه التسلسل المثالي الذي يمثل القاعدة السائدة في كل موضع. يجب ألا تختلف جميع الأمثلة الفعلية عن الإجماع بأكثر من عدد قليل من البدائل.

تُعرف أي طفرة تسمح للنيوكليوتيدات الطافرة في تسلسل المحفز الأساسي أن تبدو أشبه بالتسلسل الإجماعي باسم حتى الطفرة. هذا النوع من الطفرات سيجعل المروج أقوى بشكل عام ، وبالتالي فإن بوليميراز الحمض النووي الريبي يشكل ارتباطًا أكثر إحكامًا بالحمض النووي الذي يرغب في نسخه ويتم تنظيم النسخ. على العكس من ذلك ، تُعرف الطفرات التي تدمر النيوكليوتيدات المحفوظة في تسلسل الإجماع باسم أسفل الطفرات. هذه الأنواع من الطفرات تنظم النسخ لأن بوليميراز الحمض النووي الريبي لم يعد قادرًا على الارتباط بشدة بتسلسل المحفز الأساسي.


    تحليل التسلسل المتعدد

يعد clustalw ([]) أحد أكثر البرامج شيوعًا لإجراء محاذاة تسلسلية متعددة. يحتوي EMBOSS على واجهة لمجموعة تسمى emma clustal (وبالتالي إيما) تنشئ محاذاة تسلسلية متعددة من مجموعة من التسلسلات ذات الصلة باستخدام المحاذاة الزوجية التدريجية. يمكن أن ينتج أيضًا مخطط تخطيطي يوضح علاقات المجموعات المستخدمة لإنشاء المحاذاة. يُظهر مخطط الأسنان ترتيب المحاذاة الزوجية للتسلسلات ومجموعات التسلسلات التي تولد معًا المحاذاة النهائية ، ولكنها ليست شجرة تطورية ، على الرغم من أن طول الفروع يرتبط بالمسافة النسبية للتسلسلات. يجد clustal المحاذاة العالمية المثلى. يبدأ إجراء المحاذاة بالمحاذاة الزوجية للتسلسلين الأكثر تشابهًا ، مما ينتج عنه مجموعة من تسلسلين محاذيين. يمكن بعد ذلك محاذاة هذه المجموعة إلى التسلسل التالي الأكثر ارتباطًا أو مجموعة التسلسلات المحاذاة. يمكن محاذاة مجموعتين من التسلسلات بامتداد بسيط للمحاذاة الزوجية لسلسلين فرديين. يتم تحقيق المحاذاة النهائية من خلال سلسلة من المحاذاة الزوجية التدريجية التي تتضمن تسلسلات ومجموعات غير متشابهة بشكل متزايد ، حتى يتم تضمين جميع التسلسلات في المحاذاة الزوجية النهائية. عندما يتم إدخال الفجوات في تسلسل لإنتاج محاذاة ، يتم إدخالها في نفس الموضع في جميع تسلسلات الكتلة. تستخدم كل محاذاة زوجية طريقة Needleman و Wunsch الممتدة للاستخدام مع مجموعات من التسلسلات المحاذية.

أخبرنا pscan أن تسلسلنا ينتمي إلى عائلة رودوبسين. هذه عائلة كبيرة جدًا من التسلسلات - على سبيل المثال ، يمكنك رؤية إدخال Pfam لـ rhodopsin عن طريق إجراء بحث عن كلمة رئيسية في
http://www.sanger.ac.uk/Software/Pfam

سنقوم الآن باسترداد بعض أعضاء العائلة الآخرين من SwissProt وإنتاج محاذاة متعددة ، وسنستخدم بعد ذلك هذه المحاذاة المتعددة لإنتاج ملف تعريف لهذه المجموعة من التسلسلات واستخدامها لمواءمتها جميعًا مع تسلسلنا الأصلي.

أولاً ، دعنا نسترجع التسلسلات باستخدام seqret:

يونكس٪ سيقرت
يقرأ ويكتب (يعيد) مجموعة من المتواليات دفعة واحدة
تسلسل الإدخال: sw: ops2_ *
تسلسل الإخراج [ops2_drome.fasta]: ops2.fasta

لاحظ استخدامنا لحرف wild card * لاسترداد جميع تسلسلات swissprot التي تبدأ معرّفاتها ops2_.

يونيكس٪ إيما
برنامج المحاذاة المتعددة - واجهة لبرنامج ClustalW
تسلسل الإدخال: ops2.fasta
تسلسل الإخراج [ops2_drome.aln]: ops2.aln
ملف الإخراج [ops2_drome.dnd]: ops2.dnd
..clustalw -infile = 21665A -outfile = 21665B -align
-النوع = بروتين-الناتج = gcg -pwmatrix = blosum -pwgapopen = 10.000
-pwgapext = 0.100 -newtree = 21665C-matrix = blosum -gapopen = 10.000
-gapext = 5.000 -gapdist = 8 -hgapresidues = GPSNDQEKR -maxdiv = 30 ..

CLUSTAL W (1.74) محاذاة تسلسل متعددة

نوع التسلسل مضبوط بشكل صريح على البروتين
تنسيق التسلسل هو بيرسون
التسلسل 1: OPS2_DROME 381 aa
التسلسل 2: OPS2_DROPS 381 aa
التسلسل 3: OPS2_HEMSA 377 aa
التسلسل 4: OPS2_LIMPO 376 aa
تسلسل 5: OPS2_PATYE 399 aa
التسلسل 6: OPS2_SCHGR 380 aa
بداية المحاذاة الزوجية
المحاذاة.
المتتاليات (1: 2) محاذاة. الدرجة: 91
المتتاليات (1: 3) محاذاة. النتيجة: 37
المتتاليات (1: 4) محاذاة. النتيجة: 48
المتتاليات (1: 5) محاذاة. النتيجة: 20
المتتاليات (1: 6) محاذاة. النتيجة: 32
المتتاليات (2: 3) محاذاة. النتيجة: 37
المتتاليات (2: 4) محاذاة. النتيجة: 48
المتتاليات (2: 5) محاذاة. النتيجة: 22
المتتاليات (2: 6) محاذاة. النتيجة: 31
المتتاليات (3: 4) محاذاة. النتيجة: 40
المتتاليات (3: 5) محاذاة. النتيجة: 23
المتتاليات (3: 6) محاذاة. النتيجة: 32
المتتاليات (4: 5) محاذاة. النتيجة: 20
المتتاليات (4: 6) محاذاة. النتيجة: 34
المتتاليات (5: 6) محاذاة. النتيجة: 18
تم إنشاء ملف شجرة الدليل: [21665C]
بداية المحاذاة المتعددة
هناك 5 مجموعات
المحاذاة.
المجموعة 1: التسلسلات: 2 الدرجة: 6084
المجموعة 2: المتتاليات: 3 الدرجة: 3046
المجموعة 3: المتتاليات: 4 الدرجة: 2772
المجموعة 4: التسلسلات: 5 الدرجة: 2489
المجموعة 5: متأخر
التسلسل: 5 الدرجة: 2819
نتيجة المحاذاة 11778
تم إنشاء ملف GCG-Alignment [21665B]

لقد قمنا بمحاذاة تسلسل العمليات 2 من نوعين من ذبابة الفاكهة ، ونوعين من سرطان البحر ، والجراد والاسقلوب. دعونا نرى ما الذي صنعته إيما منهم:

التسلسلات متشابهة جدًا ، ولكن هناك بعض الاختلافات - لاحظ الفجوات التي تم إدخالها. لاحظ أيضًا أنه نظرًا لأن هذه خوارزمية محاذاة عالمية ، فقد تم إدخال فجوات لجعل جميع التسلسلات بنفس الطول.

قد يكون من الصعب للغاية رؤية الاختلافات في المحاذاة في هذا التنسيق. يمكن لبرنامج prettyplot تحسين تصور نتائجك ، من خلال محاذاة التسلسلات فوق بعضها البعض.

unix٪ prettyplot
يعرض التسلسلات المتوافقة ، مع التلوين والملاكمة
مجموعة تسلسل الإدخال: ops2.aln
نوع الرسم البياني [x11]:

سيظهر عرض رسومي على شاشتك يوضح بالتفصيل المحاذاة الخاصة بك. تظهر المخلفات المتطابقة باللون الأحمر ، والمخلفات المماثلة باللون الأخضر. يمكن أن يمنحك هذا النوع من العرض انطباعًا أوليًا عن مناطق الحفظ.

كما هو الحال مع جميع برامج EMBOSS الرسومية ، يمكنك التقاط الإخراج في ملف بدلاً من مجرد مشاهدته على الشاشة. يتم التحكم في الإخراج بواسطة عائلة الرسم البياني للمؤهلات المرتبطة (اكتب prettyplot-help -verbose للحصول على قائمة كاملة بالخيارات.

سنحفظ مؤامرةنا الجميلة في ملف rhodopsin.ps بتنسيق تذييل ملون. للقيام بذلك نستخدم -graph cps و -goutfile rhodopsin.

unix٪ prettyplot ops2.aln -goutfile rhodopsin -graph cps
يعرض التسلسلات المتوافقة ، مع التلوين والملاكمة
تم إنشاؤها rhodopsin.ps

أدى هذا إلى إنشاء ملف rhodopsin.ps يمكن طباعته على طابعة بوستسكريبت أو تحويله إلى مستند PDF باستخدام ps2pdf (ليس برنامج EMBOSS ولكنه موجود بشكل شائع في العديد من أنظمة UNIX / Linux). يمكن بعد ذلك عرض مستندات PDF باستخدام عارض PDF مثل Acrobat Reader.

لضبط إخراج البرنامج الجميل (على سبيل المثال لزيادة عدد المخلفات لكل سطر) ، هناك عدد من الخيارات التي يمكن تعيينها. اقرأ ملف المساعدة وحاول التخطيط مع / بدون إجماع ، أعداد مختلفة من المخلفات لكل سطر وما إلى ذلك. (تلميح: prettyplot -help)

Prophecy هو برنامج EMBOSS لإنشاء ملف تعريف من مجموعة من التسلسلات المحاذاة المضاعفة. سنستخدم محاذاة ops2 لتظهر لك النبوءة

نبوءة unix٪
ينشئ مصفوفات / ملفات تعريف من محاذاة متعددة
تسلسل الإدخال: ops2.aln
نوع الملف الشخصي
F: التردد
G: غريبسكوف
H: هنيكوف
اختر النوع [F]: g
أدخل اسمًا للملف الشخصي [My matrix]: تسلسلات ops2
مصفوفة النتائج [Epprofile]:
عقوبة فتح الثغرة [3.0]:
عقوبة تمديد الفجوة [0.3]:
ملف الإخراج [outfile.prophecy]: ops2.prophecy

الآن دعنا نستخدم ملف التعريف الذي أنشأناه للتو لمحاذاة xlrhodop.pep مع تسلسلات opsin2 الخاصة بنا.

نبي يونيكس٪
محاذاة فجوات للملفات الشخصية
تسلسل (تسلسل) الإدخال: xlrhodop.pep
الملف الشخصي أو ملف المصفوفة: ops2.prophecy
معامل فتح الفجوة [1.0]:
معامل تمديد الفجوة [0.1]:
ملف الإخراج [ops2.prophet]:

تمثل الأعمدة الرأسية (|) بقايا متطابقة بين إجماع ops2 ورودوبسين لدينا ، بينما تمثل النقطتان (:) بدائل محافظة. نأمل أن تتمكن من رؤية أن محاذاة أفراد الأسرة يمكن أن يكشف عن مناطق محمية قد تكون مهمة للهيكل و / أو الوظيفة.


توليد متواليات إجماع من الرسوم البيانية الجزئية لمحاذاة التسلسل المتعدد

التحفيز: يعد إنشاء تسلسل الإجماع مهمًا في العديد من أنواع تحليل التسلسل بدءًا من التجميع المتسلسل إلى طرق البحث التكرارية القائمة على الملف الشخصي. ومع ذلك ، كيف يمكن بناء توافق في الآراء عندما يكون افتراضه المتأصل - أن التسلسلات المحاذاة تشكل إجماعًا خطيًا واحدًا - غير صحيح؟

نتائج: تتيح محاذاة الترتيب الجزئي (POA) إنشاء وتحليل محاذاة تسلسل متعددة كرسوم بيانية حلقية موجهة تحتوي على بنية متفرعة معقدة. نقدم هنا خوارزمية برمجة ديناميكية (أثقل حزمة) لتوليد متواليات إجماع متعددة من مثل هذه المحاذاة المعقدة. يكشف عدد وعلاقات تسلسلات الإجماع هذه درجة التعقيد الهيكلي لمحاذاة المصدر. هذا نهج قوي وعام لتحليل وتصور هياكل المحاذاة المعقدة ، ويمكن تطبيقه على أي محاذاة. نوضح قيمتها لتحليل محاذاة التسلسل المعبر عنها لاكتشاف الربط البديل ، وإعادة بناء متواليات الشكل الإسوي mRNA كاملة الطول من شظايا EST ، ومخاليط paralog منفصلة يمكن أن تسبب تنبؤات SNP غير صحيحة.


تقييم الأهمية

تعد محاذاة التسلسل مفيدة في المعلوماتية الحيوية لتحديد تشابه التسلسل ، وإنتاج أشجار النشوء والتطور ، وتطوير نماذج التماثل الخاصة بهياكل البروتين. ومع ذلك ، فإن الأهمية البيولوجية لمحاذاة التسلسل ليست واضحة دائمًا. غالبًا ما يُفترض أن المحاذاة تعكس درجة من التغيير التطوري بين التسلسلات المنحدرة من سلف مشترك ، ومع ذلك ، فمن الممكن رسميًا أن يحدث التطور المتقارب لإنتاج تشابه ظاهر بين البروتينات غير المرتبطة تطوريًا ولكنها تؤدي وظائف مماثلة ولها هياكل مماثلة.

في عمليات البحث في قاعدة البيانات مثل بلاست ، يمكن للطرق الإحصائية تحديد احتمالية وجود محاذاة معينة بين التسلسلات أو مناطق التسلسل التي تنشأ عن طريق الصدفة نظرًا لحجم وتكوين قاعدة البيانات التي يتم البحث عنها. يمكن أن تختلف هذه القيم بشكل كبير اعتمادًا على مساحة البحث. على وجه الخصوص ، تزداد احتمالية العثور على محاذاة معينة بالصدفة إذا كانت قاعدة البيانات تتكون فقط من متواليات من نفس الكائن الحي مثل تسلسل الاستعلام. يمكن أن تؤدي التسلسلات المتكررة في قاعدة البيانات أو الاستعلام أيضًا إلى تشويه كل من نتائج البحث وتقييم الأهمية الإحصائية تقوم BLAST تلقائيًا بتصفية مثل هذه التسلسلات المتكررة في الاستعلام لتجنب الزيارات الواضحة التي تعتبر نتائج إحصائية.

وظائف التهديف

يعد اختيار وظيفة التسجيل التي تعكس الملاحظات البيولوجية أو الإحصائية حول التسلسلات المعروفة أمرًا مهمًا لإنتاج محاذاة جيدة. يتم محاذاة تسلسل البروتين بشكل متكرر باستخدام مصفوفات الاستبدال التي تعكس احتمالات الاستبدالات من حرف إلى حرف. سلسلة من المصفوفات تسمى مصفوفات PAM (مصفوفات الطفرة المقبولة بالنقطة ، التي حددتها في الأصل مارغريت دايهوف والتي يشار إليها أحيانًا باسم "مصفوفات دايهوف") ترمز صراحةً التقريبات التطورية فيما يتعلق بمعدلات واحتمالات طفرات معينة من الأحماض الأمينية. سلسلة أخرى شائعة من مصفوفات التسجيل ، والمعروفة باسم بلوسوم (مصفوفة استبدال الكتل) ، تقوم بترميز احتمالات الاستبدال المشتقة تجريبياً. تُستخدم المتغيرات من كلا النوعين من المصفوفات لاكتشاف التسلسلات ذات المستويات المختلفة من الاختلاف ، مما يسمح لمستخدمي BLAST أو FASTA بتقييد عمليات البحث إلى التطابقات الأكثر ارتباطًا أو التوسع لاكتشاف المزيد من التسلسلات المتباعدة. تفسر عقوبات الفجوات إدخال فجوة - في النموذج التطوري ، طفرة إدخال أو حذف - في كل من متواليات النيوكليوتيدات والبروتينات ، وبالتالي يجب أن تكون قيم العقوبة متناسبة مع المعدل المتوقع لمثل هذه الطفرات. وبالتالي فإن جودة المحاذاة الناتجة تعتمد على جودة وظيفة التسجيل.

قد يكون مفيدًا ومفيدًا للغاية تجربة نفس المحاذاة عدة مرات مع خيارات مختلفة لمصفوفة التسجيل و / أو قيم عقوبة الفجوة ومقارنة النتائج. غالبًا ما يمكن تحديد المناطق التي يكون فيها الحل ضعيفًا أو غير فريد من خلال ملاحظة مناطق المحاذاة القوية للتغيرات في معلمات المحاذاة.


المقدمة

في السنوات الأخيرة ، اكتسبت جزيئات الحمض النووي الريبي اهتمامًا متزايدًا نظرًا لوجود مجموعة كبيرة من الوظائف المرتبطة بها. وبناءً على ذلك ، فقد تم اختيار البحث عن الحمض النووي الريبي الصغير باعتباره إنجازًا علميًا لعام 2002 من قبل قراء مجلة العلوم (Couzin ، 2002). يتم تحديد وظيفة جزيء الحمض النووي الريبي بشكل أساسي من خلال هيكله (الثانوي). يُفترض أن بنية الحمض النووي الريبي غالبًا ما يتم الحفاظ عليها أكثر من تسلسلها (حتى أكثر من البروتينات). ومن ثم ، لا يمكن للمرء استخدام تقنيات محاذاة التسلسل المتعددة القياسية مثل على سبيل المثال كلوستال دبليو (طومسون وآخرون. ، 1994) ، أو Dialign (Morgenstern ، 1998) أو T. Coffee (Notredame وآخرون. ، 2000) لأنها تهمل تمامًا المعلومات الهيكلية.

يمكن تقسيم المحاذاة المتعددة القائمة على التسلسل والبنية للـ RNA إلى فئتين رئيسيتين ، النهج الاحتمالية وغير الاحتمالية. تستند الأساليب الاحتمالية على قواعد نحوية خالية من السياق العشوائية (SCFG) وتتطلب محاذاة متعددة أولية كمدخلات. تعتمد جودة المخرجات بشكل حاسم على هذه المحاذاة الأولية. يتم استخدامها لنمذجة عائلات الحمض النووي الريبي و / أو للتنبؤ بهيكل ثانوي عبر التحليل المقارن [على سبيل المثال كوف (إيدي ودوربين ، 1994) ، RNACAD (براون ، 1999) وبفولد (كنودسن وهاين ، 2003)]. النهج المقارن غير الاحتمالي هو على سبيل المثال قدمها RNAlign (Corpet and Michot ، 1994) الذي يقوم بمحاذاة بين بنك من المتواليات المتوافقة وتسلسل جديد.

في هذه الورقة ، نقترح نهجًا غير احتمالي لمحاذاة مجموعة من أكثر من رناين مع أو بدون مطابقة معروفة. يتمثل النهج القياسي في إجراء محاذاة زوجية مباشرة لـ RNAs باستخدام معلومات التسلسل والبنية (الثانوية) ودمج المحاذاة الزوجية في محاذاة متعددة. لا يوجد نهج عام حتى الآن وإن كان هناك ثروة من الأساليب للمحاذاة الزوجية من RNAs (انظر أدناه). والسبب هو أن نتائج تسلسل الأزواج / محاذاة الهيكل لا يمكن ببساطة محاذاة بطريقة تقدمية (مثل ملفات التعريف لمحاذاة التسلسل). على حد علمنا ، هناك استثناءان فقط ، وهما PMcomp / PMmulti (Hofacker وآخرون. ، 2004) و RNAforester (Höchsmann وآخرون. ، 2003). يقوم PMcomp بمحاذاة مصفوفات احتمالية اقتران قاعدة RNA ويتوقع بنية قابلة للطي مشتركة بين تسلسلين. يستخدم PMmulti PMcomp في استراتيجية محاذاة تقدمية ويوفر محاذاة متعددة مع الصفات الجيدة. ومع ذلك ، فإنه يحتوي على درجة عالية من التعقيد ا(ن 6) الوقت و ا(ن 4) مساحة للمقارنات الزوجية. في RNAforester ، يتم تفسير الهياكل الثانوية على أنها أشجار ، ويتم تطبيق المحاذاة القائمة على الأشجار.

لقد حللنا مشكلة الجمع بين المحاذاة الزوجية للـ RNAs على النحو التالي. أولاً ، يتم إنشاء حواف المحاذاة بين RNAs التي تعكس التسلسل والتشابه في الهيكل بناءً على خوارزمية نشرها Jiang وآخرون. ، 2002. في الخطوة الثانية ، يتم جمع هذه الحواف في مكتبة ، والتي يتم تقديمها كمدخلات لطريقة المحاذاة المتعددة التسلسل T-Coffee (Notredame وآخرون. ، 2000). يتم تعزيز المواقف الهيكلية التي تدعمها العديد من المقارنات الزوجية. ومن ثم ، فإن النتيجة تشمل التسلسل والتشابه في بنية الحمض النووي الريبي ، على الرغم من أن استراتيجية المحاذاة التقدمية ليست من حيث المبدأ قائمة على الهيكل.

لقد استخدمنا خوارزمية جيانغ وآخرون. ، 2002 لأنه يوفر أكبر قدر من المرونة في تسجيل النتائج ولديه درجة تعقيد معتدلة. ولكن يمكن أيضًا تكييف أي طريقة محاذاة زوجية أخرى قائمة على التسلسل والهيكل مع نهجنا. تمت معالجة المشكلة الحسابية المتمثلة في المحاذاة الزوجية للـ RNAs لأول مرة بواسطة Sankoff ، 1985 الذي اقترح خوارزمية برمجة ديناميكية تقوم بمحاذاة مجموعة من تسلسلات الحمض النووي الريبي مع توقع حظيتها المشتركة في نفس الوقت. بعد ذلك ، تم تطوير مجموعة متنوعة من مناهج محاذاة التسلسل والبنية الزوجية. لينهوف وآخرون. ، 1998 يعالج مشكلة المحاذاة المثلى لتسلسل RNA معين لهيكل غير معروف مع تسلسل وبنية معروفة. محاذاة RNA الزوجية المحلية باستخدام نفس مخطط التسجيل مثل Jiang وآخرون. ، 2002 من قبل Backofen and Will، 2004. بجانب الأساليب المذكورة أعلاه ، هناك العديد من الأساليب التي تعمل على التمثيل الشجري للـ RNAs (انظر على سبيل المثال Jiang وآخرون. ، 1995 Höchsmann وآخرون. ، 2003 Shapiro and Zhang ، 1990).

اختبرنا نهجنا على عناصر SECIS حقيقية النواة على عناصر تشبه الحمض الريبي النووي النقال 3 ′ UTR من Tymovirus / بوموفيروس وعلى ريبوزيم رأس المطرقة (النوع الثالث). قارنا نتائج MARNA الخاصة بنا مع المحاذاة اليدوية المأخوذة من قاعدة بيانات Rfam ومع المحاذاة التي تم إنشاؤها بواسطة PMmulti.


PROMALS3D إجراء محاذاة متعددة

PROMALS3D (12) هي طريقة تقدمية تجمع التسلسلات المتشابهة وتحاذيها بطريقة سريعة ، وتستخدم تقنيات أكثر تفصيلاً لمحاذاة المجموعات المتباينة نسبيًا مع بعضها البعض. في مرحلة المحاذاة الأولى ، يقوم PROMALS3D بمحاذاة التسلسلات المتشابهة باستخدام وظيفة التسجيل لمجموع الأزواج المرجح من درجات BLOSUM62 (13). المرحلة الأولى سريعة وينتج عنها عدد من المجموعات المصنفة مسبقًا (المجموعات) التي تكون بعيدة نسبيًا عن بعضها البعض. في مرحلة المحاذاة الثانية ، يتم تحديد تسلسل تمثيلي واحد لكل مجموعة مُحاذة مسبقًا. التسلسلات التمثيلية (تسمى أيضًا الأهداف أو التسلسلات المستهدفة أدناه) تخضع لعمليات البحث PSI-BLAST عن متماثلات إضافية من قاعدة بيانات UNIREF90 (14) وإلى توقع الهيكل الثانوي PSIPRED (15). ثم يتم تطبيق نموذج ماركوف المخفي لمحاذاة الملف الشخصي والملف الشخصي مع تسجيل درجات الهيكل الثانوي المتوقع على أزواج من الممثلين لاشتقاق قيود قائمة على التسلسل. تُشتق القيود القائمة على الهيكل من المتماثلات ذات الهياكل المعروفة (انظر التفاصيل أدناه) ويتم دمجها مع قيود قائمة على التسلسل لاشتقاق دالة تسجيل الاتساق الاحتمالي (16). تتم محاذاة التسلسلات التمثيلية تدريجياً باستخدام وظيفة تسجيل الاتساق هذه ، ويتم دمج المجموعات المصنفة مسبقًا التي تم الحصول عليها في المرحلة الأولى في محاذاة الممثلين لتشكيل محاذاة التسلسل المتعدد النهائي.

في PROMALS3D ، يتم اشتقاق القيود الهيكلية للتسلسلات التمثيلية التي لها متماثلات مع هياكل معروفة. أولاً ، يحدد البرنامج المتماثلات ذات الهياكل ثلاثية الأبعاد (homolog3D) للتسلسلات التمثيلية. لكل تسلسل تمثيلي ، يتم استخدام ملف تعريف PSI-BLAST (المخزن كملف نقطة تفتيش) مقابل قاعدة بيانات UNIREF90 لبدء بحث PSI-BLAST جديد (تكرار واحد ، مع خيار -C) مقابل قاعدة بيانات مجال SCOP40 (17 ، 18) الذي يحتوي على تسلسل مجال البروتين مع الهياكل المعروفة. المجالات الهيكلية فقط التي تمر بمعايير تشابه معينة (الافتراضي: ه - القيمة & lt0.001 ورقم التسلسل رقم & lt20٪) محفوظة. يمكن تحديد متماثلات ثلاثية الأبعاد متعددة واستخدامها لتسلسل هدف واحد إذا كان يحتوي على عدة مجالات متميزة ذات هياكل معروفة. يتم اشتقاق قيود مطابقة البقايا الزوجية لتسلسل هدف تمثيلي من المحاذاة المستندة إلى التسلسل من الهدف إلى المتماثل ثلاثي الأبعاد والمحاذاة القائمة على البنية ثلاثية الأبعاد إلى المتجانسة ثلاثية الأبعاد. على سبيل المثال ، إذا كان بقايا أ في الهدف S1 تتماشى مع البقايا ب في homolog3D T1 ، بقايا ب في homolog3D T1 محاذاة مع البقايا ج في homolog3D T2 وفقًا لبرنامج مقارنة البنية ، والمخلفات ج في homolog3D T2 محاذاة مع البقايا د في الهدف S2 ، ثم نستنتج تلك البقايا أ بالتسلسل S1 محاذاة مع البقايا د بالتسلسل S2 ، وهذا الزوج ( أ , د ) كقيود مشتق من الهيكل (الشكل 1). يمكن أن تكون المحاذاة بين التسلسل المستهدف و homolog3D الخاص به هي محاذاة PSI-BLAST ، أو يمكن إعادة محاذاتها بواسطة روتين مقارنة الملف الشخصي المستخدم في PROMALS. يتم دمج قيود البنية بين التسلسلات المستهدفة مع تلك القيود المستمدة من مقارنات الملف الشخصي في PROMALS الأصلي لاستنتاج وظيفة تسجيل قائمة على الاتساق تدمج ملفات تعريف تسلسل قاعدة البيانات ، والهياكل الثانوية المتوقعة والمعلومات الهيكلية ثلاثية الأبعاد. استخدمنا نسبة وزن تجريبية قدرها 1.5 (يمكن تعديلها في الخادم) لقيود الهيكل المتعلقة بقيود التسلسل لمقارنة الملف الشخصي والملف الشخصي في PROMALS الأصلي.

استنتاج قيود المحاذاة باستخدام المتماثلات مع الهياكل ثلاثية الأبعاد (homolog3Ds). S1 و S2 هما تسلسلان مستهدفان. T1 و T2 هما متماثلان ثلاثي الأبعاد. يتم استنتاج المحاذاة بين تسلسلين S1 و S2 من محاذاة ثنائية الأبعاد قائمة على التسلسل إلى متماثل ثلاثي الأبعاد ومحاذاة متجانسة ثلاثية الأبعاد تعتمد على الهيكل. تشير أزواج المخلفات الثلاثة المحاذية (أ ، ب) ، (ب ، ج) و (ج ، د) إلى أن الزوج (أ ، د) يتم محاذاته في المحاذاة المستخلصة بين هدفين.

استنتاج قيود المحاذاة باستخدام المتماثلات مع الهياكل ثلاثية الأبعاد (homolog3Ds). S1 و S2 هما تسلسلان مستهدفان. T1 و T2 هما متماثلان ثلاثي الأبعاد. يتم استنتاج المحاذاة بين تسلسلين S1 و S2 من محاذاة ثنائية الأبعاد قائمة على التسلسل إلى متماثل ثلاثي الأبعاد ومحاذاة متجانسة ثلاثية الأبعاد تعتمد على الهيكل. تشير أزواج المخلفات الثلاثة المحاذية (أ ، ب) ، (ب ، ج) و (ج ، د) إلى أن الزوج (أ ، د) يتم محاذاته في المحاذاة المستخلصة بين هدفين.


علم الجينوم البشري في علم المناعة

روبرت ل.نوسباوم ، جينيفر إم باك ، في علم المناعة السريرية (الإصدار الخامس) ، 2019

شرح الجينوم

إن التسلسل الإجماعي للجينوم البشري ليس سوى الخطوة الأولى في تعزيز فهمنا للوظائف البيولوجية الطبيعية وكيف تؤدي الطفرات إلى وظائف غير طبيعية تسبب المرض. لقد نضج مشروع الجينوم البشري الآن في عدد من مجالات البحث الأساسية والتطبيقية الهامة: (أنا) الحصول على فهرس شامل للتنوع البشري وتأثير هذا الاختلاف على النمط الظاهري ، بما في ذلك اضطرابات التنمية البشرية (ثانيا) مقارنة جينومات البشر مع تلك الكائنات الحية الأخرى ، بما في ذلك الكائنات الحية النموذجية وأسلاف الإنسان و (ثالثا) تعلم كيفية تفسير جميع عناصر التسلسل داخل الجينوم ، وليس فقط الكودونات. حتى الآن ، بعد أكثر من اثني عشر عامًا من "اكتمال" تسلسل الجينوم البشري ، لا يزال يتم إنشاء امتداد متجاور كامل ودقيق ومفرد يمثل جينوم أحادي الصبغة البشري المرجعي ، ويستمر إصدار إصدارات محدثة من تسلسل الجينوم. كما هو موضح أدناه ، فإن أكبر التحديات التي تواجه إكمال تسلسل الجينوم البشري تكمن في المناطق التي تحتوي على ازدواجية قطاعية من نفس التسلسل تقريبًا. 1


مجلة SIAM للرياضيات التطبيقية

دراسة ومقارنة تسلسل الأحرف من أبجدية محدودة ذات صلة بمجالات مختلفة من العلوم ، ولا سيما البيولوجيا الجزيئية. يتضمن قياس تشابه التسلسل النظر في محاذاة التسلسل المختلفة الممكنة من أجل العثور على أفضل واحد تكون فيه "المسافة" بين التسلسلات هي الحد الأدنى. من خلال ربط مسار في شبكة بكل محاذاة ، يمكن إحضار رؤية هندسية إلى مشكلة العثور على محاذاة مثالية. يمكن بعد ذلك حل هذه المشكلة عن طريق تطبيق خوارزمية البرمجة الديناميكية. ومع ذلك ، فإن الجهد الحسابي ينمو بسرعة مع هذا الرقم ن من التسلسلات المراد مقارنتها $ (O (l ^ N)) $ ، حيث ل هو متوسط ​​طول المتتاليات المراد مقارنتها).

ثبت هنا أنه يمكن استخدام معرفة مقياس المحاذاة المختارة بشكل تعسفي مع المعلومات من المحاذاة الزوجية لتقييد حجم منطقة الشبكة في الاعتبار بشكل كبير. يعني هذا التخفيض عددًا أقل من العمليات الحسابية ومساحة ذاكرة أقل مطلوبة لتنفيذ عملية تحسين البرمجة الديناميكية. تشير الملاحظات أيضًا إلى متغيرات جديدة لمشكلة المحاذاة المتعددة.


وأوضح المعلوماتية الحيوية: شعار التسلسل

في الحمض النووي ، يتم الحفاظ على مواقع المحفز أو مواقع ربط الحمض النووي الأخرى بدرجة عالية (انظر الشكل 20.8). هذا هو الحال أيضًا بالنسبة لمواقع القامع كما هو موضح في Cro repressor للعاثية.

عند محاذاة مثل هذه التسلسلات ، بغض النظر عما إذا كانت شديدة التغير أو محفوظة بدرجة عالية في مواقع معينة ، من الصعب جدًا إنشاء تسلسل إجماعي يغطي التباين الفعلي لموضع معين. من أجل فهم محتوى المعلومات بشكل أفضل أو أهمية بعض المواضع ، يمكن استخدام شعار التسلسل. يعرض شعار التسلسل محتوى المعلومات لجميع المواضع في المحاذاة كمخلفات أو نيوكليوتيدات مكدسة فوق بعضها البعض (انظر الشكل 20.8). يوفر شعار التسلسل عرضًا أكثر تفصيلاً للمحاذاة بالكامل من تسلسل إجماع بسيط. يمكن أن تساعد شعارات التسلسل في تحديد مواقع ربط البروتين على تسلسل الحمض النووي ويمكن أن تساعد أيضًا في تحديد المخلفات المحفوظة في المجالات المتوافقة لتسلسل البروتين ومجموعة واسعة من التطبيقات الأخرى.

يُظهر كل موضع من المحاذاة وبالتالي شعار التسلسل معلومات التسلسل في النتيجة المحسوبة بناءً على إنتروبيا شانون [Schneider and Stephens ، 1990]. يمثل ارتفاع الأحرف الفردية محتوى معلومات التسلسل في هذا الموضع المحدد للمحاذاة.

يعد شعار التسلسل أداة تصور أفضل بكثير من تسلسل إجماع بسيط. مثال على ذلك هو المحاذاة حيث توجد بقايا معينة في موضع واحد في 70٪ من المتواليات. إذا تم استخدام تسلسل إجماع ، فإنه عادةً ما يعرض فقط البقايا المفردة بتغطية 70٪. في الشكل 20.8 ، يتم عرض محاذاة غير مفصولة لـ 11 كودون E. coli بما في ذلك المناطق المحيطة. في هذا المثال ، لن يعرض تسلسل الإجماع ATG إلا كرمز البداية في الموضع 1 ، ولكن عند النظر إلى شعار التسلسل ، يُرى أن GTG مسموح به أيضًا ككودون بدء.


الشكل 20. الشكل 8: محاذاة تسلسل غير مقيدة لأحد عشر تسلسلًا للإشريكية القولونية تحدد كودون البدء. تبدأ رموز البداية من الموضع 1. ويظهر أسفل المحاذاة شعار التسلسل المقابل. كما رأينا ، يوجد رمز بدء GTG وكودونات بدء ATG المعتادة في المحاذاة. يمكن أيضًا تصور ذلك في الشعار في الموضع 1.



تعليقات:

  1. Maurr

    في رأيي ، هو مخطئ. أنا متأكد.أقترح مناقشته. اكتب لي في رئيس الوزراء ، يتحدث إليك.

  2. Macintosh

    ذ؟ ه

  3. Gardarn

    يتفق ، الرسالة المفيدة



اكتب رسالة