ข้อมูล

การใช้ Hidden Markov Models เพื่อค้นหา homologues ที่สมเหตุสมผลในลำดับสั้น ๆ ที่เป็นนามธรรมหรือไม่?


เครื่องมือการจัดตำแหน่ง HMM เช่น hhpred เก่งในการค้นหา homologues ที่ละเอียดอ่อนของโปรตีนแบบพับซึ่งเทคนิคการให้คะแนนที่ง่ายกว่า (เช่นที่ใช้ในอัลกอริธึม BLAST) จะพลาด

ฉันกำลังดูลำดับขนาดเล็ก (20AA) เท่านั้นและเป็นเกลียวตลอด

hhpred ยังคงมีแนวโน้มที่จะรับความคล้ายคลึงกันเล็กน้อยในโครงสร้างทุติยภูมิพื้นฐานเช่นเดียวกับในลำดับโปรตีนแบบพับหรือการจัดตำแหน่งที่ง่ายกว่าจะเหมาะสมหรือไม่?


TMHMM เป็นมาตรฐานที่ดีมากในการทำนาย TMH ตั้งแต่แรก ดังนั้นจึงมีเหตุผลว่าการทำนายคล้ายคลึงกันโดยใช้วิธีนี้เป็นไปได้อย่างสมบูรณ์


Master Blaster: วิธีการระบุโปรตีนที่เกี่ยวข้องจากระยะไกลที่ละเอียดอ่อน

การจัดลำดับจีโนมจะค้นหาลำดับของลำดับโปรตีนทั้งหมดที่เข้ารหัสในจีโนม ในขั้นแรก การตรวจจับความคล้ายคลึงกันถูกนำมาใช้เพื่อให้ได้เบาะแสเกี่ยวกับโครงสร้างและหน้าที่ของโปรตีนเหล่านี้ อย่างไรก็ตาม ความแตกต่างทางวิวัฒนาการสูงระหว่างโปรตีนที่คล้ายคลึงกันท้าทายความสามารถของเราในการตรวจหาความสัมพันธ์ที่อยู่ห่างไกล ในอดีต แนวทางที่เกี่ยวข้องกับเมทริกซ์การให้คะแนนเฉพาะตำแหน่ง (PSSM) หลายตำแหน่งพบว่ามีประสิทธิภาพมากกว่า PSSM เดี่ยวแบบเดิม การค้นหาแบบเรียงซ้อนเป็นอีกแนวทางหนึ่งที่ประสบความสำเร็จซึ่งมีการสอบถามการค้นหาเพื่อตรวจหาคำที่คล้ายคลึงกันมากขึ้น เราเสนอโปรโตคอล 'Master Blaster' ซึ่งรวมเอาหลักการที่นำมาใช้ในสองแนวทางนี้ เพื่อเพิ่มความสามารถของเราในการตรวจจับ homologues ระยะไกลให้ดียิ่งขึ้นไปอีก การประเมินแนวทางดำเนินการโดยใช้ความสัมพันธ์ที่รู้จักที่มีอยู่ในฐานข้อมูล SCOP70 และเปรียบเทียบผลลัพธ์กับ PSI-BLAST และ HHblits ซึ่งเป็นวิธีการซ่อนตามแบบจำลองของ Markov เมื่อเปรียบเทียบกับ PSI-BLAST แล้ว Master Blaster ส่งผลให้มีการปรับปรุง 10% ในแง่ของการตรวจจับการเชื่อมต่อแบบ cross superfamily, การปรับปรุงเกือบ 35% ใน cross family และการปรับปรุงมากกว่า 80% ในการเชื่อมต่อภายในครอบครัว จากผลการทดลองพบว่า HHblits มีความละเอียดอ่อนในการตรวจจับ homologues ระยะไกลเมื่อเทียบกับ Master Blaster อย่างไรก็ตาม มีการโจมตีจริงจาก 46 เท่า ซึ่ง Master Blaster ได้รายงาน Homolog ที่ HHblits ไม่ได้รายงานถึงแม้จะใช้พารามิเตอร์ที่เหมาะสมที่สุดซึ่งบ่งชี้ว่าสำหรับการตรวจจับ homologues ระยะไกล การใช้วิธีการที่หลากหลายโดยใช้วิธีการต่างๆ ร่วมกันจะมีประสิทธิภาพมากขึ้นในการตรวจจับ homologs ระยะไกล รหัส Master Blaster แบบสแตนด์อโลนสามารถดาวน์โหลดได้ในไฟล์เก็บถาวรเสริม


เชิงนามธรรม

การตรวจหาไวรัสอย่างรวดเร็ว ละเอียดอ่อน และเฉพาะเจาะจงเป็นองค์ประกอบสำคัญของการวินิจฉัยทางคลินิก การจัดลำดับแบบขนานจำนวนมากช่วยให้มีโอกาสในการวินิจฉัยแบบใหม่ ซึ่งช่วยเสริมเทคนิคทางซีรัมวิทยาและ PCR แบบดั้งเดิม ในขณะที่การจัดลำดับคู่ขนานอย่างหนาแน่นให้คำมั่นถึงประโยชน์ของความครอบคลุมมากกว่าและมีความลำเอียงน้อยกว่าวิธีการแบบเดิม แต่ก็นำเสนอความท้าทายในการวิเคราะห์แบบใหม่ โดยเฉพาะอย่างยิ่งในส่วนที่เกี่ยวกับการตรวจจับลำดับของเชื้อโรคในบริบทเมตาเจโนมิก ในการประมาณค่าครั้งแรก การตรวจหาไวรัสในเบื้องต้นสามารถทำได้โดยง่ายผ่านการจัดตำแหน่งของลำดับการอ่านหรือการรวม contig เข้ากับฐานข้อมูลอ้างอิงของจีโนมของเชื้อโรคด้วยเครื่องมือต่างๆ เช่น BLAST อย่างไรก็ตาม การรู้จำลำดับไวรัสที่แตกต่างกันอย่างมากนั้นเป็นปัญหา และอาจมีความซับซ้อนมากขึ้นด้วยอัตราการกลายพันธุ์ที่สูงโดยเนื้อแท้ของไวรัสบางชนิด โดยเฉพาะไวรัสอาร์เอ็นเอ ในกรณีเหล่านี้ ความไวที่เพิ่มขึ้นอาจทำได้โดยใช้ประโยชน์จากข้อมูลเฉพาะตำแหน่งในระหว่างกระบวนการจัดตำแหน่ง ที่นี่ เราสร้างโมเดล Markov ที่ซ่อนโปรไฟล์ที่เข้ากันได้กับ HMMER3 (โปรไฟล์ HMM) จากโปรตีนที่มีคำอธิบายประกอบแบบไวรัลทั้งหมดใน RefSeq ในรูปแบบอัตโนมัติโดยใช้ไปป์ไลน์ข้อมูลชีวภาพที่สร้างขึ้นเอง จากนั้นเราทดสอบความสามารถของ HMM โปรไฟล์ไวรัสเหล่านี้ (“vFams”) เพื่อจำแนกลำดับอย่างแม่นยำว่าเป็นไวรัสหรือไม่ใช่ไวรัส การทดลองตรวจสอบความถูกต้องข้ามกับลำดับยีนแบบเต็มความยาวแสดงให้เห็นว่า vFams สามารถเรียกคืน 91% ของลำดับการทดสอบไวรัสที่ยังเหลือทิ้งไว้โดยไม่ต้องจำแนกลำดับที่ไม่ใช่ไวรัสใดๆ เป็นกลุ่มโปรตีนของไวรัสอย่างไม่ถูกต้อง การวิเคราะห์ซ้ำอย่างละเอียดของชุดข้อมูลเมทาโนมิกที่เผยแพร่ก่อนหน้านี้ด้วยชุด vFams ที่ทำงานได้ดีที่สุดแสดงให้เห็นว่าพวกมันมีความไวมากกว่า BLAST ในการตรวจหาลำดับที่เกิดจากญาติห่างๆ ของไวรัสที่รู้จัก เพื่ออำนวยความสะดวกในการใช้ vFams สำหรับการตรวจจับอย่างรวดเร็วของ homologs ของไวรัสระยะไกลในข้อมูลเมตาเจโนมิก เราจัดเตรียม vFams สองชุด ซึ่งประกอบด้วย vFams มากกว่า 4,000 รายการ ในรูปแบบ HMMER3 นอกจากนี้เรายังมีซอฟต์แวร์ที่จำเป็นในการสร้าง HMM โปรไฟล์แบบกำหนดเองหรืออัปเดต vFams เมื่อมีการค้นพบไวรัสมากขึ้น (http://derisilab.ucsf.edu/software/vFam)

การอ้างอิง: Skewes-Cox P, Sharpton TJ, Pollard KS, DeRisi JL (2014) โปรไฟล์โมเดล Markov ที่ซ่อนอยู่สำหรับการตรวจหาไวรัสภายในข้อมูลลำดับ Metagenomic PLOS ONE 9 (8): e105067 https://doi.org/10.1371/journal.pone.0105067

บรรณาธิการ: Herman Tse, The University of Hong Kong, Hong Kong

ได้รับ: 16 กุมภาพันธ์ 2014 ยอมรับ: 20 กรกฎาคม 2557 ที่ตีพิมพ์: 20 สิงหาคม 2014

ลิขสิทธิ์: © 2014 Skewes-Cox และคณะ นี่เป็นบทความแบบเปิดที่เผยแพร่ภายใต้เงื่อนไขของ Creative Commons Attribution License ซึ่งอนุญาตให้ใช้ แจกจ่าย และทำซ้ำได้ไม่จำกัดในสื่อใดๆ โดยต้องให้เครดิตผู้เขียนต้นฉบับและแหล่งที่มา

เงินทุน: งานนี้ได้รับการสนับสนุนจาก Howard Hughes Medical Institute (JLD), the Gordon and Betty Moore Foundation (Grant #1660 and #3300), the National Science Foundation (Grant #DMS-1069303) และ Gladstone Institutes (KSP, TJS) มูลนิธิวิจัยโรคกระดูกพรุนและโครงการทุนมิตรภาพชีวสารสนเทศก่อนปริญญาเอกของมูลนิธิ PhRMA (PS-C) ผู้ให้ทุนไม่มีบทบาทในการออกแบบการศึกษา การรวบรวมและวิเคราะห์ข้อมูล การตัดสินใจเผยแพร่ หรือการเตรียมต้นฉบับ

การแข่งขันความสนใจ: ผู้เขียนได้ประกาศว่าไม่มีผลประโยชน์ที่แข่งขันกัน


เชิงนามธรรม

การพึ่งพาอาศัยกันในลำดับดีเอ็นเอมักสร้างแบบจำลองโดยใช้แบบจำลองของมาร์กอฟ อย่างไรก็ตาม สายโซ่มาร์คอฟไม่สามารถอธิบายความแตกต่างที่อาจมีอยู่ในบริเวณต่างๆ ของลำดับ DNA เดียวกันได้ โมเดล Markov ที่ซ่อนอยู่มีความสมจริงมากกว่าแบบจำลองของ Markov เนื่องจากช่วยให้สามารถระบุบริเวณที่ต่างกันของลำดับดีเอ็นเอได้ ในการศึกษานี้ เรานำเสนอการประยุกต์ใช้แบบจำลอง Markov ที่ซ่อนอยู่กับข้อมูล DNA ของ Xylella fastidiosa เราพบว่าแบบจำลองสามสถานะให้คำอธิบายที่ดีสำหรับข้อมูลที่พิจารณา

DNA Xylella fastidiosa ซ่อนโมเดล Markov

พันธุศาสตร์ของจุลินทรีย์

โมเดล Markov ที่ซ่อนอยู่นำไปใช้กับการสืบเนื่องของ Xylella fastidiosa จีโนม

Universidade Federal de Minas Gerais, Departmento de Estatística, Belo Horizonte, MG, บราซิล

จดหมายโต้ตอบ

การพึ่งพาอาศัยกันในลำดับดีเอ็นเอมักสร้างแบบจำลองโดยใช้แบบจำลองของมาร์กอฟ อย่างไรก็ตาม สายโซ่มาร์คอฟไม่สามารถอธิบายความแตกต่างที่อาจมีอยู่ในบริเวณต่างๆ ของลำดับ DNA เดียวกันได้ โมเดล Markov ที่ซ่อนอยู่มีความสมจริงมากกว่าแบบจำลอง Markov เนื่องจากช่วยให้สามารถระบุบริเวณที่ต่างกันของลำดับดีเอ็นเอได้ ในการศึกษานี้ เรานำเสนอแอปพลิเคชันของแบบจำลอง Markov ที่ซ่อนอยู่ต่อเนื่องจาก Xylella fastidiosa ข้อมูลดีเอ็นเอ เราพบว่าแบบจำลองสามสถานะให้คำอธิบายที่ดีสำหรับข้อมูลที่พิจารณา

คำสำคัญ: ดีเอ็นเอ, Xylella fastidiosa, โมเดล Markov ที่ซ่อนอยู่

อัตราของการสร้างข้อมูลตามลำดับในช่วงไม่กี่ปีที่ผ่านมาได้ให้โอกาสมากมายไม่เพียงแต่สำหรับการพัฒนาแนวทางใหม่ในการแก้ปัญหาทางชีววิทยาการคำนวณ แต่ยังสำหรับการสำรวจเทคนิคที่ทราบอยู่แล้วเกี่ยวกับข้อมูลที่ไม่เคยมีการวิเคราะห์มาก่อน

จุดเริ่มต้นในการวิเคราะห์ข้อมูลส่วนใหญ่ประกอบด้วยการใช้วิธีการที่กำหนดไว้อย่างดี เนื่องจากความคืบหน้าในการวิเคราะห์ ความเฉพาะเจาะจงของข้อมูลอาจต้องมีการพัฒนาเครื่องมือเฉพาะที่เหมาะสมกว่าเพื่ออธิบายและสร้างแบบจำลองข้อมูลได้ดีขึ้น การสร้างวิธีการใหม่ต้องใช้ความเข้าใจอย่างลึกซึ้งในวิธีการปัจจุบัน โดยเฉพาะอย่างยิ่งเมื่อวิธีการเหล่านี้มีประสิทธิภาพอย่างไม่น่าเชื่อและไม่เป็นที่รู้จักเท่าที่ควรเนื่องจากความซับซ้อนทางคณิตศาสตร์และการคำนวณ เราถือว่า Markov Models (HMM) ที่ซ่อนอยู่เป็นตัวอย่างที่ดีของแนวคิดนี้ เนื่องจากแม้ว่าแบบจำลองเหล่านี้จะไม่ใช่เรื่องใหม่ แต่เราเชื่อว่านักชีววิทยาระดับโมเลกุลไม่ได้ตระหนักถึงความเป็นไปได้ที่แบบจำลองเหล่านี้มีให้

เป้าหมายของเราในการศึกษานี้คือเพื่อหารือเกี่ยวกับการพึ่งพาและความหลากหลายในข้อมูล DNA และวิธีที่พวกเขาสามารถนำมาพิจารณาอย่างเหมาะสมโดยใช้ HMM เราใช้โมเดลประเภทนี้กับลำดับที่ตามมาของ Xylella fastidiosa (Xf) จีโนมเป็นวิธีแนะนำการวิเคราะห์ที่เป็นไปได้สำหรับจีโนมทั้งหมด

ตามคำกล่าวของ Lambais และคณะ (2000), Xylella fastidiosa เป็นแบคทีเรียที่เกี่ยวข้องกับโรคต่างๆ ที่ก่อให้เกิดความสูญเสียมหาศาลในพืชที่มีความสำคัญทางเศรษฐกิจมากมาย รวมทั้งส้ม Xylella fastidiosa เป็นสาเหตุของโรค Citrus Variegated Chlorosis (CVC) ซึ่งเป็นโรคที่ส่งผลกระทบต่อพันธุ์ส้มหวานเชิงพาณิชย์ทั้งหมด และแสดงถึงความกังวลหลักในอุตสาหกรรมส้มของบราซิล เชื้อก่อโรคพืชโจมตีผลไม้รสเปรี้ยวส่งผลให้ผลไม้ไม่มีน้ำไม่มีมูลค่าทางการค้า Xylella fastidiosa เป็นเชื้อก่อโรคพืชชนิดแรกที่มีจีโนมของมัน (ข้อมูลทางพันธุกรรมทั้งหมดที่จัดเก็บไว้ในโครโมโซมของสิ่งมีชีวิต) ตามลำดับอย่างสมบูรณ์ นอกจากนี้ อาจเป็นสิ่งมีชีวิตที่มีการศึกษาน้อยที่สุดก่อนหน้านี้ที่มีลำดับจีโนมที่สมบูรณ์

ชุดข้อมูลที่สร้างขึ้นโดยการจัดลำดับทั้ง Xylella fastidiosa จีโนมก่อให้เกิดความท้าทายใหม่ ๆ เนื่องจากตอนนี้นักชีววิทยาต้องการเครื่องมือเชิงปริมาณและวิธีการทางสถิติเพื่อช่วยในการวิเคราะห์ลำดับ สิ่งพิมพ์ล่าสุดบางส่วนเกี่ยวกับ Xylella fastidiosa ส่งสัญญาณถึงความจำเป็นที่ไม่เพียงแต่สำหรับการประยุกต์ใช้วิธีการทางสถิติในปัจจุบันที่มีในการวิเคราะห์ข้อมูลตามลำดับเท่านั้น แต่ยังรวมถึงการวิจัยทางสถิติเพื่อโจมตีลักษณะเฉพาะของมันด้วย เฉิน et al. (2000) วิเคราะห์ข้อมูลตามลำดับจาก 16 สายพันธุ์ของ Xylella fastidiosa ที่มาจากเก้าโฮสต์ที่แตกต่างกัน พวกเขาศึกษาแง่มุมต่าง ๆ เช่น ความแตกต่างของลำดับในการจำแนกประเภทของ X. fastidiosa ในระดับสายพันธุ์ย่อย การศึกษาโดย Qin และคณะ (2000) และเมห์ตา et al. (พ.ศ. 2544) เกี่ยวข้องกับการประเมินของ Xylella fastidiosa ความหลากหลายทางพันธุกรรมที่แยกได้จากส้มและกาแฟที่เป็นโรคในบราซิล

เนื่องจากชุดข้อมูลมีขนาดใหญ่ การวิเคราะห์ทางสถิติสำหรับจีโนมทั้งหมดของสิ่งมีชีวิตจำนวนมากจึงต้องการการใช้คอมพิวเตอร์ที่ทันสมัยซึ่งกำลังสูง นั่นอาจเป็นปัญหาใหญ่เนื่องจากเรามีไม่เพียงพอสำหรับจุดประสงค์นี้

ในการศึกษานี้ เราปรับโมเดล Markov ที่ซ่อนอยู่ในชุดข้อมูลของแบคทีเรีย Xylella fastidiosa จีโนม การเลือกแบบจำลองดำเนินการโดยใช้เกณฑ์ข้อมูลเบย์ (BIC) และเกณฑ์ข้อมูลของ Akaike (AIC) ในส่วนที่ 2 เราพูดถึงการพึ่งพาในข้อมูลดีเอ็นเอ ในหัวข้อที่ 3 เราจะพูดถึงความแตกต่างในลำดับดีเอ็นเอ แบบจำลอง Markov ที่ซ่อนอยู่ถูกนำมาใช้ในหัวข้อที่ 4 ในหัวข้อที่ 5 เราจะแนะนำ AIC และ BIC สั้นๆ สำหรับการเลือกแบบจำลอง ฟาจแลมบ์ดาและ Xylella fastidiosa วิเคราะห์ชุดข้อมูลในส่วนที่ 6

บทสรุปแรกที่เห็นได้ชัดของลำดับดีเอ็นเอคือการกระจายตัวของเบสสี่ประเภท แม้ว่าจะสะดวกสำหรับการสร้างแบบจำลองทางคณิตศาสตร์หากฐานทั้งสี่มีความถี่เท่ากัน แต่การศึกษาเชิงประจักษ์เกือบทั้งหมดแสดงการแจกแจงไม่เท่ากัน นั่นหมายความว่าแบบจำลองความเป็นอิสระอย่างง่ายสำหรับลำดับ DNA มีประโยชน์ แต่ทำได้เพียงเล็กน้อยเท่านั้น

เราจำเป็นต้องคำนึงถึงข้อเท็จจริงที่ว่าฐานใกล้เคียงในลำดับดีเอ็นเอไม่เป็นอิสระต่อกันในแบบจำลอง ตามรายงานของทาวาเรและกิดดิงส์ (1989) ความสัมพันธ์ระหว่างฐานที่อยู่ติดกันจะนำไปสู่ความสัมพันธ์ระหว่างฐานที่ห่างไกลกว่าและการประมาณว่าความสัมพันธ์ขยายออกไปไกลเพียงใดจากทฤษฎีลูกโซ่ของมาร์คอฟ

จากข้อมูลของ Weir (1996) การวิเคราะห์ลูกโซ่ของ Markov นั้นใช้ที่ระดับจีโนมมากกว่าที่ระดับของยีนแต่ละตัว เนื่องจากอันสุดท้ายอาจเกี่ยวข้องกับลำดับที่สั้นมากซึ่งไม่เพียงพอที่จะแสดงการมีอยู่ของลำดับที่สูงกว่า ผู้เขียนคนเดียวกันตั้งข้อสังเกตว่าไม่น่าเป็นไปได้ที่สายโซ่มาร์คอฟเดียวกันสามารถอธิบายจีโนมทั้งหมดได้ และหากสายโซ่มาร์คอฟได้รับการติดตั้งเข้ากับจีโนม กลไกทางชีววิทยาไม่ได้บอกเป็นนัย แต่สามารถตอบคำถามที่เป็นประโยชน์ได้ ตัวอย่างเช่น สามารถทำนายความถี่ของลำดับย่อย (คำ) ที่เฉพาะเจาะจงได้

ตามเว็บไซต์ http://www.accessexcellence.org/AE/AEC/ ในทางพันธุวิศวกรรม เป็นเรื่องปกติที่จะใช้เอ็นไซม์หลายชนิดที่สามารถดัดแปลงหรือรวมโมเลกุลดีเอ็นเอที่มีอยู่ หรือช่วยในการสังเคราะห์ดีเอ็นเอใหม่ โมเลกุล ตัวอย่างเช่น เอ็นไซม์ DNA polymerase ทำให้โมเลกุลของ DNA สองตัวหรือมากกว่าเกาะติดกันได้ เอ็นไซม์ DNA ligase แบ่งโมเลกุลดีเอ็นเอออกเป็นชิ้นๆ ในขณะที่เอนไซม์จำกัดเอ็นโดนิวคลีเอส (REE) ที่เรียกว่าการจำกัดนั้นทำงานโดย ''การสแกน'' ความยาวของโมเลกุลดีเอ็นเอ เมื่อ REE พบลำดับการรู้จำเฉพาะ (คำ) ของมัน มันจะเชื่อมกับโมเลกุลดีเอ็นเอและตัดออกในลักษณะที่คาดเดาได้และทำซ้ำได้ สิ่งสำคัญคือต้องใช้สายโซ่มาร์คอฟเพื่อช่วยนักชีววิทยาในการประมาณจำนวนชิ้นส่วนที่คาดไว้ซึ่งผลิตขึ้นเมื่อใช้เอ็นไซม์จำกัดจำเพาะกับจีโนม

สายโซ่มาร์คอฟอาจอธิบายลำดับดีเอ็นเอในแง่ขององค์ประกอบนิวคลีโอไทด์ของพวกมัน เช่น.เป็นสตริงของตัวอักษรจากตัวอักษรสี่ตัวอักษร <A, C, G, T>. ให้เราแสดงแต่ละประเภทฐานสี่ประเภทเป็น รัฐ เราจะมาแนะนำคำศัพท์และสัญลักษณ์ที่มีประโยชน์สำหรับเครือ Markov

โดยทั่วไปสำหรับเรื่องที่กำหนด ให้XNS แสดงถึงการตอบสนองของตัวแปรหมวดหมู่ ณ เวลา t, t = 0, 1, ต. ลำดับ (X0, NS1, NS2, . ) เป็นตัวอย่างของกระบวนการสุ่ม ซึ่งเป็นกลุ่มดัชนีของตัวแปรสุ่ม ในบทความนี้ XNS บ่งชี้นิวคลีโอไทด์ที่ตำแหน่ง NS ในลำดับ

โดยไม่ต้องเรียกใช้กลไกทางชีววิทยาใด ๆ ห่วงโซ่ของ Markov แห่งระเบียบ NS หมายความว่าฐานที่มีอยู่ในตำแหน่งที่แน่นอนในลำดับขึ้นอยู่กับฐานที่มีอยู่ที่ก่อนหน้านี้เท่านั้น NS ตำแหน่ง ด้วยเหตุผลที่เป็นทางการมากขึ้น กระบวนการสุ่มคือ a rth-สั่งซื้อ Markov chain ถ้าเพื่อทุกคน NS, การแจกแจงแบบมีเงื่อนไขของ Xt + 1ให้ X0, . NSNSเหมือนกับการแจกแจงแบบมีเงื่อนไขของ Xt + 1ให้ XNS, . NSt - r + 1. ให้สถานะที่ก่อนหน้านี้ NS ครั้ง พฤติกรรมในอนาคตของลูกโซ่นั้นไม่ขึ้นกับพฤติกรรมในอดีตก่อนหน้านั้น NS ครั้ง สำหรับห่วงโซ่มาร์คอฟอันดับหนึ่งด้วย ผม สถานะที่เป็นไปได้ ความน่าจะเป็นแบบมีเงื่อนไข

ด้วย i, j = 1, . ฉันถูกเรียกว่า การเปลี่ยนแปลง ความน่าจะเป็น. การขยายคำสั่งซื้อที่สูงขึ้นจะเกิดขึ้นทันที ถ้า hอิจ(t) ไม่ขึ้นอยู่กับ NS, ห่วงโซ่ Markov เรียกว่าเป็นเนื้อเดียวกัน

การอนุมานทางสถิติสำหรับเครือ Markov ใช้วิธีมาตรฐานของการวิเคราะห์ข้อมูลตามหมวดหมู่ เช่น โมเดลบันทึกเชิงเส้น ข้อมูลอ้างอิงที่เป็นประโยชน์ ได้แก่ Anderson and Goodman (1957), Birch (1963), Bishop และคณะ (1975), McCullagh and Nelder (1989), Agresti (1990) และ Avery และคณะ (1999).

ความแตกต่างในลำดับดีเอ็นเอ

Markov chains และ log-linear model เป็นเครื่องมือสำคัญที่จะช่วยเราอธิบายคุณสมบัติในท้องถิ่นของลำดับดีเอ็นเอ อย่างไรก็ตาม สายโซ่มาร์คอฟไม่สามารถอธิบายความแตกต่างที่อาจมีอยู่ในบริเวณต่างๆ ของลำดับ DNA เดียวกันได้ สมมติฐานพื้นฐานของแบบจำลองประเภทนี้คือ chain เป็นเนื้อเดียวกัน หมายความว่าเมทริกซ์ความน่าจะเป็นในการเปลี่ยนแปลงแบบเดียวกันจะถือว่าเป็นจริงสำหรับลำดับทั้งหมดที่กำลังวิเคราะห์ อย่างไรก็ตาม นักชีววิทยาทราบดีว่าบริเวณที่เข้ารหัสและไม่เข้ารหัสของ DNA มีความถี่ของนิวคลีโอไทด์ต่างกัน ดังนั้นโมเดล Markov จะทำนายพฤติกรรมบางอย่างที่ไม่ได้สังเกตในข้อมูล ดังนั้น แบบจำลองประเภทนี้จึงอาจใช้งานไม่ได้จริงในปัญหาต่างๆ นานา

ตัวอย่างของ DNA ที่แตกต่างกันนำเสนอโดย Bernardi และ Bernardi (1986) การทำงานกับลักษณะทางชีวเคมีของ DNA พวกเขาอธิบายว่าจีโนมนิวเคลียร์ของสัตว์มีกระดูกสันหลังเลือดอุ่นแสดงการแบ่งส่วนตามองค์ประกอบ โดยส่วนใหญ่ประกอบด้วยโมเสคของส่วน DNA ที่ยาวมาก ซึ่งก็คือไอโซคอร์ ตามที่ผู้เขียนระบุ isochores มีลักษณะเป็นเนื้อเดียวกันอย่างเป็นธรรมใน C + G เนื้อหาและไอโซคอร์ที่แตกต่างกันแสดงสัดส่วนที่แตกต่างกันของ C + G. ผู้เขียนยังระบุด้วยว่าจีโนมไม่ได้มีไอโซคอร์มากนัก และความแตกต่างภายในไอโซคอร์นั้นต่ำมาก แต่อยู่ระหว่างไอโซคอร์สูง ความแตกต่างอาจเกิดจากความแตกต่างในรูปแบบองค์ประกอบของฐานและการพึ่งพาอาศัยกันระหว่างฐานที่อยู่ใกล้เคียง และอาจสะท้อนถึงความแตกต่างในการทำงานและโครงสร้างระหว่างภูมิภาค

เป็นไปได้ที่จะอธิบายบริเวณที่ไม่มีการสังเกตที่ต่างกันของจีโนมของสิ่งมีชีวิตที่กำหนดโดยใช้เครื่องมือทางสถิติแทนเครื่องมือทางชีวเคมีที่จะถูกนำมาใช้อย่างสุภาพมากขึ้น เครื่องมือที่อ้างถึงคือแบบจำลองทางสถิติที่สามารถอธิบายความแตกต่างที่มีอยู่ในลำดับได้ นี่เป็นหัวข้อของการสนทนาครั้งต่อไปของเรา

โมเดล Markov ที่ซ่อนอยู่สำหรับลำดับดีเอ็นเอ

ในส่วนนี้เราจะนำเสนอโมเดล Markov ที่ซ่อนอยู่ซึ่งพัฒนาโดย Churchill (1989) โมเดลเหล่านี้ยังคงเป็นที่นิยมอย่างมาก (ดู Boys และคณะ, 2000). เราจะทำคำอธิบายสั้น ๆ เกี่ยวกับบางแง่มุมของส่วนที่ 4 ในเชอร์ชิลล์ (1989) สำหรับรายละเอียดที่สำคัญเกี่ยวกับประเด็นนี้ ควรปรึกษาเอกสารอ้างอิง

ในขณะที่ฐาน A, C, G, T แทน ผลลัพธ์ที่สังเกตได้ และเรียกสั้นๆ ว่า ผลลัพธ์, ภูมิภาคที่ไม่มีการสังเกตที่เป็นเนื้อเดียวกันที่เรากำลังมองหาจะถูกเรียกว่า รัฐที่ซ่อนอยู่ และสำหรับความกระชับจะแสดง รัฐ. งานของเราคือการประเมินว่ามีรัฐที่ซ่อนอยู่กี่แห่งและนำเสนอแผนที่ที่อธิบายว่าพวกเขาอยู่ที่ไหน จำนวนสถานะถือเป็นจำนวนจำกัดและคงที่และสอดคล้องกับภูมิภาคต่างๆ ของ DNA ตอนนี้เราขอแนะนำสัญกรณ์และคำจำกัดความที่จำเป็นสำหรับการอธิบายแบบจำลองมาร์กอฟที่ซ่อนอยู่สำหรับลำดับดีเอ็นเอ

พิจารณาลำดับของตัวแปรสุ่ม <>ผม: ผม = 1, . n> โดยมีการแจกแจงกำหนดโดยลำดับที่สอดคล้องกันของสถานะที่ไม่ได้สังเกต <>ผม>. ระบุลำดับของผลลัพธ์ที่สังเกตได้และสถานะตามเวลา NS โดยตามลำดับ y t = <>1, . yNS> และ s NS = <>1, . NSNS>.

ยอมรับจำนวนคงที่ของรัฐและผลลัพธ์พหุนาม ให้yNS = (ยt,0, . yt,m-1) เป็นเวกเตอร์ที่มีส่วนประกอบทั้งหมดเป็นศูนย์ ยกเว้น 1 อันเท่ากับเอกภาพ ซึ่งบ่งชี้ว่าผลลัพธ์ที่เป็นไปได้ใดใน m ที่สังเกตได้ การสังเกตแต่ละครั้งสัมพันธ์กับสถานะ r ที่ระบุโดยเวกเตอร์ sNS = (สt,0, . NSt,r-1). มีเวกเตอร์ p0 ของความน่าจะเป็นเริ่มต้นที่เกี่ยวข้องกับ s1เช่นนั้น SผมNS0i = 1 ดังนั้น สำหรับ p0iมีพารามิเตอร์ r - 1 ที่จะประมาณการ

การกระจายของ yNS โดยให้สถานะ ณ เวลา t คือ k เป็นพหุนาม นั่นคือ yNS | NSt,k พหุนาม(1, p0,k, . NSม-1,k). พารามิเตอร์ pฉัน k คือความน่าจะเป็นของการสังเกตผลลัพธ์ i เมื่อสถานะปัจจุบันคือ k ขึ้นอยู่กับข้อจำกัด


การอภิปราย

นิยามใหม่ของกลุ่มย่อย RIFIN และ STEVOR

การศึกษาก่อนหน้านี้อธิบายลำดับ RIFIN และ STEVOR ว่าเป็นโปรตีนที่เกี่ยวข้องกลุ่มใหญ่ซึ่งมีลักษณะเฉพาะสำหรับ P. falciparum. การวิเคราะห์ที่ตามมาของตระกูลโปรตีน RIFIN ตามจีโนมอ้างอิง แสดงให้เห็นว่าตระกูล RIFIN สามารถจัดกลุ่มย่อยเพิ่มเติมเป็นลำดับ A- และ B-RIFIN และกลุ่มหลังแบ่งออกเป็น B1-, B2- และ B3-RIFIN [12] .

การวิเคราะห์ในปัจจุบันของเรา ซึ่งรวมถึงลำดับอื่นๆ อีกมากมาย ยืนยันการแบ่งย่อยของลำดับ RIFIN ออกเป็นกลุ่ม A-, B1- และ B2-RIFIN ซึ่งทั้งหมดมีลักษณะเฉพาะที่กำหนดไว้ อย่างไรก็ตาม การสร้างกลุ่มที่กำหนดไว้สำหรับลำดับ B-RIFIN ที่เหลือถือเป็นการพูดเกินจริง ลำดับเหล่านี้เป็นตัวแทนของคลัสเตอร์ที่ต่างกัน (10 ยีนในสายพันธุ์อ้างอิง 3D7) ของลำดับที่กำหนดโดยข้อเท็จจริงที่ว่าพวกเขาไม่ใช่ลำดับ A-RIFIN และมีความคล้ายคลึงกันเพียงเล็กน้อยกับโปรตีน B1- และ B2-RIFIN ดังนั้นเราจึงตัดสินใจลดระดับลำดับ B3-RIFIN เป็นลำดับของ B-RIFIN

การศึกษาล่าสุดได้กำหนดกลุ่มย่อยที่เป็นไปได้ภายในลำดับ A-RIFIN, rifA1 และ rifA3 การจัดกลุ่มเหล่านี้ขึ้นอยู่กับความคล้ายคลึงของลำดับที่ 71% และ 84% และโดยส่วนใหญ่แล้ว ตำแหน่งจีโนมของพวกเขาในการวางแนวแบบตัวต่อตัวกับยีน var กลุ่ม A [21] เราไม่ได้ฝึก HMM ให้รู้จักกลุ่มเหล่านี้ เนื่องจากมีจำนวนลำดับที่ต่ำจากชุดข้อมูลที่ดูแลจัดการ นอกจากนี้ เราพบว่ายังมีกลุ่มย่อยอื่นๆ อีกหลายคน แต่ลำดับจำนวนน้อยภายในจีโนมเดียวทำให้ยากต่อการแยกแยะระหว่าง โดยสุจริต กลุ่มย่อยและยีนที่ขยายเร็ว ๆ นี้

ผู้เขียนเหล่านี้ยังได้กำหนดกลุ่มย่อย rifA2 ซึ่งประกอบด้วยลำดับ RIFIN ที่แตกต่างกันหนึ่งลำดับที่มีอยู่ โดยมีการอนุรักษ์ 78% ในจีโนมทั้งหมดที่ตรวจสอบ [21] กรณีของยีนสำเนาเดียวที่ได้รับการอนุรักษ์ไว้อย่างดีระหว่างจีโนมอาจจัดได้ดีกว่าเป็นยีนอนุรักษ์มากกว่ากลุ่มย่อย นอกจากนี้ เราได้ตั้งข้อสังเกตว่าโปรตีนที่ประกอบเป็นหมู่ rifA2 ให้คะแนนต่ำสุดของลำดับ RIFIN ทั้งหมด โดยหนึ่งในนั้นถูกคาดการณ์ว่าเป็น "เท็จ" ความจริงที่ว่าลำดับโปรตีน A-RIFIN บางส่วนมีคะแนนสูงกว่า rifA2 ที่มีความยาวเต็มและความแตกต่างของลำดับเหล่านี้จากโปรตีน RIFIN ทั่วไป แสดงให้เห็นอย่างชัดเจนว่าสิ่งเหล่านี้เกี่ยวข้องกับโปรตีน RIFIN แต่มีหน้าที่ต่างกันโดยไม่ต้องการสำเนาหลายชุดเพื่อความอยู่รอดของปรสิต .

ในการศึกษานี้ เรามุ่งเน้นเฉพาะจีโนมทั้งสาม (3D7, HB3 และ DD2) ซึ่งมีคำอธิบายประกอบพร้อมให้ใช้งาน เช่นเดียวกับฐานข้อมูล Uniprot ที่มีข้อมูลจากการศึกษาภาคสนาม เรายืนยันการค้นพบโดย Wang และคณะ[21], ว่าลำดับ RIFIN หลายลำดับนั้นค่อนข้างอนุรักษ์ไว้ข้ามสายพันธุ์ อย่างไรก็ตาม เป็นการยากที่จะประเมินว่าสิ่งนี้แสดงถึงการวัดความแตกต่างของประชากรปรสิตหรือหากได้รับการคัดเลือกตามวิวัฒนาการสำหรับหน้าที่เฉพาะ

นอกจากนี้ เราได้เลือกที่จะใช้แนวทางอนุรักษ์นิยมในการกำหนด STEVOR ซีเควนซ์ทั้งหมดที่เกี่ยวข้องอย่างชัดเจนกับซีเควนซ์ STEVOR แต่คะแนนไม่สูงพอ จะถูกแท็กเหมือน STEVOR โดยโปรแกรม RSpred

ลำดับที่คลุมเครือ

สี่ลำดับที่คาดการณ์ว่าเป็นโปรตีน A-RIFIN ยังมีคะแนนค่อนข้างสูง (> 300) กับ B1- หรือ B2-RIFIN HMM เมื่อตรวจสอบลำดับเหล่านี้อย่างใกล้ชิดยิ่งขึ้น โดยใช้การวิเคราะห์สายวิวัฒนาการกับการจัดตำแหน่งของแต่ละครึ่งหนึ่งของโปรตีนเหล่านี้ ปรากฏว่าครึ่งหนึ่งของปลาย N ของพวกมันสอดคล้องกับลำดับ A-RIFIN เป็นอย่างดี ในขณะที่ครึ่งหนึ่งของปลาย C ของพวกมันมีลักษณะเฉพาะของโปรตีน B1- หรือ B2-RIFIN (ไม่แสดงข้อมูล) ลำดับเหล่านี้เป็นลูกผสมระหว่างโปรตีน A- และ B1/2-RIFIN และยืนยันรายงานก่อนหน้านี้ของการรวมตัวกันใหม่ในฐานะสื่อกลางสำหรับการกระจายความหลากหลายของยีนตระกูล VSA เหล่านี้ [29]

ข้อดี ข้อจำกัด และประโยชน์ของ RSpred

เราได้ตั้งชื่อชุด HMM และโปรแกรมประเมินผล RSpred สำหรับตัวทำนาย RIFIN และ STEVOR เราได้แสดงให้เห็นว่าสามารถตรวจจับโปรตีน RIFIN และ STEVOR ได้อย่างมีประสิทธิภาพ และจำแนกตามกลุ่มย่อย แม้ว่าจะไม่มีการตรวจจับที่ผิดพลาด แต่ RSpred นั้นอนุรักษ์นิยมด้วยลำดับที่ถูกตัดทอนและเกี่ยวข้องจากระยะไกล อย่างไรก็ตาม ลำดับเหล่านี้ส่วนใหญ่อย่างน้อยรู้จักและคาดการณ์ว่าเป็นโปรตีน RIFIN หรือ STEVOR ในที่สุด RSpred พิสูจน์ให้เห็นว่ามีความละเอียดอ่อนมากกว่า HMM ของ Pfam และ TIGRFAM ที่มีอยู่ [18, 19] ซึ่งยังถูกจำกัดในขอบเขตของการจำแนกประเภท เนื่องจากไม่รู้จักกลุ่มย่อย RIFIN หรือ STEVOR

เราได้ใช้ RSpred กับโปรตีโอมทั้งหมดที่สกัดจากชุดจีโนมใหม่ แม้ว่าจีโนมเหล่านี้ส่วนใหญ่จะถูกจัดลำดับให้ครอบคลุมที่ต่ำมาก (1.25 เท่า) เราก็สามารถตรวจจับกลุ่มย่อยทั้งหมดภายในจีโนมเหล่านี้ได้ ทรัพยากรนี้จะมีประโยชน์มากขึ้นเมื่อมีการจัดลำดับจีโนมมากขึ้น: โดยเฉพาะอย่างยิ่งมีจำนวนมาก พลาสโมเดียม โครงการจัดลำดับจีโนม [30] ที่มีการจัดลำดับมากกว่า 100 พลาสโมเดียม จีโนมของปรสิต ซึ่งจะช่วยให้สามารถวิเคราะห์ meta-genomic ของตระกูลโปรตีน RIFIN และ STEVOR


ความพร้อมใช้งานของข้อมูล

ข้อมูลพื้นฐาน

UniProtKB - Q3B820 (F161A_HUMAN) หมายเลขภาคยานุวัติ Q3B820: https://www.uniprot.org/uniprot/Q3B820

UniProtKB - Q9ULW0 (TPX2_HUMAN) หมายเลขภาคยานุวัติ Q9ULW0: https://www.uniprot.org/uniprot/Q9ULW0

ข้อมูลเสริม

โครงการนี้มีไฟล์ 'Supplementary figures.pdf' ซึ่งมีข้อมูลขยายต่อไปนี้:

รูปเสริม S1: A. กดปุ่ม Titin ในการทำซ้ำครั้งที่สองของ PSI-BLAST ลงในฐานข้อมูล nr50 B. บริเวณที่มีความซับซ้อนต่ำใน FAM161A

รูปเสริม S2: A. HHpred ผลลัพธ์ของการจัดตำแหน่งคู่แบบสมมาตรของ Fam161A และ Tpx2 B. การค้นหา HHpred ด้วยการจัดตำแหน่งใหม่ด้วยอัลกอริธึมความแม่นยำสูงสุด

รูปที่ S3: เกลียวลิ่มของ Tpx2 ถูกฝังลึกในกระเป๋าที่เกิดจากโมโนเมอร์ทูบูลินสี่ตัว

รูปที่ S4 เพิ่มเติม: คุณสมบัติของเฮลิเคียรตามลําดับสันเขาใน Tpx2 และ FAM161A

รูปเสริม S5: ลำดับในเอ็นร้อยหวายในตระกูล FAM161

รูปเสริม S6: การเปลี่ยนแปลงของลำดับสันเขา Tpx2 และลิ่มข้ามสายพันธุ์

ข้อมูลมีให้ภายใต้เงื่อนไขของการสละสิทธิ์ข้อมูล "ไม่สงวนลิขสิทธิ์" ของ Creative Commons Zero (CC0 1.0 การอุทิศโดเมนสาธารณะ)


2. Discrete-Time Markov Modulated Probabilistic State-Space Model

ในการอนุมานสถานะ UP และ DOWN ของเซลล์ประสาท ในส่วนนี้ เราพัฒนาแบบจำลองพื้นที่สถานะ-สเปซมาร์กอฟแบบมอดูเลตแบบแบ่งเวลาที่ไม่ต่อเนื่อง ซึ่งสามารถดูได้ว่าเป็นตัวแปรของ HMM มาตรฐานที่ใช้กับการวิเคราะห์สไปค์เทรน โครงสร้างความน่าจะเป็นพื้นฐานคือ Markovian และเป็นเนื้อเดียวกัน และอัลกอริธึมอนุมานมีประสิทธิภาพในการระบุสถิติของกระบวนการสถานะที่ซ่อนอยู่ จากข้อมูลนั้น ในส่วนถัดไป เราพัฒนาแบบจำลองความน่าจะเป็นแบบเวลาต่อเนื่องเพื่อเอาชนะข้อจำกัดบางประการที่กำหนดโดยแบบจำลองความน่าจะเป็นแบบแยกเวลานี้

2.1. โมเดลมาร์คอฟที่ซ่อนอยู่

ความน่าจะเป็นเริ่มต้นของรัฐแสดงด้วยเวกเตอร์ พาย = <>ผม> ที่ไหน πผม = ปร (NS0 = ผม) (ผม = 0, 1). โดยไม่สูญเสียความทั่วถึง เราคิดว่าแอมพลิจูดของสถานะที่ซ่อนอยู่ถูกกำหนดไว้ล่วงหน้า และตัวแปรไม่ต่อเนื่อง NSk ∈ <0, 1>แสดงสถานะ DOWN (0) หรือ UP (1)

ecO1yAIjyZRZvGMRW9R-SM8T4A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA" />⁠ ได้มาจาก (โดยไม่สนใจค่าคงที่)


2. แนวทาง ABC MLE สำหรับการประมาณค่าพารามิเตอร์

ตัวกรองอนุภาคจะประมาณลำดับของความหนาแน่นส่วนหลัง < p θ ( x 1 : t | Y 1 : t = y ^ 1 : t ) >t ≥ 1 ของ HMM <NSNS, YNS>NS ⩾ 1 โดยใช้การแจกแจงแบบไม่ต่อเนื่องแบบถ่วงน้ำหนักด้วย NS จุดสนับสนุนสำหรับ NS1: NS ซึ่งเรียกว่าอนุภาค ทุกครั้ง NSอนุภาคจะถูกสุ่มตัวอย่างใหม่ตามน้ำหนักปัจจุบัน จากนั้นอนุภาคที่สุ่มตัวอย่างจะแพร่กระจายอย่างอิสระจากกันโดยใช้ความหนาแน่นของการเปลี่ยนแปลงข้อเสนอ NS(NSNS + 1|NSNS). จากนั้นชั่งน้ำหนักอนุภาคใหม่เพื่อแก้ไขความคลาดเคลื่อนระหว่าง p θ ( x 1 : t + 1 | Y 1 : t + 1 = y ^ 1 : t + 1 ) และกฎของอนุภาคที่เสนอซึ่งก็คือ p θ ( x 1 : t | Y 1 : t = y ^ 1 : t ) r θ ( xt + 1 | xt ) นี่คือการสุ่มตัวอย่างความสำคัญมาตรฐานและสมมติฐานในขั้นตอนการแก้ไขน้ำหนักคือกฎของแต่ละอนุภาคที่สุ่มตัวอย่างในเวลา NS คือ p θ ( x 1 : t | Y 1 : t = y ^ 1 : t ) ซึ่งผิดแต่ค่อย ๆ แก้ไขเป็น NS เพิ่มขึ้น (Chopin 2002 Crisan and Doucet 2002 Del Moral 2004 ) ในการใช้งานตัวกรองอนุภาค ไม่จำเป็นต้องใช้ค่าคงที่การทำให้เป็นมาตรฐานของลำดับเป้าหมายหลัง แต่การคำนวณน้ำหนักใหม่ต้องใช้ g θ ( y ^ | x ) เพื่อให้สามารถติดตามได้ Del Moral ( 2004 ) แสดงให้เห็นว่าน้ำหนักของการประมาณอนุภาคของ < p θ ( x 1 : t | Y 1 : t = y ^ 1 : t ) >t ≥ 1 สามารถใช้ในการประมาณความน่าจะเป็นที่เป็นกลาง < p ( Y 1 : t = y ^ 1 : t ) >t ≥ 1 ดูโค้ดตัวอย่างสำหรับตัวกรองอนุภาคในภาคผนวก

Jasra และคณะ ( พ.ศ. 2555 ) ได้พิจารณาถึงปัญหาการสร้างการประมาณค่า SMC ของ กรอง p θ ( xt | Y 1 : t = y ^ 1 : t ) ซึ่งเป็นระยะขอบของการประมาณอนุภาคสำหรับ p θ ( x 1 : t | Y 1 : t = y ^ 1 : t ) สำหรับ HMM ด้วย ความหนาแน่นของการสังเกตที่ยาก NS.(y|NS). เนื่องจากไม่สามารถคำนวณน้ำหนักของตัวกรองอนุภาคสำหรับ HMM โดยที่ NS(y|NS) ยากจะแก้ไข พวกเขาเสนอการประมาณการตัวกรองอนุภาคสำหรับ HMM แบบขยาย <(NSNS, YNS), Y ε NS>NS ⩾ 1 โดยที่กระบวนการร่วมกัน <NSNS, YNS>NS ⩾ 1ซึ่งขณะนี้เป็นกระบวนการแฝงของ HMM แบบขยาย ถูกกำหนดโดย (1) และ (2) และลำดับใหม่ <Y ε NS>NS ⩾ 1 คือ (5) Y t ϵ = Y t + ϵ V t , V t ∼ iid Unif B 0 1 , t ≥ 1 , (5) โดยที่ B r y หมายถึงลูกรัศมี NS > 0 อยู่กึ่งกลางที่ y ∈ R d y และ Unif ( B ) คือการกระจายแบบสม่ำเสมอทั่วทั้งเซต NS. จากนั้นความหนาแน่น p θ * x t | Y 1 : t ϵ = y ^ 1 : t ของ HMM ที่ขยายออกถือเป็นค่าประมาณสำหรับ p θ * ( xt | Y 1 : t = y ^ 1 : t ) โดยที่ ε > 0 สะท้อนถึงข้อผิดพลาดของการประมาณและสิ่งนี้ ข้อผิดพลาดลดลงเมื่อ ε → 0 โปรดดูที่ Calvet และ Czellar ( 2012 ) Martin et al ( 2014 ) สำหรับผลทางทฤษฎีเกี่ยวกับการประมาณนี้ โปรดทราบว่า p θ * ( xt | Y 1 : t ϵ = y ^ 1 : t ) ไม่ตรงกับ p θ * ( xt | Y 1 : t = y ^ 1 : t ) เพราะ y ^ 1 : t ปฏิบัติตามกฎหมาย (1)–(2) และไม่ใช่ (5) Jasra และคณะ ( 2555 ) ตั้งข้อสังเกตว่า p θ * ( x t | Y 1 : t ϵ = y ^ 1 : t ) เป็นค่าประมาณ ABC สำหรับตัวกรอง HMM นอกจากนี้ พวกเขายังแสดงให้เห็นว่ามันตรงไปตรงมาในการประมาณ p θ * ( x t | Y 1 : t ϵ = y ^ 1 : t ) ด้วยตัวกรองอนุภาคบูตสแตรป

พิจารณาตอนนี้ HMM แบบขยาย <(NSNS, YNS), Y ε NS>NS ⩾ 1 กำหนดโดย (1) (2) และ (5) และให้ NS.(Y ε 1: NS = y1: NS) แสดงถึงความหนาแน่นของความน่าจะเป็น (หรือฟังก์ชันความน่าจะเป็น) ของกระบวนการ <Y ε NS>NS ⩾ 1 ประเมินที่ y 1 : n ∈ ( R d y ) n (ดู (12) สำหรับการแสดงออกที่แม่นยำของความหนาแน่นนี้) Dean et al. ( พ.ศ. 2557 ) ศึกษาคุณสมบัติทางทฤษฎีของค่าประมาณความน่าจะเป็นสูงสุดต่อไปนี้ของ θ*: (6) θ n ϵ = arg max θ ∈ Θ p θ Y 1 : n ϵ = y ^ 1 : n (6) (เราสังเกตว่า (4) คือ p θ ( Y 1 : n ϵ = y ^ 1 : n ) เมื่อปริมาณ Lebesgue ของลูกบอล B y ^ 1 ϵ , . , B y ^ n ϵ ถูกตัดออกจาก หลัง) คณบดีและคณะ ( 2557 ) เรียกขั้นตอน (6) ABC MLE. (การใช้ตัวย่อ ABC เป็นการเน้นว่ามีความเป็นไปได้ใกล้เคียงกันซึ่งกำลังขยายให้ใหญ่สุดที่นี่) ตัวกรองอนุภาคบูตสแตรปของ Jasra et al ( 2012 ) ให้ค่าประมาณ SMC ที่เป็นกลางของความเป็นไปได้ p θ ( Y 1 : n ϵ = y ^ 1 : n ) และความน่าจะเป็นนี้อาจขยายใหญ่สุดได้โดยการประเมินค่าประมาณจากตารางค่าสำหรับ θ อย่างไรก็ตาม สิ่งนี้ไม่ชัดเจนนักเมื่อมิติของ θ เพิ่มขึ้น ไม่มีส่วนขยายที่ตรงไปตรงมาสำหรับการประมาณค่าแบบเรียกซ้ำ และไม่ใช่วิธีการบรรจบที่แม่นยำ

คณบดีและคณะ ( 2014 ) แสดงให้เห็นว่า ABC MLE (6) นำไปสู่การประมาณค่าแบบเอนเอียงของเวกเตอร์พารามิเตอร์ θ* ในแง่ที่ว่า NS → ∞, θ ε NS จะบรรจบกันถึงจุดหนึ่ง θ* , ε ≠ θ* ∈ Θ และอคตินี้สามารถทำให้เล็กลงได้ตามอำเภอใจ นั่นคือ θ* , ε → θ* เป็น ε → 0 Dean et al (2014) แสดงให้เห็นว่าอคติคือ O ( ϵ ) Dean และ Singh (2011) ปรับแต่งสิ่งนี้เป็น O ( ϵ 2) ความเอนเอียงของ ABC MLE เกิดจากความจริงที่ว่าลำดับที่สังเกตได้ y ^ 1 , y ^ 2 , คือผลของกฎหมาย (2) สำหรับ θ = θ* ไม่ใช่ (5) คณบดีและคณะ ( 2014 ) แนะนำให้ลบความลำเอียงของ θ ε NS ใน (6) โดยการเพิ่มสัญญาณรบกวนลงในข้อมูลจริงแล้วคำนวณค่าประมาณความน่าจะเป็นสูงสุด นั่นคือ ให้ วี1, …, วีNS เป็นการรับรู้ของตัวอย่าง iid จาก Unif ( B 0 1 ) และให้ (7) y t ϵ = y ^ t + ϵ v t , 1 ≤ t ≤ n (7) โปรดทราบว่าข้อมูลที่มีเสียงดัง y ε 1: NS ตอนนี้เชื่อฟังกฎของ <Y ε NS>NS ⩾ 1 เมื่อ θ = θ* ดังนั้นขั้นตอน (8) θ n ϵ = arg max θ ∈ Θ p θ Y 1 : n ϵ = y 1 : n ϵ , (8) ซึ่งจะเรียกว่า ABC MLE ที่มีสัญญาณรบกวนจากนี้ไป สามารถสร้างตัวประมาณที่สอดคล้องกันได้ ของเวกเตอร์พารามิเตอร์ θ* as NS → ∞. ผลลัพธ์นี้พิสูจน์โดย Dean และคณะ ( 2014 ) สามารถตีความได้ว่าเป็นความเท่าเทียมกันบ่อยครั้งของการสังเกตของ Wilkinson ว่าการแจกแจงหลัง ABC นั้นแน่นอนภายใต้สมมติฐานของข้อผิดพลาดของแบบจำลอง (Wilkinson 2013)

ในที่สุด ดีนและคณะ ( พ.ศ. 2557 ) ยังตั้งข้อสังเกตอีกว่าการใช้เสียงประเภทอื่นใน (5) เป็นไปได้โดยไม่กระทบต่อการแสดงสัญญาณรบกวนของ ABC MLE นั่นคือ (9) Y t ϵ = Y t + ϵ V t , V t ∼ iid κ , t ≥ 1 , (9) โดยที่ κ คือความหนาแน่นที่มีศูนย์กลางเรียบ (ดังนั้น ABC MLE ที่มีเสียงดังใน (8) จะดำเนินการด้วยการสังเกตที่มีเสียงรบกวน (7) ซึ่งตอนนี้ วีผม เป็นการรับรู้ของตัวอย่าง iid จาก κ.) ตามที่เราแสดงให้เห็น κ ที่หาค่าได้อย่างต่อเนื่องเป็นสิ่งสำคัญสำหรับการพัฒนาเทคนิค MLE ที่ใช้การไล่ระดับสีเชิงปฏิบัติ In this work we choose κ to be the probability density of zero-mean unit-variance Gaussian random variable. Other choices are possible (but not investigated) and our framework would still be applicable.

We remark that although the theoretical basis for ABC MLE was established in Dean et al. ( 2014 ), the authors do not propose a practical methodology for implementing ABC MLE in their work this is indeed an important void to be filled. In this article we demonstrate how, by using ideas from Poyiadjis, Doucet, and Singh ( 2011 ), both batch and online versions of noisy ABC MLE can be implemented with SMC.


ตัวเลือกการเข้าถึง

เข้าถึงวารสารฉบับเต็มเป็นเวลา 1 ปี

ราคาทั้งหมดเป็นราคาสุทธิ
ภาษีมูลค่าเพิ่มจะถูกเพิ่มในภายหลังในการชำระเงิน
การคำนวณภาษีจะสิ้นสุดในขั้นตอนการชำระเงิน

รับสิทธิ์เข้าถึงบทความแบบจำกัดเวลาหรือแบบเต็มบน ReadCube

ราคาทั้งหมดเป็นราคาสุทธิ


[47] Recall that the hidden state ชมผม = (NSผม, yผม, NSผม, NSผม, ผม, NSผม), recording the longitude and the latitude of the epicenter, the occurrence time, the index of the most recent mother earthquake up to ผม, the indicator of whether or not the earthquake ผม is a cluster earthquake, and the indicator of whether or not a cluster is active.

[48] Five parameters are introduced in our model: γ is the intensity of the point process for single earthquakes, λ is the extra intensity when a cluster is active, ε is the intensity of the initiation of a new cluster, NS is the variance parameter of the bivariate Gaussian distribution, NS is the probability that the mother earthquake becomes sterile after giving birth to one more offspring. Note that the mother earthquake is born reproductive, which guarantees that each cluster contains at least two earthquakes. In the data set, the earthquakes occurred in the rectangular area 33°–39°N and 131°–140°E. The area of the rectangle is 54 square degrees.


ดูวิดีโอ: AI Week 9 - Hidden Markov models. (มกราคม 2022).