ข้อมูล

Multiplex PCR แอมพลิคอนที่สั้นกว่าจะยับยั้งแอมพลิคอนที่ยาวขึ้นหรือไม่


ฉันต้องการเรียกใช้ PCR แบบมัลติเพล็กซ์สำหรับการสร้างจีโนไทป์ของฉัน โดยมีไพรเมอร์คู่ที่กำหนดเป้าหมายโครงสร้างของฉัน และคู่ไพรเมอร์ที่กำหนดเป้าหมายไปที่ยีนการดูแลทำความสะอาด (ประเภทของการควบคุมในตัว)

ฉันออกแบบแอมพลิคอนควบคุมให้สั้นมาก (ฉันทดสอบไพรเมอร์ 3 คู่ด้วย ~ 120, 85 และ ~ 50bp แอมพลิคอนตามลำดับ) เหตุผลหลักที่อยู่เบื้องหลังสิ่งนี้คือโดยปกติแอมพลิคอนของฉันคือ ~ 200-400bp และฉันต้องการสิ่งที่แตกต่างอย่างชัดเจน แต่สั้นกว่าแทนที่จะยาว (ฉันต้องการเปิดตัวเลือกของฉันไว้สำหรับแอมพลิคอนเป้าหมายที่ยาวขึ้น)

ไม่ว่าในกรณีใด ไม่ว่าฉันจะใช้ไพรเมอร์ควบคุมคู่ใด เมื่อใดก็ตามที่ฉันพยายามมัลติเพล็กซ์ ฉันมักจะเห็นแอมพลิคอนที่สั้นกว่าเท่านั้น ดูภาพเจลด้านล่างสำหรับตัวอย่าง (เลน: 1-ladder, 2,3-target+control, 4,5-control, 5,6- target)

ฉันเห็นว่าเลน 2,3 มีรอยเปื้อนเพิ่มเติมที่จางมากเมื่อเทียบกับ 4,5 แต่ฉันต้องการวงดนตรีสำหรับแอมพลิคอนเป้าหมายของฉัน นอกจากนี้ แถบสั้นของฉันยังค่อนข้างเบลอ

นอกจากนี้ สำหรับการอ้างอิง แอมพลิคอนของฉันไม่ทับซ้อนกันเลย

ดังนั้น ฉันเดาว่าคำถามของฉันคือ:

  • ทำไมวงที่ยาวขึ้นจึงหายไป?
  • ทำไมวงที่สั้นกว่าจึงเบลอ?
  • ฉันจะทำอย่างไรเพื่อป้องกันไม่ให้แบบฟอร์มนี้เกิดขึ้น

ปรากฎว่าจริง ๆ แล้ว $T_m$ เป็นปัญหา หรือมากกว่านั้น อัลกอริธึมการคำนวณประเมินค่า $T_m$ ของคู่ไพรเมอร์สูงเกินไปสำหรับแอมพลิคอนที่ยาวกว่า (หรือประเมินค่าของแอมพลิคอนที่สั้นกว่าต่ำไป) ไม่ว่าในกรณีใด ดูเหมือนว่าที่ 60°C ไพรเมอร์แอมพลิคอนที่สั้นกว่าจะแย่งชิงกลไกการเกิดพอลิเมอไรเซชัน

การตั้งค่าอุณหภูมิเฟสการหลอมเป็น 55°C ช่วยแก้ปัญหาของฉันได้ และตอนนี้ฉันก็ได้ผลลัพธ์ที่ดีขึ้นอย่างต่อเนื่อง:


Multiplex PCR แอมพลิคอนที่สั้นกว่าจะยับยั้งแอมพลิคอนที่ยาวขึ้นหรือไม่ - ชีววิทยา

Multiplex PCR เป็นเทคนิคทางอณูชีววิทยาที่แพร่หลายสำหรับการขยายเป้าหมายหลายเป้าหมายในการทดลอง PCR ครั้งเดียว ในการสอบวิเคราะห์มัลติเพล็กซ์ สามารถขยายลำดับเป้าหมายได้มากกว่าหนึ่งลำดับโดยใช้ไพรเมอร์หลายคู่ในของผสมปฏิกิริยา เพื่อเป็นการขยายการใช้งานจริงของ PCR เทคนิคนี้มีศักยภาพในการประหยัดเวลาและความพยายามอย่างมากภายในห้องปฏิบัติการโดยไม่กระทบต่อประโยชน์ของการทดลอง


Multiplex PCR ควบคู่ไปกับการจัดลำดับแอมพลิคอนโดยตรงสำหรับการตรวจจับเชื้อโรคในน้ำจำนวนมากพร้อมกัน

วิธีการตรวจสอบและควบคุมคุณภาพน้ำในปัจจุบันใช้แบคทีเรียบ่งชี้อุจจาระ (FIB) เพื่อประเมินความเสี่ยงต่อสุขภาพทางอ้อมจากเชื้อโรคในอุจจาระ การตรวจหาเชื้อก่อโรคทางน้ำโดยตรงนั้นคาดว่าจะทำให้การประเมินความเสี่ยงได้แม่นยำและครอบคลุมมากขึ้น อย่างไรก็ตาม ก็ยังถูกขัดขวางจากการที่ไม่มีวิธีการตรวจหาเชื้อก่อโรคในน้ำจำนวนมากพร้อมๆ กัน การศึกษานี้มีวัตถุประสงค์เพื่อพัฒนาแนวทาง mPCR-NGS ที่ใช้ความลึกของการหาลำดับขั้นสูงของ NGS และการตรวจจับตามลำดับเพื่อเพิ่มระดับมัลติเพล็กซ์ของ mPCR สำหรับการตรวจหาเชื้อโรคโดยตรงในน้ำ ไพรเมอร์ PCR แต่ละตัวได้รับการออกแบบสำหรับยีนมาร์กเกอร์เป้าหมาย 16 ยีนของแบคทีเรียก่อโรค 9 ชนิด และการผสมผสานที่เหมาะสมที่สุดของไพรเมอร์ที่มีส่วนเติมเต็มของไพรเมอร์น้อยที่สุดถูกระบุสำหรับการตั้งค่ามัลติเพล็กซ์ โดยใช้ตัวอย่างเครื่องทดสอบเทียม ระบบ mPCR ได้รับการปรับให้เหมาะสมสำหรับอุณหภูมิการหลอมและความเข้มข้นของไพรเมอร์ และขั้นตอนทางชีวสารสนเทศได้รับการพัฒนาเพื่อตรวจจับแอมพลิคอนของยีนมาร์กเกอร์เป้าหมายโดยตรงในการอ่านลำดับ NGS ซึ่งแสดงการตรวจจับยีนเป้าหมายที่แตกต่างกัน 14 ยีนพร้อมกันในปฏิกิริยาเดียว ประสิทธิภาพของวิธีการ mPCR-NGS ที่พัฒนาขึ้นนั้นได้แสดงให้เห็นในเวลาต่อมาในสารสกัด DNA จากตัวอย่างน้ำในลำธารและตัวอย่างที่ผสมกันซึ่งถูกแทงด้วย DNA ของเชื้อโรคเป้าหมายที่หลากหลาย และตรวจพบยีนเป้าหมายทั้งหมดที่เจาะเข้าไปในตัวอย่างน้ำในสิ่งแวดล้อมได้สำเร็จ นอกจากนี้ยังมีการระบุและอภิปรายประเด็นสำคัญหลายประการสำหรับการปรับปรุงแนวทาง mPCR-NGS เพิ่มเติม

นี่คือตัวอย่างเนื้อหาการสมัครสมาชิก เข้าถึงผ่านสถาบันของคุณ


วิธีการ

ตัวอย่าง

ผู้เข้าร่วมได้รับการคัดเลือกจากฐานข้อมูลของศูนย์วิจัยสุขภาพจิต (MHRC) ในมอสโก มีผู้ป่วยจิตเภท 83 คนจาก MHRC หรือโรงพยาบาลจิตเวชมอสโกหมายเลข 1 และกลุ่มควบคุมที่มีสุขภาพดี 71 คน ผู้เข้าร่วมทั้งหมดได้รับความยินยอมเป็นลายลักษณ์อักษรและบริจาคตัวอย่างเลือดสำหรับการสกัดดีเอ็นเอ การสูบบุหรี่ได้รับการประเมินโดยการสัมภาษณ์ด้วยปากเปล่า และสถานะการสูบบุหรี่ของผู้ป่วยได้รับการตรวจสอบซ้ำกับจิตแพทย์ ผู้สูบบุหรี่ในปัจจุบันและไม่สูบบุหรี่ ซึ่งต่อไปนี้จะเรียกว่าผู้สูบบุหรี่และผู้ไม่สูบบุหรี่ตามลำดับ เข้าร่วมในการศึกษานี้ กลุ่มตัวอย่างประกอบด้วยผู้สูบบุหรี่ 50 คน (อายุเฉลี่ย 28.0 ± 7.5 ปี ผู้หญิง 40% ผู้ป่วย 54%) และผู้ไม่สูบบุหรี่ 104 คน (อายุเฉลี่ย 26.0 ± 5.9 ปี ผู้หญิง 54% ผู้ป่วย 54%)

การสกัดดีเอ็นเอและการแปลงไบซัลไฟต์

จีโนม DNA ถูกสกัดด้วย DNeasy Blood and Tissue Kit (Qiagen, USA) ตามคำแนะนำของผู้ผลิต ตัวอย่าง DNA ที่แปลงด้วยไบซัลไฟต์ได้มาจาก EpiGentek Methylamp DNA Modification Kit (Epigentek Group Inc. สหรัฐอเมริกา) โดยสอดคล้องกับโปรโตคอลของผู้ผลิต เราสนับสนุน Yang et al ดั้งเดิม [26] ข้อสรุปว่าชุดอุปกรณ์เฉพาะนี้ทำงานได้ดีขึ้นกับ PCR ไบซัลไฟต์แบบยาวเมื่อเปรียบเทียบกับชุดตรวจไบซัลไฟต์ของ Epitect Fast DNA (Qiagen, USA)

การออกแบบไพรเมอร์ไบซัลไฟต์

ไพรเมอร์ได้รับการออกแบบด้วยซอฟต์แวร์ไพรเมอร์3 [33] เพื่อขยายผลิตภัณฑ์ PCR ประมาณ 1.3 Kbp ของลำดับจีโนมที่แปลงแล้ว สีรองพื้นได้รับการออกแบบให้มีความยาว 25–35 bp, Tm = 60 °C และไม่อนุญาตให้ใช้ CpG ลำดับไพรเมอร์ที่ออกแบบแสดงอยู่ในไฟล์เพิ่มเติม 1: ตาราง S1 ข้อมูลสรุปโดยรอบแอมพลิคอนมีอยู่ในตารางที่ 1

ไบซัลไฟต์ PCR

สำหรับไบซัลไฟต์ PCR เราใช้ 20 ng ของ DNA ที่แปลงแล้ว 1 µM ของ "ขอทาน" 5′-ฟอสโฟรีเลตไพรเมอร์ "U1" GCAGTCGAACATGTAGCTGACTCAGGTCAC 5 nM ของไพรเมอร์จำเพาะแต่ละตัวที่มีลำดับ U1 เหมือนกันที่ปลาย 5′ และ 200 nM dNTP, 1 มก./มล. BSA, 2.5 U HotTaq พอลิเมอเรสที่มีบัฟเฟอร์ที่สอดคล้องกัน (Sileks, รัสเซีย) ในปริมาตรรวม 12.5 ไมโครลิตร การเลือกโพลีเมอเรสมีความสำคัญ—พอลิเมอเรสควรเป็นพอลิเมอเรสแบบเริ่มร้อนอย่างง่าย ซึ่งแตกต่างจากโพลีเมอเรสที่มีความเที่ยงตรงสูงแบบพิเศษที่ไม่สามารถเอาชนะผลการปราบปรามได้ เราได้ตรวจสอบจลนพลศาสตร์ของ PCR เป็นประจำด้วย 20× EVA Green DNA intercalating dye (Biotium Inc., USA) ซึ่งเห็นได้ชัดว่าไม่ส่งผลต่อปฏิกิริยา โปรแกรม PCR เป็นดังนี้: (1) การเปลี่ยนสภาพเริ่มต้น 94 °C, 10 นาที (2) 5 รอบของ PCR เฉพาะ (94 °C, 20 วินาที 55 °C, 1 นาที 64 °C, 4 นาที) (3) 37 รอบของ “ขอทาน” PCR (94 °C, 20 วินาที 64 °C, 2 นาที) และ (4) การฟักตัวครั้งสุดท้าย, 64 °C, 10 นาที

บาร์โค้ด

สำหรับการสร้างอะแดปเตอร์ Y เราใช้ชุดค่าผสมที่ไม่ซ้ำกัน 96 ชุดของโอลิโกนิวคลีโอไทด์สองชุด: ชุดแรกของโอลิโกนิวคลีโอไทด์แปดชุด CGAGTAGTGTTC- ลำดับตัวอักษร 5 ตัวที่ไม่ซ้ำกัน-CAAGGCACACAGGGGATAGG และชุดที่สองมีโอลิโกนิวคลีโอไทด์ 12 รายการ 5′-CCATCTCATCCCTGCGTGTC-unique ลำดับตัวอักษร-CTACACTACTCGT การรวมกันของโอลิโกนิวคลีโอไทด์สองชุดจากทั้งสองชุดสามารถใช้เพื่อสร้างอะแดปเตอร์ Y ที่ไม่ซ้ำกัน 96 ตัว โอลิโกนิวคลีโอไทด์จากชุดแรกเป็น 5′-ฟอสโฟรีเลต ลำดับของโอลิโกนิวคลีโอไทด์ที่มีบาร์โค้ดระดับโมเลกุลมีอยู่ในไฟล์เพิ่มเติม 1: ตาราง S2 อะแด็ปเตอร์ Y แต่ละตัวถูกก่อรูปโดยการจับคู่โอลิโกนิวคลีโอไทด์เดี่ยว 10 นาโนโมลาร์จากแต่ละเซ็ตของสองชุดนี้ในปฏิกิริยาการหลอมภายใน 25 ไมโครลิตรของบัฟเฟอร์การหลอม AB (10 mM Tris-HCl (pH 8.0), 50mМ NaCl, 0.1 mM EDTA ). ปฏิกิริยาการหลอมถูกตั้งค่าไว้ใน PCR thermal cycler ด้วยโปรแกรมต่อไปนี้: การฟักตัว 98 °C, 1 นาทีทำให้เย็นลงเป็น 70 °C (1.6 °C/s) และทำให้เย็นลงเป็น 10 °C (0.1 °C/s) จากนั้นปฏิกิริยาถูกเจือจางห้าเท่าด้วย AB เก็บไว้ที่ -20 °C และใช้เป็นสารละลายสต็อก ทันทีก่อนทำ ligation สต็อกเหล่านี้ถูกเจือจาง 10 เท่าด้วยบัฟเฟอร์ลิเกส 1× T4 ที่มี PEG 4000 5% ปฏิกิริยา ligation ถูกตั้งค่าใน 10 ไมโครลิตร: สารละลายสต็อกอะแดปเตอร์ Y เจือจาง 2 ไมโครลิตร, ผลิตภัณฑ์ PCR 2 ไมโครลิตร และ 6 ไมโครลิตร ของส่วนผสมหลัก ligation (1.33× T4 ligase buffer พร้อม 6.67% PEG 4000, 1.2 wu T4 DNA ligase, Thermo, USA) ปฏิกิริยา ligation ถูกดำเนินการที่ 20 °C เป็นเวลา 2.5 ชั่วโมง ตามด้วยการฟักตัวที่ 65 °C เป็นเวลา 10 นาที จากนั้น ปฏิกิริยาถูกผสมในห้องสมุด (ห้องสมุดสองแห่ง มากถึง 96 ตัวอย่างต่อห้องสมุด) คลัง (500 ไมโครลิตร) ถูกล้างสองครั้งด้วย 10 มิลลิโมลาร์ Tris-HCl (pH 8.0) และทำให้เข้มข้นจนถึง 50 ไมโครลิตรโดยคอลัมน์อุปกรณ์ Amicon Ultra-0.5 30K (เมอร์ค สหรัฐอเมริกา) ถัดไป ห้องสมุดถูกล้างสองครั้งเพื่อกำจัดไพรเมอร์ อะแดปเตอร์ Y ที่ไม่มีพันธะ ฯลฯ ด้วยเม็ดแม่เหล็ก AMPure XP 0.7 ปริมาตร (Beckman Coulter Inc., USA) สารละลาย DNA บริสุทธิ์ถูกใช้สำหรับการขยายคลังด้วย PCR เพิ่มเติม PCR ดำเนินการด้วยไพรเมอร์ 250 นาโนโมลาร์ เฉพาะส่วนท้ายของอะแดปเตอร์ Y: “emPCR_A” 5′-CCATCTCATCCCTGCGTGTC และ “emPCR_B” 5′-CCTATCCCCTGTGTGCCTTG ที่มี HiFi HotStart Uracil+ 2× master mix (Kapa Biosystems, Republic of South แอฟริกา). PCR ดำเนินการด้วยโปรแกรมต่อไปนี้: การทำให้เสียสภาพเริ่มต้น 95 °C, 5 นาที 20 รอบ: 98 °C, 20 วินาที 60 °C, 15 วินาที และ 72 °C, 2 นาที จากนั้นจึงเลือกผลิตภัณฑ์ PCR ความยาวผ่าน agarose electrophoresis และทำให้บริสุทธิ์ด้วย QIAquick Gel Extraction Kit (Qiagen, USA)

การเตรียมและการจัดลำดับห้องสมุด CCS

การเตรียมไลบรารี CCS (ligation ของอะแดปเตอร์ “SMRTBell” ที่มี SMRTbell Template Prep Kit, Pacbio, USA) และการจัดลำดับดำเนินการด้วย Pacbio RSII (เคมี P6/C4) ในโรงงานของ Washington University Pacbio Sequencing Services ปริมาณข้อมูลดิบขั้นสุดท้ายที่ใช้ในบทความนี้จะเท่ากับเซลล์ SMRT เซลล์เดียวของอุปกรณ์ Pacbio RSII

การเตรียมข้อมูลหลังการจัดลำดับ

ใช้เฉพาะการอ่านที่มีคะแนนคุณภาพไม่ต่ำกว่า Q30 (คะแนนคุณภาพเฉลี่ยคือ Q40) ในการวิเคราะห์ต่อไปนี้ หลังจากการตัดแต่งอะแดปเตอร์ เราได้รับ 56,581 อ่านด้วยอะแดปเตอร์และลำดับไพรเมอร์ที่ถูกต้อง การอ่านถูกแยกส่วนออกโดยไม่มีข้อผิดพลาดในลำดับบาร์โค้ดที่อนุญาต โดยละทิ้งการอ่าน 11% จำนวนการอ่านเฉลี่ยต่อบาร์โค้ดคือ 202 (Q1:128, Q3:315) ทำการตัดแต่งอะแดปเตอร์และการแยกบาร์โค้ดออกจากบาร์โค้ดด้วยโปรแกรม cutadapt [34] การจัดตำแหน่งของตัวกรองที่อ่านไปยังจีโนมมนุษย์อ้างอิง (hg19) ได้มาจากการใช้โปรแกรม bismark ที่มีประสิทธิภาพการทำแผนที่ 88% [35] (ร่วมกับ bowtie2 [36]) การกรอง DNA ที่แปลงน้อยเกินไป (เกณฑ์ของ CpH < ที่ยังไม่ได้แปลง 5%, H = A/C/T) และการขจัดความซ้ำซ้อนถูกดำเนินการด้วยสคริปต์ Perl (ดูไฟล์เพิ่มเติม 1: หมายเหตุเพิ่มเติม 2 เกี่ยวกับขั้นตอนการขจัดความซ้ำซ้อน) อัตราการแปลงสุดท้ายไม่ต่ำกว่า 0.98 สำหรับแต่ละเป้าหมายที่วิเคราะห์ จำนวนการอ่านสำหรับแต่ละเป้าหมายที่มีขั้นตอนการเตรียมข้อมูลต่างกันแสดงในไฟล์เพิ่มเติม 1: ตารางที่ S5

ข้อมูล ASM

การอ่านข้อมูลแต่ละครั้ง (ไฟล์ในรูปแบบ SAM) ถูกจัดเรียงด้วยสคริปต์ Perl ตามการแยกวิเคราะห์สตริง CIGAR โดยอัลลีลของความหลากหลายที่ระบุได้ง่ายในแต่ละเป้าหมาย รายการพหุสัณฐานที่ใช้แสดงไว้ในไฟล์เพิ่มเติม 1: ตารางที่ S3 อัตราของการเกิดเมทิลเลชันของ CpG แต่ละรายการต่อฮาโพลไทป์สำหรับแต่ละตัวอย่างถูกกำหนดโดยซอฟต์แวร์บิสมาร์ก ใช้เฉพาะตัวอย่างที่มีความลึกในการอ่านขั้นต่ำ 5 เท่าต่อฮาโพลไทป์ ซึ่งนำไปสู่การละทิ้ง CACNA1D เป้าหมายเนื่องจากมีข้อมูลไม่เพียงพอ ค่าที่ขาดหายไปหมายถึงค่าเฉลี่ย สัญญาณเมทิลเลชันในตำแหน่งของ CpG-SNP ที่รู้จักไม่ถูกใช้ในการวิเคราะห์ต่อไปนี้ อัตราเมทิลเลชันสำหรับ CpG แต่ละตัวถูกแปลงเป็น logit ตามสมการ: ( M=log left(^>/1-^> ight) ) ( ^>=left(mleft(n-1 ight)+0.5 ight)/n ) ที่ไหน NS คือ อัตราเมทิลเลชั่นดิบ NS คือขนาดตัวอย่าง

การวิเคราะห์ทางสถิติ

แบบจำลองการทำนายสถานะการสูบบุหรี่สามแบบได้รับการทดสอบบนชุดข้อมูล ASM ที่เตรียมไว้ ซึ่งต่อไปนี้จะเรียกว่า “ดัชนี” “โบรูตา” และ “โบรูตาที่ปรับแล้ว” อายุ เพศ และการวินิจฉัยถูกถดถอยสำหรับการวิเคราะห์ในภายหลัง เศษเหลือจากการถดถอยถูกนำมาใช้สำหรับการวิเคราะห์ในภายหลัง สำหรับโมเดล "boruta.adjusted" ข้อมูล haplotype ก็ถูกนำมาใช้เช่นกัน อัลกอริทึม Boruta ใช้เพื่อกำหนด CpG ที่สำคัญ ("สำคัญ" ในความหมายของอัลกอริทึม Boruta) ภายในแต่ละเป้าหมายสำหรับโมเดล "boruta" และ "boruta.adjusted" CpG ดั้งเดิมจาก EWAS ที่สูบบุหรี่ได้รับการคัดเลือกสำหรับโมเดล "ดัชนี" (ตารางที่ 1) ชุดข้อมูลถูกสุ่มแยก 1: 1 เป็นรถไฟและชุดทดสอบ โมเดลลอจิสติกส์ที่มี CpG ที่เลือกได้รับการฝึกอบรมในชุดรถไฟ โมเดลลอจิสติกส์การคาดการณ์แบบรวมถูกสร้างขึ้นจากค่าการคาดการณ์ของโมเดลเป้าหมายแต่ละแบบ ในกรณีของตัวอย่างต่างกัน ค่าการทำนายจะถูกหาค่าเฉลี่ย ประสิทธิภาพของแบบจำลองที่รวมกันได้รับการประเมินในชุดทดสอบ การวิเคราะห์ดำเนินการด้วยโปรแกรมซอฟต์แวร์สถิติ R ที่มีแพ็คเกจ “Boruta” [37]


ผลลัพธ์

การทดสอบมัลติเพล็กซ์ PCR และการจัดลำดับ Nanopore บนวัสดุอ้างอิง RNA

แอมพลิคอนถูกสร้างขึ้นจากตัวอย่าง DENV RNA สี่ตัวอย่างโดยใช้วิธีการมัลติเพล็กซ์ PCR และจัดลำดับบน Nanopore MinION การดำเนินการหาลำดับสร้าง 8604–16,654 อ่านต่อตัวอย่างผ่านตัวกรองคุณภาพ (คะแนน Q ≥ 7) (ตารางที่ 1)

การจัดตำแหน่งการอ่านให้เข้ากับจีโนม RefSeq ที่เหมาะสมแสดงให้เห็นว่าครอบคลุมขอบเขตการเข้ารหัสอย่างครบถ้วนสำหรับซีโรไทป์ทั้งสี่ (ตารางที่ 2) ลำดับฉันทามติที่เป็นผลลัพธ์มีค่าเฉลี่ย 99.49% ที่เหมือนกันกับลำดับฉันทามติที่สร้างโดย Illumina ที่ใช้เป็นข้อมูลอ้างอิง

อย่างไรก็ตาม ความลึกของการเรียงลำดับความครอบคลุมไม่เท่ากัน โดยมีเพียง 87.56–96.51% ของจีโนม DENV1–4 ที่ครอบคลุมโดยการอ่าน 20 ครั้งขึ้นไป พื้นที่ที่มีความครอบคลุมต่ำเหล่านี้ใกล้เคียงกับความแม่นยำของลำดับฉันทามติที่ลดลง (รูปที่ 1) การปิดบังบริเวณจีโนมของจีโนมที่มีความลึกน้อยกว่า 20X ช่วยปรับปรุงความแม่นยำโดยรวมของลำดับฉันทามติใน 3/4 กรณี ซึ่งเพิ่มเอกลักษณ์ที่เป็นเอกฉันท์โดยเฉลี่ยเป็น 99.78% อย่างไรก็ตาม การปิดบังบริเวณเหล่านี้ยังส่งผลให้สูญเสียความครอบคลุมของจีโนม ( ( overline ) = 9.01%) (ตารางที่ 2)

ความครอบคลุมการจัดลำดับ Nanopore สำหรับตัวอย่าง RNA ควบคุม DENV โดยใช้วิธีการมัลติเพล็กซ์ (400 bp แอมพลิคอน) ความลึกครอบคลุมการจัดลำดับ Nanopore สำหรับตัวอย่าง RNA ที่ควบคุมไวรัสไข้เลือดออกโดยใช้วิธีการมัลติเพล็กซ์ PCR ถูกวาดเป็นสีดำเทียบกับแกน y ทางซ้าย โดยมีเกณฑ์ความลึกในการอ่านที่ 20X ที่ระบุโดยเส้นประ ความลึกของการครอบคลุมถูกจำกัดไว้ที่ 1000X ความคล้ายคลึงของนิวคลีโอไทด์ของลำดับที่สร้างโดย Nanopore กับลำดับอ้างอิงที่สร้างโดย Illumina แสดงเป็นสีแดงเทียบกับแกน y ทางขวา พื้นที่แรเงาระบุภูมิภาคที่ความลึกของการครอบคลุมต่ำกว่าเกณฑ์ความครอบคลุมต่ำที่ 20X เพื่อให้สามารถเปรียบเทียบกับพล็อตความคล้ายคลึงกัน

นอกจากนี้ Nanopore MinION ยังใช้เพื่อจัดลำดับแอมพลิคอนที่สร้างขึ้นโดยใช้วิธีการ single-plex PCR การอ่านผลลัพธ์ที่สร้างลำดับฉันทามติ 99.93–99.99% เหมือนกับการอ้างอิง Illumina ( ( overline ) = 99.97%) มีค่าเฉลี่ยไม่ตรงกัน 4 รายการ (ช่วง = 1–7) (ตารางที่ 3) ลำดับฉันทามติเหล่านี้มีความแม่นยำโดยเฉลี่ย 0.48% เมื่อเทียบกับคู่ที่สร้างแบบมัลติเพล็กซ์

การทดสอบตัวอย่างทางคลินิกของอินโดนีเซีย

ต่อไป วิธีมัลติเพล็กซ์ PCR ได้รับการทดสอบกับชุดตัวอย่างทางคลินิกจากประเทศอินโดนีเซีย (NS = 10) ตัวอย่างเหล่านี้รวมถึงตัวแทนของซีโรไทป์ของ DENV สี่ชนิดในแต่ละช่วงของปริมาณไวรัส (ค่า Ct 15.2–37.9) ตัวอย่างทั้งหมดผลิตผลิตภัณฑ์ PCR ตามขนาดที่ต้องการ (

400 bp) และแอมพลิคอนที่เป็นผลลัพธ์ถูกจัดลำดับบน Nanopore MinION ซึ่งสร้างการอ่าน 33,908–82,891 ครั้ง ( ( overline=mathrm<57,948>บิ๊ก) )

ความครอบคลุมพื้นที่การเข้ารหัสโดยเฉลี่ยที่ความลึกในการอ่าน 1X คือ 99.80% จาก 10 ตัวอย่าง (ตารางที่ 4) และครอบคลุมทั้งหมดสำหรับ 8 ใน 10 ตัวอย่างที่ความลึกในการอ่าน 20X ความครอบคลุมเฉลี่ยลดลงเหลือ 95.84% ความครอบคลุมที่ลดลงต่ำกว่า 20X เกิดขึ้นบ่อยกว่าในตัวอย่างที่มีค่า Ct สูงกว่า (รูปที่ 2) ที่มีค่า Ct 25 หรือน้อยกว่า (NS = 3) สร้างความคุ้มครองเฉลี่ย 100% ความครอบคลุมเฉลี่ยลดลงเหลือ 98.55% สำหรับตัวอย่างที่มีค่า Ct ระหว่าง 25 ถึง 30 (NS = 4) และลดลงอีกเป็น 88.06% สำหรับผู้ที่มีค่า Ct มากกว่า 30 (NS = 3).

ความครอบคลุมการจัดลำดับ Nanopore ของการแยกทางคลินิกของอินโดนีเซียโดยใช้วิธีการ Multiplex PCR วิธีการมัลติเพล็กซ์ PCR ถูกใช้เพื่อขยาย DENV1–4 จากตัวอย่างทางคลินิก 10 ตัวอย่างจากอินโดนีเซีย ตัวอย่างเหล่านี้ได้รับการคัดเลือกเพื่อให้ครอบคลุมช่วงของปริมาณไวรัส ตามที่ประเมินโดยค่า Ct จากการวินิจฉัย qRT-PCR แอมพลิคอนที่เป็นผลลัพธ์ถูกจัดลำดับบน Nanopore Minion ความลึกของการครอบคลุมสำหรับแต่ละตัวอย่างจะถูกพล็อต โดยมีเกณฑ์ความลึกในการอ่านที่ 20X ที่ระบุโดยเส้นประ ความลึกของการครอบคลุมถูกต่อยอดที่ 1000X

ตัวอย่าง 10 ตัวอย่างเดียวกันยังถูกขยายโดยใช้วิธีการ single-plex PCR เป็นการเปรียบเทียบ (ตารางที่ 4) โดยเฉลี่ย วิธีการสร้างแอมพลิคอนเพียง 2.6 จาก 5 แอมพลิคอนที่จำเป็นเพื่อให้ครอบคลุมภูมิภาคการเข้ารหัส DENV เช่นเดียวกับวิธีการมัลติเพล็กซ์ ตัวอย่างที่มีค่า Ct ต่ำที่สุด (< 20) นั้นประสบความสำเร็จมากที่สุด โดยสร้างแอมพลิคอนได้ 93% (14/15) ในขณะที่ตัวอย่างที่มีค่า Ct มากกว่า 25 ผลิตเพียง 34% (12/35)

การทดสอบกับตัวอย่างทางคลินิกที่ไม่ใช่ชาวอินโดนีเซีย

วิธีการมัลติเพล็กซ์ถูกนำไปใช้กับตัวอย่างทางคลินิกสี่ตัวอย่างจากผู้ป่วยที่ติดเชื้อ DENV จากฟิลิปปินส์ เพื่อทดสอบวิธีการดำเนินการเมื่อทำงานกับสายพันธุ์ไวรัสจากประเทศนอกอินโดนีเซีย ตัวอย่างทั้งหมดผลิตผลิตภัณฑ์ PCR ตามขนาดที่ต้องการ (

400 bp) และแอมพลิคอนที่เป็นผลลัพธ์ถูกจัดลำดับบน Nanopore MinION ทำให้เกิดการอ่าน 6852–12,972 ครั้ง ( ( overline=mathrm<8,048>Big) )

ความครอบคลุมพื้นที่การเข้ารหัสโดยเฉลี่ยที่ความลึกในการอ่าน 1X คือ 99.90% ใน 4 ตัวอย่าง (ตารางที่ 5) ที่ระดับความลึกในการอ่าน 20 เท่า ความครอบคลุมเฉลี่ยลดลงเหลือ 88.40% DENV-1 ให้ความลึกของการครอบคลุมลดลงอย่างมากโดยเฉพาะเมื่อเปรียบเทียบกับไอโซเลตอื่นๆ (รูปที่ 3) ส่งผลให้มีเพียง 79.22% ของขอบเขตการเข้ารหัสที่ครอบคลุมที่ความลึกในการอ่าน 20 เท่า ลำดับที่สอดคล้องกันถูกสร้างขึ้นอีกครั้งและเปรียบเทียบกับลำดับอ้างอิงที่สร้าง Illumina โดยการจัดตำแหน่งแบบคู่-นิวคลีโอไทด์ (ตารางที่ 5) ลำดับฉันทามติที่ผลิตโดยใช้ทุกภูมิภาคที่ครอบคลุมโดยการอ่าน 1 ครั้งขึ้นไปพบว่า 99.17–99.80% เหมือนกับลำดับที่สร้างโดย Illumina ( ( overline=99.45\%ใหญ่) ) การปิดบังพื้นที่ที่มีความลึกในการอ่านต่ำกว่า 20X ปรับปรุงความแม่นยำของลำดับฉันทามติเป็น 99.70–99.92% ( ( overline=99.80\%Big) ) โดยครอบคลุมค่าใช้จ่าย

ความครอบคลุมการจัดลำดับ Nanopore ของ Pilipino Clinical Isolates โดยใช้วิธีการ Multiplex PCR วิธีการมัลติเพล็กซ์ PCR ถูกใช้เพื่อขยาย DENV1-4 จากตัวอย่างทางคลินิก 4 ตัวอย่างจากฟิลิปปินส์ แอมพลิคอนที่เป็นผลลัพธ์ถูกจัดลำดับบน Nanopore Minion ความลึกของการครอบคลุมสำหรับแต่ละตัวอย่างจะถูกพล็อต โดยมีเกณฑ์ความลึกในการอ่านที่ 20X ที่ระบุโดยเส้นประ ความลึกของการครอบคลุมถูกต่อยอดที่ 250X

มีการใช้วิธีการ PCR แบบ single-plex อีกครั้งเพื่อผลิตผลิตภัณฑ์ที่มีการขยายสัญญาณสำหรับการหาลำดับของ Illumina อย่างไรก็ตาม ตัวอย่าง 3 ใน 4 ตัวอย่างล้มเหลวในการสร้างผลิตภัณฑ์ที่คาดหวังอย่างใดอย่างหนึ่ง (ตารางที่ 5) ดังนั้นการครอบคลุมที่สมบูรณ์ของ DENV-1 และ 2 จึงทำได้โดยการแทนที่ชุดไพรเมอร์ที่เผยแพร่ด้วยไพรเมอร์ที่นำมาจากชุดมัลติเพล็กซ์ จากความพยายามหลายครั้ง สามารถผลิตแอมพลิคอนรุ่น DENV-4 ที่ถูกตัดทอนได้มากที่สุด 3′ 3′ เท่านั้น ดังนั้นความแม่นยำของมติที่สร้างโดย Nanopore สามารถประเมินได้ 10,117 จาก 10,163 ฐานการเข้ารหัสเท่านั้น

การประเมินลำดับฉันทามติที่สร้างโดย Nanopore โดยการวิเคราะห์สายวิวัฒนาการ

สายวิวัฒนาการสายวิวัฒนาการถูกสร้างขึ้นโดยใช้ลำดับขอบเขตการเข้ารหัสที่สร้างโดย Nanopore และ Illumina และชุดของลำดับอ้างอิงสำหรับซีโรไทป์ของ DENV แต่ละตัว สายวิวัฒนาการที่แยกจากกันถูกสร้างขึ้นโดยใช้ลำดับฉันทามติของ Nanopore ที่ปิดบังความลึกของการครอบคลุม 20x (รูปที่ 4) และความลึกของการครอบคลุม 1x (รูปที่ 5) ลำดับฉันทามติของ Nanopore ที่สร้างขึ้นจากความลึก 20 x ทั้งหมดก่อตัวเป็นกระจุกเดี่ยวแบบโมโนไฟเลติกกับกลุ่มที่สร้างจากอิลลูมินา ลำดับที่สร้างโดย Nanopore สำหรับ DENV-1-3 ที่ความลึก 1x ยังก่อรูป monophyletic clades กับคู่ที่สร้างจาก Illumina อย่างไรก็ตาม ลำดับ DENV4 ถูกแยกออกจากคู่ของ Illumina โดย GQ868594 ซึ่งเป็นลำดับที่สร้างจากไวรัสตัวเดียวกันที่แยกได้ ระยะห่างสายวิวัฒนาการแบบคู่ระหว่างเคล็ดลับลำดับที่สร้างโดย Nanopore และ Illumina มีค่าเฉลี่ย 0.001975 สำหรับระยะที่สร้างขึ้นโดยใช้พื้นที่ของพื้นที่ >20X และ 0.005685 สำหรับจุดที่สร้างขึ้นโดยใช้การครอบคลุม 1X (ตารางที่ 6)

การวิเคราะห์สายวิวัฒนาการของลำดับฉันทามติที่สร้างโดย Illumina- และ Nanopore สายวิวัฒนาการ Bootstrap ของบริเวณการเข้ารหัส DENV ที่สมบูรณ์ถูกสร้างขึ้นโดยใช้ลำดับฉันทามติของ Nanopore และ Illumina และการเลือกลำดับอ้างอิงจีโนไทป์ ลำดับฉันทามติของ Nanopore ถูกสร้างขึ้นสำหรับตัวอย่างทั้งหมดโดยใช้วิธีการแอมพลิคอนแบบสั้น โดยมีบริเวณที่ต่ำกว่า 20X ครอบคลุมความลึกของการครอบคลุม ลำดับฉันทามติของ Illumina ถูกสร้างขึ้นสำหรับมาตรฐาน RNA และตัวอย่าง Pilipino โดยใช้วิธีแอมพลิคอนแบบยาว ชื่อลำดับมีสีเพื่อแสดงถึงที่มาทางภูมิศาสตร์ และโหนดภายในของต้นไม้จะถูกระบายสีเพื่อแสดงค่าบูตสแตรป (สีน้ำเงิน = 100% สีเขียว = 90–99% และสีแดง = < 90%) Monophyletic clades ที่เกิดขึ้นจากลำดับฉันทามติที่สร้างโดย Nanopore และ Illumina จะถูกเน้นด้วยสีเหลืองสำหรับตัวอย่างมาตรฐาน RNA และสีแดงสำหรับตัวอย่างทางคลินิกของ Pilipino

การวิเคราะห์สายวิวัฒนาการของลำดับฉันทามติของ Nanopore (1x) และ Illumina สายวิวัฒนาการ Bootstrap ของบริเวณการเข้ารหัส DENV ที่สมบูรณ์ถูกสร้างขึ้นโดยใช้ลำดับฉันทามติของ Nanopore และ Illumina และการเลือกลำดับอ้างอิงจีโนไทป์ ลำดับฉันทามติของ Nanopore ถูกสร้างขึ้นสำหรับตัวอย่างทั้งหมดโดยใช้วิธีการแอมพลิคอนแบบสั้นที่มีเฉพาะบริเวณที่ต่ำกว่า 1X ที่มีการปกปิดความลึกของการครอบคลุม ลำดับฉันทามติของ Illumina ถูกสร้างขึ้นสำหรับมาตรฐาน RNA และตัวอย่าง Pilipino โดยใช้วิธีแอมพลิคอนแบบยาว ชื่อลำดับเป็นสีเพื่อแสดงถึงที่มาทางภูมิศาสตร์ และโหนดภายในของต้นไม้จะถูกระบายสีเพื่อแสดงค่าบูตสแตรป (สีน้ำเงิน = 100% สีเขียว = 90–99% และสีแดง = < 90%) Clades ที่เกิดขึ้นจากลำดับฉันทามติที่สร้างโดย Nanopore และ Illumina จะถูกเน้นด้วยสีเหลืองสำหรับตัวอย่างอ้างอิง และสีแดงสำหรับตัวอย่าง Pilipino

ลำดับจากตัวอย่างภาษาอินโดนีเซียสร้างกลุ่มที่แตกต่างกันซึ่งมีลำดับอ้างอิงส่วนใหญ่จากอินโดนีเซีย (ฉลากเขียว) คลาดของอินโดนีเซียสำหรับ DENV-3 และ DENV-4 นั้นประกอบด้วยลำดับของอินโดนีเซียเท่านั้น ในขณะที่คลาดของ DENV-1 ของอินโดนีเซียยังมีลำดับหนึ่งจากประเทศเพื่อนบ้านของสิงคโปร์ (FJ469907) แคลด DENV-2 ของอินโดนีเซียรวมลำดับจากประเทศเพื่อนบ้านในเอเชียตะวันออกเฉียงใต้หลายแห่ง ได้แก่ บรูไน (EU179859) สิงคโปร์ (EU081177 EU081179 EU081180, KM279597) และฟิลิปปินส์ (110394) ลำดับฉันทามติของอินโดนีเซียยังจัดกลุ่มตามภูมิภาคเมื่อใดก็ตามที่รวมตัวอย่างหลายตัวอย่างจากภูมิภาคเดียวกันของอินโดนีเซีย ตัวอย่าง DENV-1 และ DENV-3 จาก Banjarmasin (BJM) ในภาคกลางของอินโดนีเซียถูกจัดกลุ่ม ในขณะที่ตัวอย่างจาก Batam (BTM) ทางตะวันตก และ Ambon (AMB) ทางตะวันออก ถูกจัดกลุ่มแยกกัน


การจับเทมเพลตการทดสอบโดยมัลติเพล็กซ์ PCR ของแอมพลิคอนแบบยาวสำหรับการสร้างยีน SNP และ InDel ด้วย MALDI-TOF mass spectrometry

การผสมสีผิดพลาดที่เกี่ยวข้องกับ single nucleotide polymorphisms (SNPs) ที่ไม่เคยมีมาก่อนอาจนำไปสู่ความล้มเหลวของ PCR สำหรับการสร้างจีโนไทป์ สิ่งนี้เป็นปัญหาโดยเฉพาะอย่างยิ่งในแอปพลิเคชันการสร้างจีโนไทป์ SNP ที่มีปริมาณงานสูงซึ่งอาศัยมัลติเพล็กซ์ PCR (2–40-plex) ที่สร้างแอมพลิคอนแบบสั้นจำนวนมาก (80–120 bp) ที่มีขนาดใกล้เคียงกัน ซึ่งเป็นแนวทางที่เหมาะสมที่สุดสำหรับการสแกนจีโนมทั้งหมด อย่างไรก็ตาม หาก SNP เป้าหมายถูกจัดกลุ่มไว้ภายในยีนเป้าหมายสองสามตัว ทางเลือกหนึ่งที่จะแก้ไขให้ดีขึ้น นี้คือการเพิ่มความยาวของแอมพลิคอน ซึ่งลดศักยภาพในการโต้ตอบของไพรเมอร์/เทมเพลตและการไพรเมอร์ที่ผิดพลาดได้อย่างมีประสิทธิภาพ เราทดสอบวิธีการนี้ในประชากรที่หลากหลาย 372 ยูคาลิปตัส pilularis บุคคล (π = 8.11 × 10 −3 , ชม อี = 0.75) โดยใช้การทดสอบทอง Sequenom iPLEX ที่แก้ไขแล้ว ยีนของผู้สมัครสี่ยีน (MYB1, MYB2, CAD และ CCR) ได้รับการขยายใน PCR จับมัลติเพล็กซ์ระยะไกลเดียวที่สร้างแอมพลิคอนยาว 6 ตัวซึ่งมีขนาดตั้งแต่ 907 ถึง 2,225 bp สิ่งนี้ตรงกันข้ามกับวิธีการมาตรฐานซึ่งจะต้องมีการขยายแอมพลิคอนสั้น 98 ตัวในปฏิกิริยามัลติเพล็กซ์ 4 ตัว แอมพลิคอนแบบยาว 6 ตัวนี้มีเทมเพลตการทดสอบสำหรับการทดสอบ 98 รายการ (87 SNP และ 11 InDel) ภายในยีนของผู้สมัครทั้ง 4 ตัว ผลปฏิกิริยาบ่งชี้ว่าแอมพลิคอนที่ยาวขึ้นสามารถจัดให้มีแม่แบบที่เหมาะสมสำหรับการสอบวิเคราะห์จีโนไทป์ โดย 90.8% ของการสอบวิเคราะห์ทำหน้าที่และ 84.3% ของการสอบวิเคราะห์ที่เหมาะสมสำหรับการวิเคราะห์ปลายน้ำ ข้อดีเพิ่มเติมของแนวทางนี้คือความสามารถในการแก้ไขปัญหาโดยใช้เจลอิเล็กโตรโฟรีซิสและประหยัดค่าใช้จ่ายในการสังเคราะห์สารดักจับไพรเมอร์ได้ถึง 94% แนวทางนี้จะมีความเกี่ยวข้องมากที่สุดสำหรับแนวทางยีนของผู้สมัครสำหรับการทดสอบความสัมพันธ์ในกลุ่มประชากรที่ไม่มีลักษณะเฉพาะของสิ่งมีชีวิตที่มีลำดับความหลากหลายสูง

นี่คือตัวอย่างเนื้อหาการสมัครสมาชิก เข้าถึงผ่านสถาบันของคุณ


บทนำ

มีการใช้ลำดับจีโนมของไวรัสเพื่อศึกษาการแพร่กระจายของโรคในการระบาด การเฝ้าระวังจีโนมแบบเรียลไทม์มีความสำคัญในการจัดการการระบาดของไวรัส เนื่องจากสามารถให้ข้อมูลเชิงลึกว่าไวรัสส่งผ่าน แพร่กระจาย และวิวัฒนาการได้อย่างไร 1,2,3,4 งานดังกล่าวขึ้นอยู่กับการจัดลำดับอย่างรวดเร็วของวัสดุไวรัสโดยตรงจากตัวอย่างทางคลินิก กล่าวคือ โดยไม่จำเป็นต้องแยกไวรัสออกจากวัฒนธรรมบริสุทธิ์ ในช่วงที่ไวรัสอีโบลาระบาดในปี 2556-2559 การจัดลำดับจีโนมของไวรัสที่คาดหวังสามารถให้ข้อมูลที่สำคัญเกี่ยวกับวิวัฒนาการของไวรัสและช่วยแจ้งการสอบสวนทางระบาดวิทยา 3,4,5,6 การจัดลำดับจากตัวอย่างทางคลินิกโดยตรงทำได้เร็วกว่า ใช้แรงงานน้อยลง และคล้อยตามการทำงานของผู้ป่วยใกล้ตัวมากกว่าวิธีการที่ใช้วัฒนธรรมเป็นพื้นฐานที่ใช้เวลานาน Metagenomics กระบวนการจัดลำดับเนื้อหากรดนิวคลีอิกทั้งหมดในตัวอย่าง (โดยทั่วไปคือ cDNA หรือ DNA) ได้ถูกนำไปใช้กับทั้งการค้นพบไวรัสและการวินิจฉัย 7,8,9 แนวทางเมตาจีโนมิกได้รับการยอมรับอย่างรวดเร็วในช่วงทศวรรษที่ผ่านมา โดยได้รับแรงหนุนจากการปรับปรุงอย่างไม่หยุดยั้งในผลผลิตของเครื่องมือจัดลำดับปริมาณงานสูง 5,10,11,12 การจัดลำดับจีโนมทั้งหมดของไวรัสอีโบลาโดยตรงจากตัวอย่างทางคลินิกโดยไม่มีการขยายสัญญาณเป็นไปได้เนื่องจากจำนวนสำเนาไวรัสที่สูงมากที่พบในกรณีเฉียบพลัน 13,14,15 อย่างไรก็ตาม การจัดลำดับเมทาจีโนมโดยตรงจากตัวอย่างทางคลินิกทำให้เกิดความท้าทายเกี่ยวกับความไว: ความครอบคลุมของจีโนมอาจต่ำหรือขาดหายไปเมื่อพยายามจัดลำดับไวรัสที่มีอยู่ในปริมาณมากต่ำในตัวอย่างที่มีพื้นหลังกรดนิวคลีอิกของโฮสต์ในระดับสูง

การพัฒนาโปรโตคอล

ในระหว่างการทำงานล่าสุดเกี่ยวกับการแพร่ระบาดของไวรัสซิกา 16 เราพบว่าเป็นการยากที่จะสร้างลำดับจีโนมทั้งหมดโดยตรงจากตัวอย่างทางคลินิกโดยใช้วิธีการเมตาเจโนม (ตารางที่ 1) ตัวอย่างเหล่านี้มีค่าขีดจำกัดของวงจร (Ct) ระหว่าง 33.9 ถึง 35.9 (เทียบเท่ากับสำเนาจีโนม 10–48 สำเนาต่อไมโครลิตร) ก่อนการจัดลำดับ ตัวอย่างเหล่านี้หมดลงของ rRNA ของมนุษย์และเตรียมไว้สำหรับการหาลำดับเมทาจิโนมิกบนแพลตฟอร์ม Illumina MiSeq ตามที่อธิบายไว้ก่อนหน้านี้ 2,17 ในกรณีเหล่านี้ ลำดับจากไวรัสซิก้าประกอบด้วย <0.01% ของชุดข้อมูล ส่งผลให้เกิดการครอบคลุมที่ไม่สมบูรณ์ ความครอบคลุมและความลึกที่มากขึ้นเป็นสิ่งสำคัญสำหรับการสร้างจีโนมใหม่ที่แม่นยำและการอนุมานสายวิวัฒนาการที่ตามมา นอกจากนี้ยังมีค่าใช้จ่ายในการจัดลำดับ การวิเคราะห์และการจัดเก็บที่เกี่ยวข้องกับการสร้างชุดข้อมูลการจัดลำดับขนาดใหญ่ ดังนั้นวิธีการเมตาเจโนมิกในปัจจุบันจึงไม่เอื้อต่อการใช้อุปกรณ์จัดลำดับแบบพกพาที่มีปริมาณงานต่ำ เช่น Oxford Nanopore MinION อย่างคุ้มค่า

เพื่อสร้างความครอบคลุมของจีโนมไวรัสอย่างสมบูรณ์จากตัวอย่างทางคลินิกในลักษณะที่ประหยัด มักจะต้องมีการเพิ่มคุณค่าเป้าหมาย 18 การเพิ่มคุณค่าสามารถทำได้โดยตรงผ่านการคัดแยกในวัฒนธรรมหรือการใช้โพรบเหยื่อโอลิโกนิวคลีโอไทด์ที่มุ่งเป้าไปที่ไวรัสที่สนใจ หรือโดยอ้อมผ่านการทำลายกรดนิวคลีอิกของโฮสต์ อาจจำเป็นต้องใช้การขยายเพื่อสร้างวัสดุที่เพียงพอสำหรับการจัดลำดับ (>5 ng สำหรับโปรโตคอล Illumina ทั่วไปและ 100–1,000 ng สำหรับ MinION) PCR สามารถให้ทั้งการเพิ่มสมรรถนะและการขยายเป้าหมายได้ในขั้นตอนเดียว และมีราคาค่อนข้างถูก พร้อมใช้งาน และรวดเร็วเมื่อเปรียบเทียบกับวิธีอื่นๆ ในการสร้างความครอบคลุมที่สมบูรณ์ของลำดับการเข้ารหัส โดยทั่วไปจะใช้รูปแบบแอมพลิคอนแบบเรียงต่อกัน 19,20,21 ระหว่างที่เราทำงานกับไวรัสอีโบลา เราสามารถกู้คืน >95% ของจีโนมได้อย่างน่าเชื่อถือโดยจัดลำดับแอมพลิคอนแบบยาว 11 อัน (ความยาว 1–2.5 kb) บน MinION 5

อย่างไรก็ตาม โอกาสที่ชิ้นส่วนยาวจะมีอยู่ในตัวอย่างจะลดลงเมื่อปริมาณไวรัสลดลง ดังนั้นเราจึงคาดการณ์ว่าสำหรับไวรัสเช่น Zika ที่มีอยู่ในตัวอย่างทางคลินิกที่มีความอุดมสมบูรณ์ต่ำ เรามีแนวโน้มที่จะขยายส่วนที่สั้นลงมากขึ้น เป็นตัวอย่างที่ชัดเจนที่สุดของแนวทางนี้ วิธีการล่าสุดที่เรียกว่า 'การตอกย้ำ' ถูกใช้เพื่อขยายตัวอย่าง HIV-1 ที่เสื่อมโทรมซึ่งเก็บไว้เป็นเวลา >40 ปี วิธีการนี้ใช้แอมพลิคอน 200–300 nt เพื่อช่วยเพิ่มการกู้คืนลำดับสูงสุด 22 การใช้แอมพลิคอนที่สั้นกว่าทำให้ต้องมีผลิตภัณฑ์จำนวนมากขึ้นเพื่อสร้างเส้นทางการเรียงต่อกันในจีโนมเป้าหมาย การทำเช่นนี้ในแต่ละปฏิกิริยาต้องใช้ขั้นตอนการปิเปตแบบแมนนวลจำนวนมาก ดังนั้นจึงเพิ่มโอกาสในการเกิดข้อผิดพลาด โดยมีความเสี่ยงสูงที่จะเกิดการปนเปื้อนข้าม รวมทั้งเวลาและวัสดุสิ้นเปลืองที่มากขึ้น เพื่อแก้ปัญหาเหล่านี้ เราได้ออกแบบการทดสอบมัลติเพล็กซ์เพื่อทำปฏิกิริยาหลายสิบปฏิกิริยาในแต่ละหลอด ภายหลังมีการใช้วิธีนี้เพื่อดำเนินการจัดลำดับ Zika เพื่อให้เข้าใจถึงการแพร่กระจายของไวรัสซิก้าในทวีปอเมริกา 16,23,24,25,26 โปรโตคอลแบบทีละขั้นตอนที่ได้ผลลัพธ์ที่ได้อธิบายไว้นี้ช่วยให้นักวิจัยสามารถขยายและจัดลำดับไวรัสที่มีความอุดมสมบูรณ์ต่ำได้โดยตรงจากตัวอย่างทางคลินิก วิธีการนี้ยังมีประโยชน์อื่นๆ ที่ไม่ได้แสดงให้เห็นในที่นี้ การใช้งานที่เป็นไปได้อย่างหนึ่งคือวิธีการพิมพ์แบบจัดลำดับแบบหลายจุด ซึ่งสามารถดำเนินการได้โดยการขยายยีนที่อนุรักษ์ไว้จากแบคทีเรีย เชื้อรา และยีสต์ ในเวลาเดียวกัน ยีนที่กำหนดความต้านทานยาปฏิชีวนะหรือยีนที่มีความรุนแรงที่สำคัญก็สามารถกำหนดเป้าหมายในการทดสอบเดียวกันได้ โครงร่างนี้สามารถใช้เพื่อจัดลำดับจีโนมของคลอโรพลาสต์และไมโตคอนเดรีย

เปรียบเทียบกับวิธีการอื่นๆ

สามแนวทางที่พบบ่อยที่สุดสำหรับการจัดลำดับไวรัส ได้แก่ การจัดลำดับเมทาเจโนมิก, การหาลำดับแอมพลิคอน PCR และการจัดลำดับการเพิ่มประสิทธิภาพของเป้าหมาย ซึ่งเพิ่งตรวจสอบโดยละเอียดโดย Houldcroft et al. 27 . ประโยชน์หลักของแนวทาง PCR-based ที่อธิบายไว้ในที่นี้คือต้นทุนและความอ่อนไหว ตามทฤษฎีแล้ว PCR และการเพาะเลี้ยงเซลล์ต้องการสำเนาไวรัสเพียงชุดเดียว ซึ่งทำให้ทั้งคู่มีความละเอียดอ่อนอย่างดีเยี่ยม อย่างไรก็ตาม ในทางปฏิบัติ สภาวะของปฏิกิริยาไม่อนุญาตให้มีการขยายจีโนมเดี่ยว และโดยทั่วไป จำเป็นต้องมีโมเลกุลเริ่มต้นหลายตัว PCR ยังมีความไวที่จำกัดในกรณีที่ลำดับเทมเพลตแตกต่างจากที่คาดไว้เนื่องจากจลนศาสตร์การจับไพรเมอร์ อย่างไรก็ตาม ในสถานการณ์การแพร่ระบาดซึ่งไอโซเลตมีความเกี่ยวข้องสูง และต้องใช้ต้นทุนต่อตัวอย่างต่ำและใช้เวลาตอบสนองอย่างรวดเร็ว PCR เหมาะสมอย่างยิ่ง การจัดลำดับแอมพลิคอนใน Oxford Nanopore MinION เป็นวิธีที่ได้รับความนิยมในการกำหนดจีโนมของไวรัสและได้รับการใช้สำหรับไวรัสที่หลากหลาย รวมทั้งอีโบลา ไข้หวัดใหญ่ และโรคฝีดาษ โดยใช้ปฏิกิริยาไพรเมอร์คู่เดียวที่สร้างแอมพลิคอนยาว (>1 kb) หรือปฏิกิริยาหลายตัวที่รวมกันก่อน sequencing 5,28,29,30 . However, these approaches are laborious to scale up when many small amplicons are required (because of low viral copy numbers), or when multiple samples are sequenced on a single sequencing run, as in this protocol.

The most similar alternative approach to the one described here is AmpliSeq (Life Technologies), which was previously used for Ebola sequencing on the Ion Torrent PGM 6 . However, this method is specific to the Ion Torrent platform, and primer schemes must be ordered directly from the manufacturer thus, it may consequently be more expensive per sample. Alternative software packages for designing primer schemes are available, some of which cater specifically to multiplex or tiling amplicon schemes 20,21,31,32 , and these may perform better when dealing with divergent genomes because of an increased emphasis on oligonucleotide degeneracy. Primers generated with such software may also be compatible with this protocol, although PCR conditions may require optimization, as the Primal Scheme software used in this protocol is designed with an emphasis on monitoring short-term evolution of known lineages, and primer conditions have been optimized for multiplex PCR amplification efficiency.

Propagation in cell culture is another method that has been widely used for virus enrichment 33,34,35 . This process is time-consuming, and requires specialist expertise and high containment laboratories for especially dangerous pathogens. There is also concern that viral passage can introduce mutations that are not present in the original clinical sample, potentially confounding analysis 36,37 .

Oligonucleotide bait probes have also shown promise as an alternative to metagenomics and amplicon sequencing 38,39,40,41,42 . These isolate viral nucleic acid sequences by hybridizing target-specific biotinylated probes to the DNA/RNA sample and then separating them using magnetic streptavidin-coated beads. Such methods, however, are limited by the efficiency of the capture step because of the kinetics of nucleic acid hybridization in complex samples such as those containing the human genome. The complete hybridization of all probes to targets can take hours (typical protocols suggest a 24-h incubation, although shorter times may be possible) and may never be achieved because of competitive binding by the host DNA. These methods suffer from a coverage bias, which worsens at lower viral abundances, resulting in increasingly incomplete genomes, as demonstrated by recent work on the Zika virus 43 . They work best on samples with higher viral abundances and may not have the sensitivity to generate near-complete genomes for the majority of isolates in an outbreak. Probes for hybridization capture are also more expensive than PCR primers because they are usually designed in a fully overlapping 75-nt scheme, which can run to hundreds of probes per virus and thousands for panels of viruses.

Direct sequencing of RNA has been recently demonstrated on the Oxford Nanopore MinION 44,45 . This method is attractive because it eliminates the need for reverse transcription, and so potentially may reduce biases resulting from nonrandom priming and copying errors introduced by reverse transcriptase. However, this method currently requires 500 ng of RNA as starting material and would suffer from the same sensitivity issues associated with cDNA metagenomics approaches when applied to samples containing very low viral copy numbers.

Limitations of tiling amplicon sequencing

Our method is not suitable for the discovery of new viruses or for sequencing highly diverse or recombinant viruses because primer schemes are virus-genome-specific. This protocol has not been validated for discovery of intra-host nucleotide variants, and we expect that minor allele frequencies will not be reliably recovered when amplifying from very small amounts of starting virus, as shown by Metsky et al. 25 . We expect that this method will work for larger virus genomes, but we have not tested this protocol with viral genomes longer than 12 kb. The protocol is designed for infections resulting from single clones, and may not perform well with mixed infections of diverse viruses. We have not tested performance of the method in chronic infections in which large amounts of diversity may have evolved within a patient (for example, viral quasispecies during HIV infection). Amplicon sequencing is prone to coverage dropouts that may result in incomplete genome coverage, especially at lower abundances, and the loss of both 5′ and 3′ regions that fall in regions not covered by primer pairs. Sequencing of complete 5′- and 3′-UTR regions may require alternative techniques such as RACE 46 . Targeted methods are also highly sensitive to amplicon contamination from previous experiments. Extreme caution should be taken to keep pre-PCR areas, reagents and equipment free of contaminating amplicons.

การออกแบบทดลอง

Description of the protocol. We describe a fully integrated end-to-end protocol for rapid sequencing of viral genomes directly from clinical samples. The protocol proceeds in four stages: (i) multiplex primer pool design, (ii) multiplex PCR, (iii) sequencing on MinION or Illumina instruments and (iv) bioinformatic analysis and quality control (QC) (Fig. 1).

Workflow for tiling amplicon sequencing on MinION/Illumina platforms, with associated Procedure step numbers indicated.

Primer design. We developed a web-based primer design tool called Primal Scheme (http://primal.zibraproject.org), which provides a complete pipeline for the development of efficient multiplex primer schemes. Each scheme is a set of oligonucleotide primer pairs that generate overlapping products, the size of which is determined by the target genome length, amplicon length and overlap required, as discussed below. For Zika, we use 35 primer pairs, amplifying products of ∼ 400-nt length with a 100-nt overlap for the ∼ 11-kb viral genome. Together, the amplicons generated by the pairs span the target genome or region of interest (Fig. 2).

(NS) Submission box for online primer design tool. (NS) Primer table of results. () Schematic showing expected amplicon products for each pool in genomic context for the ZikaAsian and ChikAsianECSA schemes.

As input, Primal Scheme requires a FASTA file containing one or more reference genomes. The user specifies a desired PCR amplicon length (default = 400 nt, suggested values between 200 and 2,000 nt) and the desired length of overlap between neighboring amplicons (default = 75 nt). Using a shorter amplicon length may be useful for samples in which longer products fail to amplify (e.g., when the virus nucleic acid is highly degraded). However, if amplicon lengths become too short (e.g., <300 nt), it may not be possible to find suitable primer pairs reducing the overlap parameter may help with this.

The Primal Scheme software performs the following processes:

Generation of candidate primers: The first sequence listed in the FASTA file should be the most representative genome, with further sequences spanning the expected interhost diversity. Primal Scheme uses the Primer3 software to generate candidate primer pairs (five, by default) 47 . It selects primers based on thermodynamic modeling, which takes into account length, annealing temperature, %GC, 3′ stability, estimated secondary structure and likelihood of primer–dimer formation, maximizing the chance of a successful PCR reaction. Primers are designed with a high annealing temperature within a narrow range (65–68 °C) that allows PCR to be performed as a 2-step protocol (95 °C denaturation, 65 °C combined annealing and extension) for highly specific amplification from clinical samples without the need for nested primers.

Testing of candidate primers: Subsequent reference genomes in the file are used to help choose primer pairs that maximize the likelihood of successful amplification of known virus diversity. A semi-global alignment score between each candidate primer and all supplied references is calculated to ensure that the most 'universal' candidate primers are picked for the scheme. Mismatches at the 3′ end are severely penalized, as they have a disproportionate effect on the likelihood of successful extension 48,49 . The alignment scores are summed, and the single best-scoring pair for each region is selected. If no candidates are returned by Primer3 for a region, most likely because all primers had insufficient annealing temperature, an error message prompting you to adjust the amplicon length or the overlap parameter will appear.

Output of primer pairs: Output files include a table of primer sequences to be ordered, a BED file of primer locations that can be used subsequently for primer trimming and a diagram of the primer scheme.

Choice of amplicon length. The choice of amplicon length when designing primer pools for sequencing is important. There is an inverse relationship between amplicon length and the number of primer pairs. It is believed that increasing the number of primer pairs reduces the likelihood of successful amplification of each region, owing to interaction between primers 18 . It is plausible that as the number of primer pairs increases, competitive inhibition may decrease PCR efficiency, although the high annealing temperature used in this protocol should reduce this risk. Longer amplicons are preferred, as they mean fewer primer pairs are needed per reaction. They also increase the amount of linkage information that can be recovered as haplotypes, which is of importance for investigation of within-host diversity. On the Illumina platform, 600 bases is the maximum size of amplicon that can be obtained using this protocol without an additional fragmentation step (using 600 cycle kits in paired-end mode—i.e., paired 300 nucleotides without any overlap), although read accuracy may degrade during the last 50 cycles. On the Oxford Nanopore MinION, there is no limit to the maximum amplicon length that can be sequenced the maximum length is effectively limited by the performance of the reverse transcription and PCR (practically to ∼ 5 kb). However, longer amplicons are less likely to amplify successfully when viral copy number is low or there is sample degradation (e.g., because of inadequate storage).

Optimization of primer schemes. The majority of primers are expected to work even when pooled in equimolar amounts, meaning largely complete genomes can be recovered without optimization. For example, the chikungunya virus data shown in Table 2 were generated without any optimization. However, to achieve coding-sequence-complete genomes, problem primers causing inefficient amplification of certain regions may need to be replaced or their concentrations adjusted relative to other primers in an iterative manner. Complete coverage of the genome covered by the scheme—i.e., all amplicons successfully amplified—should be achievable for the majority of samples using this protocol however, coverage is still expected to correlate with viral abundance (Table 3).

Multiplex PCR Protocol. Next, we developed a multiplex PCR protocol using novel reaction conditions: specifically low individual primer concentrations, high primer annealing temperatures (>65 °C) and long annealing times, which allows amplification of products covering the whole genome in two reactions (Fig. 3). In comparison with single-plex methods, this markedly reduces the cost of reagents and minimizes potential sources of laboratory error. We assign alternate target genome regions to one of two primer pools, so that neighboring amplicons do not overlap within the same pool (which would result in a short overlap product being generated preferentially). By screening reaction conditions based on the concentration of cleaned-up PCR products and specificity as determined by gel electrophoresis, we determined that lower primer concentrations and a longer annealing/extension time were optimal. Given the low cost of the assay, this step could also be performed alongside standard diagnostic quantitative PCR as a quality control measure to help reveal potential false positives 50 .

(NS) Schematic showing the regions amplified in pools 1 (upper track) and 2 (lower track), and the intended overlap between pools (as determined in Step 1). (NS) Products generated by PCR in Step 9 from pools 1 (left tube) and 2 (right tube) for the hypothetical scheme shown in NS. () In Step 12A(ii), the input amount is normalized based on the number of samples and the scheme length pool 1 and 2 products can be pooled at this stage (shown) or kept separate if you wish to barcode them individually. In Step 12A(iv), products for each sample are then barcoded by ligation of a unique barcode. In Step 12A(vi), all barcoded products are pooled together before sequencing adaptor ligation, yielding a sequenceable library.

Sequencing protocol optimizations. Optimized library preparation methods for both the MinION and Illumina MiSeq platforms are provided and should be readily adaptable to other sequencing platforms, if required. The MinION system is preferred when portability and ease of setup in harsh environments are important 5 . The Illumina platform is more suited to sequencing very large number of samples, because of greater sequence yields, and the ability to barcode and accurately demultiplex hundreds of samples. Both platforms use ligation-based methods to add the required sequencing adaptors and barcodes.

For the MinION, we used the native barcoding kit (Oxford Nanopore Technologies) to allow up to 12 samples to be sequenced per flow cell. As the manufacturer's protocol is designed for 6–8 kb of fragmented genomic DNA, we have adjusted the input mass to achieve an equivalent number of moles of DNA ends this improves the efficiency of barcode/adaptor ligation and improves run yields. In the development of the protocol, we used R9 or R9.4 flow cells (FLO-MIN105/FLO-MIN106) and the 2D barcoded library preparation kit (EXP-NBD002/SQK-LSK208). The protocol is also compatible with the current 1D barcoded library preparation kit (EXP-NBD103/SQK-LSK108). Because of the regular revisions of the kits, we have avoided including any specific component names or volumes be sure to follow the appropriate protocol for your chosen kit version. Depending on the number of reads required, the number of samples multiplexed and the performance of the flow cell, sequencing on the MinION can take from a few minutes up to 72 h. Typically, 2–4 h of sequencing is sufficient for 12 samples. For the MiSeq platform, we used the Agilent SureSelect xt2 adaptors and the KAPA Hyper library preparation kit, allowing up to 96 samples to be sequenced per MiSeq run. Other library prep kits (e.g., Illumina TruSeq) and dual-indexed adaptors could also be used on the MiSeq. For the MiSeq, we recommend using the 2 × 250-nt read-length for 400-nt amplicons, which takes 48 h to complete.

Bioinformatics workflow MinION pipeline. We developed bioinformatic pipelines consisting of primer trimming, alignment, variant calling and consensus generation for both the Oxford Nanopore and Illumina platforms. The MinION pipeline was developed by building upon tools previously developed for Ebola virus sequencing in Guinea and is freely available with components developed under the permissive MIT open source license at https://github.com/zibraproject/zika-pipeline. The pipeline runs under the Linux operating system and is available as a Docker image, which means that it can also be run on Mac and Windows operating systems. The MinION version of the pipeline can process the data from basecalled reads to consensus sequences on the instrument laptop, given the correct primer scheme (a BED file).

FAST5 reads containing raw nanopore signal data may be basecalled in real time using MinKNOW (accessible via the MinION Community Portal for registered users at http://community.nanoporetech.com) or off-line using Albacore. Albacore is a recurrent neural network (RNN) basecaller developed by Oxford Nanopore Technologies and also made available through the MinION Community Portal. Reads are extracted into a FASTA file using the poretools fasta command. This FASTA file may be demultiplexed by a script, demultiplex.py, into separate FASTA files for each barcode, as specified in a config file. By default, these are set to the barcodes NB01–12 from the native barcoding kit. Alternatively, the Metrichor online service (https://www.metrichor.com) and versions of Albacore 1.0.1 or later may be used to basecall read files and demultiplex samples. Each file is then mapped to the reference genome using bwa mem using the -x ont2d flag and converted to BAM format using samtools view . Alignments are preprocessed using a script ( align_trim.py ) that performs primer trimming and coverage normalization. Primer trimming is performed by reference to the expected coordinates of sequenced amplicons, and therefore requires no knowledge of the sequencing adaptor (Fig. 3). Signal-level events are aligned and variants are called using nanopolish variants . Low-quality or low-coverage variants are filtered out and consensus sequences are generated using a script, margin_cons.py . Variant calls and frequencies can be visualized using vcfextract.py and pdf_tree.py .

Bioinformatics workflow Illumina pipeline. First, we use Trimmomatic 51 to remove primer sequences (first 22 nt from the 5′ end of the reads) and bases at both ends with Phred quality scores <20. Reads are aligned to the genome of a Zika virus isolate from the Dominican Republic, 2016 (GenBank: KU853012), using Novoalign v3.04.04 (http://www.novocraft.com/support/download/). SAMtools is used to sort the aligned BAM files and to generate alignment statistics 52 . The code and reference indexes for the pipeline can be found at https://github.com/andersen-lab/zika-pipeline. Snakemake is used as the workflow management system 53 .

Alignment-based consensus generation. We have used an alignment-based consensus approach to generate genomes as opposed to เดอโนโว assembly. แม้ว่า เดอโนโว assembly could in theory be used with this protocol, the use of a tiling amplicon scheme already assumes that the viral genome is present in a particular fixed order. This assumption may be violated in the presence of large-scale recombination. บาง เดอโนโว assemblers, such as SPAdes, use a frequency-based error correction preprocessing stage, and this may result in primer sequences being artificially introduced into the reference if primer sequences are not removed in advance 54 . Importantly, when we compared alignment with เดอโนโว-based analysis methods for our generated Zika virus genomes, we found that we always obtained the same consensus sequences.

Preparing sequencing controls. We recommend that positive sample controls be included in each sequencing run. To check that the protocol is generating the expected results, we recommend choosing a positive sample with an established, trusted reference sequence. For the Zika virus, we used the previously sequenced World Health Organization reference strain PF13/251013-18 (GenBank accession: KX369547), which can be obtained on request from the Paul-Ehrlich-Institut 55,56 . Sample archives such as the National Collection of Pathogenic Viruses in the United Kingdom can provide high-quality reference materials for other viruses. Positive controls should have viral copy numbers similar to those of the clinical samples on the same run. This may require the positive control to be heavily diluted until the Ct values are comparable. Negative sequencing controls should be processed in a manner as similar as possible to that used for clinical samples and should not be simply water controls for example, if samples are collected by swabs, then the same type of unused swab should be subjected to RNA extraction and PCR. Additional negative water controls may be added at each step (e.g., reverse transcription, PCR and library preparation) to detect the sources of contaminants. Even if amplification is not detected (e.g., by gel electrophoresis) or DNA quantity is low or undetectable by fluorimetry, a sequencing library should still be prepared as normal using the total available amount, as contamination may still be detectable by sequencing.

Contamination. Cross-contamination is a serious potential problem when working with amplicon sequencing. Contamination risk is minimized by maintaining physical separation between pre- and post-PCR areas, and performing regular decontamination of work surfaces and equipment—e.g., by UV exposure or with 1% (vol/vol) sodium hypochlorite solution. Contamination becomes harder to mitigate with decreasing viral copy numbers. Processing high-viral-count samples can lead to overamplification during PCR (e.g., generation of unnecessarily high numbers of amplicons), which can increase the risk of amplicon contamination in subsequently processed samples with low viral counts. Such 'between-sample amplification' can occur during sequencing library preparation, or may result from barcode misidentification or 'barcode hopping' (incorporation of incorrect barcode sequences during sequence library preparation) during sequencing. When determining how many PCR cycles to use, begin with a lower number and increase gradually to minimize this contamination risk.

The best safeguard for helping to detect contamination is the use of negative controls. These controls should be sequenced even if no DNA is detected by quantification or no visible band is present on a gel. Negative control samples should be analyzed through the same software pipeline as is used for the other samples, and you should assume that any contaminating amplicons in the negative control will also be present in your other samples. The relative number of reads as compared with positive samples gives a simple guide to the extent of contamination, and inspection of coverage plots can help identify any specific region involved.


สังกัด

Life Science Research and Foundation, QIAGEN Sciences, Inc., Frederick, Maryland, USA

Quan Peng, Ravi Vijaya Satya, Marcus Lewis, Pranay Randad & Yexun Wang

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

You can also search for this author in PubMed Google Scholar

Corresponding author


Multiplex PCR, shorter amplicon inhibiting longer amplicon? - ชีววิทยา

The 64-bit Mac version should work on most modern Macs (OS X 10.7 or newer).

FreeBSD users may simply type pkg install pooler

For all other systems (GNU/Linux, older Mac, Solaris. ) please compile from source (below).

Example primers file

Source code

  • a C compiler (GCC or Clang) and basic Unix tools,
  • MingW compiler(s) if you want to cross-compile for Windows.

Usage

  • If you opt to use Score when your primers and/or tags are very long, you will be asked if you are really sure you don't want to use deltaG instead.
  • If you opt for deltaG, the following questions will be asked: Temperature: Enter a number (decimal fractions are allowed). You can enter it in Celsius, Kelvin, Fahrenheit or Rankine. Do not enter the suffix C or K or F or R---Primer Pooler will determine for itself which unit was meant, and ask you to confirm. (Recent versions of Primer Pooler offer 5 additional obscure temperature scales if you decline all of the more probable ones.) Magnesium concentration in mM (0 for no correction): Enter your concentration of magnesium in nanomoles per cubic metre (decimal fractions are allowed). Enter 0 if you don't mind the deltaG figures not being corrected for magnesium concentration. Monovalent cation (e.g. sodium) concentration in mM: Enter your concentration of sodium etc in nanomoles per cubic metre (decimal fractions are allowed). If in doubt, try 50. dNTP concentration in mM (0 for no correction): Enter your concentration of deoxynucleotide (dNTP) in nanomoles per cubic metre (decimal fractions are allowed). Enter 0 if you don't mind the deltaG figures not being corrected for dNTP concentration.
  • If you answered yes to this question, the summary will be displayed on screen, and you will be asked if you also want to save it to a file. If you answer yes to this, you will be asked for a filename.
  • These up-front counts will include self-interactions (a primer interacting with itself), and interactions between the pair of primers in any given set. Self-interactions and in-set interactions are ไม่ counted when summarizing the counts of each pool (below).
  1. Go to http:// hgdownload. cse. ucsc. edu/ downloads. html
  2. Choose a species (e.g. Human)
  3. Choose "Genome sequence files"
  4. If you're under hg38, choose "Standard genome sequence files"
  5. Scroll down to the links, and choose the one that ends .2bit (e.g. hg38.2bit)
  • After the overlap scan is complete, Primer Pooler will then have enough data to write an input file for MultiPLX if you wish to run that software as well for comparison. If you decline this, it will ask if you want it to write a simple text file with the locations of all amplicons, which you may accept or decline.
  • ถ้าคุณทำ ไม่ opt to check for overlaps in the genome, then Primer Pooler will ไม่ take overlaps into account when generating its pools. This is rarely useful unless you have แล้ว ensured there are no overlaps in the set of amplicons under consideration. Even then, I would recommend performing a scan anyway, just to double-check: an early version found 11 overlaps in a supposedly overlap-free batch drawn up by an experienced academic---we all make mistakes. But bypassing the overlap check might be useful ถ้า you are sure there are no overlaps and you don't want to download a very large genome file to the workstation you're using.

You will not be allowed to set the maximum size of each pool lower than the average size of each pool, since that would make it logically impossible to fit all primer-sets into all pools. It is not advisable to set it just above the average either, since being overly strict about the evenness of the pools could hinder Primer Pooler from finding a solution with lower dimer formation. You might want to experiment with different maxima---you will be able to come back to this question and try again. Do you want to give me a time limit? (y/n): If you answer y, you will be asked to set a time limit in minutes. Normally 1 or 2 is enough, although you may wish to let it run a long time to see if it can find better solutions. คุณไม่ มี to set a time limit: you may manually interrupt the pooling process at any time and have it give the best solution it has found so far, whether a time limit is in place or not. Additionally, Primer Pooler will stop automatically when it detects better solutions are unlikely to be found. Do you want my "random" choices to be 100% reproducible for demonstrations? (y/n): If you answer y, Primer Pooler's random choices will be generated in a way that merely ดู random but are in fact completely reproducible. This is useful for demonstration purposes---you'll know how long it will take to find the solution you want. Otherwise, the random choices will be less predictable, as a different sequence will be chosen depending on the exact time at which the pooling was started. Pooling display While pooling is in progress, Primer Pooler will periodically display a brief summary of the best solution found so far, showing the pool sizes, and the counts of interactions (by deltaG range or score) within each pool. As instructed on screen, you may press Ctrl-C (i.e. hold down Ctrl while pressing and releasing C, then release Ctrl) to cancel further exploration and use the best solution found so far. Do you want to see the statistics of each pool? (y/n): After the pooling is complete, or after you have interrupted it (by pressing Ctrl-C as instructed on screen), you will be asked if you wish to see the interaction counts of แต่ละ pool (rather than a simple summary of ทั้งหมด pools as appeared during pooling). If you want this, you will also be asked if you wish to save them to a file, and, if so, what file name. Do you want to see the highest bonds of these pools? (y/n): If you answer Yes, you will be asked for a deltaG or score threshold, and all interactions worse than that threshold will be displayed on-screen with bonds diagrams such as:and you will then be asked if you wish to save it to a file, and, if so, what file name. You will then be asked if you would like to try another threshold. Shall I write each pool to a different result file? (y/n): If you answer y to this, you will be asked for a prefix, which will be used to name the individual results files. Otherwise, you will be asked if you wish to save all results to a single file. If you decline saving all results to a single file, the results will not be saved at all---this is for when you weren't happy with the solution and want to go back to try a different number of pools or a different maximum pool size. Do you want to try a different number of pools? (y/n): This question is self-explanatory. You can go back as many times as you like, trying different numbers of pools. But many researchers have a pretty good idea of how many pools they want to use, or else are happy with the computer's initial suggestion. Would you like another go? (y/n): If you answered No to trying a different number of pools, or if you didn't want the program to do pooling at all, then you will be asked if you want to start the program again. Answering No to this question will exit.

Command-line usage

เพียง mandatory argument (if not running interactively) is a filename for the primers file. This should be a text file in multiple-sequence FASTA format, such as:(this example does not represent real primers). Degenerate bases are allowed using the normal letters, and both upper and lower case is allowed. Names of amplicons' primers should end with F or R, and otherwise match. Optionally include tags (tails, barcoding) to apply to all primers: >tagF and >tagR (tags can also be changed part-way through the file).

Processing options should be placed before this filename. Options are as follows: --help or /help or /? Show a brief help message and exit. --counts Show score or deltaG-range pair counts for the whole input. deltaG will be used if the --dg option is set (see below). This option produces a fast summary of how many primer pairs (in the entire collection, before pooling) have what range of interaction strengths. This could be used for example to check a pool that you have already chosen manually, or if you want a rough idea of the worst-case scenario that pooling aims to avoid. --self-omit Causes the --counts option to avoid counting self-interactions(a primer interacting with itself), and interactions between the pair of primers in any given set. --print-bonds=THRESHOLD Similar to --counts , this can be useful for checking a manual selection or for a rough idea. All interactions worse than the given threshold (deltaG if --dg is in use, otherwise score) will be written to standard output, with bonds diagrams. --dg[= temperature[, mg[, cation[, dNTP]]]] Set this option to use deltaG instead of score. Optional parameters are the temperature (default is human blood heat), the concentration of magnesium (default 0), the concentration of monovalent cation (e.g. sodium, default 50), and the concentration of deoxynucleotide (dNTP, default 0). Decimal fractions are allowed in all of these. Temperature is specified in kelvin, and all concentrations are specified in nanomoles per cubic metre. --suggest-pools Outputs a suggested number of pools. This is the approximate lowest number of pools needed to achieve no worse than a deltaG of -7 (or a score of 7) in each. --pools[= NUM[, MINS[, PREFIX]]] Splits the primers into pools. Optional parameters are the number of pools (if omitted or set to ? then the suggested number will be calculated and used), a time limit in minutes, and a prefix for the filenames of each pool (set this to - to write all to standard output). --max-count=NUM Set the maximum number of pairs per pool. This is optional but can make the pools more even. A maximum lower than the average is not allowed, and it's usually best to allow a generous margin above the average. --genome=PATH Check the amplicons for overlaps in the genome, and avoid these overlaps during pooling. The genome file may be in .2bit format as supplied by UCSC, or in .fa (FASTA) format. --scan-variants When searching for amplicons in a genome file, scan variant sequences in that file too, i.e. sequences with _ and - in their names. By default such sequences are omitted as they're not normally needed if using hg38. --amp-max=LENGTH Sets maximum amplicon length for the overlap check. The default is 220. --multiplx=FILE Write a MultiPLX input file after the --genome stage, to assist comparisons with MultiPLX's pooling etc. --seedless Don't seed the random number generator --version Just show the program version number and exit.

การเปลี่ยนแปลง

Defects fixed

  1. an error in incremental-update logic sometimes had the effect of generating suboptimal solutions (in particular, pools could be unnecessarily empty, and/or full beyond any limit that was set)
  2. an error in the user-interface loop meant that if you use tags, run interactively, and answer "yes" to the question "Do you want to try a different number of pools", the ที่สอง run will have been done without the tags, and its results will have been de-tagged twice, removing some bases from the output moreover, the resulting truncated versions of your primers will have made it into the interaction calculations for any third run.

Versions prior to 1.17 also had a display bug: the concentrations for the deltaG calculation are in millimoles per litre, not nanomoles as stated on-screen in interactive mode (please ignore the on-screen instruction and enter millimoles, or upgrade to the latest version which fixes that instruction).

Versions prior to 1.34 would round down any decimal fraction you type when in interactive mode (for deltaG temperature, concentration and threshold settings). Internal calculation and command-line use was not affected by this bug.

Versions prior to 1.37 did not ignore whitespace characters after FASTA labels and the label) -->.

Notable additions

Version 1.2 added the MultiPLX output option, and Version 1.33 fixed a bug when MultiPLX output was used with tags and multiple chromosomes. Version 1.3 added genome reading from FASTA (not just 2bit), auto-open browser, and suggest number of pools.

Version 1.36 clarified the use of Taq probes, and allowed these to be in the input file during the overlap check. It's consequently stricter about the requirement that reverse primers must end with R or B : previous versions would accept any letter other than F for these.

Version 1.4 allows tags to be changed part-way through a FASTA file. For example, if there are two >tagF sequences, the first >tagF will set the tags for all F primers between the beginning of the file and the point at which the second >tagF is given the second >tagF will set the tags for all F primers from that point forward. You can change tags as often as you like.

Version 1.5 allows primer sets to be "fixed" to predetermined pools by specifying these as primer name prefixes , e.g. [email protected]:myPrimer-F fixes myPrimer-F to pool 2.

Version 1.6 detects and warns about alternative products of non-unique PCR. It was followed within hours by Version 1.61 which fixed a regression in the amplicon overlap check.

Version 1.7 makes the ignoring of variant sequences in the genome optional, and warns if primers not being found might be due to variant sequences having been ignored.


Amplification-Based Methods

Marina N. Nikiforova , . Yuri E. Nikiforov , in Clinical Genomics , 2015

Primer Design for Multiplex PCR

Multiplex PCR is a commonly used approach for amplification-based target enrichment. There are several strong advantages of targeted amplification-based sequencing as compared with whole genome and exome sequencing, or targeted sequencing by a hybrid capture approach. It requires a small amount of DNA (10–200 ng) as the starting template, can be performed on specimens with a suboptimal DNA quality, it is time- and cost-effective, and provides high depth of sequencing and straightforward data analysis.

PCR assays are a mainstay of molecular pathology and represent the most convenient and cost-effective method for target selection and amplification using specimens with limited DNA and low abundance targets. However, critical performance issues arise with pooling (multiplexing) of progressively larger numbers of PCR primers and reactions. Specifically, (i) amplification artifacts are introduced due to polymerase editing mistakes during annealed oligomer extension, and (ii) thermal damage to genomic targets takes place during high temperature cycling resulting in modification of the native nucleic acid sequence [7] . In addition, reaction biases emerge associated with primer–dimer formation, substrate competition, and sequence-dependent differences in PCR efficiency [8] . The maximum achievable pooling using conventional PCR is estimated to be 10 targets [9] , however, for next-gen sequencing approaches a significantly larger number of primers are necessary in multiplex reaction in order to achieve sequencing of large genomic regions. Therefore, one of the main factors that are crucial for successful amplification-based target enrichment is primer design for multiplex PCR.

PCR amplification includes repetitive cycles of DNA denaturation, primer annealing, and sequence extension. The oligonucleotide primers are designed to be complementary to a known genomic sequence of interest. When designing amplification primers for multiplex PCR, several factors must be considered including length of primers (18–25 nucleotides), melting temperature (NSNS) of the primers that should be either identical or within 1–2°C, appropriate GC content (50–55%), and lack of primer cross-complementarity. In addition, regions with repetitive sequences, known germ line single nucleotide polymorphisms (SNPs), and regions with high homology should be avoided because they may affect efficiency of PCR amplification and create amplification bias.

The most common type of amplification bias arises from unequal amplification of alleles due to sequence variation in the primer binding site [10] . Therefore, designed primers should be checked against SNP databases (dbSNP at www.ncbi.nlm.nih.gov/SNP ) or the 1000 genomes project ( www.1000genomes.org ) to assure that primer binding sides do not contain highly variable SNPs. If binding site sequence variation is impossible to avoid, primers should be modified to include several possible nucleotide variations in the primer design. In addition, primers also need to be checked against sequence databases ( http://blast.ncbi.nlm.nih.gov/ ) for evaluation of the primer specificity to the region of interest. This will avoid amplification of pseudogenes and other regions with high sequence homology that may result in erroneous sequence alignment and generation of false positive calls [11,12] . There are a number of software programs available for assisting with primer design (e.g., Primer3: http://frodo.wi.mit.edu/cgibin/primer3/primer3_www.cgi and PrimerBLAST: http://www.ncbi.nlm.nih.gov/tools/primer-blast ).

Highly multiplexed PCR permits amplification of thousands of short genomic sequences in a single tube and does not require a large amount of DNA. Depending on a platform, as low as 5–10 ng of DNA is sufficient for producing a high complexity library. Therefore, this approach has been successfully used in samples when only limited amount of DNA is available (i.e., from small tumor biopsies or FNA samples). However, it is necessary to understand that a very small tissue sample and correspondingly low amount of DNA (picograms) may misrepresent the cell composition in the specimen and affect library complexity by producing biased amplification of one cell population versus another (e.g., nonneoplastic vs. neoplastic cells). In addition, low DNA input can produce bias toward propagation of incorporated errors during early cycles of the PCR, mostly because no excess of DNA is available to compete with the erroneous sequence. Replication errors can be reduced through the use of polymerases with 3′–5′ exonucleolytic proofreading and mismatch repair capabilities, but at the cost of slower extension rates and lower thermostability. For example, Pfu polymerase (from Pyrococcus furiosus) exhibits <2% of the errors of Taq polymerase (from เทอร์มัส อควาติคัส) but has a much lower elongation rate (

20 nt/s vs. 80 nt/s, respectively, at 72°C) increasing exposure time for thermal damage [7] . Thermal modifications associated with PCR are characteristically reflected in depurination (A or G), deamination (C>U), and oxidation of G to 8-oxoG. Users should be aware of the potential for overrepresentation of these PCR-specific artifacts which can be miscalled as genetic variants. At a minimum, failure to control for these errors during amplicon sequencing results in overestimation of sample diversity while reducing sensitivity for detection of true genetic variants [13] .

Another advantage of multiplex PCR is in amplification of relatively short genomic regions (80–150 base pairs) that allows for a successful sequencing of DNA and RNA of suboptimal quality such as from FFPE tissue samples. However, sequencing of large consecutive genomic regions by multiplex PCR can create a cross-reaction between primer pairs due to primer overlap and, therefore, may require separation of closely located primers into several multiplex pools (and consideration of whether a capture-based method is more well suited to the analysis).

Similarly to other amplification-based methods, targeted amplification-based MPS requires incorporation of strict measures to avoid sample contamination with amplification products. Laboratories should implement physical separation of preamplification area for specimen processing and nucleic acid extraction and postamplification areas, develop a unidirectional workflow process, and assure decontamination of work surfaces.


ดูวิดีโอ: Multiplex PCR (มกราคม 2022).