Inferring Population Structure and Admixture Proportions in Low Depth NGS Data

Mapping Intimacies ◽

10.1101/302463 ◽

2018 ◽

Cited By ~ 5

Author(s):

Jonas Meisner ◽

Anders Albrechtsen

Keyword(s):

Principal Component Analysis ◽

Population Structure ◽

Next Generation Sequencing ◽

Principal Component ◽

Component Analysis ◽

Allele Frequencies ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Generation Sequencing

ABSTRACTWe here present two methods for inferring population structure and admixture proportions in low depth next generation sequencing data. Inference of population structure is essential in both population genetics and association studies and is often performed using principal component analysis or clustering-based approaches. Next-generation sequencing methods provide large amounts of genetic data but are associated with statistical uncertainty for especially low depth sequencing data. Models can account for this uncertainty by working directly on genotype likelihoods of the unobserved genotypes. We propose a method for inferring population structure through principal component analysis in an iterative approach of estimating individual allele frequencies, where we demonstrate improved accuracy in samples with low and variable sequencing depth for both simulated and real datasets. We also use the estimated individual allele frequencies in a fast non-negative matrix factorization method to estimate admixture proportions. Both methods have been implemented in the PCAngsd framework available at http://www.popgen.dk/software/.

Download Full-text

Analyzing population structure for forensic STR markers in next generation sequencing data

Forensic Science International Genetics ◽

10.1016/j.fsigen.2020.102364 ◽

2020 ◽

Vol 49 ◽

pp. 102364

Author(s):

Sanne E. Aalbers ◽

Michael J. Hipp ◽

Scott R. Kennedy ◽

Bruce S. Weir

Keyword(s):

Population Structure ◽

Next Generation Sequencing ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Str Markers ◽

Generation Sequencing

Download Full-text

Biotin-thiamine responsive basal ganglia disease: Identification of a pyruvate peak on brain spectroscopy, novel mutation inSLC19A3, and calculation of prevalence based on allele frequencies from aggregated next-generation sequencing data

American Journal of Medical Genetics Part A ◽

10.1002/ajmg.a.38189 ◽

2017 ◽

Vol 173 (6) ◽

pp. 1502-1513 ◽

Cited By ~ 3

Author(s):

Carlos R. Ferreira ◽

Matthew T. Whitehead ◽

Eyby Leon

Keyword(s):

Next Generation Sequencing ◽

Basal Ganglia ◽

Novel Mutation ◽

Allele Frequencies ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Disease Identification ◽

Basal Ganglia Disease ◽

Generation Sequencing

Download Full-text

Scalable Framework for the Analysis of Population Structure Using the Next Generation Sequencing Data

Lecture Notes in Computer Science - Foundations of Intelligent Systems ◽

10.1007/978-3-319-60438-1_46 ◽

2017 ◽

pp. 471-480 ◽

Cited By ~ 1

Author(s):

Anastasiia Hryhorzhevska ◽

Marek Wiewiórka ◽

Michał Okoniewski ◽

Tomasz Gambin

Keyword(s):

Population Structure ◽

Next Generation Sequencing ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Generation Sequencing

Download Full-text

Reconstruction of viral population structure from next-generation sequencing data using multicommodity flows

BMC Bioinformatics ◽

10.1186/1471-2105-14-s9-s2 ◽

2013 ◽

Vol 14 (S9) ◽

Cited By ~ 15

Author(s):

Pavel Skums ◽

Nicholas Mancuso ◽

Alexander Artyomenko ◽

Bassam Tork ◽

Ion Mandoiu ◽

...

Keyword(s):

Population Structure ◽

Next Generation Sequencing ◽

Next Generation Sequencing Data ◽

Viral Population ◽

Next Generation ◽

Multicommodity Flows ◽

Sequencing Data ◽

Generation Sequencing

Download Full-text

Estimation of population allele frequencies from next-generation sequencing data: pool-versus individual-based genotyping

Molecular Ecology ◽

10.1111/mec.12360 ◽

2013 ◽

Vol 22 (14) ◽

pp. 3766-3779 ◽

Cited By ~ 128

Author(s):

Mathieu Gautier ◽

Julien Foucaud ◽

Karim Gharbi ◽

Timothée Cézard ◽

Maxime Galan ◽

...

Keyword(s):

Next Generation Sequencing ◽

Allele Frequencies ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Generation Sequencing

Download Full-text

Identifikasi SNP genom pada populasi Elaeis guineensis x Elaeis oleifera

Jurnal Penelitian Kelapa Sawit ◽

10.22302/iopri.jur.jpks.v29i2.148 ◽

2021 ◽

Vol 29 (2) ◽

pp. 81-96

Author(s):

Sri Wening ◽

Heri Adriwan Siregar ◽

Edy Suprianto ◽

Dani Setyawan ◽

Hernawan Y Rahmadi ◽

...

Keyword(s):

Principal Component Analysis ◽

Next Generation Sequencing ◽

Elaeis Guineensis ◽

Principal Component ◽

Genotyping By Sequencing ◽

Component Analysis ◽

Next Generation ◽

Elaeis Oleifera ◽

Next Generation Sequencing Ngs ◽

Generation Sequencing

Usaha pencarian marka DNA yang berhubungan dengan sifat yang diinginkan pada Elaeis oleifera guna introgresi sifat tersebut ke genome Elaeis guineensis memerlukan marka DNA yang polimorfik. Untuk menghasilkan marka DNA yang polimorfik dengan jumlah banyak, identifikasi SNP genom dilakukan melalui pengurutan kembali (resequencing) 12 individu contoh populasi hibrida E. guineensis x E. oleifera (hibrida OxG), yaitu E. oleifera tipe liar, F1 hibrida interspesifik, pseudo-backcross dan material maju E. guineensis, menggunakan next generation sequencing (NGS). Read (urutan basa yang “dibaca”/merupakan keluaran mesin NGS) dari 12 contoh memiliki mutu yang baik dan 96% total read yang disaring dapat dilakukan demultipleks dan ditentukan pada contoh yang sesuai. Setelah proses penyaringan dan pemotongan, 84% read dapat digunakan untuk pemetaan genom dan menghasilkan 5,7X hingga 10,42X cakupan genom. Dari 34.410.224 SNP yang teridentifikasi, 98,7% diantaranya adalah varian non-coding, dan berdasarkan lokasi, 69,1% total SNP adalah SNP intergenic. Sebanyak 5.618 SNP dari total SNP yang dihasilkan dibuktikan menggunakan targeted genotyping by sequencing pada 500 individu contoh. Sebanyak 74% SNP yang digunakan bermutu tinggi yang dibaca pada setidaknya 95% contoh. Principal component analysis menggunakan SNP tersebut mampu mengidentifikasi setiap latar belakang genetik contoh. Pembuktian tersebut menyimpulkan bahwa identifikasi SNP yang dilakukan melalui pengurutan kembali menghasilkan SNP bermutu tinggi yang dapat digunakan untuk pengembangan marka DNA yang dapat diperbantukan pada seleksi populasi pemuliaan E. guineensis x E. oleifera.

Download Full-text

Robust inference of population structure from next-generation sequencing data with systematic differences in sequencing

Bioinformatics ◽

10.1093/bioinformatics/btx708 ◽

2017 ◽

Vol 34 (7) ◽

pp. 1157-1163 ◽

Cited By ~ 1

Author(s):

Peizhou Liao ◽

Glen A Satten ◽

Yi-Juan Hu

Keyword(s):

Population Structure ◽

Next Generation Sequencing ◽

Robust Inference ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Generation Sequencing

Download Full-text

Faculty Opinions recommendation of VarWalker: personalized mutation network analysis of putative cancer genes from next-generation sequencing data.

Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature ◽

10.3410/f.718272765.793499663 ◽

2014 ◽

Author(s):

Gary Bader ◽

Mohamed Helmy

Keyword(s):

Next Generation Sequencing ◽

Network Analysis ◽

Next Generation Sequencing Data ◽

Cancer Genes ◽

Next Generation ◽

Sequencing Data ◽

Generation Sequencing

Download Full-text

Faculty Opinions recommendation of Bioinformatory-assisted analysis of next-generation sequencing data for precision medicine in pancreatic cancer.

Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature ◽

10.3410/f.727775566.793536095 ◽

2017 ◽

Author(s):

Steve Pereira

Keyword(s):

Pancreatic Cancer ◽

Next Generation Sequencing ◽

Precision Medicine ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Assisted Analysis ◽

Generation Sequencing

Download Full-text

NGSremix: A software tool for estimating pairwise relatedness between admixed individuals from next-generation sequencing data

G3 Genes|Genome|Genetics ◽

10.1093/g3journal/jkab174 ◽

2021 ◽

Author(s):

Anne Krogh Nøhr ◽

Kristian Hanghøj ◽

Genis Garcia Erill ◽

Zilong Li ◽

Ida Moltke ◽

...

Keyword(s):

Next Generation Sequencing ◽

Genetic Research ◽

Likelihood Estimation ◽

Software Tool ◽

Estimation Methods ◽

Next Generation Sequencing Data ◽

Next Generation ◽

Sequencing Data ◽

Ngs Data ◽

Generation Sequencing

Abstract Estimation of relatedness between pairs of individuals is important in many genetic research areas. When estimating relatedness, it is important to account for admixture if this is present. However, the methods that can account for admixture are all based on genotype data as input, which is a problem for low-depth next-generation sequencing (NGS) data from which genotypes are called with high uncertainty. Here we present a software tool, NGSremix, for maximum likelihood estimation of relatedness between pairs of admixed individuals from low-depth NGS data, which takes the uncertainty of the genotypes into account via genotype likelihoods. Using both simulated and real NGS data for admixed individuals with an average depth of 4x or below we show that our method works well and clearly outperforms all the commonly used state-of-the-art relatedness estimation methods PLINK, KING, relateAdmix, and ngsRelate that all perform quite poorly. Hence, NGSremix is a useful new tool for estimating relatedness in admixed populations from low-depth NGS data. NGSremix is implemented in C/C ++ in a multi-threaded software and is freely available on Github https://github.com/KHanghoj/NGSremix.

Download Full-text