Em formação

Por que a montagem de iluminação final emparelhada sem nenhum parâmetro de entrada é um problema importante?

Por que a montagem de iluminação final emparelhada sem nenhum parâmetro de entrada é um problema importante?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Em um dos comentários nesta pergunta sobre alinhamento de sequência múltipla, foi afirmado

@ 5heikki: a propósito, se você quiser um bom problema de bioinformática, crie um montador que reúna qualquer iluminação final emparelhada e execute de novo de forma otimizada, sem quaisquer parâmetros de entrada.

O que é uma iluminação final emparelhada? Como é definido de forma otimizada neste contexto? Quais são os parâmetros de entrada usuais?


Os sequenciadores Next-Gen não podem sequenciar um trecho muito longo de DNA com boa confiabilidade (~ 150 para o modelo recente - HiSeq2000; ainda menos para modelos mais antigos, como GA (40), GA-II (70), GA-IIx (90 )). Para aumentar a confiança em um determinado acerto, ele foi sequenciado de ambas as extremidades. Por exemplo, se você selecionou o fragmento de DNA de 500 pb, depois de ligar os adaptadores a ambas as extremidades, ele é sequenciado em ambas as direções até 150 pb. Isso deixaria uma região de "inserção" sem sequência de 200 bp. (Na imagem de exemplo abaixo, eles sequenciaram até 40 bp [caso do antigo GA])



Durante a montagem, você costura os fragmentos de DNA para descobrir o DNA maior de onde os fragmentos surgem. No caso de RNAseq, eles surgem de uma transcrição, e sua montagem deve fornecer a transcrição completa (mRNA ou ncRNA etc). Existem dois tipos básicos de montagem: montagem guiada de referência e montagem de-novo. No primeiro, você usa uma sequência como o genoma como referência para montar as transcrições. Se tal referência não estiver disponível, você deve ir para a montagem de novo.

Os algoritmos de montagem usam vários parâmetros e, uma vez que são algoritmos de computador e não algum tipo de mágica, sua saída depende em certa medida dos diferentes parâmetros.

No caso de dados finais pareados, existem alguns parâmetros que são importantes. O mais importante é o tamanho da inserção. No caso de um fragmento de 500pb, você acabará com uma região não sequenciada de 200pb. Isso não é um grande problema com a montagem guiada de referência porque você pode descobrir a sequência da inserção com base em onde a região sequenciada se alinha à referência. O comprimento médio da inserção é importante para remover leituras discordantes (alinhamento muito distante na referência). No caso de montagem de novo, a inserção permanecerá sem sequência, mesmo se você souber que a transcrição final se parece com algo como:

frag1-frag6-frag3-frag9-frag4

Portanto, para obter a sequência da montagem, é necessário sequenciar as regiões de inserção. Isso não é um problema se você pelo menos souber a ordem dos fragmentos na montagem. Porém você deve saber o tamanho do insert para obter o tamanho correto da montagem e como disse skyminge, no andaime. Obter esse comprimento de inserção não é tão difícil (você não precisa fornecê-lo como um parâmetro. A maioria dos algoritmos pode calculá-lo automaticamente).

Outro parâmetro na montagem de-novo é o comprimento de k-mer (as leituras de sequência são divididas em k-mers para melhor montagem). Não posso explicar o algoritmo de montagem aqui em detalhes. Você pode verificar os manuais / documentos de algoritmos de montagem comuns como Velvet, SOAPdenovo, Euler [de novo]; botões de punho [com base em referência]

Eu mencionei o sequenciamento do transcriptoma aqui, mas os princípios são os mesmos para o sequenciamento do genoma também.

De volta à sua pergunta principal: Por que a montagem de iluminação final emparelhada sem nenhum parâmetro de entrada é um problema importante?

Porque é menos esforço; mas o ajuste pode ser difícil. Não vou considerar isso um problema importante. Existem outras otimizações algorítmicas importantes que são necessárias com a montagem de-novo.


No sequenciamento Illumina, o DNA é (geralmente aleatoriamente) dividido em fragmentos. Para sequenciamento final emparelhado, fragmentos de um intervalo de tamanho específico são selecionados e, em seguida, sequenciados de ambos os lados. Isso resulta em duas leituras para cada fragmento. Como o comprimento da leitura é fixo, também a "parte intermediária" restante do fragmento está em um intervalo de tamanho específico. Em alguns casos, não há parte intermediária, porque os fragmentos foram escolhidos tão pequenos que as leituras se sobrepõem.

As informações sobre o tamanho do fragmento e / ou a "parte intermediária", bem como o comprimento da leitura, são alguns dos parâmetros mais importantes de que você precisa para uma montagem de novo. Você pode fugir sem considerar o tamanho da leitura como um parâmetro, se precisar, você ainda pode executar todas as leituras e verificar. Mas o tamanho do fragmento ou tamanho da inserção é importante para colocar as leituras, especialmente no scaffolding.

Esta entrada do blog também contém algumas informações interessantes sobre a discussão frequentemente próxima sobre o que significa tamanho de inserção (tamanho do fragmento, o tamanho da parte do meio) e o que pode acontecer com leituras e leituras sobrepostas.

Há muito mais a dizer sobre isso. A Illumina também fornece alguns vídeos legais disponíveis no youtube.


Análise de processamento de dados e expressão gênica de RNA-Seq

Este documento descreve as etapas essenciais no processo de análise de dados de expressão gênica usando sequenciamento de RNA (mRNA, especificamente) e recomenda ferramentas e técnicas comumente usadas para esse fim. Presume-se neste documento que o projeto experimental é simples e que a expressão diferencial está sendo avaliada entre 2 condições experimentais, ou seja, uma comparação 1: 1 simples, com algumas informações sobre a análise de dados de projetos experimentais complexos. O foco do SOP está em leituras específicas de segmento único; no entanto, medidas especiais a serem tomadas para a análise de dados emparelhados também são brevemente discutidas. A cobertura recomendada para RNA-Seq em amostras humanas é de 30-50 milhões de leituras (extremidade única), com um mínimo de três réplicas por condição, de preferência mais se for possível fazer um orçamento adequado. A preferência também é geralmente dada para um número maior de repetições com um rendimento de sequência por amostra menor (15-20 milhões de leituras) se houver uma compensação entre o número de leituras por amostra e o número total de repetições.

Glossário de termos associados e jargão

Etapas processuais

Este artigo de protocolo 2 foi um recurso muito bom para compreender as etapas do procedimento envolvidas em qualquer análise de RNA-Seq. Os conjuntos de dados que eles usam naquele papel estão disponíveis gratuitamente, mas a fonte de RNA foi a mosca da fruta Drosophila melanogaster, e não tecido humano. Além disso, utilizam exclusivamente a suíte “smoking” desenvolvida em seu grupo.

Vários artigos estão agora disponíveis que descrevem as etapas em mais detalhes para preparar e analisar dados de RNA-Seq, incluindo o uso de ferramentas estatísticas mais recentes:

Além disso, novos métodos sem alinhamento também foram publicados e estão sendo cada vez mais usados ​​na análise (incluímos um segundo protocolo detalhando o uso deles):

As seções abaixo detalham esses protocolos e sugerem ferramentas.

Figura 1. Etapas no fluxo de trabalho de RNA-Seq


Fundo

Como alternativa econômica e de alto rendimento à tecnologia de sequenciamento Sanger clássica, as tecnologias de sequenciamento de próxima geração emergentes revolucionaram a pesquisa biológica. Quando comparadas à tecnologia de sequenciamento Sanger, as plataformas NGS (por exemplo, 454, Illumina e ABI-SOLiD) [1] têm suas desvantagens, incluindo comprimento de leitura de sequência mais curto, taxa de erro de chamada de base mais alta, cobertura não uniforme e artefatos específicos da plataforma [2 –4] que pode afetar gravemente os esforços de análise de dados downstream.

Uma das áreas mais importantes da análise de dados NGS é de novo genoma ou montagem do transcriptoma. De novo a montagem é essencial para estudar organismos não-modelo onde um genoma ou transcriptoma de referência não está disponível. Uma abordagem comum para de novo montagem de sequências NGS usa De Bruijn Estrutura de dados Graph (DBG) [5], que gerencia o grande volume e o comprimento curto de leitura dos dados NGS melhor do que os assemblers Overlap-Layout-Consensus clássicos, como TIGR e Phrap [6, 7]. Na abordagem baseada em DBG, as leituras são decompostas em K-mers que, por sua vez, se tornam os nós de um DBG. Os erros de sequenciamento complicam o DBG porque uma única base chamada incorretamente pode resultar em uma nova sequência K-mer que, subsequentemente, introduzirá um novo caminho no DBG. Esses K-mers incorretos aumentam a complexidade do DBG, prolongam o tempo de execução do montador, aumentam o consumo de memória e, por fim, levam a uma montagem de baixa qualidade [8]. O pré-processamento de leituras NGS para remover bases chamadas incorretamente seria benéfico para o desempenho do montador DBG e a montagem resultante.

Outra área importante da análise de dados NGS é a montagem baseada em referência, ou seja, mapeamento ou alinhamento de leituras para um genoma ou transcriptoma de referência. Esta etapa é crucial para muitas aplicações de NGS, incluindo RNA-Seq [9], ChIP-Seq [10] e SNP e detecção de variantes estruturais genômicas [11]. O mapeamento correto de leituras para uma referência depende muito da qualidade de leitura [12, 13]. Por exemplo, algumas ferramentas de mapeamento usam as pontuações de qualidade básicas de uma leitura para determinar os locais de incompatibilidade. Leituras quiméricas ou outros artefatos de sequenciamento podem introduzir lacunas no alinhamento. Bases errôneas adicionam complexidade adicional à identificação correta das posições reais de incompatibilidade durante o processo de mapeamento. Portanto, a limpeza das leituras de sequenciamento bruto pode melhorar a precisão e o desempenho das ferramentas de alinhamento.

Nós desenvolvemos ngsShoRT (Sequenciamento de última geração Short Reads Trimmer), um pacote de software de código aberto abrangente e flexível que implementa muitos algoritmos de pré-processamento comumente usados, reunidos na literatura de sequenciamento e montagem. Além disso, realizamos avaliações sistemáticas dos efeitos do uso de sequências de leitura curta pré-processadas geradas por diferentes algoritmos no resultado de novo e montagem baseada em referência de três genomas: Caenorhabditis elegans, Saccharomyces cerevisiae S288c, e Escherichia coli O157 H7. Também comparamos o desempenho de ngsShoRT com outras ferramentas de corte existentes: CutAdapt[14], NGS QC Toolkit[15] e Trimmomatic[16].


Resultados

Aplicamos os nove algoritmos de recorte em quatro conjuntos de dados diferentes (consulte Materiais e Métodos). A qualidade desses conjuntos de dados foi avaliada com FastQC (consulte Arquivo S1 e Figura S1 para gráficos de distribuição Q) e medida por diferentes métricas, como a pontuação de erro média PHRED, vieses de conteúdo GC e variações de qualidade específicas da posição. Os conjuntos de dados variam visivelmente, possuindo parâmetros de qualidade quase perfeitos para o conjunto de dados Yeast DNA-Seq e, de alguma forma, de média a alta para leituras brutas de Lovell (Figura S1). Os conjuntos de dados RNA-Seq são caracterizados pelo Arabidopsis thaliana é lido como representante de leituras de alta qualidade, enquanto em Homo sapiens- dados derivados, a probabilidade de erro é alta e altamente variável ao longo do comprimento de leitura.

Efeitos do corte de leitura na análise de expressão gênica

Testamos o desempenho de nove algoritmos de corte diferentes em dois conjuntos de dados RNA-Seq originários de humanos e Arabidopsis (ver materiais e métodos). Avaliamos o número de leituras e nucleotídeos alinhados sobre os respectivos genomas de referência, permitindo a abertura de lacunas das leituras nas regiões emendadas. É evidente como o processo de corte em todos os casos reduz o número de leituras, enquanto aumenta a porcentagem do conjunto de dados sobrevivente capaz de se alinhar corretamente sobre o genoma de referência. No caso de baixa qualidade Homo sapiens conjunto de dados (Figura 1), enquanto 72,2% das leituras do conjunto de dados não ajustadas estão alinhadas, as aparadas alcançam valores acima de 90%, com picos em ConDeTri em 97,0% (HQ = 15, LQ = 10) e SolexaQA (Q = 5) em 96,7% (Tabela 2). No entanto, SolexaQA atinge a mais alta qualidade enquanto mantém o maior número de leituras e, portanto, parece ser a ferramenta ideal para maximizar a compensação entre a perda de leituras e o aumento na qualidade, pelo menos em conjuntos de dados RNASeq de baixa qualidade, como o analisado aqui ( Figura 2). Para este conjunto de dados, podemos observar uma compensação pseudo-ótima entre a perda de leitura e a qualidade das leituras restantes, expressa como o número de leituras alinhadas sobre o número total de leituras (Figura 1), que está entre Q = 20 e Q = 30 para SolexaQA-BWA, Trimmomatic, Sickle, Cutadapt e ERNE-FILTER. Outros aparadores, como o FASTX, sendo capazes de operar apenas a partir da extremidade 3, não alcançam o mesmo desempenho que as outras ferramentas (Figura 2). Embora retenha uma proporção semelhante de leituras mapeadas corretamente (avaliadas aproximadamente pela porcentagem de mapeamento de leituras nos modelos de genes UCSC), a perda de informações é consistente quando comparada a conjuntos de dados não ajustados (Figura S2).

Para ConDeTri, dois parâmetros básicos são necessários e combinações de ambos são relatadas (o que explica a aparência não monotônica dos gráficos de barra). Barras vermelhas indicam a porcentagem de leituras alinhadas no conjunto de dados aparado. Barras azuis indicam o número de leituras que sobreviveram ao corte.

RNASeqGenotipagemConjunto do Genoma
Conjunto de dados ArabidopsisConjunto de dados humanosConjunto de dados de leveduraConjunto de dados PeachConjunto de dados de leveduraConjunto de dados Peach
% Máx. De leituras mapeadas (limite)% Máx. De leituras mapeadas (limite)APOMAC no limite padrãoAPOMAC no limite padrãoN50 (bp)PrecisãoLembrarN50 (bp)PrecisãoLembrar
Não aparado82.774%72.189%0.2367%0.2909%9,09599.196%92.734%18,09395.116%74.272%
ConDeTri98,980% (HQ = 40, LQ = 35)96,973% (HQ = 15, LQ = 10)0.0485%0.0851%4,83099.600%91.834%14,52596.389%75.090%
Cutadapt99,422% (Q = 40)91,751% (Q = 26)0.0647%0.1589%6,25699.692%92.874%17,65395.349%74.466%
ERNE-FILTER98,687% (Q = 38)95,475% (Q = 30)0.0638%0.1564%6,21499.691%92.863%17,66595.374%74.482%
FASTX98,733% (Q = 40)87,733% (Q = 40)0.0655%0.1614%6,35799.692%92.892%17,69295.399%74.510%
PRINSEQ98,752% (Q = 40)88,616% (Q = 40)0.0652%0.1599%6,35799.692%92.890%17,69095.345%74.465%
Foice99,422% (Q = 40)95,971% (Q = 20)0.0547%0.1308%5,38299.446%92.194%17,07495.495%74.504%
SolexaQA99,002% (Q = 40)96,743% (Q = 5)0.0644%0.1581%3,20999.642%89.770%13,57196.223%74.490%
SolexaQA-BWA98,705% (Q = 38)91,947% (Q = 26)0.0409%0.0645%6,25699.692%92.875%17,66295.328%74.449%
Trimmomatic99,422% (Q = 40)95,875% (Q = 22)0.0511%0.1119%4,78499.579%91.851%16,14195.766%74.629%

Tabela 2. Resumo das comparações entre as ferramentas de corte investigadas neste estudo.

Cada símbolo corresponde a um limite de qualidade. Os parâmetros de pico Q para cada ferramenta são relatados.

É interessante notar que, em geral, cada ferramenta mostra diferentes limiares Q ótimos (Figura 2 e Tabela 2) para maximizar a qualidade das leituras cortadas (expressa neste caso pela porcentagem de leituras de mapeamento sobre a referência). Além disso, cada ferramenta mostra tendências diferentes entre Q e mapeamento (porcentagem de leituras pós-corte mapeadas no genoma de referência): para alguns (como SolexaQA e ConDeTri), limites soltos são suficientes para atingir a saída mais robusta. Para outros (como FASTX e PRINSEQ), o limite mais alto possível parece a solução ideal em termos de qualidade (com uma perda simultânea de leituras). Finalmente, algumas ferramentas (como Cutadapt, Sickle, SolexaQA-BWA e Trimmomatic) possuem um limite Q intermediário ideal, maximizando a quantidade relativa de leituras sobreviventes alinhadas no genoma de referência. No caso do conjunto de dados de qualidade superior originado de Arabidopsis thaliana, todas as ferramentas têm um desempenho comparável e nenhum melhor Q claramente identificável para compensar entre capacidade de mapeamento e perda de leitura. Partindo de uma linha de base não ajustada de capacidade de mapeamento de 82,8%, todas as ferramentas alcançam uma capacidade de mapeamento acima de 98,5% com limites rigorosos (Q & gt30, consulte a Tabela 2 e a Tabela S1). Em ambos os casos, entretanto, o corte afeta e remove as partes mais “não mapeáveis” do conjunto de dados, já em limiares mais baixos. Carregar um subconjunto aparado, mas confiável, das leituras de RNA-Seq originais pode reduzir a necessidade de espaço em disco e o tempo necessário para o processo de alinhamento geral, pois as sequências de alto erro já teriam sido eliminadas.

Efeitos do corte de leitura na identificação SNP

A fim de avaliar o impacto do corte na identificação do SNP, usamos leituras provenientes de amostras de genoma dihaploide, especificamente do Prunus persica Variedade Lovell e da Saccharomyces cerevisiae Cepa YDJ25. Em tais origens genéticas, é possível avaliar qualquer chamada de nucleotídeo não homozigoto como uma estimativa direta de chamada de SNP falso-positiva. Para isso, avaliamos a Porcentagem Média de Chamadas de Alelos Menores como um índice denominado APOMAC. Ao mesmo tempo, medimos a Porcentagem Média de Chamadas de Alelos Não-Referência (APONAC), embora esta última seja uma subestimação de APOMAC, uma vez que assume que o indivíduo sequenciado tem um genoma idêntico ao da sequência de referência. A presença total de nucleotídeos não homozigotos, relacionada à chamada de SNP falso-positiva e avaliada pelo índice APOMAC, é, como esperado, reduzida por corte (Figura 3). Todos os trimmers reduzem drasticamente a porcentagem de nucleotídeos de alelos alternativos alinhados sobre os genomas de referência, ambos em Prunus persica (Figura 3) e em levedura (Tabela 2 e Tabela S1), trazendo este indicador de chamada falso positivo de 30% a 10% ou menos do total de nucleotídeos alinhados. Esta perda de ruído bastante espetacular pode ser alcançada com qualquer trimmer com um limiar Q igual ou superior a 20 (Tabela S1). As ferramentas de melhor desempenho, em termos de APOMAC e APONAC, são ConDeTri e SolexaQA, que reduzem rapidamente o número de chamadas de alelos menores. Enquanto aumenta a qualidade da chamada SNP, a perda de cobertura devido ao corte é menor: FASTX, SolexaQA-BWA, PRINSEQ, Cutadapt e ERNE-FILTER com valores Q padrão, todos processam as leituras sem uma perda perceptível do genoma de referência coberto. Isso foi testado e relatado por diferentes limites mínimos de cobertura (Figura 4).

Várias combinações de limite / método de corte de leitura são testadas. A Porcentagem Média de Chamada de Alelo Menor (APOMAC) ou de Chamada de Alelo Sem Referência (APONAC) são relatados, junto com o número total de SNPs de alta confiança.

A análise foi realizada em leituras não cortadas e após corte com 9 ferramentas em Q = 20 (para ConDeTri, os parâmetros padrão HQ = 25 e LQ = 10 foram usados).

Efeitos do corte de leitura na montagem do genoma de novo

O corte de leitura afeta apenas parcialmente os resultados da montagem do genoma e não há grande diferença entre os resultados dos diferentes conjuntos de dados (consulte a Figura 5 e a Tabela 2). Os efeitos negativos são vistos para valores de alta qualidade (por exemplo, Q & gt30) na maioria dos conjuntos de dados. Conjuntos de dados aparados de ConDeTri, Trimmomatic, Sickle e especialmente SolexaQA produzem montagens um pouco mais fragmentadas e isso é provavelmente devido a um corte mais rigoroso que reflete também em menores necessidades computacionais (consulte a Figura 6). O montador usado, ABySS, modela e lida com erros de sequenciamento, portanto, a montagem do conjunto de dados não aparado resulta melhor em certas métricas (comprimento médio do andaime, andaime mais longo, N50 em bp), mas ao custo de uma precisão ligeiramente inferior e um cálculo computacional muito maior exigem. Por outro lado, o corte rigoroso tende a remover fortemente os dados e diminuir a qualidade geral da montagem.

Várias combinações de limite / método de corte de leitura são testadas. As barras amarelas relatam o N50 (em relação ao conjunto de dados não aparado N50). Barras azuis relatam a precisão da montagem (% dos nucleotídeos montados que podem ser alinhados na referência Prunus persica genoma). Barras vermelhas relatam a recuperação da montagem (% da referência Prunus persica genoma coberto pela montagem).

Efeitos gerais do corte de leitura

Uma análise geral das três análises de biologia computacional investigadas aqui nos permite tirar três conclusões.Em primeiro lugar, o corte é benéfico em RNA-Seq, identificação de SNP e procedimentos de montagem de genoma, com os melhores efeitos evidentes para limiares de qualidade intermediários (Q entre 20 e 30). Em segundo lugar, embora todas as ferramentas se comportem muito bem (em comparação com cenários não ajustados), alguns conjuntos de dados com problemas específicos ou baixa qualidade geral (Figura 2) se beneficiam mais dos algoritmos mais recentes que operam nas extremidades 5 'e 3' da leitura, como como ERNE-FILTER, ou que permitem ilhas de baixa qualidade rodeadas por trechos de alta qualidade, como o ConDeTri. Terceiro, a escolha de um limite ideal é sempre uma troca entre a quantidade de informação retida (ou seja, o número de leituras / nucleotídeos sobreviventes) e sua confiabilidade, ou seja, em RNA-Seq a fração alinhavel, na identificação de SNP a quantidade de verdadeiros nucleotídeos alinhados positivos e na montagem do genoma, a porcentagem dos andaimes montados corretamente e mapeáveis ​​no genoma de referência. No geral, o corte também oferece uma vantagem em termos de recursos computacionais usados ​​e tempo de execução, avaliados para montagem do genoma no presente estudo (Figura 6), mas evidente também para as outras análises (dados não mostrados). O desempenho do corte parece depender da distribuição Q do conjunto de dados de entrada. Por exemplo, observamos uma queda repentina nos chamados SNPs acima dos limites de corte Q de cerca de 35 (Figura 3). Na verdade, Q = 35 é aproximadamente o ponto de inflexão na distribuição Q do Prunus persica conjunto de dados (Figura S1). Por outro lado, para maior qualidade Saccharomyces cerevisiae conjunto de dados, a queda nos chamados SNPs está realmente presente, mas mais gradual, e observada em valores Q acima de 36, enquanto a distribuição Q para esses conjuntos de dados mostra um ponto de inflexão em Q = 37 (Figura S1).


Discussão

Leituras de sequência precisas e sua montagem confiável são cruciais para todas as aplicações downstream de projetos NGS [15]. Sem um genoma de referência, estimar o número de genes sequenciados, sua% de cobertura e se eles foram montados corretamente é um desafio [3, 23]. Como o uso de NGS continua a aumentar para organismos não-modelo, a necessidade de algoritmos de montagem que funcionam bem em de novo a montagem aumenta concomitantemente, especialmente para a montagem dos dados da seqüência curta de leitura para a plataforma Solexa / Illumina [3].

O desempenho dos três montadores de leitura curta (VELVET, NGEN e OASES) investigados diferiu muito. Enquanto o VELVET resultou no maior número de contigs totais, apenas nove por cento deles foram maiores do que 200pb. Em contraste, mais de 50% dos contigs montados de NGEN e OASES eram maiores que 200 pb. À medida que a precisão do mapeamento aumenta com o aumento do tamanho do contig [14], concluímos que os últimos conjuntos de contig devem se parecer com uma qualidade geral superior. Essa suposição foi reforçada pelos resultados das pesquisas do BLAST. A meta-montagem dos quatro conjuntos de contig resultou em contigs mais longos, que também resultaram em um número maior de ocorrências do BLAST na maioria das pesquisas.

Avaliação de qualidade de contig indireta

Embora a montagem do VELVET tenha o maior número de contigs e o maior número de acertos em vários bancos de dados, isso se deve à má montagem dos contigs. É importante ressaltar que nossa capacidade de obter esse insight depende do banco de dados de referência usado para pesquisas do BLAST e, portanto, requer atenção cuidadosa. Nas comparações do BLAST com o banco de dados UniProt, o número de ocorrências UniGen para os contigs VELVET é substancialmente menor em comparação com os outros conjuntos com um valor de corte de & lt e -10 e também contigs & gt 200bp (Figura 2). A discrepância entre acertos totais e UniGen deriva muito provavelmente da montagem incompleta de contigs pelo montador VELVET, resultando em muitos contigs independentes, cada um atingindo genes semelhantes, enquanto estes são unidos pelos outros programas e, portanto, constituem acertos únicos para determinados genes para o Assemblies NGEN e OASES. Além disso, os conjuntos de contig longos pelos outros programas geram mais resultados BLAST de alta qualidade do que aqueles encontrados para VELVET (Figura 2). No entanto, os resultados do BLAST contra RefSeq indicam um número muito maior de acertos UniGen pela montagem VELVET do que os outros dois métodos (Figura 3). Este resultado surge devido à natureza altamente redundante do banco de dados RefSeq, uma vez que contém conjuntos únicos de genes para várias espécies. O banco de dados RefSeq deve, portanto, ser usado com cautela, uma vez que o número de tipos exclusivos de genes não deve diferir significativamente daqueles identificados usando o banco de dados UniProt.

Na comparação do BLAST com um banco de dados que consiste em uma única espécie intimamente relacionada, B. glabrata, a montagem NGEN resultou no maior número de UniGens e VELVET mostrando desempenho especialmente ruim ao considerar contigs montados & gt 200bp de comprimento.

Combinar todos esses assemblies no meta-assembly resultou em contigs que superaram os outros assemblies nas pesquisas do BLAST X contra o UniProt e B. glabrata bancos de dados em todas as categorias, exceto uma.

Um meio adicional de avaliar o desempenho da montagem do contig é comparar as ocorrências reais identificadas pelas diferentes montagens. Acertos semelhantes indicam sequência e precisão de contig semelhantes. As comparações foram feitas entre os conjuntos para a pesquisa BLAST X versus o banco de dados UniProt (valor de corte & lt e -10, comprimento de contig & gt 200bp), que mostrou que a proporção de contigs que levam a acertos de genes idênticos foi mais alta entre os conjuntos de contig NGEN e OASES. Isso mais uma vez fortaleceu nossa interpretação de que a qualidade dos contigs NGEN e OASES superava a do VELVET.

Avaliação de qualidade de contig direto

Os diferentes conjuntos de contig foram avaliados diretamente comparando seu desempenho entre os 13 genes mitocondriais de R. balthica[24]. Em geral, os contigs VELVET tiveram o maior número de acertos contra esses genes devido a esses contigs serem muito mais curtos. As outras montagens tinham contigs mais longos e menos, que tinham comprimento de alinhamento médio mais alto, com a metamontagem mostrando o melhor desempenho (ou seja, o menor número de contigs com o comprimento de contig alinhado médio mais alto (Tabela 2). Contigs mais longos tinham uma correspondência de identidade inferior para os genes do mtDNA, que provavelmente surgem devido a diferenças genéticas nas amostras usadas para isso e no genoma do mtDNA publicado para R. balthica e, potencialmente, erros de sequenciamento (que têm maior probabilidade de ocorrer em contigs longos em comparação com os curtos). Identificamos alguns contigs cuja região intermediária não se assemelhava à sequência de referência e os identificamos como erros de montagem. Além disso, a maioria dos contigs da montagem NGEN e OASES tinha uma extensão de 20-30 bp anexada no início do contig que não corresponde ao genoma do mtDNA. Para o assembly NGEN, essa extensão foi identificada como o adaptador de sequenciamento Illumina não removido durante a filtragem devido à baixa correspondência de identidade. Para os contigs OASES, atualmente não temos uma explicação para a origem do anexo. Como as extensões parecem ser um erro quase sistemático, cortar os primeiros 30 bp de cada sequência de contig é um meio de resolver esse problema (embora alguma sequência de boa qualidade possa ser perdida).

Apesar dessas diferenças, a cobertura dos genes do mtDNA foi bastante semelhante entre os conjuntos de contig, com média em torno de 50 - 55% (Tabela 2). O agrupamento de todos os contigs das assembléias cobriu 79% dos genes mt. Assim, embora contigs dos três montadores se sobreponham em grande medida, cada conjunto de contig cobre algumas partes que são perdidas pelos outros, com pelo menos 24% das informações de bp disponíveis não são usadas por nenhum dos três montadores. Identificamos 27 clusters com 2 a 25 sobrepostos e, em grande parte, contigs VELVET idênticos. Em contraste, entre os contigs NGEN, não foram encontrados mais de dois contigs com sobreposição superior a 30 bp. Como as duas principais razões para montagem insuficiente, a inspeção visual do genoma mt revelou sobreposição de leitura insuficiente e montagens perdidas, embora sobreposição idêntica e suficiente estivesse presente. Isso pode ser rastreado até o uso de RNA de vários indivíduos agrupados, o que leva a um número maior de variantes SNP e, portanto, pode dificultar a montagem [11]. Em nosso estudo, identificamos 6,3 SNPs por mil pares de bases (n = 52), semelhante aos 6,7 SNPs identificados no Vera et al. [11] estudo. O número estimado de erros de sequenciação é quase idêntico (n = 51) e resulta em uma taxa de erro de sequenciamento de 0,6%. Obviamente, a variação do SNP e os erros de sequenciamento afetam a montagem do VELVET, mas não parecem influenciar os outros dois montadores. A meta-montagem combinou o SNP VELVET curto contendo contigs em um, eliminando amplamente a redundância (arquivo adicional 4). No entanto, embora a meta-montagem tenha diminuído o número de contigs de 560 para 82, isso apenas resultou em uma melhoria modesta na cobertura líquida em comparação com VELVET (58% vs. 55% respectivamente).

Duas outras observações importantes merecem discussão. Em primeiro lugar, os contigs que acertam os genes mt podem ser divididos em dois grupos. Um grupo de contigs mostra uma relação clara entre o comprimento de alinhamento do contig e o comprimento total do contig. O outro grupo consiste em contigs que passaram o valor de corte & lt e -5, mas têm apenas um comprimento de alinhamento muito curto com a sequência de referência e, portanto, são devidos efetivamente devido a correspondências aleatórias e não homólogas (Figura 7). Em segundo lugar, embora uma relação clara entre o valor de corte e o comprimento do alinhamento seja visível para os contigs NGEN e OASES, os contigs do VELVET e da metmontagem têm outliers claros que podem ser erros de montagem. Estes são contigs perto do valor de corte com baixo comprimento de alinhamento e com valores de corte de estringência muito altos (por exemplo, & lt e -65 ).

Comparação com outros estudos

O número de correspondências UniGen contra o banco de dados UnipProt encontrado em outros estudos de transcriptoma de organismos não-modelo com base na plataforma 454 / Roche é aproximadamente semelhante às 5380 correspondências de metamontagem detectadas neste estudo, em um valor de corte de & lt e -5 (por exemplo, [11]Melitaea cinxia: 6122 em & lt e -5). No entanto, dado o nosso maior esforço de sequenciação em comparação com estudos anteriores (dados de qualidade total produzidos: 976 Mbp vs. 66 Mbp, ou seja, 14 vezes maior em comparação com o M. cinxia estudo [11]), esperávamos identificar mais genes. Observações anteriores de resultados de baixa explosão em espécies de moluscos podem ser atribuídas a três fatores principais [25, 26]. Em primeiro lugar, a baixa quantidade de acertos pode ser explicada pela falta de conjuntos de dados EST de espécies de moluscos em Genbank [25, 26] e a escassez geral de dados genéticos de moluscos em comparação com insetos e peixes. Em segundo lugar, uma grande proporção de genes em espécies de moluscos não compartilham relações ortólogas, mas representam novas famílias de genes [26]. Terceiro, o alto nível de divergência de aminoácidos para outras linhagens de invertebrados mais bem estudadas e a distância evolutiva para outros organismos reduzem a probabilidade e a qualidade dos acertos do BLAST [26, 27]. Esses pontos destacam a necessidade de mais dados genômicos de moluscos para aumentar nosso conhecimento e facilitar os estudos genômicos neste filo.


Uma abordagem otimizada para montagem local de novo de leituras RAD emparelhadas sobrepostas de vários indivíduos

O sequenciamento do DNA associado ao local de restrição (RAD) está revolucionando os estudos em genômica ecológica, evolutiva e de conservação. No entanto, a montagem de leituras RAD de extremidades emparelhadas com extremidades cortadas aleatoriamente ainda é um desafio, especialmente para espécies não-modelo com alta variância genética. Aqui, apresentamos uma abordagem otimizada eficiente com um software de pipeline, RADassembler, que faz uso total de leituras RAD de extremidades emparelhadas com extremidades cortadas aleatoriamente de vários indivíduos para montar contigs RAD. O RADassembler integra os algoritmos para escolher o número ideal de incompatibilidades dentro e entre os indivíduos no estágio de agrupamento e, em seguida, usa uma abordagem de montagem em duas etapas no estágio de montagem. O RADassembler também usa estratégias de redução de dados e paralelização para promover a eficiência. Em comparação com outras ferramentas, tanto os resultados da montagem com base na simulação quanto os conjuntos de dados RAD reais demonstraram que o RADassembler sempre pode montar o número apropriado de contigs com altas qualidades, e mais pares lidos foram mapeados corretamente para os contigs montados. Esta abordagem fornece uma ferramenta ideal para lidar com a complexidade na montagem de leituras RAD de extremidades emparelhadas com extremidades cortadas aleatoriamente para espécies não-modelo em estudos ecológicos, evolutivos e de conservação. O RADassembler está disponível em https://github.com/lyl8086/RADscripts.

1. Introdução

Desenvolvimentos recentes de técnicas de sequenciamento de alto rendimento estão revolucionando os estudos de genética ecológica, evolutiva e de conservação. Sequenciamento de DNA associado ao local de restrição (RAD-seq) [1,2], que aproveita o rendimento massivo de sequenciamento de próxima geração, permite a descoberta de baixo custo e genotipagem de milhares de marcadores genéticos em espécies modelo e não modelo [3 , 4]. As técnicas de sequenciamento Illumina emparelhadas (PE) tornam o RAD (RPE) original [5,6] mais atraente para estudos de novo. As primeiras leituras começam no local de corte da enzima de restrição, enquanto as segundas leituras são escalonadas sobre uma região genômica local de geralmente várias centenas de pares de bases. Além disso, as leituras de RPE sobrepostas de cada locus RAD podem ser individualmente montadas em um contig com o local de corte da enzima em uma extremidade. Os contigs montados podem fornecer mais informações de sequências para anotações de detonação e remoção de parálogos [4,6,7]. Além disso, as leituras RPE também podem ser usadas para remover duplicatas da reação em cadeia da polimerase (PCR), o que irá melhorar a precisão da genotipagem a jusante, e as leituras sobrepostas podem melhorar ainda mais a precisão da genotipagem nas extremidades das leituras [4].

Para aumentar a cobertura da sequência para montagem de contigs RAD, é uma prática padrão agrupar leituras de vários indivíduos, o que pode introduzir complexidade de montagem, especialmente para espécies não-modelo com pouco conhecimento do fundo genômico [8,9]. O software de montagem é desafiado por repetições, erros de sequenciamento, polimorfismos no alvo e a complexidade computacional de grandes volumes de dados [10]. Os polimorfismos entre diferentes indivíduos também complicam a montagem, e isso pode ser mais desafiador, particularmente para espécies com alta variância genética. A montagem para leituras RPE é mais difícil em comparação com outras abordagens RAD que produzem loci RAD de comprimento fixo (flRAD), como ddRAD [11]. PE ddRAD é muito mais fácil de montar, porque ambas as leituras emparelhadas começam nos locais de corte da enzima de restrição com comprimento de leitura fixo de cobertura uniforme de profundidade e as leituras podem ser facilmente empilhadas. No entanto, o RPE é mais difícil de montar, pois as segundas leituras são escalonadas por causa da sonicação e da seleção do tamanho, portanto, sua cobertura não é uniforme. Além disso, há uma grande diferença de profundidade entre a primeira e a segunda leituras, o que torna a montagem de leituras RPE mais desafiadora.

Estudos anteriores reuniram leituras RPE em contigs usando diferentes ferramentas de montagem [5,8,12], como o software baseado em Gráfico de Bruijn (DBG) Velvet [13] e o software baseado em Overlap-Layout-Consensus (OLC) CAP3 [14 ] e LOCAS [15]. Davey et al. [9] demonstraram que o VelvetOptimiser foi a melhor ferramenta de montagem para dados RAD, comparando nove ferramentas de montagem. No entanto, Hohenlohe et al. [8] descobriram que o CAP3 teve um desempenho muito melhor do que o Velvet. Os resultados de Hohenlohe et al. mostrou que a maioria das leituras de um locus poderia ser cada uma montada em um contig usando CAP3, enquanto o Velvet falhou em conectar as leituras de PE sobrepostas em muitos loci. As possíveis causas dos resultados conflitantes entre os dois estudos podem ser atribuídas ao fato de que Davey et al. não usaram o protocolo de preparação da biblioteca RPE sobreposto e usaram apenas as segundas leituras para montagem e, portanto, as informações das primeiras leituras foram perdidas. Existem diversos softwares para a montagem de dados RAD que suportam leituras PE, como Stacks [16,17], Rainbow [18], pyRAD [19] e dDocent [20]. No entanto, muitas dessas ferramentas não podem oferecer suporte direto e total a conjuntos de dados RPE com leituras PE escalonadas. Existem muitos estudos que não fizeram uso total de leituras RPE para montagem ou descoberta de polimorfismo de nucleotídeo único (SNP) devido à falta de software ou abordagens que são especialmente otimizadas para montagem RPE. Portanto, um software fácil de usar, bem como uma abordagem especialmente otimizada para a montagem de leituras RPE é urgentemente necessário. Aqui, apresentamos uma abordagem de montagem otimizada com um software de pipeline, RADassembler, para lidar com a complexidade da montagem RAD, que poderia aproveitar ao máximo as leituras RPE sobrepostas.

Os objetivos deste estudo são: (a) apresentar uma abordagem otimizada com o software de pipeline RADassembler para montagem local de novo das leituras RPE sobrepostas de vários indivíduos e (b) comparar os desempenhos do RADassembler com as pilhas originais, Rainbow e dDocent em conjuntos de dados de simulação e RPE reais.

2. Material e métodos

Fazendo uso total dos recursos de leituras RPE, podemos primeiro agrupar as primeiras leituras (as leituras diretas com locais de corte de enzima) em loci RAD com base na similaridade de sequência, em seguida, agrupar os pares de leitura de cada locus em conformidade e realizar o de nova montagem. O software de pipeline RADassembler, escrito em Bash e Perl, usa principalmente Stacks e CAP3 para realizar a montagem local de novo das leituras RPE. Especificamente, Stacks é usado para cluster e CAP3 é usado para montagem. Escolhemos Stacks (versão 1.48) para agrupamento devido à sua popularidade na análise de dados RAD-seq em estudos anteriores.

2.1. Escolha dos limites de similaridade ideais para clustering

Como os limites de similaridade (o número de incompatibilidades) para agrupamento são críticos para a análise downstream, adotamos um protocolo de Ilut et al. [21] para seleção de limiar de similaridade ideal dentro de indivíduos. Dois componentes principais de Stacks foram usados ​​para a seleção de limites ótimos de similaridade, ustacks e cstacks. Os dados de cada indivíduo foram agrupados em loci por ustacks e os loci foram agrupados entre os indivíduos por cstacks. O RADassembler executaria ustacks de Pilhas usando um conjunto de incompatibilidades (por exemplo, de 1 a 10) usando um único indivíduo. O número ideal de incompatibilidades dentro do indivíduo foi escolhido para maximizar o número de clusters com dois haplótipos (alelos) e simultaneamente minimizar o número de clusters com um haplótipo (alelo). Um novo método para escolher o limite de similaridade entre indivíduos (cstacks) também foi introduzido: RADassembler executaria cstacks de Pilhas usando um conjunto de incompatibilidades (por exemplo, de 1 a 10) em um subconjunto de dados (por exemplo, selecionar aleatoriamente vários indivíduos de cada população) . O número ideal de incompatibilidades entre os indivíduos foi escolhido no ponto de inflexão, de modo que o número de loci incrementais para cada indivíduo que se uniu usando diferentes incompatibilidades mudou pouco. Todos os parâmetros acima podem ser definidos pelos usuários.

2.2. Montagem de novo de contigs RAD

Depois de escolher o número ideal de incompatibilidades dentro e entre os indivíduos, as primeiras leituras foram enviadas para as pilhas para agrupamento.Uma profundidade mínima de 5 foi definida para criar uma pilha, e o número de incompatibilidades permitidas entre as pilhas foi definido como o ideal para manter os alelos verdadeiros dos parálogos. Algoritmos de desalavancagem e remoção de pilhas foram ativados para resolver loci mesclados e para filtrar loci altamente repetitivos e provavelmente parálogos. Ao construir o catálogo, o número de incompatibilidades permitidas entre os loci entre os indivíduos foi definido como o ideal para tentar mesclar os loci. Finalmente, apenas as segundas leituras de cada locus RAD de vários indivíduos foram coletadas em arquivos fasta separados usando uma versão modificada de ‘sort_read_pairs.pl’ de Stacks. O RADassembler usou técnicas de redução de dados para selecionar um certo número de leituras (máximo de 400 e mínimo de 10, definido pelos usuários) para a montagem.

Para reduzir a complexidade da montagem, apresentamos aqui uma abordagem de montagem em duas etapas implementada no RADassembler (figura 1). Em primeiro lugar, as segundas leituras (as leituras reversas) com extremidades cortadas aleatoriamente de vários indivíduos correspondentes a cada locus RAD foram enviadas para CAP3 para montar separadamente, e os contigs resultantes de cada locus foram então mesclados com a sequência de consenso correspondente das primeiras leituras do catálogo de pilhas em um arquivo. Em segundo lugar, cada arquivo mesclado foi montado localmente novamente nos contigs RAD finais usando CAP3. Na segunda etapa, se os contigs da primeira etapa não se sobrepusessem às sequências de consenso, eles seriam concatenados por dez 'N'. A abordagem de montagem foi paralelizada para atingir a eficiência máxima. O RADassembler usou parâmetros especificamente otimizados para a montagem de leituras curtas seguindo o manual do CAP3 (consulte o material eletrônico suplementar para obter os detalhes dos parâmetros).

Figura 1. Fluxograma para a abordagem de montagem em duas etapas em leituras RPE. (i) As primeiras leituras (as leituras diretas com locais de corte de enzima) foram agrupadas. (ii) As segundas leituras (as leituras reversas com extremidades cortadas aleatoriamente) foram classificadas em arquivos separados de acordo (cada locus representado por cores diferentes continha leituras de vários indivíduos). As leituras foram montadas por uma estratégia de montagem de duas etapas: (iii) primeira etapa, as segundas leituras foram montadas localmente em contigs e mescladas com as sequências de consenso correspondentes das primeiras leituras (iv) segunda etapa, os arquivos mesclados foram montados localmente novamente em os contigs finais do RAD. Se os contigs da segunda leitura não se sobrepõem às sequências de consenso, dez 'N' serão preenchidos (locus em azul).

2.3. RADassembler em dados de simulação

Para avaliar o desempenho do RADassembler, simulamos 12 indivíduos com altos níveis de heterozigosidade (0,02) no genoma de referência do Genome Reference Consortium Zebrafish Build 11 (GRCz11, acesso NCBI: GCF_000002035.6) digerido com a enzima SbfI. Apenas a montagem primária em 25 cromossomos de GRCz11 foram retidos por em sílico digerir. Usando 'ezmsim', uma versão modificada de 'wgsim' [22] do Rainbow, leituras PE de comprimento 125 bp foram simuladas a partir de uma variedade de bibliotecas de tamanho de inserção iniciadas a partir de 200 bp e alongamento de 10 etapas, com cada etapa se estendendo a 50 bp . A profundidade média das leituras de PE foi definida como 10 para cada etapa, e uma taxa de erro de sequenciamento de 0,01 foi introduzida aleatoriamente de acordo com uma taxa de erro comum de aproximadamente 0,1-1 × 10 -2 para máquinas de sequenciamento Illumina [23]. Portanto, a cobertura esperada para cada locus RAD simulado é de 700 bp, e os SNPs foram aleatórios em todos os indivíduos. Depois de verificar o número ideal de limites de similaridade (consulte os resultados e a figura 2), o número de incompatibilidades dentro do indivíduo (ustacks) foi definido como 6 e o ​​número de incompatibilidades entre os indivíduos (cstacks) foi definido como 4. Toda a simulação e subsequentes as análises foram realizadas em uma estação de trabalho com 20 CPUs (2,30 GHz) e 256 GB de memória e 30 threads foram usados ​​quando a paralelização estava disponível.

Figura 2. A seleção do número ideal de incompatibilidades dentro de (uma) e transversalmente (b) indivíduos em conjuntos de dados de simulação. As leituras de cada indivíduo foram agrupadas em loci por ustacks, e loci foram agrupados entre os indivíduos por cstacks para construir o catálogo. O número ideal de incompatibilidades dentro do indivíduo (ustacks) foi escolhido para maximizar o número de loci (Y-eixo à esquerda) com dois alelos e simultaneamente minimizar o número de locos com um alelo. Nesse caso, seis incompatibilidades devem ser um valor apropriado para ustacks. Para cstacks, o número ideal de incompatibilidades entre os indivíduos foi escolhido no ponto de inflexão, de modo que o número de loci incrementais (Y-eixo à direita) para cada indivíduo que se une (X-eixo à direita) usando diferentes limiares de incompatibilidade (representados por diferentes tipos de linha) mudaram pouco. Nesse caso, quatro incompatibilidades devem ser um valor apropriado para cstacks.

2.4. RADassembler em dados reais

A sobreposição de RPE lê 24 indivíduos para a pequena corvina amarela Larimichthys polyactis de Zhang et al. [24] foram selecionados como um conjunto de dados real, com tamanhos de insertos aproximados de 200 a 600 bp. Leituras brutas foram inicialmente processadas por cutadapt [25] para remover adaptadores potenciais, depois foram passadas para process_radtags de Stacks para eliminar pares de leitura de baixa qualidade com um tamanho de janela de 0,1 e um limite de pontuação de 13. Apenas pares de leitura contendo locais de corte de enzima foram retido. Além disso, os duplicados de PCR foram removidos por clone_filter de Stacks. As leituras retidas finais dos 24 indivíduos foram enviadas para RADassembler para montagem de contigs RAD otimizada. O número de incompatibilidades foi definido como 3 (ustacks) e 3 (cstacks) seguindo o método de escolha de limiares de similaridade ideal (consulte Resultados e figura 3). Os contigs montados foram removidos pelo adaptador usando adaptação de corte e um comprimento mínimo de contigs de 125 bp também foi necessário.

Figura 3. A seleção do número ideal de incompatibilidades dentro de (uma) e transversalmente (b) indivíduos em conjuntos de dados reais (L. polyactis) O número ideal de incompatibilidades dentro do indivíduo deve ser 3 (uma), e o número ideal de incompatibilidades entre os indivíduos deve ser 3 (b), embora os valores liberais possam ser mais apropriados.

2,5. Comparações do desempenho com outras ferramentas

Comparamos o desempenho de montagem do RADassembler com três outras ferramentas populares que suportavam leituras RPE, incluindo as Stacks originais (versão 1.48), Rainbow (versão 2.04) e dDocent (versão 2.2.20). Os desempenhos de montagem em simulações e conjuntos de dados reais foram comparados. Os parâmetros nas pilhas originais eram idênticos aos usados ​​no RADassembler, exceto que todos os pares lidos de vários indivíduos para cada locus foram extraídos usando uma versão modificada de 'sort_read_pairs.pl' e, em seguida, enviados para o wrapper 'exec_velvet.pl 'fornecido por Stacks para montar contigs. Este invólucro executará Velvet em cada locus e coletará as sequências nos contigs finais, sendo necessário um comprimento mínimo de contig de 125 bp. Rainbow é uma solução ultrarrápida e com uso eficiente de memória para agrupar e montar leituras curtas produzidas por RAD-seq. O Rainbow inclui três etapas na montagem de contigs RAD: agrupamento, divisão e fusão (montagem). Os parâmetros no Rainbow foram definidos de acordo com os usados ​​no RADassembler e dDocent, que foram ajustados para vários indivíduos. dDocent é um pipeline de análise que usa técnicas de redução de dados e outros pacotes de software autônomos para realizar filtragem de qualidade, montagem de novo de loci RAD, mapeamento de leitura, chamada SNP e filtragem de dados. Os valores de corte para cobertura de leituras na primeira etapa de montagem de dDocent foram definidos como 5 (dentro do indivíduo) e 2 (entre indivíduos), respectivamente o limite de similaridade para o último agrupamento de referência foi definido para o valor ideal usado no estágio de agrupamento RADassembler. Todos os parâmetros detalhados usados ​​nos programas acima são apresentados no material eletrônico suplementar.

Avaliamos os desempenhos da montagem de diferentes ferramentas usando as estatísticas comumente usadas, incluindo N50, comprimento médio do contig e comprimento total do contig (cobertura). Além disso, para os dados de simulação, os contigs montados também foram mapeados para o genoma de referência original usando o programa BLAST + [26] local, a identidade média e a cobertura foram calculadas. Para conjuntos de dados reais, como nenhum genoma de referência estava disponível para L. polyactis, o genoma de referência (acesso NCBI: GCF_000972845.1) do congênere (Larimichthys crocea) foi selecionado para mapeamentos de explosão. Além disso, os pares de leitura também foram mapeados de volta para os contigs montados usando BWA 0.7.15 [27] para verificar o número de leituras mapeadas e leituras mapeadas corretamente. As leituras devidamente mapeadas foram aquelas com a leitura direta e a leitura reversa mapeadas no mesmo contig (loci) e com orientação correta, bem como tamanho de inserção adequado, que foi identificado por sinalizadores SAM fornecidos pelo alinhador. Para simplificação e consistência, apenas os pares de leitura usados ​​para a montagem em Pilhas foram usados ​​para todos os mapeamentos de leituras, o que representaria um subconjunto abrangente das leituras de entrada brutas. O algoritmo 'mem' [28] em BWA foi usado para mapeamento e os parâmetros foram definidos para o padrão. As estatísticas de mapeamento foram calculadas por Samtools 1.6 [22].

3. Resultados

3.1. Comparações de montagem de contigs RAD em dados de simulação

Usando em sílico digerir, havia 29 242 locais de corte de SbfI no conjunto principal dos 25 cromossomos de GRCz11. Assim, foi gerada uma cobertura aproximada esperada de biblioteca RAD de 20 469 400 bp para cada indivíduo, que cobria aproximadamente 1,52% do genoma. Usando um conjunto de incompatibilidades (de 1 a 10 para ustacks, de 1 a 8 para cstacks) para agrupar as primeiras leituras de execuções preliminares, as incompatibilidades ideais dentro do indivíduo (ustacks) foram definidas como 6 e o ​​número ideal de incompatibilidades entre indivíduos (cstacks) foi definido como 4 (figura 2). A RADassembler exportou um total de 29 533 loci para montagem, todos os quais foram montados com sucesso. O contigs montado estava com um N50 de 698 bp, comprimento médio do contig de 661 bp e uma cobertura total de 19 633 933 bp (tabela 1). A distribuição do comprimento dos contigs montados é apresentada na figura 4.

Figura 4. Distribuição de comprimento de contigs montados pelas quatro ferramentas em conjuntos de dados de simulação. Versões do programa: Stacks 1.48, Rainbow 2.04, dDocent 2.2.20.

Tabela 1. Estatísticas de montagem das quatro ferramentas em conjuntos de dados de simulação. Estatísticas de comparação, incluindo (da esquerda para a direita): número de clusters (loci) montados, número de clusters mapeados para o genoma de referência (clusters idênticos), N50 (bp), comprimento contig médio (média, bp), cobertura total (Total Cov, bp), bases idênticas ao genoma de referência (Cov idêntico, bp), bases idênticas ao genoma de referência em proporção da cobertura total (Razão de Cov), identidade média daqueles mapeados para o genoma de referência (Identidade Média), total taxa de mapeamento dos pares lidos (Total Mapped), taxa de mapeamento adequada dos pares lidos (par adequado).

Em comparação com as outras três ferramentas, o RADassembler identificou o número mais adequado de clusters (loci), e os contigs montados geralmente apresentaram qualidades altas (tabela 1). Ao mapear os contigs para o genoma de referência, 99,96% dos clusters (contigs montados) foram mapeados para a referência, com uma identidade média de 98,78%. O RADassembler apresentou a maior taxa de cobertura e taxa de mapeamento adequada, com 98,60% das leituras devidamente mapeadas. Stacks e dDocent montaram muitos contigs de comprimento curto, que não estavam de acordo com a expectativa (deveriam estar em torno do tamanho máximo da pastilha, 700 bp). As pilhas (Velvet) não conseguiram reunir a maioria dos loci, embora tenham recuperado o número apropriado de loci no estágio de agrupamento. As pilhas originais reuniram apenas 8717 loci, e a maioria das leituras não puderam ser devidamente mapeadas de volta (apenas 11,12% foram mapeadas corretamente), o que pode sugerir que o Velvet era inadequado para a montagem de leituras RPE. O Rainbow montou muito mais loci (154 410) do que as outras ferramentas, o que não estava de acordo com a expectativa, sugerindo a existência de muitos loci redundantes. dDocent montou 20 248 loci com um N50 de apenas 262 bp. Ao mapear de volta os pares lidos, apenas 36,62% dos pares lidos foram mapeados corretamente para os contigs montados de dDocent. Embora o dDocent fosse o mais eficiente em termos de tempo entre as quatro ferramentas (consulte o material suplementar eletrônico para obter detalhes de benchmark), o RADassembler ainda era mais eficiente do que as pilhas e o arco-íris originais. De uma perspectiva abrangente, RADassembler foi a ferramenta de melhor desempenho entre as quatro e os detalhes de comparação são apresentados na tabela 1.

3.2. Comparações de montagem de contigs RAD em dados reais

Após a filtragem de qualidade, um total de 62 960 475 pares de leitura foram retidos para os 24 indivíduos de L. polyactis, com uma média de pares lidos de 2 623 353 por indivíduo. Usando execuções preliminares para verificar os limites de similaridade ideais, o número de incompatibilidades dentro do indivíduo foi definido como 3 e o número de incompatibilidades entre os indivíduos foi definido como 3 (figura 3). A RADassembler exportou um total de 303 929 loci para montagem e todos eles foram montados com sucesso. Os contigs montados, com N50 de 539 bp, comprimento médio do contig de 511 bp e cobertura total de 157 941 578 bp, também demonstraram qualidades elevadas (tabela 2). A maioria dos pares lidos (98,98%) foi mapeada para os contigs, e 95,99% destes foram devidamente mapeados. Ao mapear os contigs montados para o genoma de referência de L. crocea, 98,33% dos contigs montados foram mapeados para a referência com uma identidade média de 95,85%.

Tabela 2. Estatísticas de montagem das quatro ferramentas em conjuntos de dados reais de L. polyactis. Os parâmetros de comparação foram os mesmos usados ​​nos conjuntos de dados de simulação.

O RADassembler também foi mais competente do que as outras três ferramentas nos conjuntos de dados reais (tabela 2). Ele sempre mostrou a maior taxa de mapeamento adequada, e o comprimento dos contigs estava de acordo com o tamanho esperado (figura 5). Semelhante a seus desempenhos em conjuntos de dados de simulação, Stacks (Velvet) e dDocent tiveram um desempenho ruim na recuperação do tamanho de contigs apropriado nos conjuntos de dados reais (figura 5), ​​sendo que muitos deles eram curtos. As Stacks (Velvet) e Rainbow originais reuniram mais clusters (loci), e a cobertura total foi de 181 151 234 bp e 182 080 648 bp, respectivamente. No entanto, uma grande proporção dos pares lidos não pôde ser mapeada adequadamente. Para as pilhas originais, 87,89% das leituras foram mapeadas, mas apenas 49,16% delas foram mapeadas corretamente. No entanto, Rainbow teve um desempenho melhor do que Stacks nos conjuntos de dados reais e ele mesmo nos conjuntos de dados de simulação. O tamanho dos contigs montados pela Rainbow também estava de acordo com o tamanho esperado do inserto. Além disso, a taxa de mapeamento total e adequada é de 92,34% e 85,47%, respectivamente, mas ainda não é tão boa quanto RADassembler. dDocent montou 183 763 clusters, e o tamanho da maioria dos contigs montados era pequeno, o que era consistente com seu desempenho nos conjuntos de dados de simulação. A maioria dos contigs montados por dDocent foram em torno de 260 bp, que era o comprimento da leitura direta (125 bp) e da leitura reversa (125 bp) mais dez 'N', sugerindo sua falha na montagem da segunda leitura com aleatoriamente extremidades cortadas (figura 5). Os detalhes de comparação de desempenho das ferramentas são apresentados na tabela 2.

Figura 5. Distribuição de comprimento de contigs montados pelas quatro ferramentas em conjuntos de dados reais (L. polyactis) Versões do programa: Stacks 1.48, Rainbow 2.04, dDocent 2.2.20.

4. Discussão

Diversas ferramentas de análise foram lançadas e amplamente aplicadas para ajudar os pesquisadores a lidar com dados RAD-seq. No entanto, estudos anteriores com base em RPE usaram apenas as primeiras leituras [29,30] para chamada SNP e análise genética da população a jusante, ou apenas a segunda leituras para montagem de contigs [6,31,32], e as informações para as outras leituras foram desperdiçadas então. Embora a maioria dessas ferramentas ofereça suporte a leituras PE, muitas delas não oferecem suporte direto a leituras RPE com extremidades cortadas aleatoriamente. Muitos estudos não tiraram total proveito dos pares de leitura RPE para chamadas de montagem e SNP. As principais restrições aqui podem ser a profundidade de cobertura altamente desigual dos pares de leitura e a profundidade geralmente baixa das segundas leituras, conforme mostrado em Davey et al. [9]. No entanto, o RADassembler ajudou a reduzir a complexidade da montagem do EPR, e os resultados apresentados neste estudo demonstraram sua grande promessa e ampla aplicabilidade.

O RADassembler ofereceu duas vantagens em sua montagem para leituras RPE: (i) usou métodos para escolher os limites de similaridade ideais dentro e entre os indivíduos e (ii) usou uma abordagem de montagem em duas etapas para reduzir com eficiência a complexidade da montagem. A seleção do limite de similaridade é crítica para a análise downstream. Limiares rigorosos causarão divisão excessiva, que cria falsa homozigosidade, e limites liberais causarão divisão insuficiente, que cria heterozigosidade falsa [21,33]. Limiares de similaridade incorretos afetam as inferências do nível de variação nas estimativas genéticas e filogeográficas da população a jusante [33]. RADassembler pode identificar com eficiência o limite ideal dentro e entre os indivíduos, sem o conhecimento prévio de heterozigosidade. Como um software de pipeline, dDocent também inclui uma estratégia de duas etapas na montagem de leituras RAD, mas a lógica disso é bastante diferente de RADassembler. dDocent foi originalmente projetado e otimizado para conjuntos de dados flRAD [20], embora sua versão atual também suporte conjuntos de dados RPE. Na primeira etapa da montagem, o dDocent usa as leituras PE concatenadas (apenas as primeiras leituras foram usadas para RPE) para contar as ocorrências de leituras exclusivas, então os usuários podem escolher um nível de corte de cobertura para leituras a serem usadas na montagem. A escolha de um corte de leituras exclusivas dentro de um indivíduo é semelhante àquela em ustacks (o parâmetro de profundidade mínima de cobertura necessária para criar uma pilha) de Stacks. As leituras concatenadas restantes são então divididas de volta em pares de leitura, agrupadas e montadas localmente pelo Rainbow (na versão atual do dDocent, CD-HIT [34,35] é usado para agrupamento). Por fim, os contigs montados são agrupados com base na similaridade geral da sequência usando CD-HIT. Em contraste, o RADassembler usa apenas a segunda leitura de cada lugar geométrico para a montagem local em sua primeira etapa de montagem. Os contigs montados para as segundas leituras são então mesclados (montados ou preenchidos por dez 'N') com as sequências de consenso correspondentes das primeiras leituras. Os contigs de referência de saída de dDocent representam apenas um subconjunto do conteúdo total de informações genômicas da entrada bruta [20], o que pode ser a causa de sua taxa de mapeamento adequada mais baixa nos resultados. No entanto, RADassembler reunirá informações mais abrangentes para uma montagem de novo de loci RAD. A referência RAD abrangente é útil para anotações downstream e aumentará a chance de descobrir polimorfismos de nível individual.

O RADassembler também suporta multi-threading e inclui uma etapa de redução de dados antes da montagem. Os usuários podem escolher um nível de corte de cobertura para restringir o número mínimo e máximo de leituras para cada locus usado na montagem.Assim, o RADassembler obteve uma melhor eficiência de funcionamento em comparação com as Stacks e Rainbow originais. Rainbow inclui uma etapa de divisão após o primeiro agrupamento para distinguir erros de sequenciamento de heterozigotos ou variantes entre sequências repetitivas [18]. Embora essa etapa tenha funcionado perfeitamente para dados de um único indivíduo, ela não teve um desempenho tão bom em dados agrupados de vários indivíduos, especialmente em espécies com polimorfismos elevados, conforme mostrado nos conjuntos de dados de simulação. Rainbow pode ser inadequado para a montagem de conjuntos de dados RPE de vários indivíduos com heterozigotos altos, embora os parâmetros precisem de otimizações adicionais. RADassembler usa Stacks para melhor agrupamento e é mais apropriado para lidar com polimorfismos entre vários indivíduos. Stacks usa principalmente duas etapas para montagem de novo de loci, ustacks para agrupamento dentro de indivíduos e cstacks para construção de catálogos entre indivíduos. O Stacks original usa Velvet assembler baseado em DBG para montar contigs apenas para a segunda leitura de leituras RPE. Ao modificar o programa para incluir as primeiras leituras, no entanto, o Velvet não teve um bom desempenho e falhou ao conectar leituras RPE sobrepostas em muitos locais. Resultados semelhantes também foram observados em Hohenlohe et al. [8]. Ambos os montadores baseados em OLC CAP3 (usados ​​no RADassembler) e Rainbow montaram o tamanho apropriado de contigs, sugerindo suas vantagens sobre os montadores baseados em DBG na montagem de leituras RPE.

Existem duas categorias de montadores NGS amplamente usados, que são baseados nos métodos OLC ou nos métodos DBG [10]. Os métodos OLC baseiam-se em um gráfico de sobreposição envolvendo três fases: sobreposição, layout e consenso [36]. Os montadores baseados em OLC realizam alinhamentos em pares (que são caros computacionalmente) para descobrir sobreposições e o comprimento das sobreposições não precisa ser uniforme. Os métodos DBG contam com o grafo k-mer, que usa subsequência de comprimento fixo (k-mer) como seus nós e sobreposições entre k-mer consecutivos como suas arestas. Os métodos de gráfico K-mer não requerem a descoberta de sobreposição tudo-contra-tudo [10], portanto, podem perder algumas sobreposições verdadeiras, mas têm vantagens na eficiência de montagem para leituras curtas de alto rendimento. O montador baseado em gráfico k-mer foi aplicado em dados RAD em muitos estudos, como aqueles que usam Velvet [32,37] e VelvetOptimiser [6,9]. No entanto, os montadores baseados em DBG não tiveram um bom desempenho no estudo apresentado, bem como em Hohenlohe et al. [8]. O problema geral pode ser devido à cobertura de sequência altamente desigual de profundidade esperada em cada locus para os conjuntos de dados RPE [8], o que torna difícil para o Velvet montar corretamente os contigs. Na verdade, o Velvet é confundido pela cobertura não uniforme das sequências alvo, uma vez que usa heurísticas baseadas em cobertura para distinguir regiões únicas putativas de regiões repetitivas putativas [38]. No entanto, em comparação com gráficos de sobreposição, os gráficos k-mer são mais sensíveis a repetições e erros de sequenciamento [10], sugerindo que as ferramentas baseadas em gráfico k-mer (como o Velvet) podem ser menos poderosas para a montagem de leituras agrupadas de vários indivíduos. Os polimorfismos entre os indivíduos também complicarão a montagem, particularmente para métodos de gráfico k-mer. Os métodos OLC tiveram um desempenho muito melhor, embora um pouco mais caros computacionalmente, mas ainda acessíveis após a redução de dados e paralelização. Além disso, o RADassembler usa uma estratégia de duas etapas para reduzir ainda mais a complexidade da montagem RPE. Esta estratégia oferece duas vantagens: em primeiro lugar, reduz a complexidade das leituras de vários indivíduos, bem como as demandas de cálculo, usando sequências de consenso das primeiras leituras e técnicas de redução de dados (selecione aleatoriamente um subconjunto de leituras) em segundo lugar, torna a profundidade em cada etapa de montagem uniforme. Ao mesmo tempo, também é fundamental que os pesquisadores variem os parâmetros para otimizar a montagem. Uma solução é estimar os parâmetros de montagem para cada locus [9] e usar uma estratégia de montagem híbrida (use montadores OLC e DBG). No entanto, isso causaria severas demandas computacionais. Nossa abordagem apresentada aqui fornece uma boa ferramenta para lidar com a complexidade da montagem RAD, particularmente para a montagem de leituras RPE de vários indivíduos com alta variação genética.

Os contigs RAD são atrativos para a detecção e anotação de locais de interesse (por exemplo, outliers). Os contigs montados têm maiores probabilidades de acertar o banco de dados do que as sequências de consenso de extremidade única. Essas anotações são importantes para aplicações genômicas populacionais e genéticas de conservação. Além disso, os contigs RAD oferecem mais chances de detecção de valores discrepantes. Espera-se que as sequências contínuas mais longas contenham mais SNPs que podem ser relevantes para as adaptações locais. Os contigs RAD montados também fornecem sequências de flanqueamento suficientes para o projeto de primers ou matrizes que podem ser posteriormente usados ​​para realizar verificações funcionais ou estudos de evolução adaptativa com base em mais amostras.

No presente estudo, fornecemos uma abordagem otimizada com o software de pipeline RADassembler para lidar com a complexidade de montagem para leituras RPE de vários indivíduos. Os resultados em simulações e conjuntos de dados reais sugeriram sua alta precisão e eficiência. O RADassembler incluiu os protocolos para escolher os limites de similaridade ideais, técnicas de redução de dados, bem como uma abordagem de montagem em duas etapas para reduzir a complexidade da montagem para leituras RPE. RADassembler pode fornecer uma ferramenta ideal para lidar com a complexidade da montagem RAD para espécies não-modelo em estudos ecológicos, evolutivos e de conservação, especialmente para espécies com polimorfismos elevados.


Avaliação de qualidade com FastQC

Mais controle de qualidade! Yay! Observe que ainda não fizemos nada perto de interpretar os resultados biológicos de nossa execução de sequenciamento.

FastQC é uma ótima ferramenta para ver seus dados pela primeira vez. Pode dar a você uma impressão se houver certos preconceitos em seus dados ou se algo deu errado na preparação de sua biblioteca ou execução de sequenciamento. É realmente fácil de executar, basta digitar o seguinte na linha de comando (após a instalação):

Você receberá um .html com gráficos diferentes. Mais informações, como sempre, na documentação. Não confie na aprovação / advertência / falha no FastQC, isso realmente depende da preparação da sua biblioteca. No sequenciamento de bissulfito, por exemplo, haverá pouca ou nenhuma citosina no conteúdo da sequência de base, mas isso é de se esperar (já que quase todas são convertidas em timina). FastQC classifica isso incorretamente como “falha”. Como o Basespace, a experiência é importante ao interpretar gráficos FastQC. Se você está intrigado com algo, pergunte a um colega.

Na maioria das vezes, você analisará mais de uma amostra e gerará alguns arquivos de log. MultiQC é um software fantástico, com um comando:

você pode agregar todos os seus arquivos de log em um relatório. Eu uso o tempo todo e não posso recomendar o suficiente.

Se você estiver interessado em escrever pipelines de melhores práticas para processar seus arquivos fastq, talvez se interesse pelo bcbio. Mas você ainda precisa saber o que está acontecendo nos bastidores do pipeline do bcbio, ou talvez queira desenvolver um sozinho.


Conclusões

A revolução do sequenciamento de bancada levou a uma "democratização" do sequenciamento, o que significa que a maioria dos laboratórios de pesquisa pode se dar ao luxo de sequenciar genomas bacterianos inteiros quando seu trabalho assim exigir. No entanto, analisar os dados agora é um grande gargalo para a maioria dos laboratórios. Fornecemos um ponto de partida para os biólogos começarem a trabalhar rapidamente com seus próprios dados do genoma bacteriano, sem investir dinheiro em softwares caros ou cursos de treinamento. As figuras mostram exemplos do que pode ser alcançado com as ferramentas apresentadas e o tutorial que acompanha fornece instruções passo a passo para cada tipo de análise.


Implementação

O Konnector cria longas pseudo-leituras a partir de leituras de sequenciamento emparelhadas (Figura 1), procurando caminhos de conexão entre pares de leitura usando uma representação de filtro Bloom de um gráfico de Bruijn. Além de conectar pares de leitura, o Konnector v2.0 também pode estender sequências conectadas ou não conectadas, seguindo os caminhos das extremidades das sequências até o próximo ponto de ramificação ou beco sem saída no gráfico de Bruijn. Quando o recurso de extensão de sequência do Konnector v2.0 está habilitado, um filtro Bloom adicional é empregado para evitar a produção de uma quantidade intratável de sequências duplicadas. A Figura 2 fornece uma visão geral do fluxograma do algoritmo Konnector 2.0.

Um caminho de conexão entre duas leituras de sequenciamento emparelhadas não sobrepostas em um gráfico de Bruijn. O Konnector junta-se à sequência fornecida pelas leituras de fim pareado de entrada (verde) por meio de uma busca gráfica por um caminho de conexão (azul). Erros de sequenciamento nos dados de sequenciamento de entrada produzem bolhas e ramificações no gráfico de Bruijn de até k nós de comprimento (vermelho). Os falsos positivos do filtro Bloom produzem ramificações adicionais (amarelas) com comprimentos que são normalmente muito mais curtos do que as ramificações de erro.

O algoritmo Konnector2. (1): O algoritmo constrói uma representação de filtro Bloom do gráfico de Bruijn carregando todos os k-mers dos dados de sequenciamento emparelhados de entrada. (2): Para cada par lido, é realizada uma pesquisa gráfica para conectar caminhos dentro do gráfico de Bruijn. (3): Se um ou mais caminhos de conexão forem encontrados, uma sequência de consenso para os caminhos é construída. (4): Se nenhum caminho de conexão for encontrado, a correção de erro é tentada nas leituras 1 e 2. (5) e (6): o algoritmo consulta a existência da sequência de conexão de consenso ou das leituras corrigidas de erro no "filtro duplicado". O filtro duplicado é um filtro Bloom adicional, separado do gráfico Bloom filter de Bruijn, que rastreia as partes do genoma que já foram montadas. (7) e (8): Se um ou mais dos k-mers na sequência de consulta não forem encontrados no filtro duplicado, a sequência é estendida para fora no gráfico de Bruijn, até que um beco sem saída ou um ponto de ramificação seja encontrados no gráfico. Finalmente, as sequências estendidas são gravadas no arquivo de pseudo-leituras de saída.

Gráfico Bloom filter de Bruijn

Como a taxa de transferência das plataformas Illumina aumentou rapidamente para gerar até 1 TB em uma execução de seis dias com os HiSeq SBS V4 Kits, uma preocupação importante para ferramentas de geração de pseudo-leitura é sua eficiência computacional. Em problemas relacionados, ferramentas de bioinformática têm usado estratégias como computação paralela [11, 12], indexação FM [13, 14] e estruturas de dados compactados [15] para lidar com big data.

Para ajustar grandes problemas de montagem em memória pequena, uma abordagem recente tem sido o uso de filtros Bloom [16, 3] para representar os gráficos de Bruijn, conforme demonstrado pelo montador Minia [17]. Konnector adota uma abordagem semelhante. Resumidamente, um filtro Bloom é uma matriz de bits que atua como uma representação compacta de um conjunto, onde a presença ou ausência de um elemento no conjunto é indicada pelo estado de um ou mais bits na matriz. A posição particular dos bits que correspondem a cada elemento é determinada por um conjunto fixo de funções hash. Embora os filtros Bloom sejam muito eficientes em termos de memória, o principal desafio do desenvolvimento de algoritmos de filtro Bloom é lidar com a possibilidade de falso-positivo. Um falso positivo ocorre quando as posições dos bits de um elemento que não está no conjunto colidem com as posições dos bits de um elemento que é no conjunto. No contexto dos gráficos de Bloom filter de Bruijn, falsos positivos se manifestam como falsos ramos, conforme representado pelos nós amarelos na Figura 1.

Na primeira etapa do algoritmo (Figura 2, etapa (1)), o gráfico do filtro Bloom de Bruijn é construído fragmentando as leituras de entrada em k-mers e carregando os k-mers em um filtro Bloom. Para diminuir o efeito de erros de sequenciamento em estágios posteriores do algoritmo, k-mers são inicialmente propagados entre dois filtros Bloom, onde o primeiro filtro Bloom contém k-mers que foram vistos pelo menos uma vez, e o segundo filtro Bloom contém k- mers que foram vistos pelo menos duas vezes. No final do carregamento de k-mer, o primeiro filtro Bloom é descartado e o segundo filtro Bloom é mantido para uso no restante do algoritmo. Notamos aqui que apenas os k-mers das leituras de entrada, correspondentes aos nós no grafo de Bruijn, são armazenados no filtro de Bloom, ao passo que não há armazenamento explícito de arestas. Em vez disso, os vizinhos de um k-mer são determinados durante a travessia do gráfico, consultando a presença de todos os quatro vizinhos possíveis (ou seja, extensões de base única) em cada etapa.

Procurando por caminhos de conexão

Em uma segunda passagem pelos dados de sequenciamento de entrada, o Konnector procura caminhos de conexão dentro do gráfico de Bruijn entre cada par lido (Figura 2, etapa (2)). A pesquisa do gráfico é iniciada pela escolha de um k-mer inicial na primeira leitura e um k-mer objetivo na segunda leitura, e é realizada por meio de uma pesquisa bidirecional de profundidade limitada entre esses dois k- mers.

Os k-mers de início e objetivo são selecionados para reduzir a probabilidade de pesquisas sem saída devido a erros de sequenciamento ou a falsos positivos do filtro Bloom. Em primeiro lugar, os k-mers de não erro putativos de cada leitura são identificados por meio da consulta de sua existência no gráfico de filtro de Bloom de Bruijn. (Lembre-se de que, após o estágio de carregamento, este filtro Bloom contém apenas k-mers que ocorrem duas ou mais vezes.) Em seguida, o algoritmo tenta encontrar uma execução consecutiva de três k-mers sem erro na leitura e escolhe os k- mer na extremidade distal (ou seja, 5 'final) da corrida como o k-mer inicial / objetivo. Este método garante que se o k-mer inicial / objetivo escolhido for um filtro Bloom falso positivo, a busca do caminho continuará por pelo menos mais dois k-mers em vez de parar em um beco sem saída. No caso provável de haver várias execuções de k-mers "bons" em uma leitura, a execução que está mais próxima da extremidade 3 '(voltada para a lacuna) da leitura é escolhida, a fim de reduzir a profundidade da pesquisa de caminho subsequente . No caso de não haver execuções de três k-mers bons, o algoritmo volta a usar a execução mais longa encontrada (ou seja, dois k-mers ou um único k-mer).

Uma vez que os k-mers de início e meta tenham sido selecionados, o Konnector realiza a busca por caminhos de conexão. A fim de maximizar a precisão da sequência que conecta as leituras, é importante que o algoritmo considere tudo caminhos possíveis entre as leituras, até o limite de profundidade ditado pelo comprimento do fragmento de DNA. Por esse motivo, uma busca em largura é empregada em vez de um algoritmo de caminho mais curto, como Dijkstra ou A *. O Konnector implementa uma versão bidirecional de pesquisa em amplitude, que melhora o desempenho conduzindo duas pesquisas de meia profundidade e, portanto, reduzindo a expansão geral da fronteira de pesquisa. A pesquisa bidirecional é implementada alternando-se entre duas pesquisas iniciais em amplitude que podem "ver" as listas de nós visitados uma da outra. Se uma pesquisa encontrar um nó que já foi visitado pela outra pesquisa, a aresta que leva a esse nó é registrada como uma "aresta comum" e a pesquisa não prossegue através desse nó específico. À medida que as duas pesquisas prosseguem, todos os nós e arestas visitados são adicionados a um "gráfico de pesquisa" temporário na memória. Isso facilita a etapa final, onde o conjunto completo de caminhos de conexão são construídos realizando uma busca exaustiva tanto para trás quanto para frente de cada borda comum em direção aos k-mers inicial e final, respectivamente.

Se o algoritmo de pesquisa encontrar um caminho exclusivo entre os k-mers de início e objetivo, o caminho será convertido em uma sequência de DNA e será usado para unir as sequências lidas em uma única pseudo-leitura. No caso de caminhos múltiplos, um alinhamento de sequência múltipla é executado e a sequência de consenso resultante é usada para unir as leituras (Figura 2, etapa (3)). Para ajustar a qualidade dos resultados, o usuário pode especificar limites com relação ao número máximo de caminhos que podem ser recolhidos para um consenso e / ou o número máximo de incompatibilidades que devem ser tolerados entre caminhos alternativos.

Estendendo sequências conectadas e desconectadas

O Konnector v2.0 introduz uma nova capacidade de estender sequências conectadas e não conectadas, atravessando do final das sequências para o próximo ponto de ramificação ou beco sem saída no gráfico de Bruijn (Figura 2, etapas (7) e (8)). Se um par de leitura for conectado com sucesso, o algoritmo estenderá a pseudo-leitura para fora em ambas as direções se o par de leitura não for conectado com sucesso, cada uma das duas leituras será estendida independentemente, tanto para dentro quanto para fora. As extensões são propagadas da mesma maneira descrita acima para as pesquisas de caminho de conexão, um k-mer de não erro putativo é selecionado próximo ao final da sequência, e após dois k-mer de não erro consecutivos, se possível.

A extensão de leituras conectadas ou não conectadas que estão contidas no mesmo caminho linear do gráfico de Bruijn resulta em sequências idênticas. Por esse motivo, o algoritmo usa um filtro Bloom adicional para rastrear os k-mers de sequências que já foram montadas. (Doravante, este filtro Bloom será referido como o "filtro duplicado" a fim de reduzir a confusão com o gráfico do filtro Bloom de Bruijn.)

A lógica para rastrear sequências duplicadas difere para os casos de pares de leitura conectados e não conectados. No caso de leituras conectadas, apenas os k-mers da sequência de conexão são usados ​​para consultar o filtro duplicado (Figura 2, etapa (5)). Em virtude de estarem presentes no gráfico do filtro de Bloom de Bruijn, os k-mers de conexão são k-mers putativos sem erro que ocorreram pelo menos duas vezes nos dados de sequenciamento de entrada e, portanto, uma correspondência de 100% é esperada no caso de a região genômica em questão já foi coberta. Se um ou mais k-mers da sequência de conexão não forem encontrados no filtro duplicado, a pseudo-leitura é mantida e estendida para fora em seu comprimento total (Figura 2, etapa (7)). Os k-mers da sequência estendida são então adicionados ao filtro duplicado e a sequência é gravada no arquivo de pseudo-leituras de saída.

No caso de leituras não conectadas, as leituras devem primeiro ser corrigidas antes de consultar o filtro duplicado (Figura 2, etapa (4)). Isso é feito primeiro extraindo a sequência contígua mais longa de k-mers sem erro dentro da leitura, onde k-mers que estão presentes no gráfico de filtro de Bloom de Bruijn são considerados como k-mers sem erro putativos. Uma etapa adicional é então realizada para corrigir erros de leitura recorrentes que podem ter passado pelo filtro Bloom de dois níveis. Começando do k-mer mais à direita da subsequência selecionada, o algoritmo avança para a esquerda de k nós, abortando a etapa de correção se encontrar um ponto de ramificação ou beco sem saída antes de percorrer a distância total. Como a ramificação mais longa que pode ser criada por um único erro de sequenciamento é k nós, ele navega para fora de qualquer ramificação ou bolha possível criada por um erro (nós vermelhos da Figura 1). Finalmente, o algoritmo vai até (k + 1) nós para gerar uma sequência de alta confiança para consultar o filtro duplicado.A segunda etapa à direita para no início ao encontrar um ponto de ramificação ou beco sem saída, mas qualquer sequência gerada até esse ponto é mantida e ainda é usada para consultar o filtro duplicado. Após a correção de erros, as etapas subsequentes para lidar com leituras não conectadas são semelhantes ao caso para leituras conectadas. Se a sequência de alta confiança contiver k-mers que não são encontrados no filtro duplicado, a sequência é estendida até seu comprimento total, adicionada ao filtro duplicado e gravada no arquivo de pseudo-leituras de saída.

Finalmente, alguma lógica de antecipação adicional é empregada no algoritmo de extensão para lidar com os casos comuns de ramos positivos falsos e bolhas simples criadas por SNPs heterozigotos. Todos os ramos menores ou iguais a três nós de comprimento são considerados ramos falsos positivos e são ignorados durante a extensão. Ao chegar a uma bifurcação com dois ramos (não falso-positivos), um look-ahead de (k + 1) nós é executado para ver se os ramos voltam a convergir. Nesse caso, a bolha é recolhida e a extensão continua.


© 2013 Os autores. Publicado pela Royal Society sob os termos da Creative Commons Attribution License http://creativecommons.org/licenses/by/3.0/, que permite o uso irrestrito, desde que o autor original e a fonte sejam creditados.

Referências

. 1994 Mutações de resistência à nevirapina do vírus da imunodeficiência humana tipo 1 selecionado durante a terapia. J. Virol. 68, 1660–1666. PubMed, Google Scholar

. 2011 Detecção de CCR5 e CXCR4 inferidos usando variantes do HIV-1 e intermediários evolutivos usando pirosequenciamento ultra profundo. PLoS Pathog. 7, e1002106.doi:

Moya A, Holmes E e González-Candelas F

. 2004 A genética populacional e epidemiologia evolutiva de vírus de RNA. Nat. Rev. Microbiol. 2, 279-288.doi:

Wang C, Mitsuya Y, Gharizadeh B, Ronaghi M e amp Shafer RW

. 2007 Caracterização de espectros de mutação com pirosequenciamento ultra-profundo: aplicação à resistência ao HIV-1. Genome Res. 17, 1195-1201.doi:

Archer J, Braverman MS, Taillon BE, Desany B, James I, Harrigan PR, Lewis M & amp Robertson DL

. 2009 Detecção de receptor 4 de quimiocina pré-terapia de baixa frequência (motivo CXC) (CXCR4) - usando HIV-1 com pirosequenciamento ultra profundo. AUXILIA 23, 1209-1218.doi:

Eriksson N, Pachter L, Mitsuya Y, Rhee S-Y, Wang C, Gharizadeh B, Ronaghi M, Shafer RW e amp Beerenwinkel N

. Estimativa da população viral de 2008 usando pirosequenciamento. PLoS Comput. Biol. 4, 1-13.doi:

Archer J, Baillie G, Watson SJ, Kellam P, Rambaut A e Robertson DL

. 2012 Análise de dados de sequência de alta profundidade para estudar a diversidade viral: uma comparação de plataformas de sequenciamento de próxima geração usando o segminator II. BMC Bioinformática 13, 47.doi:

. 2011 Perfil de erro específico da sequência de sequenciadores Illumina. Nucleic Acids Res. 39, e90.doi:

Huse SM, Huber JA, Morrison HG, Sogin ML e amp Welch DM

. 2007 Precisão e qualidade do pirosequenciamento de DNA maciçamente paralelo. Genome Biol. 8, RI43. Crossref, Google Scholar

Quinian AR, Stewart DA, Strömberg MP e Marth GT

. Pyrobayes 2008: um caller de base aprimorado para descoberta de SNP em pirosequências. Nat. Métodos 5, 179-181.doi:

Pandey RV, Nolte V, Boenigk J & amp Schlötterer C

. 2011 CANGS DB: uma ferramenta autônoma de banco de dados baseada na web para processar, gerenciar e analisar 454 dados em estudos de biodiversidade. BMC Res. Notas 4, 227-237.doi:

. 2011 Controle de qualidade e pré-processamento de conjuntos de dados metagenômicos. Bioinformática 27, 863-864.doi:

. 2012 NGS QC toolkit: um kit de ferramentas para controle de qualidade de dados de sequenciamento de última geração. PLoS ONE 7, e30619.doi:

Ning Z, Cox AJ e amp Mullikin JC

. 2001 SSAHA: um método de pesquisa rápida para grandes bancos de dados de DNA. Genome Res. 11, 1725-1729.doi:

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G e Durbin R

, 1000 Subgrupo de Processamento de Dados do Projeto Genoma. 2009 O formato de alinhamento / mapa de sequência (SAM) e SAMtools. Bioinformática 25, 2078–2079.doi:

. 2012 Dinâmica evolutiva de linhagens de vírus influenza pandêmicos locais H1N1 / 2009 revelada por análise de genoma completo. J. Virol. 86, 11-18.doi:

. Tecnologias de sequenciamento de 2010: a próxima geração. Nat. Rev. Genet. 11, 31-46.doi:

. 2010 O kit de ferramentas de análise de genoma: uma estrutura mapreduce para analisar dados de sequenciamento de DNA de última geração. Genome Res. 20, 1297-1303.doi:


Assista o vídeo: Prefeitura investe em iluminação de LED (Agosto 2022).