Em formação

Módulo de análise Ka / Ks (dN / dS) para Python?

Módulo de análise Ka / Ks (dN / dS) para Python?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Deste artigo wiki:

Na genética, o Razão Ka / Ks (ou ω, dN / dS), é a razão entre o número de substituições não sinônimas por site não sinônimo (Ka) e o número de substituições sinônimas por site sinônimo (Ks), que pode ser usado como um indicador de ação de pressão seletiva em um gene codificador de proteína.

Pergunta:

Existem módulos / pacotes disponíveis em Pitão para fazer a análise Ka / Ks? Desejo realizar a análise de Ka / Ks do gene inteiro e, em seguida, talvez a análise de Ka / Ks de "nível de códon" (ou seja, dentro do gene via janela deslizante).


Você sabe sobre BioPython?

Aqui, em outro site, alguém já fez essa pergunta e uma resposta muito boa foi fornecida por Brad Chapman. Ele fornece funções já escritas para realizar este tipo de análise (pessoalmente não experimentei os códigos).

Em Perl existe Bio :: Align :: DNAStatistics. Você pode adaptá-lo para Python.

Isso também pode ser útil.

Eu acho que existem muitas possibilidades que são oferecidas a você. Você pode passar por outros fazendo pesquisa no Google com as palavras-chavesinônimo,não sinônimoeBioPython.


aBSREL (umaelegante Brancho-Seu te Random Eefeitos euikelihood) é uma versão aprimorada dos modelos comumente usados ​​de "local de filial", que são usados ​​para testar se a seleção positiva ocorreu em uma proporção de filiais. Como tal, o aBSREL modela a heterogeneidade no nível do site e no nível da filial. aBSREL, no entanto, não testa a seleção em locais específicos. Em vez disso, o aBSREL testará, para cada ramo (ou ramo de interesse) na filogenia, se uma proporção de sites evoluiu sob seleção positiva.

aBSREL difere de outras implementações de modelo de filial ao inferir o número ideal de classes para cada filial. Por exemplo, a abordagem anterior do local de filial HyPhy (BS-REL) assumiu três classes de taxas para cada filial e atribuiu cada local, com alguma probabilidade, a uma dessas classes. aBSREL, por outro lado, reconhece que diferentes ramos podem apresentar padrões evolutivos mais ou menos complexos e, portanto, podem ser melhor modelados por mais ou menos classes. Especificamente, aBSREL usa AICc (pequena amostra AIC) para inferir o número ótimo de classes de taxa para cada ramo.

Depois que o aBSREL se ajusta ao modelo adaptativo completo, o Teste da Razão de Verossimilhança é realizado em cada ramificação e compara o modelo completo a um modelo nulo onde as ramificações não podem ter classes de taxas de.

aBSREL pode ser executado em dois modos:

  • Teste uma hipótese específica por a priori selecionar um conjunto de ramos de "primeiro plano" para testar a seleção positiva.
  • Realize uma análise exploratória onde todos os ramos são testados para seleção positiva. Nesse cenário, os valores de p em cada ramificação devem ser corrigidos para testes múltiplos (usando a correção de Holm-Bonferroni). Devido a vários testes, a abordagem exploratória tem muito menos poder em comparação com a outra abordagem.

o Bayesian Graphical MO método odel (BGM) é uma ferramenta para detectar interações coevolutivas entre as posições de aminoácidos em uma proteína. Este método é semelhante ao método de "substituições correlacionadas" descrito por Shindyalov et al. 1994, em que os eventos de substituição de aminoácidos são mapeados para ramos na árvore filogenética. O BGM usa um método semelhante ao SLAC, em que os eventos de substituição de aminoácidos são mapeados para a árvore a partir da reconstrução ancestral sob a probabilidade máxima conjunta para um determinado modelo de taxas de substituição de códons.

Depois que as substituições de aminoácidos foram mapeadas, o usuário deve especificar um critério de filtragem para reduzir o número de locais de códons no alinhamento a ser analisado. Esta é uma etapa importante porque o número de modelos gráficos (redes) aumenta mais rápido do que exponencialmente com o número de variáveis. Você não deseja ter muito mais locais de códons do que sequências (observações) no alinhamento. Além disso, uma vez que a análise BGM é essencialmente conduzida por uma série de testes em tabelas de contingência 2x2 (compreendendo a presença / ausência de substituições em ramos), você geralmente deve evitar incluir locais de códons onde apenas uma única substituição de aminoácido foi mapeada para a árvore.

Um modelo gráfico bayesiano (rede bayesiana) é uma estrutura probabilística do campo da inteligência artificial que permite a uma máquina gerar uma representação de um sistema complexo que é composto por um número desconhecido de dependências condicionais (associações estatísticas) entre um grande número de variáveis. Essas dependências compreendem o estrutura de rede. Essa abordagem é útil porque essas associações são avaliadas no contexto completo da distribuição de probabilidade conjunta; não há necessidade de filtrar associações significativas para ajustar para comparações múltiplas, por exemplo.

O BGM usa um método de Monte Carlo de cadeia de Markov para gerar uma amostra aleatória de estruturas de rede a partir da distribuição posterior. Como o espaço de todas as estruturas de rede possíveis é muito extenso, usamos um método MCMC descrito por Friedman e Koller, que reduz esse enorme espaço agrupando estruturas em subconjuntos definidos por uma hierarquia de nós. Isso resulta em um espaço mais compacto, onde a distribuição posterior tem propriedades de convergência mais agradáveis.


Fundo

Em genomas de tumor, a distribuição de mutações sinônimas somáticas (SSMs) é heterogênea e comumente pensada para refletir diferenças na transcrição, tempo de replicação, estado de cromatina ou taxa de reparo de DNA [1,2,3,4,5]. Mutações sinônimas que inativam supressores de tumor [6, 7] podem ser selecionadas positivamente. Isso contrasta com as observações em populações de mamíferos em que algumas mutações sinônimas estão tipicamente sob seleção negativa [8,9,10,11] e causam doenças [12,13,14,15]. Não se sabe se essa seleção negativa comum em mutações sinônimas também ocorre dentro de tumores. Se assim for, então a suposição comum de que a taxa sinônima local é uma estimativa não enviesada da taxa de mutação local exigiria uma reavaliação. Isso é importante, pois a identificação de mutações condutoras é comumente feita por referência à taxa sinônima local como um meio de excluir a possibilidade de uma taxa de mutação localmente alta [2].

Estimativas recentes sugerem que 25-45% [16], 30% [17],

60% [18] ou 77% [19] das mutações pontuais exônicas, incluindo mutações sinônimas, levam à interrupção do splicing. As mutações que afetam o splicing tendem a ser imediatamente no local de splice ou dentro de aproximadamente 70 bp de uma extremidade do exon [20], onde os intensificadores de splice exônicos são especialmente enriquecidos [21] e evolutivamente restritos [8, 9, 22, 23]. Como as mutações sinônimas podem, e geralmente fazem, interromper o splicing, formulamos a hipótese de que as mutações sinônimas estarão sob seleção de purificação em locais relacionados ao splicing em tumores também. Consistente com esta hipótese, uma proporção significativa de mutações somáticas nas extremidades exônicas resultam em retenção de íntron [24] e os cânceres estão associados a taxas aumentadas de splicing alternativo [25, 26], embora isso seja em parte devido a mudanças no perfil do ribossoma proteínas de ligação [27]. Aqui, então, procuramos testar a hipótese de que mutações sinônimas que afetam o splicing estão sujeitas à seleção purificadora generalizada em tumores.


Resultados e discussão

De novo montagem de transcriptomas do Lolium-Festuca complexo

Nós nos concentramos em gerar conjuntos de transcriptomas para quatro espécies dentro do Lolium-Festuca complexo. As leituras foram corrigidas de erros usando a ferramenta ALLPATHS-LG [30] e montadas usando o software Trinity [31] para produzir conjuntos de transcriptomas que variaram em número de transcrição entre 52.166 e 72.133 após filtragem de qualidade para transcrições de suporte de baixa leitura (Tabela 1). A distribuição do comprimento da transcrição é muito semelhante entre as quatro espécies (Figura 1) e, em todos os casos, uma grande parte da montagem está contida em transcrições com mais de 1000 bp de comprimento. Adotamos várias abordagens para avaliar a qualidade de cada montagem e determinar o quão comparáveis ​​as quatro montagens são. Primeiro, identificamos quais transcrições de três espécies intimamente relacionadas (B.distachyon, O. sativa e T. aestivum) compartilham a maior semelhança de sequência com as transcrições dos quatro Lolium-Festuca espécies complexas. Em seguida, determinamos quanta sobreposição havia entre a transcrição de nossas assembléias de-novo e a transcrição de espécies relacionadas. Uma alta proporção das transcrições pode ser alinhada totalmente (100%) ou quase totalmente (80%) às transcrições das espécies relacionadas (Tabela 2). O maior número de acertos foi encontrado no conjunto de genes do trigo, o parente mais próximo nesta comparação. Em segundo lugar, usamos o pipeline CEGMA [32] para avaliar a integridade de nossas montagens. Esta é uma ferramenta que avalia a presença e cobertura de um conjunto de 248 genes eucarióticos nucleares extremamente conservados (CEGs). A ferramenta é rotineiramente usada para avaliar conjuntos genômicos, no entanto, também tem sido usada para avaliar conjuntos de transcriptomas [33,34]. A porcentagem de CEGs completos variou de 88,71 a 95,56, e a porcentagem de CEGs parcialmente completos variou de 94,76 a 97,58 (Tabela 3). O número médio de ortólogos por CEG e a% de CEGs detectados que tinham mais de 1 ortólogo foram semelhantes nas quatro espécies. Nossos resultados apontam para montagens de transcriptoma que refletem uma porção representativa da complexidade do transcriptoma e são comparáveis ​​entre as quatro espécies.

Gráfico de distribuição de comprimento. Um gráfico de barras verticais da distribuição do comprimento dos fragmentos da montagem do transcriptoma entre as espécies analisadas. O eixo X representa as caixas de intervalo de comprimento, o eixo Y é a quantidade de transcrições presentes em cada caixa.

Previmos sequências de codificação de proteínas de nossos conjuntos de transcriptoma usando Transdecoder [31], e o número de proteínas previstas variou entre 30.182 e 39.981. Em seguida, observamos a porcentagem de proteínas previstas a partir de transcrições completas, ou seja, tendo as UTRs 3 'e 5' presentes - seus números variaram de 10.680 a 16.850. Os domínios Pfam foram atribuídos entre 54,82 e 60,23% das proteínas de cada espécie. Estima-se que cerca de 4% das proteínas tenham peptídeos de sinal e cerca de 15%, hélices transmembrana. O número de transcrições com atribuição de termos GO foi de 54,8 a 60,8% (Tabela 4). Um relatório de anotação funcional para cada espécie é fornecido no arquivo Adicional 1: Tabela S1, Arquivo Adicional 2: Tabela S2, Arquivo Adicional 3: Tabela S3 e Arquivo Adicional 4: Tabela S4.

Análise comparativa da família de genes

Uma maneira de compreender as diferenças entre as espécies relacionadas em uma escala de genoma é comparar e encontrar contrastes em todo o complemento gênico de cada espécie. Os melhores resultados BLAST recíprocos entre genes dentro de uma única espécie sugerem que os genes são parálogos. Melhores acertos BLAST recíprocos entre genes de espécies diferentes sugerem que os genes são ortólogos, e esta estratégia é amplamente usada para gerar pares ortólogos [35]. Usamos OrthoMCL [36] para calcular clusters ortólogos para todas as nossas proteínas previstas das quatro espécies. Filtramos proteínas para o peptídeo mais longo previsto a partir de um único transcrito representativo por locus, a fim de evitar viés na criação dos grupos ortólogos. Geramos 15.930 clusters, atribuindo 57.822 (76,59%) a clusters de tamanhos de 2 a 176 proteínas. O número de proteínas contidas em todos os clusters para cada espécie variou entre 14.161 e 14.835.

A maioria das proteínas é encontrada em grupos contendo genes de pelo menos duas espécies, com 8.644 famílias de genes compartilhadas entre as quatro espécies (Figura 2). O número de agrupamentos únicos (espécie-específicos) é relativamente baixo, o que não é surpreendente, considerando que as espécies analisadas são separadas por distâncias evolutivas muito pequenas. L. multiflorum e L. m. Westwoldicum têm o menor número de proteínas específicas da espécie e muitas sequências de proteínas que são compartilhadas apenas entre essas duas. Novamente, isso não é surpreendente porque L. m. Westwoldicum é uma 'espécie' derivada de L. multiflorum através da reprodução seletiva para anualidade [37]. Das famílias de genes identificados como únicos, duas proteínas previstas de F. pratensis estão mostrando alta identidade de sequência com um homólogo ZCCT2-A2 VRN2 de T. urartu [B8X8J1]. O VRN2 tem um papel importante no caminho da vernalização / floração, evitando o florescimento da planta a menos que tenha passado por um período de baixas temperaturas e / ou dias curtos [38]. Se houver um período de frio, o VRN2 torna-se regulado para baixo e permite a expressão do gene FT1, que promove a floração [39,40]. F. pratensis é uma espécie perene com predominantemente um forte requisito de vernalização [41]. Todas as outras espécies analisadas são do tipo bianual ou anual e possuem uma facultativa (L. multiflorum) ou nenhum requisito de vernalização (L. m. Westwoldicum e L. temulentum [42]). As amostras para RNA-seq foram retiradas de plantas não vernalizadas e, portanto, não é surpreendente que VRN2 tenha sido identificado na montagem do transcrtípomo de F. pratensis. o Lolium espécies sem um requisito de vernalização não têm a transcrição VRN2 presente em suas montagens. Um alinhamento rápido do Festuca a proteína contra os outros transcriptomas não revelou resultados significativos. Nenhuma das leituras originais das outras espécies se alinha de volta ao transcrito VRN2 previsto, confirmando que o transcrito VRN2 não está presente nos conjuntos de dados de RNA-seq de espécies não perenes. Sabemos de outros estudos que VRN2 é expresso em um L. perenne que tem uma forte exigência de vernalização [43]. Foi comprovado que a ausência de expressão de VRN2 permite a indução de FT e o florescimento em cereais intimamente relacionados [44,45]. A perda da função do VRN2 no trigo resulta em plantas que não requerem vernalização para florescer, e é o locus genético responsável por distinguir os tipos de trigo de primavera e inverno [46]. Nossos resultados sugerem que VRN2 é um gene-chave para diferenciar a vernalização e a não-vernalização que requer espécies dentro do Lolium-Festuca complexo. Outras proteínas identificadas como sendo exclusivas da espécie incluem proteínas de resistência a doenças para F. pratensis, Transportador ABC C para L. multiflorum, parte de um complexo ubiquitina ligase para L. m. Westwoldicum e ubiquin para L. temulentum (Tabela 5).

Distribuição dos grupos ortólogos. O diagrama de Venn mostra a distribuição de grupos ortólogos compartilhados e divergentes de uma análise OrthoMCL de Lolium-Festuca proteomas complexos, com base em conjunto de dados não redundantes. Os números em cada divisão mostram a quantidade de grupos para cada combinação.

Análise de clusters com alta e baixa similaridade de sequência

A identidade média de sequências nos grupos OrthoMCL indica o nível de similaridade entre as proteínas pertencentes a esse grupo. A identidade de sequência média combinada (referida como% id) de todas as famílias de proteínas foi de 91,61%. 747 famílias continham proteínas altamente conservadas, e sua% id era igual a 100. 2.056 famílias têm uma% id abaixo de 80%, constituindo grupos menos conservados. Usando o banco de dados DAVID [47], analisamos quais termos de anotação funcional estão super-representados nos grupos com diferentes níveis de identidade de sequência percentual. Os termos GO Biological Process, INTERPROSCAN e KEGG Pathway foram usados ​​para a anotação. Das proteínas de grupos com 100% de identidade, 513 sequências podem ser correspondidas na base de dados DAVID. Eles foram agrupados em 45 grupos enriquecidos para os termos do Processo Biológico GO. As classes mais abundantes de termos enriquecidos incluem resposta ao estresse abiótico, ubiquitinação, metabolismo de fósforo, cadeia de transporte de elétrons, localização de proteínas, resposta a estímulos orgânicos e hormonais, regulação positiva da transcrição, metabolismo de carboidratos, ciclo celular e ciclo celular meiótico. Os termos da via KEGG enriquecida incluíram metabolismo de purina e pirimidina, metabolismo de piruvato, glicólise / gliconeogênese, fixação de carbono, biossíntese de hormônios vegetais, terpenóides, esteróides e alcalóides e ciclo de citrato. Domínios INTERPRO enriquecidos foram relacionados a ubiquitina, proteínas quinases, GTPases, ATPases, mãos EF e helicases de DNA / RNA. Genes responsáveis ​​por termos como processos metabólicos básicos relacionados à biossíntese e degradação, atividade transcricional e translacional, síntese e destino de proteínas e transdução de sinal estão entre os mais conservados em plantas [48]. O mesmo é verdade para genes envolvidos na maquinaria do ciclo celular básico [49].

As famílias com um baixo% id representam proteínas com conservação de sequência menos restrita, com possíveis cópias múltiplas permitindo uma seleção mais relaxada. Para as famílias com id abaixo de 80%, identificamos 1.548 IDs usando DAVID, que se agrupam em 90 grupos enriquecidos para termos do Processo Biológico GO. Os clusters com as pontuações de enriquecimento mais altas consistiam em proteínas relacionadas à fosforilação, via de sinalização de proteínas receptoras ligadas a enzimas, resposta à radiação, estímulo luminoso e abiótico, ubiquitinação de proteínas, proteólise e processos catabólicos de proteínas, resposta a estímulos orgânicos e hormonais, transporte de íons, desenvolvimento de raízes , processos metabólicos de nucleotídeos e resposta a estímulos hormonais. Três clusters foram identificados para vias KEGG enriquecidas, relacionadas ao metabolismo do metano, cianoaminoácido e glicina, serina e treonina, biossíntese de fenilopropandoides e gliconeogênese, biossíntese de alcalóides e terpenóides. 64 clusters foram enriquecidos para domínios INTERPRO, com dez proteínas quinases contendo os mais elevados, transportadores ABC, ubiquitina, ATPases, dedos de zinco, transportadores de íons de sulfato, helicases de DNA / RNA, mãos EF, domínios semelhantes a EGF e domínios PAS. A visão geral completa da anotação GO Biological Process está disponível no arquivo adicional 5: Tabela S5 e no arquivo adicional 6: Tabela S6.

Análise filogenética baseada em famílias de genes ortólogos

A taxonomia exata do Lolium-Festuca espécies complexas são complicadas e historicamente não totalmente aceitas, com questões levantadas sobre a relação entre diferentes Loliums bem como a origem das espécies. O gênero Festuca é considerado ancestral do gênero Lolium, pois incorpora muito mais espécies e contém poliplóides naturais [4,13,50]. Existem evidências para (i) a evolução de Loliums de um perene Festuca subgênero Schedonorus ancestral [51], e (ii) uma forma ancestral comum para ambos Lolium e Festuca [3,4]. Alguns relatos são a favor da classificação do gênero Lolium como parte do Schedonorus [52,53]. Em geral, o Lolium gênero pode ser separado com base no comportamento de autopolinização ou out-polinização. As análises mais recentes e completas do Lolium-Festuca relatórios complexos a era da coroa do Lolium - Festuca complexo para ser 8,97 + - 1,5 Ma. Ele também relata o F. pratensis ter se originado no sudoeste da Ásia há cerca de 2 milhões de anos, e o Loliums ter primeiro diversificado na região do Mediterrâneo oriental em torno de 4,1 Ma [54].

Em nosso estudo realizamos a análise filogenética utilizando os grupos ortólogos identificados pelo OrthoMCL. A saída do agrupamento foi posteriormente filtrada para genes ortólogos conservados como um representante de cada espécie - isto é, tendo exatamente um representante no agrupamento para cada uma das espécies. 4022 grupos preencheram este critério. Usando esses grupos, inferimos árvores de genes (usando a ferramenta PAML) que foram então agrupadas usando a ferramenta Phylip para inferir uma árvore de consenso (Figura 3). É importante notar que as árvores gênicas foram calculadas com base apenas nas regiões codificadoras de genes obtidas apenas de sequências de transcriptoma montadas. Os números nos ramos indicam o número de vezes que as espécies são divididas em dois conjuntos (de 4022 grupos). Isso significa que a topologia de ramificação tem o suporte mais alto ou foi representada mais comumente nas árvores de entrada. No entanto, descobrimos que uma alta proporção das árvores originais tem uma topologia diferente. Isso aponta para uma relação filogenética diferente dependendo do grupo de proteínas ortólogas analisadas. Essas descobertas fazem sentido à luz do fato de que algumas das espécies do complexo são interfertéis. O fato de que a introgressão de genes é possível dentro do complexo tem sido utilizado em esforços de reprodução, bem como em pesquisas [55-57]. Os genomas das espécies de gramíneas modernas são resultado de mecanismos evolutivos mais complexos, e a evolução reticulada no complexo foi proposta anteriormente [58]. A árvore de consenso (filogenia) corresponde fortemente à possível filogenia do Poaceae família relatada em [54].

Árvore de consenso da regra da maioria estendida. Uma árvore filogenética de consenso, criada a partir de 4022 árvores individuais originadas de grupos OrthoMCL com um representante por espécie. Os números nos ramos indicam o número de vezes que as espécies foram divididas em dois conjuntos.

Genes sob pressão de seleção positiva em Lolium espécies em comparação com F. pratensis

Podemos identificar dois tipos de mudanças nas sequências codificantes - substituições não sinônimas (dN), levando à mudança na sequência de aminoácidos, e substituições sinônimas (dS), que são neutras para a sequência de aminoácidos. A razão entre a taxa de substituição não sinônima (Ka) e a taxa de substituição sinônima (Ks) é um parâmetro amplamente utilizado para avaliar se há alguma seleção direcional atuando em um gene codificador de proteína. Uma proporção & lt 1 indica que a proteína está sob seleção de purificação, enquanto uma proporção & gt 1 é uma boa indicação de pressão de seleção positiva [59,60]. Em um clado intimamente relacionado, apenas uma pequena quantidade de genes pode ser responsável por diferenças fenotípicas [61]. Realizamos a comparação de pares de conjuntos de dados do transcriptoma. Genes ortólogos putativos foram então classificados de acordo com os melhores critérios de blast bidirecional (ver Métodos), e para cada comparação, selecionamos pares de transcritos com uma razão Ka / Ks acima de 1. Nós nos concentramos na comparação de F. pratensis com as demais espécies analisadas, pois possui várias características importantes do ponto de vista agrícola, que incluem superior tolerância ao estresse biótico e abiótico, boa persistência e perenidade. A distribuição de identidade de sequência é muito uniforme entre a comparação de pares, com seu pico em torno de 95% (Figura 4). Concentramos nossa análise em genes envolvidos na resistência ao estresse, ciclo celular e proteínas relacionadas ao desenvolvimento, com os mais relevantes identificados listados para cada comparação. A distribuição geral da razão Ka / Ks de todas as comparações de pares é muito semelhante, com quase todos os pares de proteínas mostrando sinais de seleção purificadora (Figura 5). A proporção média foi muito consistente, entre 0,1741 para L. multiflorum e 0,1883 para L. perenne.

Distribuição de identidade de sequência de comparações de pares. O gráfico apresenta uma distribuição de identidade de proteína entre F. pratensis e o outro Lolium-Festuca espécies complexas usadas em comparações BLAST aos pares. Os gráficos de densidade do kernel são usados ​​aqui para visualizar a distribuição de uma identidade de sequência. O eixo X representa a identidade de sequência (SqId) e o eixo Y mostra a densidade do kernel.

Distribuição Ka / Ks. A figura apresenta comparação de F. pratensis contra L. temulentum, L.m. westerwoldicum, L. multiflorum e L. perenne. As distribuições de frequência das taxas Ka / Ks (eixo x) mostradas aqui são baseadas em alinhamentos de proteínas e nucleotídeos de genes ortólogos.

O número de pares ortólogos para os quais Ka e Ks puderam ser calculados e estava acima de 1 foi igual a: 210 para F. pratensis e L. multiflorum (Arquivo adicional 7: Tabela S7), 177 para F. pratensis e L. m. Westwoldicum (Arquivo adicional 8: Tabela S8), 203 para F. pratensis e L. temulentum (Arquivo adicional 9: Tabela S9), 124 para F. pratensis e L. perenne (Arquivo adicional 10: Tabela S10). Todos os pares foram vinculados às suas anotações funcionais. Em seguida, categorizamos os pares de transcrição que estão sob pressão positiva em múltiplas comparações, verificando quantos Festuca identificadores estão sendo compartilhados entre as comparações de pares (Figura 6). A maioria dos pares mostrou valores Ka / Ks acima de 1 em apenas uma comparação de pares únicos. No entanto, havia três pares compartilhados em cada comparação analisada, diferenciando assim o Festuca de Lolium espécies. O primeiro foi um homólogo de A. thaliana proteína ribossomal L4, uma das proteínas de ligação de rRNA primárias [62], e a segunda era uma proteína 2 semelhante a UNC93, que é um componente integral da membrana celular [63]. Além disso, em cada comparação par a par, detectamos um homólogo da proteína RPM1 de resistência a doenças, envolvida na defesa da planta contra P. Syringae no A. thaliana [64]. Um homólogo à proteína de resistência a doenças RPP13 que confere resistência a Peronospora parasitica no A. thaliana [65] foi identificado em L. perenne, L. multiflorum e L. temulentum comparações. Outras proteínas envolvidas na interação planta-patógeno, RPP8 e RPH8A, foram encontradas no L. multiflorum comparação. Diferentes tipos de proteínas F-box, que estão mediando as interações proteína-proteína, também foram abundantes em cada comparação entre pares.

Organização de proteínas sob seleção positiva em Festuca para Loliums comparação. O diagrama mostra o número de proteínas sob seleção positiva entre Festuca e analisado Lolium espécies.

Porque F. pratenesis e L. perenne são plantas perenes, e L. multiflorum, L. m. Westwoldicum e L. temulentum têm um ciclo de crescimento semestral ou anual, tipos de proteínas presentes em todos os tipos de comparação, exceto para F. pratensis - L.perenne foram investigados de perto. Um exemplo de tais proteínas são as ciclinas, família de proteínas conservadas responsáveis ​​pelo controle da progressão do ciclo celular [66]. Cyclin T1-1, foi identificado em todas as comparações, exceto para a comparação com L.perenne. Outras ciclinas, T1-4 e T1-5, e a quinase F-4 dependente de ciclina foram identificadas em comparações de pares com L. temulentum As ubiquitina ligases E3 também foram identificadas em todas as comparações, exceto L.perenne - RNF128 pol. L. multiflorum, RFWD3 em L. m. Westwoldicum e RNF25 em L. temulentum. Além disso, vários fatores de transcrição diversos foram identificados em L.perenne comparações. Essas proteínas constituem um grupo que vale a pena investigar a base genética do traço de perenidade / anualidade.

Ao analisar os domínios PFAM, as classes mais abundantes em todas as comparações foram as repetições ricas em leucina, os domínios AAA e as repetições de tetratricopepdida. Todos os três domínios de proteínas podem ser encontrados em proteínas envolvidas em diversas funções - como interações proteína-proteína, fatores de transcrição, degradação de proteínas e transdução de sinal. A lista completa de proteínas anotadas e domínios PFAM está disponível no arquivo adicional 11.

Além das comparações de pares de Festuca para Lolium espécies, também realizamos uma comparação de L. multiflorum e L. m. Westwoldicum, assumindo que uma grande quantidade de mudanças no nível molecular pode ter sido causada pela influência humana [37]. É uma comparação interessante, pois L. m. Westwoldicum foi desenvolvido selecionando L. multiflorum plantas para anualidade. Um número muito alto de pares ortólogos selecionados positivamente - 235 - foi identificado para essas duas espécies (Arquivo adicional 12: Tabela S11). Como a principal diferença entre as espécies é o hábito estritamente anual de L. m. Westwoldicum, além do metabolismo básico e resistência a doenças, também estávamos interessados ​​em proteínas relacionadas ao ciclo de desenvolvimento e perenialidade-anualidade. Anotações extraídas dos arquivos de anotação criados anteriormente (Arquivo adicional 1: Tabela S1, Arquivo adicional 2: Tabela S2, Arquivo adicional 3: Tabela S3 e Arquivo adicional 4: Tabela S4) incluíam várias proteínas ligases de ubiquitina, bem como Cyclin-T1-1 . Várias proteínas de resistência a doenças foram identificadas: duas proteínas RGA2, 1 RPM1 e uma proteína RPP13. Entre as anotações de domínio pfam, encontramos uma que está relacionada ao controle de dormência da semente [PF14144.1], e dois genes com uma subunidade do complexo promotor de anáfase [PF12861.2]. Também identificamos vários domínios associados ao metabolismo do açúcar, como frutose-1-6-bisfosfatase [PF00316.15], transportador de efluxo de açúcar para troca intercelular [PF03083.11], MFS / proteína de transporte de açúcar [PF13347.1] e açúcar transportador [PF00083.19]. Outra categoria interessante de domínios incluiu a proteína 19 induzida pela seca (Di19) [PF05605.7] e a proteína de resistência ao míldio de amplo espectro de Arabidopsis [PF05659.6]. Apesar da distância filogenética extremamente próxima, a quantidade e diversidade de proteínas sob seleção positiva putativa entre essas duas espécies é muito alta, provavelmente refletindo a intensa pressão de seleção aplicada durante a reprodução de L. m. Westwoldicum a partir de L. multiflorum.

Muitos dos termos enriquecidos identificados como sendo selecionados positivamente neste estudo compartilham funções comparáveis ​​àquelas em análises semelhantes [61,67,68]. Termos associados a proteínas quinases, proteínas fosptatases, regulação da transcrição e glicotransferases estão ligados à resistência a doenças [67], que são uma das proteínas de evolução mais rápida e crítica na evolução das plantas. Termos relacionados à resposta ao estresse estiveram presentes em quase todas as comparações, o que não é surpreendente, dado o contexto fenotípico das plantas. O gene VRN2 foi identificado como importante para determinar variedades de trigo de primavera ou inverno [46]. Freqüentemente, observamos termos relacionados ao desenvolvimento da estrutura reprodutiva. As sementes e o tamanho dos frutos são uma das diferenças mais distintas entre as plantas selvagens e domesticadas. L. temulentum é considerada uma erva daninha mimetizadora do trigo e, como tal, foi domesticada involuntariamente ao lado dessa espécie [69]. A reprodução de gramíneas perenes tem uma história muito mais curta, com os primeiros registros começando por volta de 90 anos atrás [70]. No entanto, dada a intensidade dos programas de melhoramento modernos e o fato de que F. pratensis, L. multiflorum e L. m. Westwoldicum As plantas utilizadas em nosso estudo são resultado de um esforço de criação dirigido, pode valer a pena investigar se alguma das variações observadas pode estar relacionada a processos semelhantes aos da domesticação.


Discussão

Modelagem preditiva

No geral, o modelo mais preditivo gerado neste estudo foi um modelo SVM (kernel linear, C = 0,1, função de decisão 'um contra descanso') treinado usando o conjunto de dados DILIrank (−vLessConcern) e descritores de estrutura química ECFP4. Em contraste com os modelos não lineares, como aqueles gerados usando RF, o kernel linear utilizado por este modelo SVM garantiu uma falta de interação entre as variáveis ​​de entrada, o que pode ter facilitado as propriedades de generalização aprimoradas do modelo. Este modelo ficou em terceiro e primeiro lugar para validação cruzada (0,714 ± 0,058) e conjunto de teste externo (0,759 ± 0,03), respectivamente, por precisão balanceada, em um compêndio de estudos que buscaram desenvolver modelos de classificação para DILI, apesar do conjunto de dados significativamente menor utilizado para o treinamento do modelo neste estudo (Tabela 3). Deve-se observar que os conjuntos de dados, recursos e esquemas de validação cruzada usados ​​nesses estudos variam e, portanto, as métricas de desempenho dificilmente podem ser comparadas diretamente. Entre outros, um esquema LOCO-CV foi implementado no presente estudo para evitar a predição de compostos com alta similaridade de Tanimoto com os dados de treinamento, que é mais conservador do que as divisões aleatórias usadas por Kotsampasakou et al. [9] (Tabela 3) e traduzido para uma avaliação mais rigorosa do desempenho do modelo interno.

Duas tendências principais relacionadas à qualidade dos dados de treinamento e viés do modelo foram identificadas. Em primeiro lugar, uma grande proporção de modelos, independentemente do tipo de descritor, mostrou desempenho consistente entre a validação cruzada e o conjunto de teste externo, mas depois observou uma queda acentuada no desempenho no conjunto de validação do FDA (Figs. 1, S1 e S2), apesar mostrando distribuição de similaridade química semelhante ao conjunto de treinamento como visto para o conjunto de teste externo (Fig. 2b). Uma explicação para isso é que ambos os conjuntos de teste povoam diferentes regiões do espaço químico com o modelo mostrando melhor desempenho em uma área, ou que enquanto povoam regiões semelhantes do espaço químico, estes não são claramente atribuídos a uma das classes DILI e intrinsecamente difíceis de prever. Uma explicação alternativa para a falta de generalização também pode ser atribuída ao fato de que os compostos nos dados de treinamento e no conjunto de teste externo foram rotulados com maior confiança e, portanto, o modelo pode ser capaz de distinguir bem entre os compostos DILI positivos e negativos. Em contraste, os compostos do conjunto de validação da FDA, originalmente sendo rotulados como ambíguos devido à falta de evidências claras, podem ser inerentemente mais difíceis de prever. A obtenção de rótulos DILI precisos para compostos é um processo complexo, dada a incerteza da avaliação de causalidade e a dificuldade em tentar incorporar fatores de administração, como dose e populações de pacientes. Além disso, fenômenos como DILI idiossincrático, que geralmente não podem ser detectados mesmo em estudos pré-clínicos e ocorrem apenas em subpopulações, tornam a tarefa de marcação precisa de DILI ainda mais difícil [3].

Em segundo lugar, em todos os tipos de descritores (ECFP4, descritores moleculares Mordred e alvos de proteína previstos), a precisão balanceada na validação cruzada e no conjunto de teste externo diminuiu conforme o conjunto de dados de treinamento foi expandido a partir do conjunto de dados de alta confiança (DILIrank (−vLessConcern)) para qualquer um dos conjuntos de dados de menor confiança - DILIrank ou DILIrank (+ SIDER) (Figs. 1, S1 e S2). Isso indicou que a inclusão de compostos da classe vLessConcern do DILIrank, ou seja, aqueles com menor evidência anotada de risco de DILI, bem como inativos derivados por mineração de texto de bulas de medicamentos comercializados (SIDER), prejudicou o desempenho preditivo, apesar de aumentar o número de amostras de treinamento. Embora isso seja consistente com estudos anteriores [9], que demonstraram que a curadoria cuidadosa de dados pode levar a um melhor desempenho, deve-se notar que o tamanho da amostra do conjunto de teste externo e, em particular, o conjunto de validação da FDA (49 compostos) eram pequenos. Isso torna difícil avaliar com precisão o desempenho do modelo e, consequentemente, também comparar os modelos com segurança (Fig. 1).

Conjuntos de dados maiores seriam necessários para permitir uma amostragem refinada aprimorada do espaço químico e o estabelecimento de um domínio de aplicabilidade do modelo. No presente estudo, a generalização pobre para o conjunto de validação do FDA demonstrou que a relação entre a estrutura química e a propensão para causar DILI é muito complexa para o modelo aprender com o pequeno conjunto de dados de treinamento usado (401 compostos). No entanto, deve-se notar que mesmo se conjuntos de dados maiores e de qualidade superior fossem adquiridos, a previsibilidade do modelo ainda seria limitada, já que as informações relevantes que podem estar relacionadas à manifestação de DILI, como a dose ou a influência do metabolismo na formação de pró-drogas hepatotóxicas, não foram considerados nos descritores utilizados no presente estudo.

Alvos de proteína

A partir dos modelos que usaram alvos proteicos preditos como características, extraímos processos biológicos incorporando conhecimento prévio sobre bioatividade usando PIDGIN e os contextos funcionais de proteínas com base em mapas de vias de múltiplos bancos de dados derivados de MSigDB [25]. SVM e RF identificaram a biotransformação e o citocromo P450, duas vias importantes envolvidas no metabolismo e eliminação de drogas e estritamente relacionadas à DILI [42,43,44,45,46]. Além disso, são identificados o metabolismo do ácido araquidônico e a síntese de prostaglandinas, que estão fisiologicamente envolvidos no processo de inflamação [49, 50] e no mecanismo de ação e toxicidade dos AINEs, uma das causas mais comuns de DILI [51, 52]. Embora os processos biológicos inferidos sejam conhecidos por estarem associados à DILI, isso não é verdade para muitas das proteínas identificadas pela importância das próprias características (Tabela S2), como CLK1 e DYRK2. Dado que a análise foi baseada em probabilidades de ligação ao alvo, pode-se supor que essas proteínas podem estar fora dos alvos direta (ou indiretamente) envolvidas na patogênese de DILI.O fluxo de trabalho descrito, portanto, foi capaz de derivar hipóteses funcionais sobre processos biológicos a partir de anotações DILI compostas, que podem ser posteriormente investigadas experimentalmente.

Alertas estruturais

Neste estudo, alertas estruturais (SAs) relacionados a DILI foram derivados usando os algoritmos SARpy [27] e MoSS [26] usando o conjunto de dados DILIrank (−vLessConcern). Tanto o SA derivado do MoSS quanto o do SARpy foram considerados comparáveis ​​aos revisados ​​por Liu et al. (2015) [29] em termos de precisão e cobertura. Deve-se notar que, em contraste com o SA de SARpy e MoSS que foram explicitamente derivados e subsequentemente testados no conjunto de dados usado neste estudo, o SA de Liu et al. (2015) foram derivados usando dados de diferentes fontes, principalmente LiverTox [56].

Do SA significativo obtido por SARpy, MoSS e Liu et al. (2015) apenas o derivado de hidrazina (NN) foi encontrado para se sobrepor entre todos eles (Tabela 4) e este obteve uma precisão de 1. No entanto, uma busca no banco de dados do DrugBank [55] do SA significativo mostrou que todos os SA significativos derivados o uso de MoSS ocorreu em pelo menos 3 medicamentos aprovados, sendo os do SARpy e de Liu et al. (2015) ocorreu em pelo menos 10 medicamentos aprovados (Tabela S4). Por exemplo, o derivado de anilina (SARpy) e o derivado de carbamida (SARpy) estavam presentes em 422 e 80 medicamentos comercializados, respectivamente (Tabela S4). Do ponto de vista metodológico, ilustrou que, embora SA possa ser informativo sobre um aumento da probabilidade de um composto ser tóxico, a presença de todos os alertas estruturais analisados ​​neste estudo em compostos aprovados pelo DrugBank demonstrou que eles não são diagnósticos de DILI isoladamente. A dose de administração é uma consideração chave a fazer ao desenvolver a terapêutica e não é levada em consideração ao simplesmente rastrear a presença de um alerta estrutural. Por exemplo, derivados de hidrazina (compartilhados entre SARpy, MoSS e Liu et al. (2015)) podem aumentar a toxicidade muscular, neural, renal, hepática, sanguínea e esplênica [57], no entanto, está presente em, e. procarbazina, que é um agente antineoplásico registrado usado no tratamento da doença de Hodgkin e é um medicamento órfão para glioma [58]. Este exemplo demonstra que pode ser benéfico aceitar um risco aumentado de toxicidade em favor de prolongar a vida do paciente.

Os SAs podem desempenhar um papel de suporte na triagem inicial e análise exploratória, sinalizando compostos potencialmente tóxicos no início [59, 60] e orientando a otimização de chumbo por químicos medicinais [61]. Sua principal vantagem é que eles são fáceis de entender e implementar [62]. No entanto, deve-se ter cuidado ao interpretar os resultados da análise de frequência no caso de desfechos complexos, pois os SAs podem não capturar suficientemente os mecanismos biológicos subjacentes, resultando em altas taxas de falso positivo e falso negativo [63].


Conclusões

Geramos um conjunto de genoma de manga, que é, até onde sabemos, o primeiro recurso de genoma disponível publicamente para mangas. Isso fornece informações cruciais para o estudo da evolução não apenas das mangas, mas da família Anacardiaceae. E isso vai facilitar o estabelecimento de programas de melhoramento genômico para manga. Estimamos que o genoma da manga passou por um evento de duplicação do genoma inteiro (WGD) há cerca de 33 milhões de anos. Curiosamente, genes duplicados envolvidos na fotossíntese e no metabolismo de lipídios são preferencialmente retidos no genoma da manga, o que provavelmente fornece vantagens adaptativas para diminuições históricas agudas das concentrações de dióxido de carbono atmosférico. Sessenta e oito por cento das famílias de genes foram expandidas no genoma da manga entre eles, genes de chalcona sintase (CHS) foram amplamente duplicados, que são principalmente resultados de duplicações tandem anteriores ao WGD. Especial CHS genes mostraram expressão universalmente mais alta em cascas entre variedades de manga, que estão provavelmente envolvidos na biossíntese de urushióis e fenóis relacionados, um grupo de fenóis específicos de Anacardiaceae que podem induzir dermatite de contato. Dois grupos distintos de variedades de manga por meio do re-sequenciamento do genoma, com variedades comerciais agrupadas com germoplasmas da Índia, que demonstram mistura alélica. Embora agrupados com germoplasmas do sudeste da Ásia, as raças indígenas do sul da China formaram clados distintos, alguns dos quais apresentaram mistura.


Métodos

Preparação e sequenciamento de amostras

DNA genômico de um molusco adulto Mercenaria mercenaria (coletado em Qingdao, Shandong, China) foi extraído do músculo adutor para sequenciamento do genoma inteiro, usando um QIAGEN DNeasy Kit (QIAGEN, Shanghai, China). Uma biblioteca de sequência Illumina emparelhada com tamanho de inserção de 350 bp e uma biblioteca de leitura ligada 10x Genomics foram construídas e sequenciadas com Illumina HiSeq X. Uma biblioteca PacBio foi construída e sequenciada com uma plataforma PacBio Sequel. Leituras de baixa qualidade e leituras contaminadas por adaptador de sequenciamento foram removidas. Finalmente, um total de 986,55 GB de dados limpos foi usado para montar o M. mercenaria genoma. Isolamento de RNA e construção de bibliotecas de RNA-seq para diferentes órgãos (pé, adutor, massa visceral, gônada, manto e brânquia) do mesmo M. mercenaria individuais foram realizadas por Song (2016) [52] e sequenciadas com Illumina HiSeq X, de acordo com as instruções do fabricante. Seguindo o controle de qualidade, as leituras limpas foram montadas usando o Trinity e preparadas para a anotação do genoma.

Tamanho, montagem e avaliação do genoma de molusco duro

Medusa (v2.0) [53] foi usado para estimar o tamanho do genoma com base em k-mer distribuição usando leituras de alta qualidade de bibliotecas de tamanho de inserção curta.

Usando leituras longas geradas pela plataforma PacBio Sequel, os contigs foram montados usando o software WTDBG v2.2 (https://github.com/ruanjue/wtdbg) com os seguintes parâmetros: “--node-drop 0.20 --node-len 2304 - nó-máx 500 -s 0,05 -e 3 ”. Esta montagem foi então polida usando Quiver (smrtlink 6.0.1) com parâmetros padrão [54]. A heterozigosidade na montagem foi removida através do software Purge Haplotigs (v1.0.4) [55]. Os contigs resultantes foram conectados a super-scaffolds usando dados de leitura vinculada 10x Genomics e software fragScaff (v140324) com as seguintes configurações de parâmetro: “-maxCore 200 -m 3000 -q 30 -C 5” [56]. Por outro lado, leituras Illumina curtas foram usadas para corrigir quaisquer erros remanescentes por pilon (v1.22) com parâmetros definidos da seguinte forma: “-Xmx300G --diploid --threads 20” [57]. Finalmente, os dados Hi-C foram usados ​​para gerar a montagem em nível cromossômico de M. mercenaria genoma com software Lachesis (v201701) com parâmetros padrão. Depois disso, os cromossomos foram numerados por Lachesis sem classificação em ordem decrescente de tamanho.

Para avaliar a precisão da montagem, pequenas leituras Illumina foram mapeadas para o M. mercenaria genoma usando BWA (v 0.7.8-r455) com configurações de parâmetros em: “-o 1 -i 15” [58]. A chamada de variantes foi realizada com SAMTOOLS (SAMTOOLS, RRID: SCR 002105) [59]. A integridade da montagem foi avaliada com base em ortólogos universais de cópia única (BUSCO) (BUSCO, RRID: SCR 015008) [60] pesquisando contra o metazoário BUSCO (v4.0.1) [61].

Anotação de genoma

Comparação homóloga e previsão de novo foram empregadas para anotar as sequências repetitivas no M. mercenaria genoma. RepeatMasker e o RepeatProteinMask associado (RepeatMasker, RRID: SCR 012954) [62] foram usados ​​para comparação homóloga para alinhamento com o banco de dados Repbase [63]. Para predição ab initio, LTR_FINDER (LTR_FINDER, RRID: SCR 015247) [64], RepeatScout (RepeatScout, RRID: SCR 014653) [65] e RepeatModeler (RepeatModeler, RRID: SCR_015027) (v2.1) foram usados ​​para construir um banco de dados de novo candidato de elementos repetitivos. Usando esse banco de dados, sequências repetidas foram anotadas usando o RepeatMasker. Sequências de repetição em tandem foram previstas de novo usando TRF (v 4.07b) [66].

Os genes foram anotados usando uma combinação de predição baseada em homologia, predição de novo e predição baseada em transcriptoma. Para anotação homóloga, sequências de proteínas de outros moluscos, incluindo mexilhão Platifrons batimodiolus (Bpl, https://datadryad.org/stash/dataset/doi:10.5061/dryad.h9942), mexilhão Modiolus philippinarum (Mph, https://datadryad.org/stash/dataset/doi:10.5061/dryad.h9942), vieira Mizuhopecten yessoensis (Mye, GCF_002113885.1_ASM211388v2), vieira Azumapecten farreri (Afa, http://mgb.ouc.edu.cn/cfbase/html/download.php), ostra de pérola Pinctada Fucata (Pfu, http://gigadb.org/dataset/100240), ostra oriental Crassostrea virginica (Cvi, GCF_002022765.2_C_virginica-3.0), caracol maçã Pomacea canaliculata (Pca, GCF_003073045.1), lapa Lottia gigantea (Lgi, GCF_000327385.1_Helro1), Octopus Polvo bimaculoides (Obi, GCF_001194135.1_Octopus_bimaculoides_v2_0), e lancelet Branchiostoma floridae (Bfl, GCF_000003815.1_Version_2), foram alinhados contra M. mercenaria genoma usando TBLASTN (TBLASTN, RRID: SCR 011822) [67]. Hits gerados usando a ferramenta Basic Local Alignment Search Tool (BLAST) foram então combinados via software Solar (v 0.9.6) [68]. GeneWise (GeneWise, RRID: SCR 015054) [69] foi usado para prever a estrutura do gene exata da região genômica correspondente em cada hit do BLAST. As previsões de homologia foram denotadas como "conjunto de homologia". Aproximadamente 50,4 GB de dados de RNA-seq de alta qualidade foram montados via Trinity (v2.0) [70], e as sequências montadas foram alinhadas contra o M. mercenaria genoma para montar o alinhamento emendado [71]. Usando PASA (v2.0.2), alinhamentos eficazes foram agrupados com base na localização de mapeamento do genoma e montados em estruturas gênicas. Os modelos de genes criados via PASA foram designados como PASA Trinity set (PASA-T-set). Usamos simultaneamente cinco ferramentas em Augustus (Augustus, RRID: SCR 008417) [72], GeneID (v1.4) [73], GeneScan [74], GlimmerHMM (GlimmerHMM, RRID: SCR 002654) [75] e SNAP ( v 2013-02-16) [76] para predição ab initio, em que Augustus, SNAP e GlimmerHMM foram treinados usando modelos de gene PASA-H-set. Além disso, as leituras de RNA-seq foram mapeadas diretamente para o M. mercenaria genoma usando Tophat (Tophat, RRID: SCR 013035) [77]. As leituras mapeadas foram montadas em modelos de genes (Cufflinks-set) usando Cufflinks (Cufflinks, RRID: SCR 014597) [78]. Todos os modelos de genes foram integrados via EvidenceModeler (EVM) [71]. Os pesos para cada tipo de evidência foram definidos da seguinte forma: PASA-T-set & gt Homology-set & gt Cufflinks-set & gt Augustus & gt GeneID = SNAP = GlimmerHMM = GeneScan. Para detectar regiões não traduzidas (UTRs) e variação de splicing alternativo, PASA2 foi usado para atualizar o M. mercenaria genoma. Para alcançar a anotação funcional, as sequências de proteínas previstas foram alinhadas contra bancos de dados públicos, incluindo SwissProt [79], banco de dados NR (do NCBI), InterPro [80] e via KEGG [81]. Destes, a ferramenta InterproScan [82] e o banco de dados InterPro foram usados ​​para prever a função da proteína com base em domínios de proteína conservados e locais funcionais. A via KEGG e os bancos de dados SwissProt foram usados ​​como a principal fonte para mapear e identificar a melhor correspondência para cada gene.

Reconstrução filogenética e estimativa de divergência

Para garantir a representatividade e confiabilidade da árvore filoestratigráfica, incluímos 11 espécies - cujos genomas estão atualmente disponíveis - de cada família representativa em moluscos (Mytilidae, Pteriidae, Ostreidae, Pectinidae e Veneridae para bivalves Aplysiidae, Planorbidae, Lastropodidae, e Peltospiridae para Gastropodidae Architeuthidae e Octopodidae para Cefalópodes) e 7 espécies de outros filos para análise a jusante. Portanto, as sequências de nucleotídeos e proteínas dessas 18 espécies (P. fucata C. virginica M. philippinarum A. farreri Ruditapes philippinarum (Rph) [83] Chrysomallon squamiferum (Csq): GCA_012295275.1 L. gigantea Biomphalaria glabrata (Bgl): GCA_000457365.1 ASM45736v1 Aplysia californica (Aca): GCF_000002075.1 Architeuthis dux (Adu) [84] O. bimaculoides Capitella teleta (Cte): GCA_000328365.1 Capca1 Helobdella robusta (Hro): GCA_000326865.1 Apis mellifera (Ame): GCF_003254395.2_Amel_HAv3.1 Drosophila melanogaster (Dme): GCF_000001215.4_Release_6_plus_ISO1_MT Homo sapiens (Hsa): GCF_000001405.38_GRCh38.p12 B. floridae Nematostella vectensis (Nve): GCA_000209225.1 ASM20922v1) foram baixados de bancos de dados públicos (consulte também IDs de banco de dados acima). O transcrito mais longo foi selecionado a partir de transcritos de splice alternativos para cada gene, e genes com ≤ 30 aminoácidos foram removidos. Famílias de genes foram construídas de acordo com OrthoMCL pipeline usando o parâmetro de “-inflation 1.5” (OrthoMCL, RRID: SCR 007839) [85].

As sequências de codificação de proteínas de genes de cópia única foram alinhadas usando a ferramenta MUSCLE em parâmetros padrão [86]. O algoritmo de máxima verossimilhança (ML) no software RAxML (v 8.0.19) com o modelo PROTGAMMAAUTO [87] foi usado para analisar as relações filogenéticas de M. mercenaria. Em seguida, o programa MCMCtree do pacote PAML [88] foi usado para estimar o tempo de divergência da seguinte maneira: parâmetro principal burn-in = 100.000, amostra-número = 100.000 e amostra-frequência = 2. As seguintes restrições de tempo foram usado para calibrar a árvore filogenética: Bfl-Has (522.9

358,9 Mya) do período mínimo 532 Mya e mole máximo 549 Mya, para a primeira aparição de moluscos [24] mínimo 550,25 Mya e mole máximo 636,1 Mya, para a primeira aparição de Lophotrochozoa [89].

Evolução da família de genes e análise de domínio

A dinâmica evolutiva (expansão / contração) de famílias de genes foi analisada usando CAFÉ (v.2.1) [90] com um modelo estocástico de nascimento e morte. O parâmetro global, λ, foi estimado com base na árvore filogenética e conjuntos de dados de agrupamento de famílias de genes, que representou as taxas de nascimento e morte de todas as famílias de genes e identificou famílias significativamente alteradas (p & lt 0,05 método de Viterbi em CAFÉ). As análises de enriquecimento de caminhos e termos de Ontologia Genética (GO) foram realizadas via EnrichPipeline [91] em p & lt 0,05. Em seguida, usamos o modelo oculto de Markov (HMM) para pesquisar os principais domínios funcionais relacionados à apoptose em 19 espécies de metazoários [24] com base no banco de dados Pfam. Em seguida, o número de genes com domínios relacionados à apoptose foi contado (um domínio com múltiplas cópias em uma proteína foi contado uma vez). Testes de qui-quadrado foram realizados para avaliar a representação excessiva no M. mercenaria genoma usando todos os genes anotados em cada espécie como pano de fundo [23].

Perfil de transcriptoma e análise de rede de co-expressão gênica de diferentes órgãos

Dez órgãos adultos (testículo, ovário, manto, guelras, pé, intestino, fígado, estômago, adutor e hemolinfa) foram dissecados de moluscos da mesma coorte, com n = 3 para hemolinfa e n = 4 para outros tecidos / órgãos. O RNA foi extraído dessas 39 amostras usando um protocolo previamente descrito [52]. Bibliotecas de RNA-seq foram construídas usando o conjunto de mistura mestre NEBNext mRNA Library Prep, de acordo com as instruções do fabricante, e submetidas ao sequenciamento Illumina HiSeq X. Leituras de RNA-seq de alta qualidade foram mapeadas no genoma de referência de M. mercenaria usando Hisat2 (v2.0.4) [92]. HTseq [93] foi usado para calcular a contagem de leituras e, finalmente, os níveis de expressão gênica em termos de FPKM foram estimados de acordo com a fórmula "FPKM = (número de leituras no gene × 10 9) / (número de todas as leituras nos genes × o comprimento do gene). ”Genes expressos diferencialmente (DEGs) foram definidos usando DEseq (v1.28.1) [94] com um limite de FDR & lt 0,05 e log2 (mudança de dobra) & gt 2. Redes de genes de co-expressão foram construídas pela implementação de DEGs de órgãos usando o pacote R WGCNA (v1.63) [95]. As análises de enriquecimento KEGG e GO de cada módulo nas redes foram conduzidas usando EnrichPipeline [91]. Cytoscape (v3.8.0) [96] foi empregado para a visualização de redes de co-expressão nos módulos selecionados.

Perfil transcriptômico sob múltiplas tensões ambientais

Para exposição aérea, adulto M. mercenaria foram submetidos ao ar em uma incubadora termostática a 15 ° C e a exposição aérea com umidade de 50% com duração de 16 dias foi considerada semi-letal. Amostramos as 3 réplicas de mariscos (cada réplica contém 3 indivíduos) nos dias 0, 8 e 16. Para o desafio de salinidade, adulto M. mercenaria foram submetidos a diferentes níveis de salinidade: 5, 15, 30 e 40 ppt por 10 dias. Dez dias foram considerados semi-letais para a salinidade no tratamento de 5 ppt. Amostramos 3 réplicas de mariscos vivos (cada réplica contém 3 indivíduos) de cada tratamento de salinidade. Para estresse por calor e hipóxia, adulto M. mercenaria foram submetidos a água do mar aquecida (35 ° C) e água do mar normal (20 ° C) com OD (oxigênio dissolvido) a 0,2, 2 e 6 mg / L, respectivamente (tratamento 2 × 3). Amostramos 3 repetições de mariscos vivos (3 indivíduos em cada repetição) no dia 3 (semi-letal a 35 ° C e 0,2 mg / L DO) de cada tratamento. Para todas as amostras acima, os tecidos branquiais foram dissecados com bisturis estéreis para extração de RNA. O sequenciamento Illumina, a estimativa dos níveis de expressão gênica e a identificação de DEGs foram realizados conforme descrito acima. As análises de enriquecimento KEGG e GO de DEGs foram realizadas usando o EnrichPipeline [91], e um script R foi usado para desenhar um mapa de vulcão de DEGs com base nos resultados de enriquecimento.

Identificação da família de genes IAP

As sequências de proteínas de referência de IAPs baixadas dos bancos de dados NCBI e Uniprot foram usadas para TBLASTN com valor e 1e-5 na opção “-F F”. Ocorrências BLAST de alta qualidade que correspondiam às proteínas de referência foram concatenadas via software Solar (v0.9.6) [68]. A sequência de cada proteína de referência foi estendida a montante e a jusante em 2.000 bp para representar uma região de codificação de proteína. O software GeneWise (v2.4.1) [69] foi usado para prever a estrutura exata do gene da região genômica correspondente de cada hit do BLAST. Usando este processo, os candidatos IAPs foram identificados em seguida, domínios conservados e anotação funcional de genes foram identificados por meio de pesquisa HMM contra o banco de dados Pfam e BLASTP contra o banco de dados não redundante (nr). Finalmente, genes com domínios BIR funcionalmente anotados como IAPs no banco de dados Nr foram selecionados manualmente como os produtos finais identificados. Os membros da família IAP foram classificados em diferentes tipos com base no número e arranjo dos domínios BIR e RING conservados, que são os dois domínios principais envolvidos na mediação das interações proteína-proteína.Além disso, o software mafft (v7.427) [97] foi usado para alinhar sequências de proteínas de IAPs de 19 espécies. O método N-J no software TreeBest (v1.9.2) [98] foi usado para construir a árvore filogenética. Em seguida, o software TBtools (v0.665) foi usado para contar e visualizar a fase do íntron, a distribuição nos cromossomos, o caráter da conservação do domínio e a direção da transcrição de M. mercenaria IAPs com base em gff3. Finalmente, o Ka e Ks de IAPs tandem de M. mercenaria foram calculados usando o software Calculator2.0 [99]

Para explorar o impacto dos TEs na expansão extensiva dos genes IAP, calculamos a densidade TE na vizinhança dos genes no genoma de moluscos - 10 kb a montante e a jusante de cada gene, separadamente para genes IAP e genes não IAP. A significância estatística foi avaliada por t teste. As densidades TE foram analisadas separadamente para cada tipo de TE (DNA, LINE, LTR, SINE). Para determinar a dinâmica evolutiva da família IAP, usamos o mesmo método para identificar o número de membros da família IAP nas 19 espécies submetidas à análise filogenética. O software Café (v2.1) [90] foi usado para analisar o ganho e a perda de IAPs entre essas 19 espécies. Além disso, os IAPs dessas 19 espécies foram reclassificados com base nos tipos.

Análise Filoestratigráfica

Determinamos a hora de origem de M. mercenaria IAPs e DEGs em módulos de órgãos selecionados. Depois que esses genes foram obtidos do WGCNA, eles foram pesquisados ​​pela primeira vez usando BLASTP (E-valor = 1e-10) contra proteínas anotadas dos genomas de 21 espécies [100], com o primeiro filostrato (PS1) sendo a origem da vida celular (ou seja, genes mais antigos), e o último filostrato (PS13) sendo a linhagem do molusco duro (genes mais recentes). Se um gene foi identificado em qualquer uma das 21 espécies, presumimos que o último ancestral comum desse M. mercenaria gene, bem como as respectivas espécies, já possuíam uma cópia deste gene.


Resultados

Testando phydms em dois genes diferentes

Nas próximas subseções, descrevemos aplicativos de exemplo de phydms para conjuntos de dados do mundo real. Especificamente, usamos phydms para comparar medições de varredura mutacional profunda para a evolução da sequência natural para dois genes: influenza hemaglutinina (HA) e β-lactamase. Escolhemos esses genes porque existem vários conjuntos de dados de varredura mutacional profunda publicados para cada um.

A análise com um ExpCM requer três dados de entrada: as preferências de aminoácidos medidas experimentalmente, um alinhamento de sequências de genes de ocorrência natural e uma topologia de árvore filogenética. A topologia da árvore pode ser inferida a partir do alinhamento da sequência. Mas, como a maioria dos outros softwares para análises filogenéticas baseadas em códons (Pond, Frost & amp Muse, 2005 Yang, 2007), phydms não é projetado para inferir a topologia da árvore. Em vez disso, ele fornece maneiras fáceis de inferir a topologia da árvore usando RAxML (Stamatakis, 2014).

Para preparar os dados de entrada necessários, seguimos o fluxo de trabalho na Fig. 2. Os experimentos de varredura mutacional profunda em HA (Thyagarajan & amp Bloom, 2014 Doud & amp Bloom, 2016) relataram diretamente as preferências de aminoácidos. No entanto, os dois experimentos de varredura mutacional profunda em β-lactamase (Firnberg et al., 2014 Stiffler, Hekstra1 & amp Ranganathan, 2015) relatou taxas de enriquecimento para cada mutação, em vez de preferências de aminoácidos. Há uma relação simples entre as taxas de enriquecimento e as preferências de aminoácidos: as preferências são as taxas de enriquecimento após normalizar os valores para somar um em cada local, permitindo uma conversão fácil entre as duas representações de dados (Fig. 2).

Figura 2: Fluxo de trabalho para preparar dados de entrada para phydms.

Também criamos alinhamentos de nível de códon de HA e βSequências -lactamase usando phydms_prepalignment. Os alinhamentos foram aparados para conter apenas locais para os quais as preferências de aminoácidos foram medidas experimentalmente. A Tabela 1 resume as informações básicas sobre esses alinhamentos.

Gene Estudos DMS Resíduos em proteína Resíduos com dados DMS Sequências alinhadas
HA Doud & amp Bloom (2016), Thyagarajan e amp Bloom (2014) 565 564 34
β-lactamase Stiffler, Hekstra1 & amp Ranganathan (2015), Firnberg et al. (2014) 285 263 50
Modelo ΔAIC Log probabilidade Número de parâmetros Valores de parâmetro
ExpCM 0.0 −4877.7 6 β = 2.11, κ = 5.14, ω = 0.52
ExpCM, preferências médias 2090.6 −5922.9 6 β = 0.68, κ = 5.36, ω = 0.22
YNGKP_M5 2113.5 −5928.4 12 αω = 0.30, βω = 1.42, κ = 4.68
YNGKP_M0 2219.6 −5982.5 11 κ = 4.61, ω = 0.20

Teste se a varredura mutacional profunda é informativa sobre a seleção natural

Um primeiro teste simples é se o experimento de varredura mutacional profunda fornece qualquer informação que seja relevante para a seleção natural no gene em questão. Isso pode ser determinado testando se um ExpCM que usa os dados experimentais supera um modelo de substituição que é agnóstico às preferências específicas do local medidas nos experimentos.

Para realizar esse teste, usamos phydms_comprehensive para ajustar vários modelos de substituição para o alinhamento de sequências de HA. Este programa gera automaticamente uma topologia de árvore filogenética a partir do alinhamento usando RAxML (Stamatakis, 2014). Em seguida, ele se ajusta a um ExpCM (neste caso informado pelos dados de varredura mutacional profunda em Doud & amp Bloom (2016)), bem como a vários modelos de substituição que não utilizam informações experimentais específicas do local. A análise foi realizada executando o seguinte comando nos dados de entrada no Arquivo S2:

phydms_comprehensive results / HA_alignment.fasta HA_Doud_prefs.csv

A Tabela 2 lista os quatro modelos de substituição testados: o ExpCM, um ExpCM com as preferências de aminoácidos em média entre os locais e as variantes M0 e M5 dos modelos de substituição do estilo Goldman-Yang padrão (Yang et al., 2000). (Como essas variantes foram originalmente descritas por Yang, Nielsen, Goldman e Krabbe-Pedersen, elas são referidas aqui como modelos YNGKP, observe que outra literatura às vezes usa o acrônimo alternativo GY94.) O ExpCM com preferências médias é um controle sensato porque o a média elimina qualquer informação experimental específica para locais individuais na proteína. Como os modelos têm diferentes números de parâmetros livres, eles são mais bem comparados usando o Akaike Information Criterion (AIC) (Posada & amp Buckley, 2004), que compara log da probabilidade depois de corrigir o número de parâmetros livres. A Tabela 2 mostra que o ExpCM tem um AIC muito menor do que os outros modelos (ΔAIC & gt2000 para todos os outros modelos). Portanto, as preferências de aminoácidos medidas experimentalmente contêm informações sobre a seleção natural na HA, uma vez que um modelo de substituição informado por essas preferências supera em muito os modelos que não utilizam as informações experimentais.

Redimensionar dados de varredura mutacional profunda para restringir a seleção natural

Mesmo se um experimento de varredura mutacional profunda medir a seleção natural autêntica em um gene, o rigor da seleção no experimento não deve corresponder ao rigor da seleção na natureza. As diferenças no rigor da seleção podem ser capturadas pelo parâmetro de rigor ExpCM β. Se a seleção na natureza preferir os mesmos aminoácidos da seleção em laboratório, mas com maior rigor, β será ajustado a um valor & gt1. Por outro lado, se a seleção na natureza não preferir as mutações favorecidas pelo laboratório com tanto rigor quanto a varredura mutacional profunda, β será ajustado a um valor & lt1. A Tabela 2 mostra que um ExpCM para HA informado pelos experimentos em (Doud & amp Bloom, 2016) tem β = 2,11, indicando que a seleção natural favorece os aminoácidos preferidos experimentalmente com maior rigor do que a seleção no laboratório.

O efeito deste redimensionamento de estringência das preferências pode ser visualizado usando phydms_logoplot como mostrado na Fig. 3. O redimensionamento pelo parâmetro de estringência ideal de 2,11 exagera a seleção de aminoácidos preferidos experimentalmente. Por outro lado, se a análise tivesse se ajustado a um parâmetro de estringência & lt1, isso teria achatado as medições experimentais, e quando β = 0 todas as informações dos experimentos são perdidas (Fig. 3). Como a seleção no laboratório provavelmente nunca pode ser ajustada para corresponder exatamente ao que ocorre na natureza, o redimensionamento de rigor é um método valioso para padronizar as medições entre os experimentos.

Figura 3: Reescalonamento das preferências de aminoácidos para refletir o rigor da seleção na natureza.

Compare o quão bem diferentes experimentos capturam a seleção natural

As preferências de aminoácidos para HA e β-lactamase foram medidos cada um por duas experiências independentes. Para cada gene, qual desses experimentos captura melhor a seleção natural?

Podemos responder a esta questão comparando o ExpCM informado por cada experimento. Para β-lactamase, isso significa comparar as preferências medidas por Stiffler, Hekstra1 & amp Ranganathan (2015) com as medidas por Firnberg et al. (2014). Fizemos isso com phydms_comprehensive executando o seguinte comando nos dados de entrada no Arquivo S4:

phydms_comprehensive results / betaLactamase_alignment.fasta betaLactamase_Stiffler_prefs.txt betaLactamase_Firnberg_prefs.txt

A Tabela 3 mostra que um ExpCM informado pelos dados de Stiffler, Hekstra1 & amp Ranganathan (2015) supera um ExpCM informado pelos dados de Firnberg et al. (2014), com um ΔAIC de 96,2. Portanto, o primeiro experimento reflete melhor a seleção natural em β-lactamase. No entanto, ambos os experimentos são informativos, pois ambos superam os modelos YNGKP tradicionais.

Modelo ΔAIC Log probabilidade Número de parâmetros Valores de parâmetro
Preferências ExpCM, Stiffler 0.0 −2581.3 6 β = 1.31, κ = 2.67, ω = 0.72
ExpCM, preferências Firnberg 96.2 −2629.4 6 β = 2.42, κ = 2.60, ω = 0.63
YNGKP_M5 739.2 −2944.9 12 αω = 0.30, βω = 0.49, κ = 3.02
YNGKP_M0 841.0 −2996.8 11 κ = 2.39, ω = 0.28

Fizemos uma comparação semelhante das duas varreduras mutacionais profundas de HA. Conforme resumido na Tabela 4 (e detalhado no Arquivo S5), a varredura mutacional profunda de Doud & amp Bloom (2016) descreve melhor a evolução natural do que os experimentos de Thyagarajan & amp Bloom (2014) (ΔAIC de 44,2). Novamente, ambos os experimentos são claramente informativos, já que ambos superam os modelos YNGKP.

Modelo ΔAIC Log probabilidade Número de parâmetros Valores de parâmetro
Preferências ExpCM, Doud 0.0 −4877.7 6 β = 2.11, κ = 5.14, ω = 0.52
ExpCM, preferências de Thyagarajan 44.2 −4899.7 6 β = 1.72, κ = 4.94, ω = 0.55
YNGKP_M5 2113.5 −5928.4 12 αω = 0.30, βω = 1.42, κ = 4.68
YNGKP_M0 2219.6 −5982.5 11 κ = 4.61, ω = 0.20

Figura 4: Identificação de locais de seleção diversificada.

Identificar locais de seleção diversificada

Em alguns casos, alguns sites podem evoluir de forma diferente na natureza do que o esperado a partir dos experimentos no laboratório. Por exemplo, locais sob seleção diversificada para mudança de aminoácidos experimentarão mais substituições não-sinônimas do que o esperado, dadas as preferências de aminoácidos medidas experimentalmente. Esses sites podem ser identificados usando a opção –omegabysite para ajustar um parâmetro ωr que dá a taxa relativa de substituições não sinônimas para sinônimas depois de contabilizar as preferências medidas experimentalmente para cada local r (Bloom, 2017). Se as preferências capturam toda a seleção de aminoácidos, então esperamos ωr = 1. Sites com ωr & gt 1 estão sob seleção de diversificação para alteração de aminoácidos, enquanto os locais com ωr & lt 1 estão sob seleção de purificação adicional não medida em laboratório.

Testamos a diversificação da seleção em HA executando o seguinte comando nos dados do Arquivo S6:

phydms HA_alignment.fasta HA_RAxML_tree.newick ExpCM_HA_Doud_prefs.csv results / –omegabysite

Os resultados são visualizados na Fig. 4. Enquanto a maioria dos sites estão evoluindo com ωr não muito diferente de um, alguns sites mostram evidências de ωr & gt 1. Conforme descrito em Bloom (2017), esses sites podem estar sob seleção diversificada devido à pressão imunológica. No geral, esta análise mostra como phydms pode identificar sites que evoluem de forma diferente na natureza do que o esperado de experimentos em laboratório.

Phydms tem desempenho computacional superior às alternativas existentes

Nossa justificativa para o desenvolvimento de phydms foi permitir que as análises descritas acima fossem realizadas mais facilmente do que com o software existente. Para validar o desempenho computacional aprimorado, comparamos phydms (versão 2.0.0) a programas alternativos que foram usados ​​para ajustar um ExpCM. As comparações utilizaram as sequências HA descritas na Tabela 1 com um ExpCM informado pela varredura mutacional profunda em Doud & amp Bloom (2016), e foram realizadas em um único núcleo de uma CPU Intel Xeon de 2,6 GHz.

A Tabela 5 mostra os resultados. Com as configurações padrão, phydms levou 10 minutos para otimizar os parâmetros do modelo e comprimentos de ramos. Este tempo de execução pode ser diminuído escalando os comprimentos dos ramos por um único parâmetro em vez de otimizá-los individualmente (opção de escala –brlen) outro trabalho mostrou que quando a árvore inicial é razoavelmente precisa, esta aproximação pode melhorar o tempo de execução enquanto afeta apenas ligeiramente o ajuste do modelo ( Yang, 2000 Pond & amp Frost, 2005). Ajustando os parâmetros de frequência de nucleotídeos ϕC (Opção –fitphi) em vez de determiná-los empiricamente, dobrou o tempo de execução. A probabilidade de log e os valores dos parâmetros do modelo β e ω eram quase idênticos para todas essas três configurações. A otimização baseada em gradiente é importante: o uso de phydms sem gradientes (opção –nograd) aumentou o tempo de execução em mais de 5 vezes, ao mesmo tempo que produziu uma probabilidade de log mais baixa.

Dois programas alternativos foram usados ​​anteriormente para ajustar um ExpCM. Bloom (2014a) e Bloom (2014b) usaram um programa Python (phyloExpCM) para executar o HyPhy para otimizar um ExpCM semelhante aos usados ​​aqui. Bloom (2017) usou uma versão antiga de phydms para ajustar um ExpCM idêntico aos aqui usando as bibliotecas Bio ++ (Guéguen et al., 2013). Executamos ambos os programas no conjunto de dados HA, usando phyloExpCM versão 0.3 com HyPhy versão 2.22 e phydms versão 1.3.0 com Bio ++. A Tabela 5 mostra que esses programas foram ∼100 vezes e ∼200 vezes mais lentos do que phydms com configurações padrão. Uma pequena parte do tempo de execução mais lento é porque essas implementações anteriores não podem calcular a frequência de nucleotídeos empírica ϕC parâmetros, entretanto, eles permanecem muito mais lentos do que phydms, mesmo quando esses parâmetros são ajustados. Observe que a Tabela 5 pode superestimar a vantagem computacional de phydms sobre HyPhy em algumas situações, uma vez que o código HyPhy, mas não phydms, pode, em princípio, ser escrito para permitir o uso de vários núcleos. Não foi possível adivinhar as razões para as diferenças de desempenho, já que os programas diferem completamente em suas implementações. Mas, tranquilizadoramente, todos os programas produziram parâmetros de modelo semelhantes β e ω apesar das implementações independentes dos cálculos de probabilidade e da otimização.

Programas Tempo de execução (min) Log probabilidade β ω
phydms, escalar ramos 7.8 −4877.9 2.11 0.52
phydms, configurações padrão 10.5 −4877.7 2.11 0.52
phydms, fit ϕ valores 23.2 −4876.5 2.11 0.53
phydms, sem gradiente 52.8 −4894.0 2.13 0.57
Bio ++ via phydms antigos 962.6 −4880.6 2.09 0.53
HyPhy via phyloExpCM 2102.0 −4908.4 2.11 0.57

As análises acima usaram alinhamentos relativamente pequenos de 34 ou 50 sequências (Tabela 1). Para testar como o desempenho de phydms mudou com o tamanho do alinhamento, analisamos alinhamentos HA variando de 34 a 108 sequências. Conforme mostrado na Tabela 6, o tempo de execução aumentou com o tamanho do alinhamento, mas permaneceu abaixo de uma hora, mesmo para o maior alinhamento. Os valores dos parâmetros do modelo inferidos também permaneceram relativamente constantes à medida que o tamanho do alinhamento de HA aumentava (Tabela 6).

Sequências alinhadas Tempo de execução (min) β ω
34 14.5 1.97 0.42
62 37.2 1.92 0.45
85 41.0 1.87 0.48
104 51.2 1.87 0.49

Conteúdo

A estatística de Kolmogorov-Smirnov para uma dada função de distribuição cumulativa F(x) é

onde supx é o supremo do conjunto de distâncias. Intuitivamente, a estatística considera a maior diferença absoluta entre as duas funções de distribuição em todos x valores.

Na prática, a estatística requer um número relativamente grande de pontos de dados (em comparação com outros critérios de adequação, como a estatística de teste de Anderson-Darling) para rejeitar adequadamente a hipótese nula.

A distribuição de Kolmogorov é a distribuição da variável aleatória

Onde B(t) é a ponte browniana. A função de distribuição cumulativa de K é dado por [3]

que também pode ser expresso pela função Jacobi theta ϑ 01 (z = 0 τ = 2 ix 2 / π) < displaystyle vartheta _ <01> (z = 0 tau = 2ix ^ <2> / pi)> . Tanto a forma da estatística do teste de Kolmogorov – Smirnov quanto sua distribuição assintótica sob a hipótese nula foram publicadas por Andrey Kolmogorov, [4] enquanto uma tabela da distribuição foi publicada por Nikolai Smirnov. [5] Relações de recorrência para a distribuição da estatística de teste em amostras finitas estão disponíveis. [4]

Sob hipótese nula de que a amostra vem da distribuição hipotética F(x),

o qualidade de ajuste teste ou o teste de Kolmogorov – Smirnov podem ser construídos usando os valores críticos da distribuição de Kolmogorov. Este teste é assintoticamente válido quando n → ∞ < displaystyle n to infty>. Ele rejeita a hipótese nula no nível α < displaystyle alpha> se

Onde Kα é encontrado de

O poder assintótico desse teste é 1.

  • [7] e [8] para distribuições nulas contínuas com código em C e Java encontrado em. [7]
  • [9] para distribuição nula puramente discreta, mista ou contínua implementada no pacote KSgeneral [10] do projeto R para computação estatística, que para uma dada amostra também calcula a estatística de teste KS e seu valor p. A implementação alternativa de C ++ está disponível em. [9]

Teste com parâmetros estimados Editar

Se o formulário ou os parâmetros de F(x) são determinados a partir dos dados Xeu os valores críticos determinados desta forma são inválidos. Nesses casos, Monte Carlo ou outros métodos podem ser necessários, mas as tabelas foram preparadas para alguns casos. Detalhes para as modificações necessárias para a estatística de teste e para os valores críticos para a distribuição normal e a distribuição exponencial foram publicados, [11] e publicações posteriores também incluem a distribuição de Gumbel. [12] O teste de Lilliefors representa um caso especial disso para a distribuição normal. A transformação do logaritmo pode ajudar a superar os casos em que os dados do teste de Kolmogorov não parecem se encaixar na suposição de que vieram da distribuição normal.

Usando parâmetros estimados, surge a questão de qual método de estimativa deve ser usado. Normalmente, este seria o método de máxima verossimilhança, mas, por ex. para a distribuição normal, o MLE tem um grande erro de viés no sigma.Usar um ajuste de momento ou minimização KS em vez disso tem um grande impacto nos valores críticos e também algum impacto na potência de teste. Se precisarmos decidir para os dados de Student-T com df = 2 por meio do teste KS se os dados podem ser normais ou não, uma estimativa de ML com base em H0 (os dados são normais, portanto, usar o desvio padrão para a escala) daria uma distância KS muito maior do que um ajuste com KS mínimo. Neste caso, devemos rejeitar H0, que costuma ser o caso com MLE, porque o desvio padrão da amostra pode ser muito grande para os dados T-2, mas com a minimização de KS podemos obter ainda um KS muito baixo para rejeitar H0. No caso de Student-T, um teste KS modificado com estimativa de KS em vez de MLE, torna o teste KS de fato um pouco pior. No entanto, em outros casos, esse teste KS modificado leva a um poder de teste ligeiramente melhor.

Distribuição nula discreta e mista Editar

Da continuidade à direita de F (x) < displaystyle F (x)>, segue-se que F (F - 1 (t)) ≥ t < displaystyle F (F ^ <-1> (t)) geq t> e F - 1 (F (x)) ≤ x < displaystyle F ^ <-1> (F (x)) leq x> e, portanto, a distribuição de D n < displaystyle D_> depende da distribuição nula F (x) < displaystyle F (x)>, ou seja, não é mais livre de distribuição como no caso contínuo. Portanto, um método rápido e preciso foi desenvolvido para calcular a distribuição exata e assintótica de D n < displaystyle D_> quando F (x) < displaystyle F (x)> é puramente discreto ou misto, [9] implementado em C ++ e no pacote KSgeneral [10] da linguagem R. As funções disc_ks_test (), mixed_ks_test () e cont_ks_test () calculam também a estatística de teste KS e os valores p para distribuições nulas puramente discretas, mistas ou contínuas e tamanhos de amostra arbitrários. O teste KS e seus valores p para distribuições nulas discretas e pequenos tamanhos de amostra também são calculados em [13] como parte do pacote dgof da linguagem R. Os principais pacotes estatísticos entre os quais SAS PROC NPAR1WAY, [14] Stata ksmirnov [15] implementam o teste KS sob a suposição de que F (x) < displaystyle F (x)> é contínuo, o que é mais conservador se a distribuição nula for realmente não contínuo (ver [16] [17] [18]).

O teste de Kolmogorov-Smirnov também pode ser usado para testar se duas distribuições de probabilidade unidimensionais subjacentes diferem. Neste caso, a estatística Kolmogorov-Smirnov é

Para grandes amostras, a hipótese nula é rejeitada no nível α < displaystyle alpha> se

para que a condição leia

Aqui, novamente, quanto maiores os tamanhos de amostra, mais sensível é o limite mínimo: Para uma determinada proporção de tamanhos de amostra (por exemplo, m = n < displaystyle m = n>), as escalas de limite mínimo no tamanho de qualquer uma das amostras de acordo com sua raiz quadrada inversa.

Observe que o teste de duas amostras verifica se as duas amostras de dados vêm da mesma distribuição. Isso não especifica qual é a distribuição comum (por exemplo, se é normal ou não normal). Novamente, as tabelas de valores críticos foram publicadas. Uma deficiência do teste univariado de Kolmogorov-Smirnov é que ele não é muito poderoso porque foi desenvolvido para ser sensível a todos os tipos possíveis de diferenças entre duas funções de distribuição. Alguns argumentam [20] [21] que o teste de Cucconi, originalmente proposto para comparar simultaneamente localização e escala, pode ser muito mais poderoso do que o teste de Kolmogorov-Smirnov ao comparar duas funções de distribuição.

Em 2021, Michael Naaman estendeu o teste KS de uma e duas amostras para o caso multivariado incluindo dados dependentes. [1]

Embora o teste de Kolmogorov-Smirnov seja geralmente usado para testar se um determinado F(x) é a distribuição de probabilidade subjacente de Fn(x), o procedimento pode ser invertido para fornecer limites de confiança sobre F(x) em si. Se alguém escolher um valor crítico da estatística de teste Dα tal que P (Dn & gt Dα) = α, então uma banda de largura ±Dα por aí Fn(x) conterá inteiramente F(x) com probabilidade 1 - α.

Um teste multivariado de Kolmogorov-Smirnov de qualidade de ajuste livre de distribuição foi proposto por Justel, Peña e Zamar (1997). [22] O teste usa uma estatística que é construída usando a transformação de Rosenblatt, e um algoritmo é desenvolvido para computá-la no caso bivariado. Um teste aproximado que pode ser facilmente calculado em qualquer dimensão também é apresentado.

A estatística do teste de Kolmogorov-Smirnov precisa ser modificada se um teste semelhante for aplicado a dados multivariados. Isso não é direto porque a diferença máxima entre duas funções de distribuição cumulativa conjunta não é geralmente a mesma que a diferença máxima de qualquer uma das funções de distribuição complementar. Assim, a diferença máxima será diferente dependendo de qual de Pr (x & lt X ∧ y & lt Y) < displaystyle Pr (x & ltX land y & ltY)> ou Pr (X & lt x ∧ Y & gt y) < displaystyle Pr (X & ltx land Y & gty)> ou qualquer um dos outros dois arranjos possíveis é usado. Pode-se exigir que o resultado do teste usado não dependa da escolha feita.

Uma abordagem para generalizar a estatística de Kolmogorov-Smirnov para dimensões mais altas que atenda à preocupação acima é comparar os cdfs das duas amostras com todas as ordenações possíveis e obter o maior do conjunto de estatísticas K-S resultantes. No d dimensões, existem 2 d -1 dessas ordens. Uma dessas variações é devida a Peacock [23] (ver também Gosset [24] para uma versão 3D) e outra a Fasano e Franceschini [25] (ver Lopes et al. Para uma comparação e detalhes computacionais). [26] Valores críticos para a estatística de teste podem ser obtidos por simulações, mas dependem da estrutura de dependência na distribuição conjunta.

Em uma dimensão, a estatística de Kolmogorov-Smirnov é idêntica à chamada discrepância estrela D, então outra extensão KS nativa para dimensões mais altas seria simplesmente usar D também para dimensões mais altas. Infelizmente, a discrepância em estrelas é difícil de calcular em dimensões elevadas.

Em 2021, foi descoberta a forma funcional da estatística do teste KS multivariada, o que simplificou o problema de estimar as probabilidades de cauda da estatística do teste KS multivariada, necessária para o teste estatístico. Para o caso multivariado, se Feu é o euo marginal contínuo de uma distribuição de probabilidade com k variáveis, então

portanto, a distribuição limite não depende das distribuições marginais. [1]

O teste de Kolmogorov-Smirnov (um ou dois testes de amostra verifica a igualdade das distribuições) é implementado em muitos programas de software:


Informação sobre o autor

Christian P. Kubicek e Andrei Steindorff contribuíram igualmente para este trabalho.

Afiliações

Grupo de Microbiologia e Genômica Aplicada, Área de Pesquisa Tecnologia Bioquímica, Instituto de Engenharia Química, Ambiental e de Biociências (ICEBE), TU Wien, Viena, Áustria

Christian P. Kubicek, Komal Chenthamara, Alexey G. Kopchinskiy e Irina S. Druzhinina

Christian P. Kubicek e Eva M. Kubicek

Departamento de Biologia Celular, Universidade de Brasília, Brasíla, DF, Brasil

Andrei S. Steindorff e Eliane Ferreira Noronha

Instituto Conjunto do Genoma do Departamento de Energia dos EUA, Walnut Creek, CA, EUA

Andrei S. Steindorff, Gelsomina Manganiello, Alan Kuo e amp Igor V. Grigoriev

Dipartimento di Agraria, Università degli Studi di Napoli „Federico II“, Nápoles, Portici, Itália

CNRS, Aix-Marseille Université, Marselha, França

Departamento de Ciências Biológicas, King Abdulaziz University, Jeddah, Arábia Saudita

Laboratório principal de aproveitamento de resíduos sólidos orgânicos da província de Jiangsu, Universidade Agrícola de Nanjing, Nanjing, China

Jian Zhang, Feng Cai, Qirong Shen e Irina S. Druzhinina

Centro Hispano-Luso de Investigaciones Agrarias (CIALE), Departamento de Microbiología y Genética, Universidad de Salamanca, Campus de Villamayor, Calle Del Duero, Villamayor, España

Riccardo Baroncelli e Giovanni Vannacci

Departamento de Agricultura, Alimentação e Meio Ambiente, Universidade de Pisa, Pisa, Itália

Departamento de Biologia Vegetal e Microbiana, Universidade da Califórnia, Berkeley, Berkeley, CA, EUA


Assista o vídeo: Como instalar PYTHON com foco em análise de dados - CURSO Introdução ao Python Pt. 1 (Junho 2022).


Comentários:

  1. Hamlin

    Um conhecido do ICQ postou um link para seu blog. Acontece que não foi em vão que eu gostei. Agora vou ler constantemente

  2. Healhtun

    Posso procurar a referência de um site em que há muitos artigos sobre essa questão.

  3. Channon

    Eu tenho uma situação parecida. Convido você para uma discussão.



Escreve uma mensagem