Em formação

Quais são as aplicações da previsão da estrutura das proteínas?

Quais são as aplicações da previsão da estrutura das proteínas?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

As moléculas de proteína são muito importantes, pois são utilizadas para catalisar quase todas as reações químicas na célula, regular a atividade do gene e fornecer estrutura celular.

No entanto, ao prever a estrutura da proteína, não consegui encontrar muitos casos de uso. No omicsonline, consegui encontrar um artigo sobre Métodos Computacionais para Predição da Estrutura de Proteínas e sua Aplicação no Projeto de Fármacos:

A maioria dos projetos modernos de descoberta de medicamentos começa com a identificação e verificação do alvo da proteína para obter um alvo verificado do medicamento. Para o projeto de drogas com base na estrutura, a estrutura tridimensional da proteína precisa ser determinada experimentalmente usando cristalografia de raios-x ou espectroscopia de ressonância magnética nuclear (NMR).

Portanto, uma vez que as proteínas são vitais para a manutenção do corpo, há alguma outra causa de uso para prever a estrutura?


Pensando bem, a estrutura da proteína é muito importante para determinar como as proteínas interagem, por exemplo, determinar as vias moleculares ou estruturas do capsídeo viral. Conhecer a estrutura de uma proteína pode ajudar os cientistas a entender melhor o que ela faz e como o faz. Observando as estruturas das proteínas, os cientistas podem determinar exatamente como um alelo diferente para um gene causa mudanças no fenótipo de um organismo em um nível bioquímico. Prever locais dentro da estrutura de uma proteína que têm uma função enzimática permite que os cientistas prevejam como vários fatores afetam sua função. As diferenças de temperatura ou pH também podem ter um efeito na estrutura da proteína, e entender como uma proteína muda com base nas mudanças de pH ou temperatura pode ajudar os cientistas a determinar como uma proteína funciona em seu ambiente específico.


Para responder à sua pergunta especificamente no contexto do design de drogas: seria ótimo se pudéssemos confiar na previsão da estrutura da proteína para o design de drogas, mas a previsão da estrutura ainda não é totalmente precisa. Projetos de design de drogas são caros, por isso muitas vezes é mais sábio gastar o dinheiro primeiro na determinação da estrutura experimental, porque isso fornecerá uma base mais confiável para o design de drogas orientado por estrutura (a alternativa seria gastar o dinheiro em mais tentativas fracassadas de projetar uma boa droga, porque essas tentativas são guiadas por uma estrutura prevista imprecisa).

Além disso, a determinação da estrutura experimental é valiosa para a previsão, porque aumenta a biblioteca de estruturas conhecidas para modelagem de homologia.


a previsão da estrutura da proteína ainda está em sua infância, por isso a falta de exemplos, os benefícios são imensos, no entanto, na estrutura das proteínas = função e, como você disse, as proteínas catalisam ou constituem quase tudo no corpo. Podemos descobrir a estrutura de forma duvidosa, mas prever a estrutura nos permitiria construir proteínas para ordenar, porque prever a estrutura a partir da sequência significa prever o enovelamento das proteínas, que é, em muitos aspectos, o Santo Graal da biologia moderna. Ser capaz de fazer isso de forma confiável e com proteínas mais complexas nos permitiria construir proteínas para realizar tarefas específicas, em vez de esperar encontrar uma que o faça e apenas copiá-la.


Fluxo de trabalho de conjunto para previsão de estrutura de SARS-CoV-2 nsp3. Os protocolos caso a caso de predição de estrutura são determinados pela análise precisa de cada sequência de proteína usando informações sobre a posição de regiões intrinsecamente desordenadas (IDR), regiões transmembrana (TM), peptídeos de sinal e modelos

Até o momento, estruturas parciais ou completas de cinco proteínas do SARS-CoV-2 foram resolvidas experimentalmente. Tendo em vista a urgência de compreender a maquinaria molecular do SARS-CoV-2, usamos um fluxo de trabalho de conjunto para gerar modelos estruturais de todas as proteínas virais não estruturais maduras e estruturais não resolvidas. Devido ao desempenho dos métodos para predição da estrutura da proteína variando por complexidade, as sequências da proteína foram cuidadosamente analisadas para otimizar a combinação dos métodos de última geração de predição da estrutura da proteína. Como tal, os modelos resultantes têm a resolução mais alta possível e informações máximas no que diz respeito à forma geral de cada proteína. Aqui, fornecemos uma sinopse para cada uma das 27 proteínas virais maduras, juntamente com seus modelos estruturais e informações adicionais importantes, como a variabilidade em relação ao SARS-CoV-1 e potencial relevância funcional para o SARS-CoV-2.

Protocolos caso a caso foram gerados a partir de um perfil extraído de cada sequência, composto por dois fatores principais:

  1. Informações baseadas na sequência primária. Resíduos dentro de domínios conservados (Pfam (Finn et al. 2014)) e regiões intrinsecamente desordenadas foram identificados usando IuPred2 (Mészáros, Erdos e Dosztányi 2018), que depende da composição de segmentos de aminoácidos e sua tendência para formar motivos estruturais estáveis. TMHMM (Krogh et al. 2001) foi usado para prever as regiões da proteína transmembrana helicoidal com base em um modelo de Markov oculto. Nenhuma proteína transmembrana de barril β está presente no SARS-CoV-2.
  2. Disponibilidade de estruturas determinadas experimentalmente. PSI-BLAST foi usado para identificar homólogos com estruturas parciais ou completas disponíveis no Protein Data Bank (PDB) que poderiam ser usados ​​como modelos para modelagem.

Várias proteínas SARS-CoV-1 que são altamente conservadas foram resolvidas experimentalmente e estão disponíveis para nossa análise. A fim de maximizar a tradução precisa das informações dessas estruturas, as substituições de aminoácidos foram analisadas para identificar aquelas que provavelmente impactam a conformação da proteína. Exemplos de mudanças que afetam a estrutura da proteína são uma cadeia lateral hidrofóbica sendo substituída por um aminoácido carregado no núcleo da proteína ou uma substituição por prolina (uma hélice "quebradora") dentro de uma estrutura helicoidal. Caso tais substituições não sejam encontradas e a proteína tenha mais de 70% de identidade com o modelo, loops e substituições são modelados localmente (LM) usando a remodelação Rosetta (Huang et al. 2011) e fixbb (Hu et al. 2007 Kuhlman e Baker 2000) aplicativos, respectivamente. A comparação de estruturas cristalográficas lançadas recentemente com os modelos gerados usando sequências de proteínas cuidadosamente analisadas e usando LM para regiões selecionadas parece ser uma abordagem eficaz (Prates et al. 2020). Alcançar alta resolução local, especialmente em locais de ligação substrato / ligante, pode aumentar consideravelmente os resultados de estudos subsequentes para identificação de candidatas a pequenas moléculas usando docking molecular. Embora as abordagens de acoplamento de conjunto sejam frequentemente aplicadas para lidar com a flexibilidade conformacional da proteína alvo, o refinamento do local de ligação com base na informação estrutural de homólogos na forma holo, se disponível, é mais adequado para identificar complexos funcionais.

A modelagem baseada em homologia é normalmente a abordagem ideal para casos em que a identidade do modelo está acima de 30%. A abordagem baseada em fragmentos (FB) do fluxo de trabalho I-TASSER (Yang et al. 2015) foi usada nos casos em que o intervalo de identidade era 30-70% e para fornecer um modelo alternativo para LM em regiões de proteínas que abrigam substituições que seria esperado que afetasse significativamente a conformação da proteína. A fim de prever estruturas para proteínas que não têm uma estrutura cristalina de um homólogo disponível, aplicamos o fluxo de trabalho trRosetta (Yang et al. 2020). Com base em benchmarks da Avaliação Crítica de Técnicas para Predição de Estrutura de Proteínas (CASP13), trRosetta foi projetado para atingir um desempenho sólido para modelar novas dobras usando uma rede residual profunda para prever a distância entre resíduos e orientação que orienta a minimização de energia. Em Prates et al. 2020, usamos a análise de nsp3, a maior proteína madura do SARS-CoV-2, como um exemplo para descrever o fluxo de trabalho (Figura).

Finn, Robert D., Alex Bateman, Jody Clements, Penelope Coggill, Ruth Y. Eberhardt, Sean R. Eddy, Andreas Heger, et al. 2014. “Pfam: The Protein Families Database.” Pesquisa de ácidos nucléicos 42 (problema de banco de dados): D222–30.

Huang, Po-Ssu, Yih-En Andrew Ban, Florian Richter, Ingemar Andre, Robert Vernon, William R. Schief e David Baker. 2011. “RosettaRemodel: A Generalized Framework for Flexible Backbone Protein Design.” PloS One 6 (8): e24109.

Hu, Xiaozhen, Huanchen Wang, Hengming Ke e Brian Kuhlman. 2007. “Design de alta resolução de um circuito de proteína.” Anais da Academia Nacional de Ciências dos Estados Unidos da América 104 (45): 17668–73.

Krogh, A., B. Larsson, G. von Heijne e E. L. Sonnhammer. 2001. “Predicting Transmembrane Protein Topology with a Hidden Markov Model: Application to Complete Genomes.” Journal of Molecular Biology 305 (3): 567–80.

Kuhlman, B. e D. Baker. 2000. "Native Protein Sequences Are near Optimal for their Structures." Anais da Academia Nacional de Ciências dos Estados Unidos da América 97 (19): 10383–88.

Mészáros, Bálint, Gábor Erdos e Zsuzsanna Dosztányi. 2018. “IUPred2A: Context-Dependent Prediction of Protein Disorder as a Function of Redox State and Protein Binding.” Pesquisa de ácidos nucléicos 46 (W1): W329–37.

Prates, Erica Teixeira, Michael R. Garvin, Mirko Pavicic, Piet Jones, Manesh Shah, Christiane Alvarez, David Kainer, et al. 2020. “Síndrome de Imunodeficiência Funcional via Infecção Intestinal em COVID-19.” bioRxiv. https://doi.org/10.1101/2020.04.06.028712.

Yang, Jianyi, Ivan Anishchenko, Hahnbeom Park, Zhenling Peng, Sergey Ovchinnikov e David Baker. 2020. “Improved Protein Structure Prediction using Predicted Interresidue Orientations.” Anais da Academia Nacional de Ciências dos Estados Unidos da América 117 (3): 1496–1503.

Yang, Jianyi, Renxiang Yan, Ambrish Roy, Dong Xu, Jonathan Poisson e Yang Zhang. 2015. “The I-TASSER Suite: Protein Structure and Function Prediction.” Métodos da Natureza 12 (1): 7–8.


Quais são as aplicações da previsão da estrutura das proteínas? - Biologia

uma Instituto de Biologia Integrativa, Universidade de Liverpool, Liverpool L69 7ZB, Inglaterra, b Departamento de Bioquímica, Universidade de Washington, Seattle, WA 98195, EUA, c Institute for Protein Design, University of Washington, Seattle, WA 98195, EUA, e d Howard Hughes Medical Institute, University of Washington, Box 357370, Seattle, WA 98195, EUA
* E-mail para correspondência: [email protected]

A pressão evolutiva nas interações de resíduos, intramoleculares ou intermoleculares, que são importantes para a estrutura ou função da proteína, podem levar à covariância entre as duas posições. Avanços metodológicos recentes permitem que previsões de contato muito mais precisas sejam derivadas desse sinal de covariância evolucionária. A aplicação prática das previsões de contato tem sido amplamente confinada à bioinformática estrutural, mas, como este trabalho busca demonstrar, os dados podem ser de enorme valor para o biólogo estrutural que trabalha com cristalografia de raios-X, crio-EM ou RMN. Pacotes de bioinformática estrutural integrativa, como Rosetta já pode explorar as previsões de contato de várias maneiras. A contribuição das previsões de contato começa no projeto do construto, onde os domínios estruturais podem precisar ser expressos separadamente e as previsões de contato podem ajudar a prever os limites do domínio. A solução de estrutura por substituição molecular (MR) se beneficia de previsões de contato de diversas maneiras: em casos difíceis, modelos de pesquisa mais precisos podem ser construídos usando ab initio modelagem quando as previsões estão disponíveis, enquanto as previsões de contato intermolecular podem permitir a construção de modelos de busca oligoméricos maiores. Além disso, o MR usando motivos supersecundários ou telas em grande escala contra o PDB pode explorar informações, como a natureza paralela ou antiparalela de qualquer pareamento de fio & # 946 no alvo, que pode ser inferido a partir de previsões de contato. As informações de contato serão particularmente valiosas na determinação de estruturas de resolução mais baixa, ajudando a atribuir o registro de sequência. Em grandes complexos, as informações de contato podem permitir que a identidade de uma proteína responsável por uma determinada região de densidade seja determinada e, em seguida, auxiliar na orientação de um modelo disponível dentro dessa densidade. Em NMR, os contatos previstos podem fornecer informações de longo alcance para estender o limite de tamanho superior da técnica de uma maneira análoga, mas complementar aos métodos experimentais. Finalmente, os contatos previstos podem distinguir entre interfaces biologicamente relevantes e meros contatos reticulados em uma estrutura cristalina final, e têm potencial na identificação de regiões funcionalmente importantes e na previsão das consequências das mutações.

1. Introdução: previsões de contato, seu potencial e suas limitações

A previsão precisa dos contatos de resíduos em proteínas é um desafio de longa data enfrentado pela comunidade científica. Hoje, a previsão de contatos de resíduos é geralmente realizada usando programas que empregam um ou ambos dos dois algoritmos: análise de acoplamento evolutivo (EC) e aprendizado de máquina supervisionado (SML).

Os métodos de EC usam apenas informações de sequência para identificar as mudanças coordenadas de pares de resíduos em famílias de proteínas. Essas mudanças coordenadas entre os resíduos participantes são normalmente impulsionadas pela pressão evolutiva para preservar a estrutura e a função da proteína. Por muitos anos, a previsão do contato de pares de resíduos pela análise do padrão coevolutivo de aminoácidos em uma família de proteínas (Fig. 1) foi limitada pelo modelo estatístico aplicado. O chamado modelo estatístico local foi incapaz de distinguir previsões de contato precisas, ou seja, direto ( UMAB e BC ) pares covariáveis ​​de resíduos de contato, de indiretos ( UMAC ) pares de resíduos que coviam, mas não estão em contato. Alguns anos depois, mas em grande parte esquecido até recentemente, Lapedes e seus colegas de trabalho foram os primeiros a aplicar um modelo estatístico global para superar com sucesso esse obstáculo (Lapedes et al. , 1999). Mais recentemente, vários grupos de pesquisa revisitaram esse conceito e, por meio de diferentes procedimentos de aprendizagem do mesmo modelo global, foram capazes de melhorar drasticamente a precisão das previsões de contato. Enquanto alguns contam com o princípio da estimativa da matriz de covariância inversa (Morcos et al. , Marcas de 2011 et al. , 2011 Jones et al. , 2012), foi demonstrado que as abordagens baseadas em pseudo-verossimilhança resultam nas previsões mais precisas (Balakrishnan et al. , 2011 Ekeberg et al. , 2013 Kamisetty et al. , 2013). No entanto, esses métodos dependem fortemente da disponibilidade de homólogos de sequência suficientes para serem eficazes (ver, por exemplo, Morcos et al. , Kamisetty 2011 et al. , 2013 Jones et al. , Marcas de 2015 et al. , 2012 Ovchinnikov, Kim et al. , 2015 Skwark et al. , 2014). No entanto, juntamente com os aumentos acelerados no tamanho dos bancos de dados de sequência de proteínas (UniProt Consortium, 2015), estes tornaram a previsão de contato precisa uma realidade (Marks et al. , 2012 de Juan et al. , 2013). Métodos de previsão de contato proeminentes e software auxiliar, especialmente aqueles disponíveis como servidores, estão listados na Tabela 1.

tabela 1
Métodos-chave na previsão de contato ou seu aplicativo disponível como servidores ou downloads


figura 1
Uma representação esquemática dos vários pontos nos quais as previsões de contato, derivadas de múltiplos alinhamentos de sequência de proteína (centro), são úteis no curso (da esquerda para a direita) da determinação da estrutura por cristalografia de raios-X ou crio-EM. Os aplicativos para solução de espalhamento de dados e experimentos de NMR são mostrados no canto inferior direito.

Os métodos SML usam uma variedade de informações dependentes e independentes da sequência para prever o contato dos pares de resíduos (Cheng & # 38 Baldi, 2005 Shackelford & # 38 Karplus, 2007 Gonz & # 225lez et al. , 2013 Wang & # 38 Xu, 2013 Zhang et al. , 2016 Du et al. , 2016). Esses métodos derivam contatos por meio da análise de características de proteínas, perfis de sequência e informações mútuas. Embora geralmente inferiores aos métodos EC, os algoritmos SML podem superar os algoritmos EC para famílias com menos sequências homólogas (Skwark et al. , 2014 Wang & # 38 Xu, 2013 Ma et al. , 2015 ).

Uma vez que os métodos SML aprendem e predizem pares de resíduos ao mesmo tempo, eles sofrem de uma incapacidade semelhante, como visto com métodos EC mais antigos que empregam modelos estatísticos locais, para distinguir pares de resíduos covariantes direta e indiretamente. No entanto, para considerar essas informações potencialmente valiosas, as abordagens mais recentes combinam métodos de ambas as categorias: CE e SML. As previsões SML podem ser usadas como métodos anteriores aos de EC, sendo um exemplo GREMLIN (Ovchinnikov, Kinch et al. , 2015), ou a saída de vários métodos EC juntamente com perfis de sequência podem ser usados ​​como recursos em métodos SML, por exemplo MetaPSICOV (Jones et al. , 2015) e PconsC 2 (Skwark et al. , 2014). Pipelines combinando vários métodos EC e SML são frequentemente referidos como metapreditores, e uma comparação útil dos melhores métodos foi publicada recentemente (Wang et al. , 2017). Na maioria dos casos, os metapreditores superam os métodos individuais de EC ou SML em precisão de predição de contato, mas a melhoria na predição de estrutura é menos clara. A melhoria na precisão da predição de contato é particularmente notável para os casos em que as sequências disponíveis são menos ou menos diversas (de Oliveira et al. , 2016 Wuyun et al. , 2016). Os principais recursos para previsão de contato estão listados na Tabela 1.

1.1. O número e a diversidade de sequências necessárias para previsões de contato precisas

Juntamente com os primeiros métodos de EC que implementam um modelo estatístico global, vários guias foram propostos para aproximar o tamanho mínimo de um alinhamento de sequência múltipla necessário para previsões de contato úteis. Originalmente, 1000 homólogos de sequência foram considerados o mínimo para previsões precisas (Jones et al. , Marcas de 2012 et al. , 2012 Andreani & # 38 S & # 246ding, 2015). Mais recentemente, Marks e co & # 173workers recomendaram um fator dependente do comprimento mais específico da sequência para seu método EVFold , em que a contagem de sequência no alinhamento deve exceder cinco vezes o comprimento da proteína para obter uma boa ab initio resultados de dobragem (marcas et al. , 2012). Outros também sugeriram requisitos semelhantes (Kamisetty et al. , 2013), mas um trabalho mais recente reduziu ligeiramente esse limite por meio de algoritmos de detecção de covariância aprimorados (Ovchinnikov, Kinch et al. , 2015) ou o uso, quando disponível, de informações estruturais para decodificar um mapa de contato previsto (Jeong & # 38 Kim, 2016). No entanto, nenhuma dessas estimativas captura a diversidade em uma coleção de sequências, o que também é importante para uma previsão de contato precisa e, portanto, podem ser enganosas. Uma das diretrizes mais recentes considera a diversidade em um alinhamento de sequência múltipla após o agrupamento em cerca de 80% da identidade de sequência: o número de sequências efetivas. Embora grupos diferentes variem em sua escolha de corte de identidade de sequência (Morcos et al. , 2011 Jones et al. , 2015 Skwark et al. , 2014 Hopf et al. , 2012), o consenso geral sugere que o número de sequências eficazes é a medida mais eficaz de diversidade de alinhamento e, portanto, um preditor útil de precisão de previsão. Os métodos EC mais recentes requerem cerca de 100 & # 8211200 sequências eficazes para que as previsões de contato superior sejam precisas (Jones et al. , 2015 Skwark et al. , 2014). O número de contatos que podem ser previstos com precisão aumenta com o número de sequências efetivas: para gerar modelos de estrutura tridimensional precisos de forma robusta, é necessário quase cinco vezes mais sequências (Ovchinnikov et al. , 2017 ).

1.2. O desafio de distinguir contatos intramoleculares e intermoleculares

Atualmente, os métodos usados ​​para prever os emparelhamentos de contato de resíduo não podem distinguir com segurança os contatos intramoleculares e intermoleculares, mas separar os dois é importante para o desempenho ideal de muitos dos métodos mencionados abaixo. Os contatos de resíduo intramolecular são geralmente mais simples de prever, pois um único alinhamento de sequência de proteína é suficiente. No entanto, se o alvo formar homo-oligômeros, a previsão de contato final irá potencialmente conter contatos intramoleculares e intermoleculares se os últimos forem importantes para a estrutura e função e, portanto, sob pressão evolutiva. Sob tais circunstâncias, a interpretação dos contatos previstos pode ser enganosa. Ao mesmo tempo, se as informações estruturais estiverem disponíveis para a estrutura da proteína monomérica ou dimérica, as informações de contato previstas podem ser essenciais na identificação de novos estados oligoméricos, identificando pares de contato fortemente previstos, mas não satisfeitos (Hopf et al. , 2012 Jana et al. , 2014 ).

Onde a informação estrutural para separar os contatos intramoleculares e intermoleculares em homo-oligômeros não está disponível, as previsões de acessibilidade podem ajudar: um contato intermolecular é mais provável onde ambos de um par de resíduos de contato candidato são previstos para estar na superfície molecular. Já usado em alguns algoritmos de predição de contato para ajudar na classificação de contatos intramoleculares (por exemplo PconsC 2 Skwark et al. , 2014), o desenvolvimento contínuo de métodos de previsão de área de superfície acessíveis a solvente (Heffernan et al. , 2015) deve facilitar a partição de contatos intramoleculares e intermoleculares em mapas de contato previstos. Para proteínas transmembrana, as previsões de lipofilicidade são comumente usadas para detectar resíduos voltados para a membrana (Koehler Leman et al. , 2015), o que poderia ajudar a distinguir os contatos intermoleculares na bicamada.

Em casos de complexos hetero-oligoméricos de proteínas, um desafio diferente é enfrentado ao prever pares de contato. Embora o desemaranhamento de contatos intramoleculares e intermoleculares não seja necessário, a geração do alinhamento de sequência múltipla para métodos de EC é um desafio porque pares de sequências de interação ortólogos devem ser identificados de forma confiável a partir de um grande número de espécies. Normalmente, as sequências de alinhamentos individuais são emparelhadas usando coordenadas do genoma bacteriano, ou seja, quanto mais próxima de sua localização no genoma, mais provável será sua coexpressão e interação física (Ovchinnikov et al. , 2014 Hopf et al. , 2014 Skerker et al. , 2008). Esta informação é importante porque a conservação das interações proteína & # 8211proteína podem não estar presentes entre todos os homólogos. Usando essa abordagem, vários estudos têm mostrado a aplicabilidade dos métodos de CE a complexos hetero-oligoméricos de proteínas. Por exemplo, Hopf e colegas de trabalho previram corretamente 17 de 19 contatos de resíduos na interface do complexo DinJ & # 8211YafQ (Hopf et al. , 2014). Ovchinnikov e colegas de trabalho previram com segurança os poucos pares de resíduos em contato entre as proteínas do complexo de subunidade ribossômica 50S e outros complexos de proteínas (Ovchinnikov et al. , 2014). Em cada caso, as informações de contato previstas permitiram que modelos precisos dos complexos de proteínas fossem determinados com base nas estruturas de componentes individuais. Um segundo método mais simples foi desenvolvido para criar alinhamentos de sequência para as previsões de contato de interface de proteína e proteína # 8211. Este método é independente do genoma bacteriano e combina pares de sequências ortólogas usando o genoma EXPLOSÃO pontuações (Iserte et al. , 2015 Yu et al. , 2016 Ochoa & # 38 Pazos, 2010). Em geral, este método de geração de segundo alinhamento pode produzir um conjunto menos preciso de pares correspondentes para proteínas procarióticas, mas já provou ser útil para proteínas e # 8211 interações de proteínas em eucariotos (Iserte et al. , 2015), e novos métodos podem melhorar a precisão para esses organismos (Gueudr & # 233 et al. , 2016 Bitbol et al. , 2016). O leitor deve consultar a Tabela 1 para obter os principais recursos nessa área.

2. Previsão da estrutura de domínio do alvo

Os domínios da proteína são as unidades da estrutura da proteína dobrada. Uma contabilidade precisa da composição do domínio de uma proteína como um sujeito potencial de caracterização estrutural é valiosa antes da seleção do alvo, quando a preparação da amostra está sendo planejada e ao considerar estratégias para solução da estrutura cristalina da proteína. Limites de domínio definidos com precisão melhoram o desempenho de vários métodos importantes de bioinformática, como ferramentas que reconhecem homologia distante entre (parte) do alvo e estruturas de proteína conhecidas (Rigden, 2002), ab initio modelagem (ver, por exemplo, Baker et al. , 2016) e até mesmo a própria previsão de contato (Kosciolek & # 38 Jones, 2015). O reconhecimento de relações evolutivas não triviais por comparações de sequências sensíveis ou (auxiliado por contato) ab initio a modelagem pode ajudar o biólogo estrutural no estágio inicial de avaliação da novidade inerente ou não de um novo alvo putativo. Comumente, as proteínas são expressas de forma heteróloga em uma forma incompleta, especialmente para estudos cristalográficos de RMN ou raios-X. Há várias razões para isto. Por exemplo, regiões terminais intrinsecamente desordenadas, que são conhecidas por impedir a cristalização (Slabinski et al. , 2007), normalmente seria eliminado de uma proteína destinada à cristalização. Proteínas muito grandes, cuja expressão e purificação provavelmente serão difíceis, geralmente serão tratadas em seções que começam e terminam nos limites do domínio (ver, por exemplo, Zacharchenko et al. , 2015). Finalmente, como uma metodologia que é limitada em sua faixa de peso molecular tratável, os estudos de NMR costumam se concentrar em domínios isolados.

A previsão de limites de domínio usando contatos previstos (Fig. 1) é baseada em uma ideia muito simples: que os contatos nativos e, portanto, os contatos previstos, são mais abundantes dentro de domínios do que entre domínios. Assim, em um mapa de contato para uma proteína de dois domínios de tamanhos iguais, a área contendo contatos previstos entre resíduos na primeira metade e resíduos na segunda metade seria esparsamente povoada em comparação com as zonas contendo previsões intradomínio. Esses padrões são frequentemente aparentes na inspeção visual e têm sido empregados por bioinformáticos para analisar sequências alvo para ab initio modelagem (Ovchinnikov, Kim et al. , 2015 Baker et al. , 2016), mas também pode ser analisado quantitativamente. Para isso, os limites do domínio putativo são amostrados ao longo da cadeia da proteína, com previsões mais fortes correspondendo a mínimos na densidade de contatos interdomínios previstos (Rigden, 2002). Datando de uma época de previsões de qualidade inferior, a ideia foi revisitada recentemente e implementada usando um método de suavização de kernel (Sadowski, 2013). Uma comparação com outros métodos de predição de limite de domínio com base em sequência mostrou ser o de melhor desempenho e também ser aplicável a proteínas contendo mais de dois domínios (Sadowski, 2013). Este domainpred software seria a abordagem recomendada para biólogos estruturais interessados ​​em prever a composição do domínio de suas proteínas de interesse, mas parece indisponível no momento. No entanto, uma funcionalidade semelhante foi disponibilizada em ConKit (Tabela 1) que pode aceitar a lista necessária de contatos previstos em uma ampla variedade de formatos. Finalmente, um trabalho recente interessante também demonstrou a capacidade da análise de covariância para detectar unidades de dobramento putativas dentro de proteínas amplamente desordenadas (Toth-Petroczy et al. , 2016 ).

3. Aplicações para determinação da estrutura cristalina

Para solução de estrutura de cristal de proteína, o problema de fases & # 8211 a capacidade de medir diretamente apenas dados de intensidade & # 8211 deve ser superado usando meios experimentais ou computacionais. A previsão de contato é mais relevante para a substituição molecular (MR) como uma rota computacional para estruturar a solução (Fig. 1). Em MR, um 'modelo de busca' que se acredita aproximar pelo menos uma parte da estrutura alvo desconhecida é posicionado na unidade simétrica, geralmente por rotação sequencial e etapas de translação. Esta estrutura colocada pode então ser usada como uma fonte de informação de fase aproximada, permitindo o cálculo de mapas iniciais de densidade de elétrons. No entanto, antes de considerar o MR especificamente, vale a pena reiterar o valor, para todas as abordagens de fases, de uma compreensão abrangente da estrutura do domínio da proteína alvo.

3.1. Caracterizar melhor o alvo

Relações evolutivas reconhecidas entre (domínios de) o alvo e estruturas ou famílias de proteínas conhecidas podem prever com valor a existência de recursos que facilitam a solução da estrutura experimental. Por exemplo, os locais de ligação a metal, ligação à base ou ligação ao cofator podem cada um ligar ligantes naturais, ou seus análogos artificiais, contendo átomos com propriedades de dispersão anômalas úteis e / ou massas elevadas. Dados de difração de cristal único ou multicristal em tais casos são adequados para solução por dispersão anômala e / ou abordagens de substituição isomórfica (Dauter, 2002 Hendrickson, 2014). Métodos proeminentes para detectar até mesmo homologias distantes incluem HHpred (S & # 246ding et al. , 2005 https://toolkit.tuebingen.mpg.de/hhpred), Phyre (Kelley et al. , 2015 http://www.sbg.bio.ic.ac.uk/

phyre2 /) e FFA S-3 D (Xu et al. , 2014 http://ffas.godziklab.org). Esses métodos para reconhecer relações evolutivas ocultas entre o alvo e as estruturas conhecidas se beneficiam da predição de contato de duas maneiras. Em primeiro lugar, a análise de domínio aprimorada descrita acima pode melhorar a sensibilidade das ferramentas de detecção de homologia: dobras ou famílias conhecidas podem ser combinadas com mais segurança às subseções do alvo abrangendo domínios individuais do que podem a uma sequência multi-domínio inteira (Rigden, 2002). Em segundo lugar, os métodos de reconhecimento de dobras podem, em um futuro próximo, ser capazes de explorar diretamente as informações de contato previstas: dobras supostas correspondentes que estão de acordo com os contatos previstos para o alvo, de acordo com o alinhamento dos dois, podem receber um maior pontuação. Trabalhos nesta área foram publicados recentemente (Ovchinnikov et al. , 2017, Taylor, 2016).

3.2. Derivando e classificando modelos de pesquisa para MR

Os contatos previstos podem ajudar a derivar melhores modelos de busca, informando sobre a estrutura super-secundária, terciária e quaternária do alvo (Fig. 1). Talvez a aplicação mais óbvia resida no uso de previsões de contato para construir melhores modelos de estrutura. Os bioinformáticos estruturais têm sido rápidos em explorar as informações de contato previstas para modelar representantes de famílias de proteínas estruturalmente não caracterizadas (Ovchinnikov, Kinch et al. , 2015 Hopf et al. , 2012). Embora os resultados sejam normalmente suficientes para uma inferência funcional muito valiosa por correspondência de dobra (Ovchinnikov, Kinch et al. , 2015), a precisão geral moderada dos modelos finais, agravada, em alguns casos, por estereoquímica de backbone pobre (marcas et al. , 2011), deixou em aberto a questão quanto ao seu valor para a MR. Abordando esse problema, Simkovic e seus colegas exploraram recentemente o valor da assistência por contato ab initio modelos no contexto do AMPLO estrutura de preparação do modelo de pesquisa agrupar e truncar (Simkovic et al. , 2016). O trabalho comparou modelos não assistidos, aqueles informados pelas previsões do método geral PconsC 2 (Skwark et al. , 2014), e aqueles guiados por uma nova combinação de PconsC 2 com um & # 946-método específico de folha, bbcontatos (Andreani & # 38 S & # 246ding, 2015). Em um conjunto de 21 casos, abrangendo tamanhos de 62 & # 8211221 resíduos, resoluções de 1,0 & # 82112.3 & # 8197 & # 197 e todas as classes de dobra, eles encontraram vários alvos que só poderiam ser resolvidos usando modelos informados por informações de contato previstas. Os benefícios desta informação foram duplos: uma melhor modelagem de proteínas maiores estendeu o limite de tamanho superior do método e proteínas ricas em & # 946, que anteriormente eram muito raramente bem-sucedidas (Bibby et al. , 2012), foram resolvidos com sucesso com mais frequência. Uma relevância bastante independente dos contatos previstos para AMPLO A preparação do modelo de pesquisa de vem da compreensão de que os contatos previstos, como a conservação de sequência, derivam da pressão evolucionária para reter características estruturais biologicamente importantes (ver & # 167 6). Assim, os contatos previstos podem ajudar a identificar os principais recursos compartilhados entre um alvo que são conhecidos ou suspeitos de estarem apenas remotamente relacionados às estruturas depositadas. A capacidade das previsões de contato para orientar a preparação do modelo de pesquisa, mesmo de homólogos únicos, usando AMPLO A abordagem de truncamento de está sendo explorada.

Finalmente, para a estrutura terciária, trabalhos recentes intrigantes apontam para uma capacidade geral de previsões de contato para permitir que sejam feitas previsões sobre conformações alternativas de uma dada estrutura (Jana et al. , 2014 Sfriso et al. , 2016). A justificativa aqui é que qualquer conformação biologicamente importante levará à pressão evolutiva sobre os contatos relevantes que se manifestariam como uma covariância detectável entre o par de posições envolvidas. Este fenômeno foi observado anteriormente durante a modelagem baseada em contato, onde uma única estrutura modelada se mostrou incapaz de explicar completamente o padrão de pares de resíduos covariáveis, uma vez que os contatos previstos resultaram de duas conformações distintas (Hopf et al. , 2012). Isso abre o caminho para converter uma única estrutura de um homólogo do modelo para um conjunto de conformações putativas (Sfriso et al. , 2016) para julgamento por MR. Isso pode permitir uma solução de estrutura bem-sucedida em casos frequentemente encontrados em que uma proteína exibe plasticidade estrutural (formas abertas e fechadas, estado R e T etc. ), no entanto, o cristal alvo não está em uma conformação representada pelo PDB.

A disponibilidade do bbcontatos algoritmo (Andreani & # 38 S & # 246ding, 2015), que pode detectar e distinguir sensivelmente previsões paralelas e antiparalelas & # 946 em um mapa de contato previsto, também oferece uma rota para a classificação do modelo de pesquisa para métodos MR baseados em biblioteca ( Figura 1 ). Esses programas incluem ARCIMBOLDOBORGES , que tenta solução de estrutura usando bibliotecas de estruturas super-secundárias recorrentes compostas de alguns elementos de estrutura secundária regulares derivados de uma análise do PDB (Sammito et al. , 2013). Essas bibliotecas são relativamente grandes, mas os tempos de execução para solução de estrutura podem ser reduzidos atribuindo-se planilhas paralelas e / ou antiparalelas ao destino e ordenando o processamento de modelos de pesquisa para priorizar aqueles que contêm o tipo correto de correspondência de vertente. Da mesma forma, as abordagens baseadas na triagem de todo o PDB (Keegan et al. , 2016 Stokes-Rees & # 38 Sliz, 2010) também pode classificar os modelos de pesquisa de acordo com a composição de planilha prevista & # 946 do alvo.

A previsão da estrutura quaternária do alvo também pode ser valiosa para MR e é relevante para ambos os homo-oligômeros e hetero-oligômeros (Fig. 1). Em essência, as abordagens de ancoragem orientadas por dados desenvolvidas em bioinformática estrutural para explorar as informações de contato previstas podem ser usadas para derivar e classificar modelos de pesquisa oligomérica. Em comparação com as subunidades individuais, elas contêm uma fração maior da matéria de espalhamento do alvo e, portanto, se forem suficientemente precisas, devem exibir sinal para ruído melhorado e, portanto, uma chance melhor de solução de estrutura bem-sucedida. Um único servidor docking, InterEvDock , que incorpora automaticamente a covariância evolutiva em seus cálculos tornou-se disponível muito recentemente (Yu et al. , 2016 ver Tabela 1). Realiza docagem de corpo rígido de duas estruturas utilizando FRODOCK (Ram & # 237rez-Aportela et al. , 2016). Um conjunto de 10 e # 8197000 poses é então pontuado em três modos diferentes, sendo um deles uma pontuação de co-evolução baseada em resíduos derivada do i-COMS servidor (Iserte et al. , 2015 Ochoa & # 38 Pazos, 2010 Tabela 1), e o servidor relata os dez principais modelos de consenso encontrados agrupando as melhores posições de pontuação em cada uma das três avaliações. Um grampeador de cristal também pode reproduzir abordagens em que os contatos previstos ou guia de encaixe (Hopf et al. , 2014) com HADDOCK (Dominguez et al. , 2003) ou classificar os resultados do encaixe com PatchDock v.1.0 (Duhovny et al. , 2002) e refinar com Rosetta (Ovchinnikov et al. , 2014). No momento, a maioria dos servidores de acoplamento não são otimizados para explorar as informações de contato previstas: eles podem aceitar conjuntos de resíduos em cada proteína acoplada que se acredita estar perto da interface, mas não aceitam contatos previstos em pares. Embora possa ser esperado que isso mude em um futuro próximo, um usuário atualmente seria obrigado a inspecionar os resultados manualmente para determinar se os contatos intermoleculares de alta classificação estão presentes em poses de alguns servidores de alto desempenho, como ClusPro (Comeau et al. , 2004) ou servidores especializados para o encaixe flexível de parceiros de proteína, como SwarmDock (Torchala et al. , 2013). Finalmente, vale reiterar aqui as dificuldades adicionais de predição de contato entre duas proteínas diferentes: um alinhamento concatenado em que os ortólogos de cada uma são combinados entre uma série de espécies é necessário. A identificação confiável de tais pares não é trivial. Por esse motivo, alguns métodos principais atuais, como GREMLIN (Ovchinnikov et al. , 2014), até agora, focaram em casos em que as informações do contexto do genoma microbiano fornecem suporte adicional para a identificação de ortólogos. Obviamente, para contatos em homo-oligômeros, essas limitações não se aplicam. A previsão desses conjuntos será particularmente confiável em casos como poros de membrana, onde a simetria fornece uma restrição útil adicional no encaixe (ver, por exemplo, DiMaio, Leaver-Fay et al. , 2011 ).

4. Estruturas de montagem e sequências de rastreamento em mapas e envelopes de resolução mais baixa

Os resultados dos métodos de biologia estrutural que visam produzir modelos atômicos, como cristalografia de raios-X e, cada vez mais, crio-EM, dependem sensivelmente dos dados disponíveis. Apenas em resolução ultra-alta as estruturas de raios-X podem ser refinadas com precisão usando apenas os dados de difração de raios-X, uma vez que os dados para parâmetros são muito baixos (Rupp, 2009). Mais tipicamente, o refinamento das estruturas cristalinas emprega informações adicionais para suplementar os dados de difração observados, mais obviamente informações químicas, como distâncias de ligação, mas também, quando disponíveis, restrições adicionais de simetria não cristalográfica. Em resoluções mais baixas, no entanto, mesmo esta informação adicional pode provar ser inadequada para refinamento atômico e reconstruções podem, portanto, compreender apenas estruturas ou modelos para subunidades ou domínios individuais colocados dentro de um mapa ou envelope de baixa resolução e corpo rígido refinado. É na área de interpretação de estruturas de baixa resolução que as previsões de contato têm mais a oferecer, fornecendo restrições adicionais que devem ser satisfeitas pelo modelo estrutural emergente (Fig. 1). Essas previsões irão, portanto, ajudar não apenas estruturas de cristal de média a baixa resolução e reconstruções crio-EM, mas também a interpretação de envelopes derivados de SAXS e SANS (Svergun et al. , 2013). As aplicações podem ser divididas entre aquelas que dependem de previsões de contato intramolecular e aquelas que derivam de restrições intermoleculares.

Os contatos intramoleculares são valiosos aqui de várias maneiras, como já foi mencionado. Para novas dobras para as quais estão disponíveis dados de baixa resolução, os contatos permitirão que melhores modelos sejam derivados para posterior ajuste em mapas ou envelopes. Estes seriam casos como estruturas ribossômicas (ver, por exemplo, Brown et al. , 2014), onde as subunidades supranumerárias podem ser modeladas ab initio e ajustado usando a abordagem mencionada acima. Em um estudo mais recente, Rosetta -gerado ab initio modelos, guiados por restrições evolutivas, foram usados ​​para resolver o registro de aminoácidos, a conectividade das hélices e a colocação das subunidades do citocromo. bd complexo de oxidase em um mapa de densidade de elétrons de baixa resolução (3.1 & # 82114 & # 8197 & # 197) derivado de informações de fase experimental fraca (Safarian et al. , 2016). Nos casos em que uma estrutura, experimental ou modelada, não pode ser bem ajustada ao mapa ou envelope, a previsão de conformações alternativas usando contatos previstos (Sfriso et al. , 2016) pode produzir estruturas candidatas de melhor ajuste.

A atribuição do registro de sequência a uma estrutura de backbone de baixa resolução é outra área potencial de aplicação (Fig. 1). Programas como Corsário (Cowtan, 2006) e ARP / urdidura (Langer et al. , 2008) reconhecer a forma de densidade de cadeia lateral e tentar encaixar resíduos atribuídos putativamente a uma sequência fornecida. Porém, abaixo de uma determinada resolução, o número de resíduos atribuídos e a confiança de sua identificação cairão. Neste ponto, as previsões de contato podem ajudar: uma forte previsão de um resíduo que já está acoplado à sequência para outra posição mal definida pode ancorar a definição do registro de sequência para uma gama inteira da proteína alvo. Um exemplo de tal aplicação é o rastreamento bem-sucedido da sequência da proteína da subunidade a de Thermus thermophilus V / A-ATPase em um mapa de densidade crio-EM de resolução 6.4 & # 8197 & # 197, que resultou em um modelo completo da ATPase rotativa (Schep et al. , 2016). A análise de covariância também foi usada para confirmar as atribuições helicoidais da estrutura cristalina de resolução 2,95 & # 8197 & # 197 de uma tetraspanina humana (Zimmerman et al. , 2016). Há, portanto, uma necessidade de disponibilizar as informações de contato previstas convenientemente nos programas de construção e refinamento de estruturas.

Como mencionado acima, os contatos intermoleculares previstos oferecem uma maneira genérica de classificar e selecionar o modo de interação mais provável de um par de estruturas (Ovchinnikov et al. , 2014 Hopf et al. , 2014 Yu et al. , 2016). A aplicação mais óbvia é, portanto, auxiliar na interpretação da densidade para complexos de múltiplas subunidades. As proteínas que são significativamente anisotrópicas podem muitas vezes ser ajustadas de forma bastante confiável, mesmo em densidade mais baixa, mas as formas tridimensionais com menos recursos muitas vezes se ajustam igualmente bem a um mapa ou envelope de várias maneiras (Joseph et al. , 2016). A eliminação da ambigüidade dessas situações usando a conservação de sequência foi explorada recentemente (Joseph et al. , 2016), mas os contatos previstos provavelmente oferecem um sinal mais direto de interação intermolecular e são independentes das informações de interação existentes (Segura et al. , 2016). Por exemplo, no citocromo bd trabalho de oxidase mencionado acima, a informação de covariação foi usada para confirmar as interações intermoleculares resultantes da colocação da covariância assistida ab initio modelos (Safarian et al. , 2016). No futuro, essas informações podem ser usadas de várias maneiras. O uso pode primeiro envolver a geração anterior de gama de estruturas multiméricas potenciais, cada uma em amplo acordo com o sinal de contato previsto, na expectativa de que uma possa se ajustar muito melhor do que as outras. Essa biblioteca também pode ser usada para ajuste direto às informações de espalhamento experimental (ver, por exemplo, Schindler et al. , 2016 Jimenez-Garcia et al. , 2015). Em segundo lugar, os ajustes putativos para uma primeira subunidade podem ser inspecionados visualmente para aqueles que são compatíveis com a colocação da segunda subunidade de forma a satisfazer os contatos previstos. Em terceiro lugar, programas para o ajuste automatizado de estruturas à densidade, como gama-TEMPy (Pandurangan et al. , 2015) ou 3 DIANA (Segura et al. , 2016) podem ser projetados para incluir diretamente a satisfação das informações de contato previstas em suas funções de pontuação. Mais especulativamente, os contatos previstos podem, em última análise, informar não apenas sobre a orientação das subunidades conhecidas em um complexo, mas também sobre a composição de um complexo, informações que podem estar apenas incompletamente disponíveis. Assim, a futura triagem em escala de genoma para descobrir quais proteínas compartilham pares de resíduos covariáveis ​​com as outras e, assim, montar um em sílico interactome, já foi previsto (Hopf et al. , 2014). Essas informações podem ajudar o biólogo estrutural a sintetizar, purificar e reconstruir todos os componentes necessários do complexo macromolecular estável e biologicamente relevante.

5. Ressonância magnética nuclear

NMR é um método no qual o uso de estratégias de rotulagem para fornecer restrições adicionais, particularmente restrições de distância de longo alcance, para orientar o dobramento tem sido a chave para estender o limite superior do peso molecular tratável para proteínas maiores (Raman et al. , 2010 Lange et al. , 2012 G & # 246bl et al. , 2014). Para os complexos de RNA e proteína & # 8211RNA, restrições adicionais foram derivadas de informações de EPR (Duss et al. , 2014, 2015), e a fluorescência também pode fornecer restrições de distância (G & # 246bl et al. , 2014). No entanto, os pesquisadores também foram rápidos em perceber o valor dos contatos previstos derivados da covariância evolutiva (Tang et al. , 2015) que, em comparação com os métodos experimentais, evitam complicações relacionadas com a marcação da macromolécula (Duss et al. , 2015) e a qualquer mudança induzida por modificação na estrutura, dinâmica ou função do alvo. O maior esforço na área até agora é EC-NMR (Espiga et al. , 2015), em que CYANA é usado para gerar conjuntos estruturais com base em dados de NMR (atribuições de ressonância de NMR para ressonâncias de metila 1 H & # 8211 15 N e / ou 1 H & # 8211 13 C e picos cruzados NOESY) e contatos previstos baseados em covariância. Esses conjuntos são então usados ​​de forma iterativa para revisitar e editar os dados de entrada, com um tipo de dados fornecendo uma verificação interna do outro, permitindo a eliminação de picos NOESY incorretos e previsões de contato falso-positivo. O método, portanto, explora elegantemente a complementaridade das duas fontes de dados, produzindo estruturas baseadas em conjuntos de dados de entrada aprimorados e aprimorados. As informações de previsão de contato também podem ser alimentadas em CS-Rosetta Desde a Rosetta As funções de amostragem e pontuação têm se mostrado altamente eficazes para a determinação da estrutura por NMR (Raman et al. , 2010 van der Schot & # 38 Bonvin, 2015).

6. Análise estrutural e interpretação

Ao analisar uma estrutura cristalina refinada, nem sempre é fácil distinguir as interações biologicamente significativas entre as subunidades daqueles contatos intermoleculares que simplesmente resultam da formação de uma rede cristalina (Capitani et al. , 2016). Anos de pesquisa sugerem que nenhuma métrica única de interfaces pode particionar interações fisiologicamente relevantes de meros contatos de cristal (Jones & # 38 Thornton, 1996), de modo que as abordagens atuais do estado da arte, como jsPISA oferecem várias medições relevantes, como área de interface, hidrofobicidade e energia de ligação prevista (Krissinel, 2015). As previsões de contato oferecem uma maneira atraente de distinguir as duas classes de interface (Fig. 1), uma vez que, como mencionado no início, a covariância evolutiva abrangendo uma interface só surgirá onde a pressão para manter a interação foi exercida durante a evolução. Embora complicações surjam quando, por exemplo, proteínas homólogas genuinamente diferem em seu estado oligomérico, o uso notavelmente bem-sucedido de previsões de contato para ajudar a analisar os conteúdos da estrutura cristalina já foi visto com estruturas de fragmentos de domínio de protocaderina (Nicoludis et al. , 2015). Lá, as previsões de contato apoiaram certas interfaces como biologicamente relevantes sobre outras de tamanho e desempenho semelhantes em relação às métricas convencionais, de uma forma também apoiada pela conservação de sequência e as posições dos locais de modificação pós-tradução.

A bioinformática estrutural fornece uma ampla variedade de análises ortogonais que podem ajudar a prever a localização de locais funcionais em uma determinada estrutura (Rigden, 2017). A densidade do sinal de covariância em toda a estrutura, codificado, por exemplo, como uma pontuação de EC refletindo o número e a intensidade das previsões de contato associadas a cada resíduo, tem o potencial de ser uma adição útil à lista (Fig. 1). Por exemplo, no trabalho usando previsões de contato para dobrar proteínas transmembrana, resíduos com pontuações altas foram encontrados em locais de ligação de substrato conhecidos (Hopf et al. , 2012). Da mesma forma, em modelos de famílias que ainda não foram estruturalmente caracterizadas experimentalmente, resíduos de alta pontuação foram encontrados em sítios de ligação catalítica ou de cofator previstos e prováveis ​​poros de revestimento (Hopf et al. , 2012). Trabalhos mais recentes usam uma abordagem de rede para inferir sites funcionais a partir de previsões de contato (Parente et al. , 2015). Um exemplo é a identificação de resíduos funcionais, tanto catalíticos quanto interfaciais, na família da aldolase usando a centralidade de autovetores, que descreve pontos críticos de resíduos em mapas de contato (Parente et al. , 2015). Um artigo muito recente explora uma estrutura conhecida para auxiliar na interpretação das informações de previsão de contato, permitindo a previsão funcional do site (Jeong & # 38 Kim, 2016). Outro estudo usa previsões de contato para identificar interfaces de proteína druggable & # 8211 através de uma combinação de encaixe de fragmentos e métodos de EC (Bai et al. , 2016), e um outro artigo recente demonstra o valor do sinal de covariância para inferir a natureza prejudicial ou benigna de polimorfismos de aminoácidos únicos (Hopf et al. , 2016). Finalmente, é interessante ver a conservação de sequência convencional de longa data (Ashkenazy et al. , 2016) e os novos métodos de covariância par a par discutidos aqui como os casos mais simples de análise coevolutiva, uma análise que pode ser prontamente estendida para determinar maiores grupos de covariância funcionalmente relevantes (Grigolon et al. , 2016 ).

7. Rosetta como uma estrutura de bioinformática estrutural unificadora

A utilidade das previsões de contato pode ser comparada com a de métodos experimentais para derivar restrições de distância, como reticulação química (Belsom et al. , 2016), rotulagem de spin combinada com ressonância paramagnética de elétrons (Fischer et al. , 2016) ou fluorescência (G & # 246bl et al. , 2014), que desempenharam um papel tão valioso na determinação da estrutura integrativa de grandes complexos (Webb et al. , 2011). Análise cega recente do valor dos dados experimentais de reticulação para a previsão da estrutura da proteína (Belsom et al. , 2016) destacou as limitações de cobertura desigual e definição deficiente das planilhas & # 946 -s. A rotulagem seletiva para obter informações de distância de longo alcance para NMR de proteínas grandes também sofre de suas próprias complicações (Lange et al. , 2012) quando os resíduos de sonda contendo metil são distribuídos de forma desigual. Embora a previsão de contato tenha suas próprias limitações, ela está bem posicionada para ocupar um papel complementar às restrições de distância experimentais (Tang et al. , 2015). Explorar eficazmente as previsões de contato ao lado de fontes de restrições experimentais para previsão de estrutura requer uma abordagem de bioinformática estrutural extensível e unificadora. Aqui, vale a pena considerar Rosetta em mais detalhes como um pacote de software que é bem adequado a essa lógica e tem um histórico considerável nesta área.

Abordagens de predição de estrutura macromolecular, como Rosetta são baseados na hipótese de que os estados nativos das proteínas estão em mínimos de energia livre global, e realizam uma busca em larga escala do espaço conformacional para a estrutura de energia mais baixa. O sucesso de tais abordagens depende de dois fatores: a precisão da função de energia e a capacidade da pesquisa de convergir para o estado de menor energia. Por causa do grande número de graus de liberdade em sistemas biomoleculares, o segundo desafio, o problema de pesquisa, é o principal gargalo para uma previsão precisa. Para todas as proteínas, exceto as menores (menos de 80 aminoácidos), o espaço conformacional é muito grande para ab initio previsão de estrutura. No entanto, quando a informação experimental está disponível, ela pode ser usada para focar a busca por estados de energia mais baixos na parte relevante da busca conformacional e pode permitir a determinação das estruturas de proteínas bastante complexas e complexos biomoleculares. Por exemplo, a incorporação de dados de densidade de elétrons mesmo bastante limitados (DiMaio, Terwilliger et al. , 2011 DiMaio et al. , 2013), dados de NMR (Raman et al. , 2010 van der Schot & # 38 Bonvin, 2015) ou dados crio-EM (DiMaio et al. , 2015 Wang et al. , 2015) em Rosetta pode permitir a geração de modelos muito precisos. Em contraste com os métodos convencionais de previsão de estrutura, os dados experimentais não determinam totalmente a estrutura & # 8211, em vez disso, eles orientam o processo de pesquisa & # 8211 e, portanto, menos dados são necessários. Os dados de co-evolução são tratados dentro Rosetta assim como os dados experimentais são, e o poder das restrições de coevolução para guiar a busca pelas estruturas de energia mais baixa foi ilustrado em várias previsões cegas bastante precisas (Ovchinnikov, Kim et al. , 2015 Safarian et al. , 2016). Dentro desta estrutura, a integração de dados de co-evolução com dados crio-EM, raios-X ou NMR é direta: todos são lidos em Rosetta e usado para guiar a busca conformacional. A questão de como pesar as diferentes fontes de informação (dados de co-evolução contra dados experimentais) que orientam a pesquisa podem ser resolvidos experimentando diferentes ponderações e escolhendo aquela que resulta em modelos com a menor energia.

8. Conclusão

Como mostramos, os contatos previstos derivados da covariância evolutiva já oferecem possibilidades estimulantes para o biólogo estrutural experimental, tanto quanto para o bioinformático. A área permanece altamente ativa e novas abordagens (ver, por exemplo, Yang et al. , 2016) pode-se esperar que continue melhorando o desempenho em um futuro próximo. Isso inclui abordagens em que informações adicionais podem ser exploradas para melhorar a precisão das previsões de contato (Zhang et al. 2016 Hopf et al. , 2012 Wang & # 38 Barth, 2015 H & # 246nigschmid & # 38 Frishman, 2016). Outro progresso recente foi feito na previsão de pares de proteínas em interação, entre famílias parálogas, sem a ajuda de informações do contexto do genoma, desenvolvimentos que devem aumentar ainda mais o alcance da previsão de contato intermolecular (Gueudr & # 233 et al. , 2016 Bitbol et al. , 2016 ).

Informação de financiamento

O financiamento para esta pesquisa foi fornecido por: Conselho de Pesquisa em Biotecnologia e Ciências Biológicas http://dx.doi.org/10.13039/501100000268 (prêmio No. BB / L008696 / 1).

Referências

Adhikari, B., Bhattacharya, D., Cao, R. & # 38 Cheng, J. (2015). Proteínas , 83 , 1436 e # 82111449. Web of Science CrossRef CAS PubMed Google Scholar
Adhikari, B., Nowotny, J., Bhattacharya, D., Hou, J. & # 38 Cheng, J. (2016). BMC Bioinformática , 17 , 517. Google Scholar
Andreani, J. & # 38 S & # 246ding, J. (2015). Bioinformática , 31 , 1729 e # 82111737. Web of Science CrossRef CAS PubMed Google Scholar
Ashkenazy, H., Abadi, S., Martz, E., Chay, O., Mayrose, I., Pupko, T. & # 38 Ben-Tal, N. (2016). Nucleic Acids Res. 44 , W344 e # 8211W350. CrossRef PubMed Google Scholar
Bai, F., Morcos, F., Cheng, R.R., Jiang, H. & # 38 Onuchic, J. N. (2016). Proc. Natl. Acad. Sci. EUA , 113 , E8051 e # 8211E8058. CrossRef CAS PubMed Google Scholar
Baker, J. A., Simkovic, F., Taylor, H. M. & # 38 Rigden, D. J. (2016). Proteínas , 84 , 1431 e # 82111442. CrossRef CAS PubMed Google Scholar
Balakrishnan, S., Kamisetty, H., Carbonell, J. G., Lee, S. & # 38 Langmead, C. J. (2011). Proteínas , 79 , 1061 e # 82111078. CrossRef CAS PubMed Google Scholar
Belsom, A., Schneider, M., Brock, O. & # 38 Rappsilber, J. (2016). Trends Biochem. Sci. 41 , 564 e # 8211567. CrossRef CAS PubMed Google Scholar
Bibby, J., Keegan, R. M., Mayans, O., Winn, M. D. & # 38 Rigden, D. J. (2012). Acta Cryst. D 68 , 1622 e # 82111631. Web of Science CrossRef IUCr Journals Google Scholar
Bitbol, ​​A. F., Dwyer, R. S., Colwell, L. J. & # 38 Wingreen, N. S. (2016). Proc. Natl Acad. Sci. EUA , 113 , 12180 & # 821112185. CrossRef CAS PubMed Google Scholar
Brown, A., Amunts, A., Bai, X.-C., Sugimoto, Y., Edwards, P. C., Murshudov, G., Scheres, S. H. W. & # 38 Ramakrishnan, V. (2014). Ciência , 346 , 718 e # 8211722. CrossRef CAS PubMed Google Scholar
Capitani, G., Duarte, J. M., Baskaran, K., Bliven, S. & # 38 Somody, J. C. (2016). Bioinformática , 32 , 481 e # 8211489. CrossRef CAS PubMed Google Scholar
Cheng, J. & # 38 Baldi, P. (2005). Bioinformática , 21 , i75 e # 8211i84. CrossRef PubMed CAS Google Scholar
Comeau, S. R., Gatchell, D. W., Vajda, S. & # 38 Camacho, C. J. (2004). Bioinformática , 20 , 45 e # 821150. Web of Science CrossRef PubMed CAS Google Scholar
Cowtan, K. (2006). Acta Cryst. D 62 , 1002 e # 82111011. Web of Science CrossRef CAS IUCr Journals Google Scholar
Dauter, Z. (2002). Curr. Opin. Struct. Biol. 12 , 674 & # 8211678. Web of Science CrossRef PubMed CAS Google Scholar
DiMaio, F., Echols, N., Headd, J. J., Terwilliger, T. C., Adams, P. D. & # 38 Baker, D. (2013). Nat. Métodos , 10 , 1102 e # 82111104. CrossRef CAS PubMed Google Scholar
DiMaio, F., Leaver-Fay, A., Bradley, P., Baker, D. & # 38 Andr & # 233, I. (2011). PLoS One , 6 , e20450. CrossRef PubMed Google Scholar
DiMaio, F., Song, Y., Li, X., Brunner, MJ, Xu, C., Conticello, V., Egelman, E., Marlovits, TC, Cheng, Y. & # 38 Baker, D. ( 2015). Nat. Métodos , 12 , 361 e # 8211365. CrossRef CAS PubMed Google Scholar
DiMaio, F., Terwilliger, TC, Read, RJ, Wlodawer, A., Oberdorfer, G., Wagner, U., Valkov, E., Alon, A., Fass, D., Axelrod, HL, Das, D ., Vorobiev, SM, Iwa & # 239, H., Pokkuluri, PR & # 38 Baker, D. (2011). Nature (Londres) , 473 , 540 e # 8211543. Web of Science CrossRef CAS PubMed Google Scholar
Dominguez, C., Boelens, R. & # 38 Bonvin, A. M. J. J. (2003). Geléia. Chem. Soc. 125 , 1731 e # 82111737. Web of Science CrossRef PubMed CAS Google Scholar
Du, T., Liao, L., Wu, C. & # 38 Sun, B. (2016). Métodos , 110 , 97 e # 8211105. CrossRef CAS PubMed Google Scholar
Duhovny, D., Nussinov, R. & # 38 Wolfson, H. J. (2002). Algoritmos em Bioinformática , editado por R. Guig & # 243 & # 38 D. Gusfield, pp. 185 & # 8211200. Berlim, Heidelberg: Springer-Verlag. https://doi.org/10.1007/3-540-45784-4_14. Google Scholar
Duss, O., Yulikov, M., Allain, F. H.-T. & # 38 Jeschke, G. (2015). Methods Enzymol. 558 , 279 e # 8211331. CrossRef CAS PubMed Google Scholar
Duss, O., Yulikov, M., Jeschke, G. & # 38 Allain, F. H.-T. (2014). Nat. Comum. 5 , 3669. CrossRef PubMed Google Scholar
Ekeberg, M., L & # 246vkvist, C., Lan, Y., Weigt, M. & # 38 Aurell, E. (2013). Phys. Rev. E , 87 , 012707. Web of Science CrossRef Google Scholar
Fischer, A. W., Bordignon, E., Bleicken, S., Garc & # 237a-S & # 225ez, A. J., Jeschke, G. & # 38 Meiler, J. (2016). J. Struct. Biol. 195 , 62 e # 821171. CrossRef CAS PubMed Google Scholar
Gatti, L. (2015). Curr. Biotechnol. 4 , 16 e # 821125. CAS Google Scholar
G & # 246bl, C., Madl, T., Simon, B. & # 38 Sattler, M. (2014). Prog. Nucl. Magn. Reson. Spectrosc. 80 , 26 e # 821163. PubMed Google Scholar
Gonz & # 225lez, A. J., Liao, L. & # 38 Wu, C. H. (2013). Bioinformática , 29 , 1018 e # 82111025. PubMed Google Scholar
Grigolon, S., Franz, S. & # 38 Marsili, M. (2016). Mol. Biosyst. 12 , 2147 e # 82112158. CrossRef CAS PubMed Google Scholar
Gueudr & # 233, T., Baldassi, C., Zamparo, M., Weigt, M. & # 38 Pagnani, A. (2016). Proc. Natl Acad. Sci. EUA , 113 , 12186 e # 821112191. PubMed Google Scholar
Heffernan, R., Dehzangi, A., Lyons, J., Paliwal, K., Sharma, A., Wang, J., Sattar, A., Zhou, Y. & # 38 Yang, Y. (2015). Bioinformática , 32 , 843 e # 8211849. CrossRef PubMed Google Scholar
Hendrickson, W. A. ​​(2014). Q. Rev. Biophys. 47 , 49 e # 821193. Web of Science CrossRef PubMed Google Scholar
H & # 246nigschmid, P. & # 38 Frishman, D. (2016). J. Struct. Biol. 194 , 112 e # 8211123. PubMed Google Scholar
Hopf, T. A., Colwell, L. J., Sheridan, R., Rost, B., Sander, C. & # 38 Marks, D. S. (2012). Célula , 149 , 1607 e # 82111621. Web of Science CrossRef CAS PubMed Google Scholar
Hopf, T. A., Ingraham, J. I., Poelwijk, F. J., Scharfe, C. P. I., Springer, M., Sander, C. & # 38 Marks, D. S. (2016). Nature Biotechnol. 35 , 128 e # 8211135. CrossRef Google Scholar
Hopf, T. A., Sch & # 228rfe, C. P. I., Rodrigues, J. P. G. L. M., Green, A. G., Kohlbacher, O., Sander, C., Bonvin, A. M. J. J. & # 38 Marks, D. S. (2014). Elife , 3 , 10. CrossRef Google Scholar
Iserte, J., Simonetti, F. L., Zea, D. J., Teppa, E. & # 38 Marino-Buslje, ​​C. (2015). Nucleic Acids Res. 43 , W320 e # 8211W325. CrossRef PubMed Google Scholar
Jana, B., Morcos, F. & # 38 Onuchic, J. N. (2014). Phys. Chem. Chem. Phys. 16 , 6496 e # 82116507. CrossRef CAS PubMed Google Scholar
Jeong, C. & # 38 Kim, D. (2016). BMC Bioinformática , 17 , 99. Google Scholar
Jim & # 233nez-Garc & # 237a, B., Pons, C., Svergun, D. I., Bernad & # 243, P. & # 38 Fern & # 225ndez-Recio, J. (2015). Nucleic Acids Res. 43 , W356 e # 8211W361. Web of Science PubMed Google Scholar
Johnson, L. S., Eddy, S. R. & # 38 Portugaly, E. (2010). BMC Bioinformática , 11 , 431. Google Scholar
Jones, D. T., Buchan, D. W. A., Cozzetto, D. & # 38 Pontil, M. (2012). Bioinformática , 28 , 184 & # 8211190. Web of Science CrossRef CAS PubMed Google Scholar
Jones, D. T., Singh, T., Kosciolek, T. & # 38 Tetchner, S. (2015). Bioinformática , 31 , 999 e # 82111006. Web of Science CrossRef CAS PubMed Google Scholar
Jones, S. & # 38 Thornton, J. M. (1996). Proc. Natl Acad. Sci. EUA , 93 , 13 e # 821120. CrossRef CAS PubMed Web of Science Google Scholar
Joseph, A. P., Swapna, L. S., Rakesh, R. & # 38 Srinivasan, N. (2016). J. Struct. Biol. 195 , 294 e # 8211305. CrossRef CAS PubMed Google Scholar
Juan, D. de, Pazos, F. & # 38 Valencia, A. (2013). Nat. Rev. Genet. 14 , 249 e # 8211261. PubMed Google Scholar
Kamisetty, H., Ovchinnikov, S. & # 38 Baker, D. (2013). Proc. Natl Acad. Sci. EUA , 110 , 15674 & # 821115679. Web of Science CrossRef CAS PubMed Google Scholar
Keegan, R., Waterman, D. G., Hopper, D. J., Coates, L., Taylor, G., Guo, J., Coker, A. R., Erskine, P. T., Wood, S. P. & # 38 Cooper, J. B. (2016). Acta Cryst. D 72 , 933 e # 8211943. Web of Science CrossRef IUCr Journals Google Scholar
Kelley, L. A., Mezulis, S., Yates, C. M., Wass, M. N. & # 38 Sternberg, M. J. (2015). Nat. Protoc. 10 , 845 e # 8211858. Web of Science CrossRef CAS PubMed Google Scholar
Koehler Leman, J., Ulmschneider, M. B. & # 38 Gray, J. J. (2015). Proteínas , 83 , 1 e # 821124. CrossRef CAS PubMed Google Scholar
Kosciolek, T. & # 38 Jones, D. T. (2015). Proteínas , 84 , Supl. 1, 145 e # 8211151. Google Scholar
Krissinel, E. (2015). Nucleic Acids Res. 43 , W314 e # 8211W319. Web of Science CrossRef PubMed Google Scholar
Lange, OF, Rossi, P., Sgourakis, NG, Song, Y., Lee, HW, Aramini, JM, Ertekin, A., Xiao, R., Acton, TB, Montelione, GT & # 38 Baker, D. (2012). Proc. Natl Acad. Sci. EUA , 109 , 10873 & # 821110878. CrossRef CAS PubMed Google Scholar
Langer, G., Cohen, S. X., Lamzin, V. S. & # 38 Perrakis, A. (2008). Nat. Protoc. 3 , 1171 e # 82111179. Web of Science CrossRef PubMed CAS Google Scholar
Lapedes, A. S., Giraud, B. G., Liu, L. & # 38 Stormo, G. D. (1999). Estatística em Biologia Molecular e Genética , pp. 236 e # 8211256. Hayward: Instituto de Estatística Matemática. https://doi.org/10.1214/lnms/1215455556. Google Scholar
Ma, J., Wang, S., Wang, Z. & # 38 Xu, J. (2015). Bioinformática , 31 , 3506 e # 82113513. Web of Science CrossRef CAS PubMed Google Scholar
Marks, D. S., Colwell, L. J., Sheridan, R., Hopf, T. A., Pagnani, A., Zecchina, R. & # 38 Sander, C. (2011). PLoS One , 6 , e28766. Web of Science CrossRef PubMed Google Scholar
Marks, D. S., Hopf, T. A. & # 38 Sander, C. (2012). Nat. Biotechnol. 30 , 1072 e # 82111080. Web of Science CrossRef CAS PubMed Google Scholar
Morcos, F., Pagnani, A., Lunt, B., Bertolino, A., Marks, DS, Sander, C., Zecchina, R., Onuchic, JN, Hwa, T. & # 38 Weigt, M. ( 2011). Proc. Natl Acad. Sci. EUA , 108 , E1293 e # 8211E1301. Web of Science CrossRef CAS PubMed Google Scholar
Nicoludis, J. M., Lau, S.-Y., Sch & # 228rfe, C. P. I., Marks, D. S., Weihofen, W. A. ​​& # 38 Gaudet, R. (2015). Estrutura , 23 , 2087 e # 82112098. Web of Science CrossRef CAS PubMed Google Scholar
Ochoa, D. & # 38 Pazos, F. (2010). Bioinformática , 26 , 1370 e # 82111371. CrossRef CAS PubMed Google Scholar
Oliveira, S. H. de, Shi, J. & # 38 Deane, C. M. (2016). Bioinformática , 33 , 373 e # 8211381. Google Scholar
Ovchinnikov, S., Kamisetty, H. & # 38 Baker, D. (2014). Elife , 3 , e02030. CrossRef PubMed Google Scholar
Ovchinnikov, S., Kim, D. E., Wang, R. Y., Liu, Y., DiMaio, F. & # 38 Baker, D. (2015). Proteínas , 84 , Supl. 1, 67 e # 821175. Google Scholar
Ovchinnikov, S., Kinch, L., Park, H., Liao, Y., Pei, J., Kim, D. E., Kamisetty, H., Grishin, N. V. & # 38 Baker, D. (2015). eLife , 4 , e09248. Web of Science CrossRef PubMed Google Scholar
Ovchinnikov, S., Park, H., Varghese, N., Huang, P.-S., Pavlopoulos, G. A., Kim, D. E., Kamisetty, H., Kyrpides, N. C. & # 38 Baker, D. (2017). Ciência , 355 , 294 e # 8211298. CrossRef CAS PubMed Google Scholar
Pandurangan, A. P., Vasishtan, D., Alber, F. & # 38 Topf, M. (2015). Estrutura , 23 , 2365 & # 82112376. CrossRef CAS PubMed Google Scholar
Parente, D. J., Ray, J. C. & # 38 Swint-Kruse, L. (2015). Proteínas , 83 , 2293 e # 82112306. CrossRef CAS PubMed Google Scholar
Raman, S., Lange, OF, Rossi, P., Tyka, M., Wang, X., Aramini, J., Liu, G., Ramelot, TA, Eletsky, A., Szyperski, T., Kennedy, MA, Prestegard, J., Montelione, GT & # 38 Baker, D. (2010). Ciência , 327 , 1014 e # 82111018. Web of Science CrossRef CAS PubMed Google Scholar
Ram & # 237rez-Aportela, E., L & # 243pez-Blanco, J. R. & # 38 Chac & # 243n, P. (2016). Bioinformática , 32 , 2386 e # 82112388. PubMed Google Scholar
Remmert, M., Biegert, A., Hauser, A. & # 38 S & # 246ding, J. (2011). Nat. Métodos , 9 , 173 e # 8211175. CrossRef PubMed Google Scholar
Rigden, D. J. (2002). Protein Eng. 15 , 65 e # 821177. Web of Science CrossRef PubMed CAS Google Scholar
Rigden, D. J. (2017). Editor. Da Estrutura da Proteína à Função com Bioinformática , 2ª ed. Heidelberg: Springer Nature. Google Scholar
Rupp, B. (2009). Cristalografia biomolecular: princípios, prática e aplicação à biologia estrutural , p. 627. Nova York: Garland Science. Google Scholar
Sadowski, M. I. (2013). Proteínas , 81 , 253 e # 8211260. Web of Science CrossRef CAS PubMed Google Scholar
Safarian, S., Rajendran, C., M & # 252ller, H., Preu, J., Langer, JD, Ovchinnikov, S., Hirose, T., Kusumoto, T., Sakamoto, J. & # 38 Michel, H. (2016). Ciência , 352 , 583 e # 8211586. CrossRef CAS PubMed Google Scholar
Sammito, M., Mill & # 225n, C., Rodr & # 237guez, DD, de Ilarduya, IM, Meindl, K., De Marino, I., Petrillo, G., Buey, RM, de Pereda, JM, Zeth, K., Sheldrick, GM & # 38 Us & # 243n, I. (2013). Nat. Métodos , 10 , 1099 e # 82111101. Web of Science CrossRef CAS PubMed Google Scholar
Schep, D. G., Zhao, J. & # 38 Rubinstein, J. L. (2016). Proc. Natl Acad. Sci. EUA , 113 , 3245 e # 82113250. CrossRef CAS PubMed Google Scholar
Schindler, C. E., de Vries, S. J., Sasse, A. & # 38 Zacharias, M. (2016). Estrutura , 24 , 1387 e # 82111397. Web of Science CrossRef CAS PubMed Google Scholar
Schot, G. van der & # 38 Bonvin, A. M. J. J. (2015). J. Biomol. NMR , 62 , 497 e # 8211502. PubMed Google Scholar
Seemayer, S., Gruber, M. & # 38 S & # 246ding, J. (2014). Bioinformática , 30 , 3128 e # 82113130. Web of Science CrossRef CAS PubMed Google Scholar
Segura, J., Sanchez-Garcia, R., Tabas-Madrid, D., Cuenca-Alba, J., Sorzano, C. O. & # 38 Carazo, J. M. (2016). Biophys. J. 110 , 766 e # 8211775. CrossRef CAS PubMed Google Scholar
Sfriso, P., Duran-Frigola, M., Mosca, R., Emperador, A., Aloy, P. & # 38 Orozco, M. (2016). Estrutura , 24 , 116 e # 8211126. CrossRef CAS PubMed Google Scholar
Shackelford, G. & # 38 Karplus, K. (2007). Proteínas , 69 , Supl. 8, 159 e # 8211164. Google Scholar
Simkovic, F., Thomas, J. M. H., Keegan, R. M., Winn, M. D., Mayans, O. & # 38 Rigden, D. J. (2016). IUCrJ , 3 , 259 e # 8211270. CrossRef CAS PubMed IUCr Journals Google Scholar
Simkovic, F., Thomas, J. M. & # 38 Rigden, D. J. (2017). Bioinformática , https://doi.org/10.1093/bioinformatics/btx148. Google Scholar
Skerker, J. M., Perchuk, B. S., Siryaporn, A., Lubin, E. A., Ashenberg, O., Goulian, M. & # 38 Laub, M. T. (2008). Célula , 133 , 1043 e # 82111054. Web of Science CrossRef PubMed CAS Google Scholar
Skwark, M. J., Raimondi, D., Michel, M. & # 38 Elofsson, A. (2014). PLoS Comput. Biol. 10 , e1003889. Web of Science CrossRef PubMed Google Scholar
Slabinski, L., Jaroszewski, L., Rychlewski, L., Wilson, I.A., Lesley, S.A. & # 38 Godzik, A. (2007). Bioinformática , 23 , 3403 e # 82113405. Web of Science CrossRef PubMed CAS Google Scholar
S & # 246ding, J., Biegert, A. & # 38 Lupas, A. N. (2005). Nucleic Acids Res. 33 , W244 e # 8211W248. Web of Science PubMed Google Scholar
Stokes-Rees, I. & # 38 Sliz, P. (2010). Proc. Natl Acad. Sci. EUA , 107 , 21476 e # 821121481. Web of Science CAS PubMed Google Scholar
Svergun, D. I., Koch, M. H. J., Timmins, P. A. & # 38 May, R. P. (2013). Raios-X de pequeno ângulo e dispersão de nêutrons de soluções de macromoléculas biológicas. Imprensa da Universidade de Oxford. Google Scholar
Tang, Y., Huang, Y. J., Hopf, T. A., Sander, C., Marks, D. S. & # 38 Montelione, G. T. (2015). Nat. Métodos , 12 , 751 e # 8211754. CrossRef CAS PubMed Google Scholar
Taylor, W. R. (2016). Algorithms Mol. Biol. 11 , 17. CrossRef PubMed Google Scholar
Torchala, M., Moal, I. H., Chaleil, R. A., Fernandez-Recio, J. & # 38 Bates, P. A. (2013). Bioinformática , 29 , 807 e # 8211809. CrossRef CAS PubMed Google Scholar
Toth-Petroczy, A., Palmedo, P., Ingraham, J., Hopf, T. A., Berger, B., Sander, C. & # 38 Marks, D. S. (2016). Célula , 167 , 158 & # 8211170.e12. CAS PubMed Google Scholar
Consórcio UniProt (2015). Nucleic Acids Res. 43 , D204 e # 8211D212. Web of Science CrossRef PubMed Google Scholar
Wang, Y. & # 38 Barth, P. (2015). Nat. Comum. 6 , 7196. CrossRef PubMed Google Scholar
Wang, R. Y., Kudryashev, M., Li, X., Egelman, E. H., Basler, M., Cheng, Y., Baker, D. & # 38 DiMaio, F. (2015). Nat. Métodos , 12 , 335 e # 8211338. CrossRef CAS PubMed Google Scholar
Wang, S., Sun, S., Li, Z., Zhang, R. & # 38 Xu, J. (2017). PLoS Comput. Biol. 13 , e1005324. CrossRef PubMed Google Scholar
Wang, Z. & # 38 Xu, J. (2013). Bioinformática , 29 , 266 e # 8211273. CrossRef PubMed Google Scholar
Webb, B., Lasker, K., Schneidman-Duhovny, D., Tjioe, E., Phillips, J., Kim, SJ, Vel & # 225zquez-Muriel, J., Russel, D. & # 38 Sali, A . (2011). Methods Mol. Biol. 781 , 377 e # 8211397. CrossRef CAS PubMed Google Scholar
Wuyun, Q., Zheng, W., Peng, Z. & # 38 Yang, J. (2016). Brief Bioinform. , https://doi.org/10.1093/bib/bbw106. Google Scholar
Xu, D., Jaroszewski, L., Li, Z. & # 38 Godzik, A. (2014). Bioinformática , 30 , 660 e # 8211667. Web of Science CrossRef CAS PubMed Google Scholar
Yang, J., Jin, Q.-Y., Zhang, B. & # 38 Shen, H.-B. (2016). Bioinformática , 32 , 2435 e # 82112443. CrossRef PubMed Google Scholar
Yu, J., Vavrusa, M., Andreani, J., Rey, J., Tuff & # 233ry, P. & # 38 Guerois, R. (2016). Nucleic Acids Res. 44 , W542 e # 8211W549. CrossRef PubMed Google Scholar
Zacharchenko, T., von Castelmur, E., Rigden, D. J. & # 38 Mayans, O. (2015). Biochem. Soc. Trans. 43 , 850 e # 8211855. CrossRef CAS PubMed Google Scholar
Zhang, H., Huang, Q., Bei, Z., Wei, Y. & # 38 Floudas, C. A. (2016). Proteínas , 84 , 332 e # 8211348. Web of Science CrossRef CAS PubMed Google Scholar
Zimmerman, B., Kelly, B., McMillan, B. J., Seegar, T. C., Dror, R. O., Kruse, A. C. & # 38 Blacklow, S. C. (2016). Célula , 167 , 1041 e # 82111051. CrossRef CAS PubMed Google Scholar

Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Attribution (CC-BY), que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que os autores originais e a fonte sejam citados.


Previsão da função da proteína a partir da sequência e estrutura da proteína

A sequência de um genoma contém os planos da possível vida de um organismo, mas a implementação da informação genética depende das funções das proteínas e dos ácidos nucléicos que ela codifica. Muitas proteínas individuais de sequência e estrutura conhecidas apresentam desafios para a compreensão de sua função. Em particular, vários genes responsáveis ​​por doenças foram identificados, mas suas funções específicas são desconhecidas. Os projetos de sequenciamento do genoma completo são uma fonte importante de proteínas de função desconhecida. A anotação de um genoma envolve a atribuição de funções a produtos gênicos, na maioria dos casos com base apenas na sequência de aminoácidos. A estrutura 3D pode auxiliar na atribuição de funções, motivando o desafio de projetos de genômica estrutural para disponibilizar informações estruturais para novas proteínas não caracterizadas. A identificação com base na estrutura de homólogos muitas vezes tem sucesso onde os métodos baseados apenas em sequência falham, porque em muitos casos a evolução retém o padrão de dobramento muito depois que a similaridade de sequência se torna indetectável. No entanto, a previsão da função da proteína a partir da sequência e estrutura é um problema difícil, porque as proteínas homólogas frequentemente têm funções diferentes. Muitos métodos de predição de função baseiam-se na identificação de similaridade na sequência e / ou estrutura entre uma proteína de função desconhecida e uma ou mais proteínas bem compreendidas. Métodos alternativos incluem inferir padrões de conservação em membros de uma família funcionalmente não caracterizada para a qual muitas sequências e estruturas são conhecidas. No entanto, essas inferências são tênues. Esses métodos fornecem suposições razoáveis ​​sobre a função, mas estão longe de ser infalíveis. Portanto, é uma sorte que o desenvolvimento de abordagens de organismo inteiro e genômica comparativa permita outras abordagens para a previsão de funções quando os dados estão disponíveis. Isso inclui o uso de padrões de interação proteína-proteína e correlações entre ocorrências de proteínas relacionadas em diferentes organismos, como indicadores de propriedades funcionais. Mesmo que seja possível atribuir uma função específica a um produto gênico, a proteína pode ter várias funções. Um problema fundamental é que a função é, em muitos casos, um conceito mal definido. Neste artigo, revisamos o estado da arte em previsão de funções e descrevemos algumas das dificuldades e sucessos subjacentes.


A IA do Google vence 100 outras equipes na competição de previsão de proteínas

Uma equipe da DeepMind do Google, disse que sua rede de inteligência artificial (IA) deu um grande salto resolvendo o problema de dobramento de proteínas de 50 anos depois de ter superado todas as outras equipes em um desafio de previsão de estrutura de proteínas. O programa foi recebido com entusiasmo por pesquisadores de todo o mundo que afirmam que ele pode revolucionar a biologia, em áreas específicas como o design de medicamentos ou a sustentabilidade ambiental.

Descoberta científica fantástica. Um dos maiores problemas da ciência (dobramento de proteínas) parece que foi quebrado pela inteligência artificial. Implicações enormes para a medicina. Parabéns @DeepMind #AlphaFold https://t.co/qwbiJINMBh

- Jim Al-Khalili (@jimalkhalili) 30 de novembro de 2020

O algoritmo do Google, chamado AlphaFold2, foi o vencedor do desafio Avaliação Crítica de Predição de Estrutura (Casp14) deste ano - uma competição bienal criada para avaliar o progresso na precisão da previsão da estrutura de proteínas computacionais. AlphaFold2 foi capaz de determinar as formas 3D de cerca de dois terços das proteínas alvo com uma precisão comparável a experimentos de laboratório, superando em muito cerca de 100 outras equipes.

As proteínas são moléculas complexas compostas por cadeias de aminoácidos que podem se dobrar em diferentes formas. Prever como será a estrutura 3D final é um desafio no qual os cientistas trabalharam por décadas. Mohammed AlQuraishi, da Universidade de Columbia, nos Estados Unidos, que desenvolveu um dos algoritmos concorrentes, acredita que a IA da DeepMind pode ajudar os pesquisadores a compreender as funções das proteínas, comparando suas estruturas previstas com proteínas com função e forma conhecidas. Ele acrescenta que, embora o programa não tenha sido desenvolvido para o design de proteínas, a experiência de outros modelos como o Rosetta sugere que pode ser possível adaptá-lo para esse fim. ‘Provavelmente ainda não é preciso o suficiente para aplicações médicas focadas em moléculas pequenas, mas pode ajudar no desenvolvimento de anticorpos para terapias baseadas em proteínas’, diz ele.

Andrei Lupas, do Instituto Max Planck de Biologia do Desenvolvimento na Alemanha, que foi um dos juízes do Casp14, acredita que há muita magia algorítmica nos bastidores. "Eles não foram muito claros sobre o que estão fazendo, mas estão gastando muito tempo acertando os detalhes, e isso parece resultar em uma previsão geral muito, muito boa", observa ele. "Meu departamento forneceu uma meta para uma proteína que não éramos capazes de resolver por uma década. Eles nos deram um modelo com o qual resolvemos a estrutura em meia hora! '

No desafio Casp deste ano, AlphaFold2 empurrou a pontuação GDT (uma medida para medir a precisão das previsões da estrutura) acima de 90

A competição Casp usa a métrica do teste de distância global (GDT) para avaliar a precisão. Todos os programas que alcançam uma pontuação de cerca de 90 GDT são considerados competitivos com os métodos experimentais. AlphaFold2 alcançou uma pontuação média de 92,4 GDT em todos os alvos, deixando todos os seus concorrentes para trás. O software, que foi treinado em cerca de 170.000 estruturas do banco de dados de proteínas, baseia-se em uma versão anterior apresentada no Casp13 em 2018.

Há uma diferença fundamental entre as duas versões, explica AlQuraishi. "Este é diferenciável de ponta a ponta, o que significa que o sistema é otimizado para ir da sequência à estrutura 3D final, e todas as peças do sistema são otimizadas em conjunto para aprender com os dados", diz ele. 'O AlphaFold original tinha várias peças separadas treinadas independentemente e apenas distâncias interatômicas previstas - não estruturas 3D - que foram usadas para dobrar a proteína usando abordagens mais convencionais como Rosetta.' AlphaFold2 é iterativo, gerando uma estrutura 3D inicial que é então refinada em muitos etapas, 'para que seja capaz de extrair padrões mais complexos dos dados', explica ele.

Embora o próprio modelo de AlQuraishi não tenha um desempenho tão bom quanto o AlphaFold2, ele também melhorou em relação à versão anterior. ‘Nosso método funciona a partir de sequências de proteínas individuais, não de sequências de proteínas homólogas como AlphaFold2. Achamos que esta rota vale a pena porque pode permitir o projeto de proteínas muito diferentes das que ocorrem naturalmente e pode ser mais sensível a mudanças em sequências individuais, por exemplo, mutações. "

DeepMind agora quer melhorar ainda mais o algoritmo para fazê-lo descobrir como as proteínas formam complexos ou como elas interagem com pequenas moléculas.


A bioinformática tornou-se uma técnica importante aplicada em muitos aspectos da biologia, como genética, genômica, biologia de sistemas e biologia estrutural. Ele desempenha um papel fundamental na análise da expressão e regulação de genes e proteínas. Uma meta perseguida pela bioinformática é a previsão da estrutura da proteína, que é altamente importante em biotecnologia e design de drogas. Na biologia estrutural, a bioinformática encontra amplas aplicações na simulação e modelagem de DNA, RNA, proteínas, bem como em interações biomoleculares.

(Programa Nacional de Doadores de Medula)

Alinhamento de sequência de proteína
A comparação de sequências de aminoácidos de proteínas dentro de uma espécie ou entre espécies diferentes pode revelar semelhanças entre a função da proteína e as relações entre as espécies. Ferramentas de alinhamento de sequência múltipla, como Clustal W, Clustal X, T-Coffee, MAFFT, são amplamente utilizadas. Essas ferramentas geralmente ajudam na identificação de regiões conservadas que podem ser usadas em conjunto com informações estruturais e mecanísticas.

Previsão da estrutura da proteína

A previsão da estrutura da proteína é outro conjunto de técnicas em bioinformática que visa prever o dobramento, estrutura secundária local e terciária de proteínas com base apenas em suas sequências de aminoácidos. Os melhores métodos modernos de predição de estruturas secundárias em proteínas alcançam cerca de 80% de precisão. PSIPRED e JPRED são dois dos programas mais populares baseados em redes neurais para predição de estrutura secundária de proteínas. Outro programa notável é o método GOR, que tem mais sucesso em predizer hélices alfa do que folhas beta. Outras ferramentas de software comumente usadas em predição de estrutura secundária de proteína e hélice transmembrana e predição de peptídeo de sinal incluem: SPIDER2 (a ferramenta de predição mais abrangente e precisa até o momento), s2D, Meta-PP, HMMTOP, SignalP, etc. Nós fornecemos predição de estrutura de domínio de proteína serviços, incluindo previsão de estrutura secundária, determinação de estrutura terciária e análise de sítio de ligação de proteínas usando muitas ferramentas de bioinformática.

(University College London)

Bioestrutura criativa visa incorporar abordagens computacionais em nossos estudos estruturais de proteínas. Nossos cientistas de bioinformática sênior ajudarão os clientes na análise da sequência de proteínas, previsão da estrutura da proteína e simulação de interação proteína-ligante. Por favor, pergunte online para ver o que podemos fazer por você!


Nova abordagem de aprendizagem profunda prevê a estrutura da proteína a partir da sequência de aminoácidos

O aminoácido selenocisteína, modelo de bolas 3D. Crédito: YassineMrabet / CC BY 3.0 / Wikipedia

Quase todos os processos biológicos fundamentais necessários à vida são realizados por proteínas. Eles criam e mantêm as formas das células e tecidos constituem as enzimas que catalisam as reações químicas de sustentação da vida, agem como fábricas moleculares, transportadores e motores servem como sinal e receptor para comunicações celulares e muito mais.

Composto por longas cadeias de aminoácidos, as proteínas realizam essas inúmeras tarefas, dobrando-se em estruturas 3-D precisas que governam como elas interagem com outras moléculas. Como a forma de uma proteína determina sua função e a extensão de sua disfunção na doença, os esforços para iluminar as estruturas das proteínas são centrais para toda a biologia molecular - e, em particular, para a ciência terapêutica e o desenvolvimento de medicamentos que salvam e alteram vidas.

Nos últimos anos, os métodos computacionais fizeram avanços significativos na previsão de como as proteínas se dobram com base no conhecimento de sua sequência de aminoácidos. Se totalmente realizados, esses métodos têm o potencial de transformar virtualmente todas as facetas da pesquisa biomédica. As abordagens atuais, no entanto, são limitadas na escala e no escopo das proteínas que podem ser determinadas.

Agora, um cientista da Harvard Medical School usou uma forma de inteligência artificial conhecida como aprendizado profundo para prever a estrutura 3-D de qualquer proteína com base em sua sequência de aminoácidos.

Reportando online em Sistemas Celulares em 17 de abril, o biólogo de sistemas Mohammed AlQuraishi detalha uma nova abordagem para determinar computacionalmente a estrutura da proteína - alcançando precisão comparável aos métodos atuais de última geração, mas em velocidades até um milhão de vezes mais rápidas.

"O dobramento de proteínas tem sido um dos problemas mais importantes para os bioquímicos na última metade do século, e essa abordagem representa uma maneira fundamentalmente nova de enfrentar esse desafio", disse AlQuraishi, instrutor de biologia de sistemas no Instituto Blavatnik em HMS e bolsista em o Laboratório de Farmacologia de Sistemas. "Agora temos um panorama totalmente novo para explorar o enovelamento de proteínas e acho que apenas começamos a arranhar a superfície."

Embora altamente bem-sucedidos, os processos que usam ferramentas físicas para identificar estruturas de proteínas são caros e demorados, mesmo com técnicas modernas, como microscopia crioeletrônica. Como tal, a grande maioria das estruturas de proteínas - e os efeitos das mutações causadoras de doenças nessas estruturas - ainda são amplamente desconhecidos.

Métodos computacionais que calculam como as proteínas se dobram têm o potencial de reduzir drasticamente o custo e o tempo necessários para determinar a estrutura. Mas o problema é difícil e permanece sem solução após quase quatro décadas de intenso esforço.

As proteínas são construídas a partir de uma biblioteca de 20 aminoácidos diferentes. Elas agem como letras de um alfabeto, combinando-se em palavras, frases e parágrafos para produzir um número astronômico de textos possíveis. Ao contrário das letras do alfabeto, no entanto, os aminoácidos são objetos físicos posicionados no espaço 3-D. Freqüentemente, as seções de uma proteína estarão fisicamente próximas, mas separadas por grandes distâncias em termos de sequência, pois suas cadeias de aminoácidos formam loops, espirais, lâminas e torções.

"O que é convincente sobre o problema é que é bastante fácil de definir: pegue uma sequência e descubra a forma", disse AlQuraishi. "Uma proteína começa como um string não estruturado que deve assumir uma forma 3-D, e os possíveis conjuntos de formas em que um string pode se dobrar são enormes. Muitas proteínas têm milhares de aminoácidos, e a complexidade ultrapassa rapidamente o capacidade de intuição humana ou mesmo os computadores mais poderosos. "

Para enfrentar esse desafio, os cientistas aproveitam o fato de que os aminoácidos interagem uns com os outros com base nas leis da física, buscando estados energeticamente favoráveis, como uma bola rolando colina abaixo para se estabelecer no fundo de um vale.

Os algoritmos mais avançados calculam a estrutura da proteína executando em supercomputadores - ou poder de computação crowd-sourced no caso de projetos como Rosetta @ Home e Folding @ Home - para simular a complexa física das interações de aminoácidos por meio da força bruta. Para reduzir os enormes requisitos computacionais, esses projetos contam com o mapeamento de novas sequências em modelos predefinidos, que são estruturas de proteínas previamente determinadas por meio de experimentos.

Outros projetos, como o AlphaFold do Google, geraram uma enorme empolgação recente ao usar os avanços da inteligência artificial para prever a estrutura de uma proteína. Para fazer isso, essas abordagens analisam enormes volumes de dados genômicos, que contêm o projeto de sequências de proteínas. Eles procuram sequências em muitas espécies que provavelmente evoluíram juntas, usando essas sequências como indicadores de proximidade física para orientar a montagem da estrutura.

Essas abordagens de IA, no entanto, não prevêem estruturas baseadas apenas na sequência de aminoácidos de uma proteína. Assim, eles têm eficácia limitada para proteínas para as quais não há conhecimento prévio, proteínas evolutivas únicas ou novas proteínas projetadas por humanos.

Para desenvolver uma nova abordagem, AlQuraishi aplicou o chamado aprendizado profundo diferenciado de ponta a ponta. Esse ramo da inteligência artificial reduziu drasticamente o poder computacional e o tempo necessário para resolver problemas como reconhecimento de imagem e fala, habilitando aplicativos como o Siri da Apple e o Google Translate.

Em essência, a aprendizagem diferenciável envolve uma única e enorme função matemática - uma versão muito mais sofisticada de uma equação de cálculo do ensino médio - organizada como uma rede neural, com cada componente da rede alimentando informações para frente e para trás.

Essa função pode se sintonizar e se ajustar, repetidamente em níveis inimagináveis ​​de complexidade, a fim de "aprender" precisamente como uma sequência de proteína se relaciona matematicamente com sua estrutura.

AlQuraishi desenvolveu um modelo de aprendizado profundo, denominado rede geométrica recorrente, que se concentra nas principais características do enovelamento de proteínas. Mas antes que ele possa fazer novas previsões, ele deve ser treinado usando sequências e estruturas previamente determinadas.

Para cada aminoácido, o modelo prevê o ângulo mais provável das ligações químicas que conectam o aminoácido com seus vizinhos. Ele também prevê o ângulo de rotação em torno dessas ligações, o que afeta como qualquer seção local de uma proteína está geometricamente relacionada a toda a estrutura.

Isso é feito repetidamente, com cada cálculo informado e refinado pelas posições relativas de todos os outros aminoácidos. Depois que toda a estrutura é concluída, o modelo verifica a precisão de sua previsão comparando-a com a estrutura de "verdade fundamental" da proteína.

Todo esse processo é repetido para milhares de proteínas conhecidas, com o modelo aprendendo e melhorando sua precisão a cada iteração.

Uma vez que seu modelo foi treinado, AlQuraishi testou seu poder preditivo. Ele comparou seu desempenho com outros métodos de vários anos recentes da Avaliação Crítica da Predição da Estrutura da Proteína - um experimento anual que testa métodos computacionais para sua capacidade de fazer previsões usando estruturas de proteínas que foram determinadas, mas não divulgadas publicamente.

Ele descobriu que o novo modelo superou todos os outros métodos de previsão de estruturas de proteínas para as quais não existem modelos preexistentes, incluindo métodos que usam dados coevolucionários. Ele também superou todos os métodos, exceto os melhores, quando modelos preexistentes estavam disponíveis para fazer previsões.

Embora esses ganhos em precisão sejam relativamente pequenos, AlQuraishi observa que quaisquer melhorias na extremidade superior desses testes são difíceis de alcançar. E como esse método representa uma abordagem inteiramente nova para o enovelamento de proteínas, ele pode complementar os métodos existentes, tanto computacionais quanto físicos, para determinar uma gama muito mais ampla de estruturas do que era possível anteriormente.

Surpreendentemente, o novo modelo realiza suas previsões em cerca de seis a sete ordens de magnitude mais rápido do que os métodos computacionais existentes. O treinamento do modelo pode levar meses, mas uma vez treinado, ele pode fazer previsões em milissegundos em comparação com as horas ou dias que leva usando outras abordagens. Essa melhoria dramática se deve em parte à única função matemática na qual se baseia, exigindo apenas alguns milhares de linhas de código de computador para ser executado, em vez de milhões.

A velocidade rápida das previsões deste modelo permite novas aplicações que antes eram lentas ou difíceis de alcançar, disse AlQuraishi, como prever como as proteínas mudam de forma à medida que interagem com outras moléculas.

"As abordagens de aprendizado profundo, não apenas as minhas, continuarão a crescer em seu poder preditivo e em popularidade, porque representam um paradigma mínimo e simples que pode integrar novas ideias mais facilmente do que os modelos complexos atuais", acrescentou.

O novo modelo não está imediatamente pronto para uso em, digamos, descoberta ou design de drogas, disse AlQuraishi, porque sua precisão atualmente cai em torno de 6 angstroms - ainda a alguma distância de 1 a 2 angstroms necessários para resolver a estrutura atômica completa de um proteína. Mas há muitas oportunidades para otimizar a abordagem, disse ele, incluindo novas regras de integração extraídas da química e da física.

"A previsão precisa e eficiente do dobramento de proteínas tem sido um santo graal para o campo, e é minha esperança e expectativa que esta abordagem, combinada com todos os outros métodos notáveis ​​que foram desenvolvidos, seja capaz de fazê-lo em um futuro próximo, "AlQuraishi disse. "Podemos resolver isso em breve, e acho que ninguém diria isso cinco anos atrás. É muito emocionante e também um tanto chocante ao mesmo tempo."

Para ajudar outros a participarem no desenvolvimento de métodos, AlQuraishi disponibilizou seu software e resultados gratuitamente por meio da plataforma de compartilhamento de software GitHub.

"Uma característica notável do trabalho de AlQuraishi é que um único pesquisador, inserido no rico ecossistema de pesquisa da Harvard Medical School e da comunidade biomédica de Boston, pode competir com empresas como o Google em uma das áreas mais quentes da ciência da computação", disse Peter Sorger, HMS Otto Krayer Professor de Farmacologia de Sistemas no Instituto Blavatnik em HMS, diretor do Laboratório de Farmacologia de Sistemas em HMS e mentor acadêmico de AlQuraishi.

"Não é sensato subestimar o impacto perturbador de colegas brilhantes como AlQuraishi que trabalham com software de código aberto de domínio público", disse Sorger.


Aula 13: Predição da Estrutura da Proteína

Baixe o vídeo do iTunes U ou do Internet Archive.

Descrição: Esta palestra sobre a previsão da estrutura da proteína cobre o refinamento de uma estrutura parcialmente correta. Os métodos incluem minimização de energia, dinâmica molecular e recozimento simulado. Ele avança para métodos para prever a estrutura a partir de uma sequência de aminoácidos.

Instrutor: Prof Ernest Fraenkel

Aula 1: Introdução a.

Aula 2: Alinhamento local.

Aula 3: Alinhamento Global.

Aula 4: Geno Comparativo.

Aula 5: Biblioteca Complexi.

Aula 6: Montagem do Genoma

Leture 7: Análise ChIP-seq.

Aula 8: Sequência de RNA Ana.

Aula 9: Modelagem e Dis.

Aula 10: Markov e Hidd.

Aula 11: RNA Secundário S.

Leture 12: Introdução a.

Aula 13: Prevendo o Prot.

Aula 14: Prevendo o Prot.

Aula 15: Regulamentação de genes.

Aula 16: Protein Interac.

Aula 17: Modelagem Lógica.

Aula 18: Análise de Chr.

Aula 19: Descobrindo Qua.

Aula 20: Genética Humana.

Aula 21: Biolo Sintético.

Aula 22: Causalidade, Natu.

O conteúdo a seguir é fornecido sob uma licença Creative Commons. Seu apoio ajudará o MIT OpenCourseWare a continuar a oferecer recursos educacionais de alta qualidade gratuitamente. Para fazer uma doação ou ver materiais adicionais de centenas de cursos do MIT, visite o MIT OpenCourseWare em ocw.mit.edu.

PROFESSOR: Bem-vindos de volta a todos. Espero que você tenha tido uma boa pausa. Espero que você também se lembre um pouco sobre o que fizemos da última vez.

Então, se você se lembra, da última vez fizemos uma introdução à estrutura da proteína. Falamos um pouco sobre alguns dos problemas na previsão da estrutura da proteína. Agora vamos entrar em mais detalhes.

E da última vez, dividimos o problema de previsão de estrutura em alguns subproblemas. Portanto, houve um problema de previsão da estrutura secundária, que discutimos um pouco da última vez. E lembre-se de que os primeiros algoritmos desenvolvidos nos anos 70 obtêm cerca de 60% de precisão, e décadas de pesquisa melhoraram isso apenas marginalmente. Mas veremos que parte do trabalho sobre o reconhecimento da estrutura principal e a previsão de novas estruturas tridimensionais realmente avançou dramaticamente nos últimos anos.

Agora, outra coisa que espero que você se lembre é que tínhamos essa dicotomia entre duas abordagens da energética da estrutura da proteína. Tínhamos a abordagem do físico e a abordagem do estatístico, certo? Agora, quais foram algumas das principais diferenças entre essas duas abordagens?

Alguém quer sugerir uma diferença entre a abordagem estatística para parametrizar a energia de uma estrutura? Então, estamos tentando criar uma equação que converterá as coordenadas em energia, certo? E quais foram algumas das diferenças entre a abordagem da física e a abordagem estatística? Quaisquer voluntários? sim.

PÚBLICO: Acho que a abordagem estatística não mudou os ângulos phi e psi, certo? Ele apenas mudou outras variáveis.

PROFESSOR: Então você está perto. Direito. Então, a estatística - ou talvez você tenha dito a coisa certa, na verdade. Portanto, a abordagem estatística mantém muitos pedaços da proteína rígida, enquanto a abordagem física permite que todos os átomos se movam independentemente. Portanto, uma das principais diferenças é que, na abordagem da física, dois átomos ligados entre si ainda se separam com base em uma função de mola. É uma mola muito rígida, mas os átomos se movem independentemente.

Na abordagem estatística, apenas fixamos a distância entre eles. Da mesma forma, para um átomo tetraedricamente coordenado, na abordagem da física esses ângulos podem deformar. Na abordagem estatística, eles são fixos. Direito? Portanto, na abordagem estatística, temos uma geometria mais ou menos fixa. Na abordagem da física, cada átomo se move de forma independente.

Alguém mais se lembra de outra diferença importante? De onde vêm as funções de energia? Voluntários? Tudo bem.

Portanto, na abordagem da física, todos eles são derivados, tanto quanto possível, de princípios físicos, você pode imaginar. Já na abordagem estatística, estamos tentando recriar o que vemos na natureza, mesmo que não tenhamos uma boa base física para isso.

Portanto, isso é mais dramático ao tentar prever as energias livres de solvatação. Direito? Quanto custa para você colocar um átomo hidrofóbico em um ambiente polar? Direito? Portanto, na abordagem da física, você realmente precisa ter moléculas de água. Eles têm que interagir com a matéria. Isso acabou sendo muito, muito difícil de fazer.

Na abordagem estatística, chegamos a uma aproximação. Quanta área de superfície acessível a solvente existe no átomo polar quando está livre? Quando está na estrutura da proteína? E então escalamos as energias de transferência nessa quantidade.

OK, então essas são as principais diferenças. Tem que ter cuidado aqui. Portanto, temos geometria fixa para esta abordagem estatística. Freqüentemente usamos rotâmeros discretos. Lembrar? Os ângulos da cadeia lateral, em princípio, podem girar livremente. Mas havia apenas algumas confirmações tipicamente observadas, então frequentemente nos restringimos às combinações mais comumente observadas dos ângulos psi.

E então temos o potencial estatístico que depende da frequência com que observamos as coisas no banco de dados. E essa pode ser a frequência com que observamos átomos particulares a distâncias precisas. Pode ser a fração de tempo que o solvente de algo está acessível e não acessível.

E a outra coisa sobre a qual falamos um pouco da última vez foi esse problema de pensamento. Se eu tenho uma sequência de proteínas e duas estruturas potenciais, como eu poderia usar essas energias potenciais - sejam elas derivadas da abordagem física ou estatística - como eu poderia usar essas energias potenciais para decidir qual dos duas estruturas está correto?

Portanto, uma possibilidade é que tenho duas estruturas. Um deles é verdadeiramente a estrutura e o outro não. Direito? Seu diabólico colega de laboratório conhece a estrutura, mas se recusa a lhe dizer. Então, nesse caso, o que eu faria? Eu sei que uma dessas estruturas está correta. Eu não sei qual. Como eu poderia usar a função de energia potencial para decidir qual é a correta? O que vai acontecer com a estrutura correta?

PROFESSOR: Vai ter menos energia. Isso é suficiente? Não. Certo? Há uma sutileza que devemos enfrentar aqui.

Portanto, se eu simplesmente conectar minha sequência de proteínas em uma dessas duas estruturas e calcular a energia livre, não há garantia de que a correta terá menos energia livre. Porque? Que decisão devo tomar quando coloco uma sequência de proteínas em uma estrutura de backbone?

PÚBLICO: Como orientar a cadeia lateral.

PROFESSOR: Exatamente. Preciso decidir como orientar as cadeias laterais. Se eu orientar as cadeias laterais de maneira errada, terei cadeias laterais literalmente sobrepostas umas às outras. Isso terá uma energia incrivelmente alta, certo? Portanto, não há garantia de que simplesmente ter a estrutura certa lhe dará o mínimo de energia livre até que você coloque corretamente todas as cadeias laterais.

OK, mas esse é o caso simples. Agora, esse é o caso em que você tem esse amigo diabólico que conhece a estrutura correta. Mas é claro, no problema geral de reconhecimento de domínio, não sabemos a estrutura correta. Temos homólogos. Portanto, temos alguma sequência e acreditamos que seja homóloga à proteína A ou à proteína B, e quero decidir qual é a correta. Portanto, em ambos os casos, a estrutura está errada. É a questão de quão errado está, certo?

Portanto, agora o problema realmente se torna mais difícil, porque não apenas preciso obter as confirmações de cadeia do lado certo, mas também preciso obter a confirmação de backbone certa. Ele vai se fechar em uma dessas estruturas, talvez, mas nunca será idêntico.

Portanto, ambas as situações são exemplos em que é necessário fazer algum tipo de refinamento de uma estrutura inicial de partida. E o que vamos falar na próxima parte da palestra são estratégias alternativas para refinar uma estrutura parcialmente correta.

E veremos três estratégias. O mais simples é chamado de minimização de energia. Em seguida, veremos a dinâmica molecular e o recozimento simulado.

Portanto, a minimização de energia começa com este princípio sobre o qual falamos da última vez que me lembro que surgiu aqui, que uma estrutura estável deve ter um mínimo de energia livre. Direito? Porque se não for, então existem forças agindo sobre os átomos e que vão afastá-lo dessa estrutura para alguma outra estrutura.

Agora, o fato de ser um mínimo de energia livre não garante que seja o mínimo de energia livre. Portanto, é possível que existam outros mínimos energéticos. Direito? A estrutura da proteína, se for estável, é no mínimo um mínimo energético local. Também pode ser o mínimo de energia livre global. Simplesmente não sabemos a resposta para isso.

Agora, esta foi uma grande área de debate nos primeiros dias do campo de estrutura de proteínas, se as proteínas poderiam se dobrar espontaneamente. Se o fizessem, isso significava que eram, pelo menos, aparentemente mínimos de energia livre global. Chris Anfinsen na verdade ganhou o Prêmio Nobel por demonstrar que algumas proteínas podem se dobrar independentemente fora da célula. Portanto, pelo menos algumas proteínas tinham todas as informações estruturais implícitas em sua sequência, certo? E isso parece implicar que há um mínimo de energia livre global.

Mas existem outras proteínas, agora sabemos, onde a estrutura mais comumente observada tem apenas um mínimo de energia livre local. E ele tem barreiras energéticas muito altas que o impedem de realmente chegar ao mínimo de energia livre global. Mas, independentemente do caso, se tivermos uma estrutura inicial de partida, poderíamos tentar encontrar o mínimo de energia livre local mais próximo, e talvez essa seja a estrutura estável.

Então, em nosso contexto, estávamos falando sobre empacotar as cadeias laterais na superfície da proteína que acreditamos ser a estrutura certa. Então imagine que esta é a verdadeira estrutura e nós temos a cadeia lateral, e ela está fazendo com que as linhas verdes tracejadas representem ligações de hidrogênio. Ele está fazendo uma série de ligações de hidrogênio desse nitrogênio e desse oxigênio a pedaços do resto da proteína.

Agora, temos a estrutura básica do backbone. Nós colocamos nossas cadeias laterais. Nós não necessariamente - na verdade, quase nunca - escolheremos aleatoriamente ter a confirmação certa para pegar todas essas ligações de hidrogênio. Portanto, começaremos com uma estrutura semelhante a esta, onde é girada, de modo que, em vez de ver o nitrogênio e o oxigênio, você só possa ver o perfil.

E então a questão é se podemos ir de um para seguindo os mínimos energéticos. Então essa é a questão. Como faríamos para fazer isso?

Bem, temos esta função que nos diz a energia potencial para cada coordenada XYZ do átomo. É sobre isso que conversamos da última vez, e você pode voltar e olhar suas anotações para essas duas abordagens. Então, como podemos minimizar esse mínimo de energia livre? Bem, não é diferente de outras funções que queremos minimizar, certo? Pegamos a primeira derivada. Procuramos lugares onde a primeira derivada é zero.

A única diferença é que não podemos escrever analiticamente como essa função se parece e escolher direções e locais no espaço que são os mínimos. Então, vamos ter que fazer uma abordagem que tenha uma série de perturbações em uma estrutura que tente melhorar a energia livre sistematicamente.

O entendimento mais simples é essa abordagem de gradiente descendente, que diz que tenho algumas coordenadas iniciais que escolho e dou um passo na direção da primeira derivada da função. Então, como é isso?

Então, aqui estão duas possibilidades. Eu tenho essa função. Se eu começar em x igual a 2, isso menos alguns épsilon, algum valor pequeno vezes a primeira derivada, vai me apontar para a esquerda. E vou dar passos para a esquerda até que esta função, f linha, a primeira derivada, seja zero. Então vou parar de me mover. Então, eu me movo da minha coordenada inicial um pouco a cada vez para a esquerda até chegar ao mínimo. E da mesma forma, se eu começar pela direita, vou me mover um pouco mais para a direita a cada vez até que a primeira derivada seja zero.

Então isso parece muito bom. No entanto, isso pode exigir várias etapas. E não é realmente garantido que tenha grandes propriedades de convergência. Devido ao número de etapas que você pode ter que seguir, pode levar muito tempo. Então essa é a primeira derivada, em um caso unidimensional simples. Estamos lidando com um vetor multidimensional, então, em vez de fazer a primeira derivada, usamos o gradiente, que é um conjunto de primeiras derivadas parciais.

E eu acho que uma coisa que é útil apontar aqui é que, claro, a força é negativa do gradiente da energia potencial. Então, quando fazemos uma descida gradiente, você pode pensar nisso de uma perspectiva física como sempre se movendo na direção da força. Portanto, tenho alguma estrutura. Não é a verdadeira estrutura nativa, mas eu dou passos incrementais na direção da força e me movo em direção a alguns mínimos locais.

E fizemos isso no caso de uma energia contínua, mas você também pode fazer isso para as discretas.

Agora, o ponto crítico é que você não tem garantia de obter a estrutura energética correta. Então, no caso que eu mostrei antes, onde tínhamos a cadeia lateral ligada, se você realmente fizer a minimização lá, você acabará com a cadeia lateral girada 180 graus onde deveria estar. Portanto, elimina todos os choques estéricos, mas não capta todas as ligações de hidrogênio. Portanto, este é um exemplo de mínimos energéticos locais que não são os mínimos energéticos globais.

Alguma dúvida sobre isso? sim.

PÚBLICO: De onde vêm todas essas equações n-dimensionais?

PROFESSOR: De onde vem o que vem?

PÚBLICO: As equações n-dimensionais.

PROFESSOR: Então, essas são as equações para a energia em termos de cada átomo da proteína, se você estiver permitindo que os átomos se movam, ou em termos de cada ligação rotativa, se estiver permitindo que apenas as ligações girem.

Portanto, a questão era: de onde vêm as equações multidimensionais. Outras perguntas? OK.

Certo, essa é a abordagem mais simples. Minimize literalmente a energia. Mas dissemos que ele tem o problema de não ser garantido encontrar o mínimo de energia livre global.

Outra abordagem é a dinâmica molecular. Então, isso na verdade tenta simular o que está acontecendo na estrutura de uma proteína in vitro, simulando a força em cada átomo e a velocidade. Anteriormente, não havia medida de velocidade. Direito? Todos os átomos estavam estáticos. Observamos qual era o gradiente da energia e nos movemos por alguma função de degrau arbitrária na direção da força.

Agora teremos velocidades associadas a todos os átomos. Eles estarão se movendo no espaço. E teremos a coordenada a qualquer momento t for determinada pelas coordenadas do momento anterior, t de i menos 1 mais uma velocidade vezes o intervalo de tempo. E as velocidades serão determinadas pelas forças, que são determinadas pelo gradiente da energia potencial. Direito?

Então começamos, sempre, com aquela função de energia potencial, que é tanto da abordagem física quanto da abordagem estatística. Isso nos dá velocidades, eventualmente nos dando as coordenadas.

Então, começamos com a proteína. Existem algumas questões sérias sobre como equilibrar os átomos. Então você começa com uma estrutura completamente estática. Você deseja aplicar forças a ele. Existem algumas sutilezas sobre como você fará isso, mas então você acaba simulando o movimento de todos os átomos.

E para dar uma ideia de como é isso, vou mostrar um filme rápido. Portanto, esta é a simulação do dobramento da estrutura de uma proteína. E a espinha dorsal é principalmente destacada. A maioria das cadeias laterais não está sendo mostrada. Na verdade, em negrito, mas você pode ver as figuras de palito. E lentamente está acumulando sua estrutura tridimensional.

PROFESSOR: OK, acho que você entendeu aqui. Oh, não vai me deixar desistir. OK, vamos lá.

OK, então essas são as equações que governam o movimento em um exemplo como esse. Agora, a vantagem disso é que estamos simulando o enovelamento da proteína. Portanto, se o fizermos corretamente, devemos sempre obter a resposta certa. Claro, não é isso que acontece na realidade.

Provavelmente, o maior problema é apenas a velocidade computacional. Então, essas simulações - mesmo aquelas muito, muito curtas como a que mostrei - quanto tempo leva para uma proteína se dobrar in vitro? Uma dobra longa pode levar um milissegundo, e para uma proteína muito pequena como essa pode ser ordens de magnitude mais rápida. Mas, para realmente computar isso, pode levar muitos, muitos dias. Muitos recursos de computação estão envolvidos nisso.

Além disso, se quisermos representar com precisão a solvatação - a interação da proteína com a água, que é o que causa o colapso hidrofóbico, como vimos - então você realmente teria que ter água nessas simulações. E cada molécula de água adiciona vários graus de liberdade, o que também aumenta o custo computacional.

Portanto, todas essas coisas determinam o raio de convergência. Quão longe você pode estar da verdadeira estrutura e ainda assim chegar lá? Para proteínas muito pequenas como essa, com muitos recursos computacionais, você pode ir de uma proteína não dobrada para o estado dobrado. Veremos alguns avanços importantes que nos permitem contornar isso, mas na maioria dos casos, só podemos fazer mudanças relativamente locais.

Isso nos leva à nossa terceira abordagem para refinar estruturas de proteínas, que é chamada de recozimento simulado. E a inspiração para esse nome vem da metalurgia e de como obter a melhor estrutura atômica em um metal. Não sei se algum de vocês já trabalhou em metal. Qualquer um?

Oh, OK, bem, uma pessoa. Isso é melhor do que na maioria dos anos. Eu não tenho, mas eu entendo que na metalurgia - e você pode me corrigir se eu estiver errado - que aumentando e diminuindo repetidamente a temperatura, você pode obter melhores estruturas de metal. Isso é razoavelmente preciso? OK. Você pode falar com um de seus colegas estudantes para obter mais detalhes se estiver interessado.

Portanto, essa ideia semelhante será usada nesta abordagem de competição.Vamos tentar encontrar a confirmação mais provável de átomos tentando sair de alguns mínimos locais, aumentando a energia do sistema e, em seguida, alterando as temperaturas, ou aumentando e diminuindo de acordo com algum programa de aquecimento e resfriamento para obter os átomos em sua confirmação mais provável, a conformação mais estável.

E isso remete à ideia de que começamos com os mínimos locais. Se estivermos apenas fazendo a minimização de energia, não conseguiremos ir desse mínimo para esse mínimo, porque essas barreiras energéticas estão no caminho. Portanto, precisamos aumentar a energia do sistema para pular essas barreiras energéticas antes que possamos chegar ao mínimo de energia livre global.

Mas se apenas nos movermos em temperaturas muito altas o tempo todo, vamos amostrar todo o espaço energético, mas vai demorar muito. Estaremos testando várias confirmações de baixa probabilidade também. Portanto, essa abordagem nos permite equilibrar a necessidade de velocidade e a necessidade de estar em alta temperatura, onde podemos superar algumas dessas barreiras.

Então, uma coisa que quero enfatizar aqui é que fizemos uma analogia física com esse processo de metalurgia. Estamos falando sobre aumentar a temperatura do sistema e permitir que os átomos evoluam sob forças, mas não tem o objetivo de simular o que está acontecendo no enovelamento das proteínas. Portanto, a dinâmica molecular tentaria dizer, isso é o que realmente está acontecendo com essa proteína conforme ela se dobra na água.

O recozimento simulado usa alta temperatura para pesquisar espaços e, em seguida, baixa temperatura. Mas essas temperaturas são muito, muito mais altas do que a proteína jamais encontraria, então não é uma simulação. É uma estratégia de busca.

OK, então a chave para isso - e eu direi a você o algoritmo completo em um segundo - mas em várias etapas do algoritmo estamos tentando tomar decisões sobre como mover de nosso conjunto atual de coordenadas para alguma alternativa conjunto de coordenadas. Agora, esse novo conjunto de coordenadas que vamos chamar de estado de teste. E vamos decidir se o novo estado é mais ou menos provável do que o atual. Direito?

Se tiver menos energia, o que vai ser? Vai ser mais provável, certo? E então, neste algoritmo, sempre vamos aceitar os estados que têm menos energia livre do que nosso estado atual.

O que acontece quando o estado é mais alto em energia livre do que nosso estado atual? Então, descobrimos que vamos aceitar probabilisticamente. Às vezes, vai subir em energia e às vezes não, e isso vai nos permitir ultrapassar algumas dessas barreiras energéticas e tentar chegar a novos estados energéticos que não seriam acessíveis à mera minimização.

Então, a forma disso é a equação de Boltzmann, certo? A probabilidade de algum estado de teste em comparação com a probabilidade de um estado de referência será a razão dessas duas equações de Boltzmann - a energia do estado de teste sobre a energia do estado atual. Portanto, é o e elevado à diferença negativa de energia em relação ao KT. E nós voltaremos para onde este termo de temperatura vem em um segundo.

OK, aqui está o algoritmo completo. Iremos iterar por um número fixo de etapas ou até a convergência. Veremos que nem sempre convergimos. Temos algumas confirmações iniciais. Nossa confirmação atual será o estado n, e que podemos calcular como energia a partir dessas funções de energia potencial que discutimos na última reunião.

Vamos escolher um estado vizinho aleatoriamente. Então, o que vizinho significa? Portanto, se estou definindo isso em termos de coordenadas XYZ, para cada átomo que tenho um conjunto de coordenadas XYZ irei alterá-las algumas delas por uma pequena quantidade. Direito? Se eu mudar todos eles em grandes quantidades, terei uma estrutura completamente diferente. Portanto, vou fazer pequenas perturbações. E se estou fazendo isso com ângulos de backbone fixos e apenas girando as cadeias laterais, o que seria um estado vizinho?

Alguma ideia? O que seria um estado vizinho? Qualquer um? Altere alguns dos ângulos da cadeia lateral, certo? Portanto, não queremos mudar globalmente a estrutura. Queremos alguma continuidade entre o estado atual e o próximo.

Então, vamos escolher um estado adjacente nesse sentido, o espaço de estado. E então aqui estão as regras. Se o novo estado tiver uma energia inferior ao estado atual, simplesmente aceitamos o novo estado. Se não, é aqui que fica interessante. Então, aceitamos essa energia superior com uma probabilidade que está associada à diferença nas energias. Portanto, se a diferença for muito, muito grande, há uma baixa probabilidade de que ela aceite. Se as diferenças forem um pouco maiores, então há uma probabilidade maior de aceitarmos. Se o rejeitarmos, simplesmente voltamos ao nosso estado atual e procuramos um novo estado de teste. OK? Alguma dúvida sobre como fazemos isso?

PÚBLICO: A que distância procuramos vizinhos?

PROFESSOR: Essa é a arte desse processo, então dei uma resposta direta. Abordagens diferentes usarão limites diferentes. Alguma outra pergunta?

OK, então a coisa principal que quero que você perceba, é que há essa distinção entre a abordagem de minimização e a abordagem de recozimento simulado. A minimização só pode ir do estado um para o mínimo de energia livre local, enquanto o recozimento simulado tem o potencial de ir muito mais longe e, potencialmente, chegar ao mínimo de energia livre global. Mas não é garantido encontrá-lo.

OK, digamos que comecemos no estado um e nosso estado vizinho foi o estado dois. Portanto, aceitaríamos isso com 100% de probabilidade, certo? Porque tem menos energia. Então, digamos que o estado vizinho seja o estado três. isso é mais alto em energia, então há uma probabilidade de aceitá-lo, com base na diferença entre a energia do estado dois e do estado três. Da mesma forma, do estado três para o estado quatro, podemos voltar ao estado dois. Podemos subir. E então podemos, eventualmente, superar o obstáculo dessa forma com a probabilidade de soma. É a soma de cada uma dessas etapas. OK?

OK, então se esta é nossa função para decidir se aceitamos um novo estado, como a temperatura afeta nossas decisões? O que acontece quando a temperatura está muito, muito alta, se você olhar para essa equação? Portanto, é menos e para o delta. A diferença de energia em kT. Portanto, se t é muito, muito grande, o que acontece com esse expoente?

Ele se aproxima de zero. Então, e elevado a menos zero será aproximadamente 1, certo? Portanto, em temperaturas muito altas, quase sempre obtemos o estado de alta energia. Então é isso que nos permite escalar essas colinas energéticas. Se eu tiver uma temperatura muito alta no meu recozimento simulado, estou sempre ultrapassando essas barreiras.

Então, inversamente, o que acontece, então, quando eu ajusto a temperatura muito baixa? Então, há uma probabilidade muito, muito baixa de aceitar essas mudanças, certo? Então, se eu tenho uma temperatura muito baixa - temperatura de aproximadamente zero - então eu nunca irei subir. Quase nunca sobe. Portanto, temos muito controle sobre quanto espaço esse algoritmo explora por meio de como definimos a temperatura.

Portanto, isso é novamente um pouco da arte do recozimento simulado - decida exatamente qual cronograma de recozimento usar, que programa de temperatura usar. Você começa alto e vai literalmente para baixo? Você usa alguma outra função mais complicada para decidir a temperatura? Não entraremos em detalhes sobre como escolhê-los. [INAUDÍVEL] você pode rastrear algumas dessas coisas a partir das referências que estão nas notas.

Portanto, temos essa escolha. Mas a ideia básica é que vamos começar com temperaturas mais altas. Vamos explorar a maior parte do espaço. E então, conforme baixamos a temperatura, nos congelamos nas confirmações mais prováveis.

Agora, não há nada que restrinja o recozimento simulado à estrutura da proteína. Na verdade, essa abordagem é bastante geral. É chamado de algoritmo Metropolis Hastings. É frequentemente usado em casos em que não há energia alguma e é considerado puramente em termos probabilísticos.

Portanto, se eu tiver alguma função probabilística - alguma probabilidade de estar em algum estado S - posso escolher um estado vizinho aleatoriamente. Então, posso calcular uma taxa de aceitação, que é a probabilidade de ser um teste de estado S sobre a probabilidade de estar no estado atual.

Isso é o que fizemos em termos da equação de Boltzmann, mas se eu fizer alguma outra formulação para as probabilidades, usarei apenas essa. E então, assim como em nosso exemplo de dobramento de proteína, se essa taxa de aceitação for maior que 1, aceitamos o novo estado. Se for menor que 1, então o aceitamos com uma afirmação probabilística.

E então esta é uma abordagem muito geral. Acho que você pode ver isso em seus conjuntos de problemas. Certamente já fizemos isso em exames anteriores - solicitamos que você aplicasse esse algoritmo a outras configurações probabilísticas. Portanto, é uma maneira muito geral de pesquisar a amostra em um cenário probabilístico.

OK, então vimos essas três abordagens separadas, começando com uma estrutura aproximada e tentando chegar à estrutura correta. Temos a minimização de energia, que avançará em direção à confirmação local. Então é muito rápido em comparação com os outros dois, mas é restrito a mudanças locais. Temos dinâmica molecular, que na verdade tenta simular o processo biológico. Connotacionalmente muito intensivo.

E então temos o recozimento simulado, que tenta reduzir a raiz para alguns desses mínimos globais de energia livre, aumentando a temperatura, fingindo que está muito alta para que possamos amostrar todo o espaço e, em seguida, resfriando para capturarmos uma alta probabilidade confirmação.

Alguma dúvida sobre qualquer uma dessas três abordagens? OK.

Tudo bem, então vou passar agora por algumas das abordagens que já foram usadas para tentar resolver estruturas de proteínas. Começamos com uma sequência. Gostaríamos de descobrir qual é a estrutura. E esse campo teve um avanço tremendo, porque em 1995 um grupo se reuniu e surgiu com uma forma objetiva de avaliar se esses métodos estavam funcionando.

Então, muitas pessoas propuseram métodos para prever a estrutura da proteína, e o que o grupo CASP fez em 95 foi, eles disseram, vamos coletar estruturas de cristalógrafos, espectroscopistas de RMN, que eles ainda não publicaram, mas sabem que provavelmente serão capaz de chegar dentro da escala de tempo deste projeto. Enviaremos essas sequências aos modeladores.

Os modeladores tentarão prever a estrutura e, no final da competição, voltaremos aos cristalógrafos e espectroscopistas e diremos, OK, dê-nos uma estrutura e agora compararemos as respostas previstas com as reais. Assim, ninguém sabe se a resposta é até que todos os envios estejam lá, e então você pode ver objetivamente qual das abordagens se saiu melhor.

E uma das abordagens que consistentemente tem funcionado muito bem, que veremos em detalhes, é essa abordagem chamada Rosetta. Assim, você pode ver os detalhes online. Eles dividem esse problema de modelagem em dois tipos. Existem alguns para os quais você pode chegar a um modelo de homologia razoável. Isso pode ser uma homologia de sequência muito, muito baixa, mas há algo no banco de dados de estrutura conhecida que é sequenciado de forma semelhante à consulta. E então aqueles em que é completamente de novo.

Então, como eles fazem para prever essas estruturas? Portanto, se houver homologia, você pode imaginar que a primeira coisa que deseja fazer é alinhar sua sequência à sequência da proteína que possui uma estrutura conhecida. Agora, se é alta homologia, não é um problema difícil, certo? Só precisamos fazer alguns ajustes. Mas chegamos a lugares - o que é chamado de Twilight Zone, na verdade - onde há uma grande probabilidade de que você esteja errado, de que seus alinhamentos de sequência possam estar com a estrutura totalmente errada. E é aí que as coisas ficam interessantes.

Portanto, eles têm alta similaridade de sequência - mais de 50% de similaridade de sequência, que são considerados problemas relativamente fáceis. Esses problemas médios são de 20% a 50% de similaridade de sequência. E então problemas semelhantes de sequência muito baixa - menos de 20% de similaridade de sequência.

OK, então você já viu os métodos deste curso para fazer o alinhamento de sequência, então não temos que entrar em detalhes. Mas existem muitas abordagens específicas diferentes sobre como fazer esses alinhamentos. Você pode fazer qualquer coisa, desde explosões a modelos de Markov altamente sofisticados para tentar decidir o que é mais semelhante à estrutura de sua proteína.

E uma das coisas importantes que a Rosetta descobriu não foi alinhar em um único método, mas tentar várias abordagens de alinhamento diferentes e, em seguida, seguir em frente com muitos dos alinhamentos diferentes. E então temos o problema de como você refina os modelos, que já começamos a falar.

Portanto, no procedimento de refinamento geral, quando você tem uma proteína que está relativamente em boa forma, eles aplicam perturbações aleatórias ao ângulo de torção do backbone. Portanto, esta é novamente a abordagem estatística, não permitindo que todos os átomos se movam. Eles estão apenas girando um certo número de cadeias laterais giratórias. Portanto, temos os ângulos psi finos no backbone e alguns dos canais laterais.

Eles fazem o que é chamado de otimização do rotamer da cadeia lateral. Então, o que isso significa? Lembre-se de que poderíamos permitir que as correntes laterais girassem livremente, mas muito, muito poucas dessas rotações são observadas com frequência. Então, vamos escolher, como essas três escolhas, entre os melhores rotâmeros possíveis, os isômeros rotacionais. E então, uma vez que encontramos uma confirmação de cadeia lateral quase ideal daquelas altamente prováveis, então permitimos uma otimização mais contínua das cadeias laterais.

Portanto, quando você tem um modelo de homologia de sequência muito, muito alta, não é necessário trabalhar muito na maior parte da estrutura. Direito? A maior parte vai estar correta. Portanto, vamos nos concentrar naqueles lugares onde o alinhamento é ruim. Isso parece muito intuitivo.

As coisas ficam um pouco mais interessantes quando você tem esses modelos de similaridade de sequência média. Então, aqui, até mesmo seu alinhamento básico pode não estar certo. Então, eles realmente procedem com alinhamentos múltiplos e os conduzem através do processo de refinamento.

E então, como você decide qual é o melhor? Você usa a função de energia potencial. Direito? Então você já recebeu um monte de confirmações iniciais. Nós os conduzimos através deste procedimento de refinaria. Você agora acredita que essas energias representam a probabilidade de que a estrutura esteja correta, então você vai escolher qual dessas confirmações usar com base na energia.

OK, nesses modelos de similaridade de sequência média, o refinamento não faz toda a estrutura da proteína, mas se concentra em uma região particular. Portanto, locais onde há lacunas, inserções e exclusões no alinhamento. Direito? Portanto, seu alinhamento é incerto, então é aí que você precisa refinar a estrutura. Lugares que eram loops nos modelos iniciais, portanto, não eram altamente restritos.

Portanto, é plausível que sejam diferentes na estrutura inicial de alguma proteína homóloga e na estrutura final. E então, regiões onde a conservação da sequência é baixa. Portanto, mesmo que haja um alinhamento razoavelmente bom, há alguma probabilidade de que as coisas tenham mudado durante a evolução.

Agora, quando eles fazem um refinamento, como eles fazem isso? Nesses lugares que acabamos de descrever, eles não perturbam aleatoriamente todos os ângulos. Mas, na verdade, eles pegam um segmento da proteína, e a duração exata desses segmentos mudou ao longo do refinamento do algoritmo de Rosetta. Mas diga algo na ordem de três a seis aminoácidos. E você procura no banco de dados por proteínas que possuem estruturas conhecidas que contêm a mesma sequência de aminoácidos.

Portanto, pode ser uma estrutura de proteína completamente não relacionada, mas você desenvolve uma biblioteca de peptídeos para todas essas sequências curtas para todas as diferentes estruturas possíveis que eles adotaram. Portanto, você sabe que essas são pelo menos estruturas consistentes com aquela sequência local, embora possam estar completamente erradas para esta proteína individual. Então você coloca todas essas estruturas alternativas possíveis.

Então, OK, substituímos os ângulos de torção por aqueles de peptídeos de estrutura conhecida e, em seguida, fazemos uma otimização local usando os tipos de algoritmos de minimização que acabamos de falar para ver se há uma estrutura que é aproximadamente compatível com aquele pequeno peptídeo que você pegou do banco de dados que também é consistente com o resto da estrutura. E depois de fazer isso, você faz um refinamento global.

Perguntas sobre essa abordagem?

OK, isso funciona? Um dos melhores competidores nesta competição CASP. Então, aqui estão alguns exemplos em que a estrutura nativa está em azul. O melhor modelo que eles produziram estava em vermelho, e o melhor modelo - que é a proteína homóloga - está em verde. E você pode ver que eles concordam muito bem. OK?

Portanto, isso é muito impressionante, especialmente em comparação com alguns dos outros algoritmos. Mas, novamente, está se concentrando em proteínas onde há pelo menos alguma homologia decente para começar.

Se você olhar aqui no centro dessas proteínas, você pode ver que a estrutura original, eu acredito, é azul, e seu modelo está em vermelho. Você pode ver que eles também obtêm as confirmações da cadeia lateral mais ou menos corretas, o que é bastante notável.

Agora, o que fica realmente interessante é quando eles trabalham nessas proteínas que têm homologias de sequência muito baixas. Então, estamos falando de cerca de 20% de similaridade de sequência ou menos. Freqüentemente, você terá globalmente a dobra errada - uma semelhança de sequência de 20%.

Então o que eles fazem aqui? Eles começam dizendo, OK, não temos garantia de que nossos modelos estejam, mesmo remotamente, corretos. Então, eles vão começar com muitos modelos e vão refinar todos eles em paralelo na esperança de que alguns deles cheguem na outra extremidade.

E isso é o que eles chamam de estratégias de refinamento mais agressivas. Então, antes, onde concentramos nossas energias de refinamento? Nós nos concentramos em locais que eram mal restritos, seja pela evolução ou regiões da estrutura que não estavam bem restritas, ou locais onde o alinhamento não era bom.

Aqui, eles também vão atrás dos elementos de estrutura secundária relativamente bem definidos. E assim eles permitirão que algo que era uma clara hélice alfa em todos os modelos altere algumas das estruturas retirando peptídeos do banco de dados que possuem outras estruturas. OK?

Portanto, você adota uma abordagem muito, muito agressiva para o refinamento. Você reconstrói os elementos da estrutura secundária, bem como essas lacunas, inserções, loops e regiões com conservação de sequência baixa. E acho que o mais notável é que essa abordagem também funciona. Não funciona tão bem, mas aqui está uma comparação lado a lado de uma estrutura nativa e o melhor modelo.

Portanto, essa é a estrutura oculta que só era conhecida do cristalógrafo, ou espectroscopista, que concordou em participar da competição CASP. E aqui está o modelo que eles submeteram cegos sem saber o que era. E você pode ver repetidamente que há uma boa semelhança global entre as estruturas que eles propõem e as reais.Nem sempre. Quer dizer, aqui está um exemplo onde as partes boas são destacadas e as partes não tão boas são mostradas em branco, então você mal pode vê-las.

PROFESSOR: Mas mesmo assim, dê isso a eles. Dê a eles seu crédito. É um acordo extraordinariamente bom.

Agora, vimos casos em que há similaridade de sequência muito alta, onde há similaridade de sequência média, onde há similaridade de sequência baixa. Mas a categoria mais difícil é aquela em que não há realmente nada no banco de dados estrutural que seja um homólogo detectável para a proteína de interesse.

Então, como você fará isso? Esse é o caso de novo. Nesse caso, eles seguem a seguinte estratégia. Eles fazem uma busca em Monte Carlo por ângulos de backbone. Então, especificamente, eles pegam regiões curtas - e novamente, este é o comprimento exato. Mudanças em diferentes versões do algoritmo, mas são de três a nove aminoácidos na estrutura.

Eles encontram peptídeos semelhantes no banco de dados de estrutura conhecida. Eles obtêm as confirmações de backbone do banco de dados. Eles definem os ângulos para combinar com aqueles. E então, eles usam aqueles critérios de Metrópolis que vimos no recozimento simulado. Direito? A probabilidade relativa dos estados, determinada pela energia de Boltzmann, de decidir se aceitam ou não.

Se for menos energia, o que acontece? Você aceita? Você não aceita?

PROFESSOR: Você aceita. E se for de alta energia, como você decide?

PROFESSOR: [INAUDÍVEL], probabilidade. Muito bom.

OK, então eles executam um número fixo de etapas de Monte Carlo - 36.000. E então eles repetem todo o processo para obter 2.000 estruturas finais. OK? Porque eles realmente têm muito, muito pouca confiança em qualquer uma dessas estruturas.

OK, agora você tem 2.000 estruturas, mas pode enviar uma. Então, o que você faz? Então, eles os agrupam para tentar ver se existem padrões comuns que surgem e, em seguida, refinam os clusters e enviam cada cluster como uma solução potencial para esse problema.

OK, perguntas sobre a abordagem Rosetta? sim.

PÚBLICO: Você pode mencionar novamente por que a região curta de três a nove aminoácidos, e se [INAUDÍVEL].

PROFESSOR: Então a questão é: qual é a motivação para tirar essas regiões curtas do banco de dados estrutural? No final das contas, essa é uma escolha de modelagem que eles fizeram e que parece funcionar bem. Portanto, é uma escolha empírica. Mas o que possivelmente os motivou, você pode perguntar, certo?

Então, o pensamento está neste campo há muito tempo, e ainda não está, eu acho, não comprovado, que certas sequências terão uma certa propensão para certas estruturas. Vimos isso nos algoritmos de previsão da estrutura secundária, que havia certos aminoácidos que ocorriam com muito mais frequência nas hélices alfa.

Portanto, pode ser que existam certas estruturas que são muito prováveis ​​de ocorrer para peptídeos curtos e outras que quase nunca ocorrem. E se você tivesse um banco de dados grande o suficiente de estruturas de proteínas, essa seria uma abordagem de amostragem sensata. Agora, na prática, você poderia ter obtido uma boa resposta em alguma outra abordagem? Nós não sabemos. Isso é o que realmente funcionou bem. Portanto, não há justificativa teórica real para isso, a não ser aquela observação grosseira de que há algum conteúdo de informação que é local e, em seguida, muito conteúdo de informação que é global.

PÚBLICO: Então, quando você está fazendo uma abordagem de novo, é geral que você venha com um monte de clusters diferentes como sua resposta, enquanto com a abordagem de homologia, você está mais confiante na resposta da estrutura?

PROFESSOR: Então a questão era, se você está fazendo uma abordagem de novo, geralmente é o caso de você ter muitos indivíduos ou grupos de estruturas, enquanto na homologia você não tende a ter. E sim, isso é correto. Portanto, de novo, frequentemente haverá várias soluções que parecem igualmente plausíveis para você, enquanto a homologia tende a levá-lo a certas classes.

Boas perguntas. Alguma outra pergunta?

Tudo bem, então esse era o CASP. Um foi em 1995, o que parece uma eternidade. Então, como as coisas melhoraram ao longo das últimas duas décadas?

Então, saiu um artigo interessante recentemente que apenas examinou as diferenças entre o CASP 10, um dos mais recentes, e o CASP 5. Eles são a cada dois anos, ou seja, uma década. Então, como as coisas melhoraram ou não na última década nesse desafio?

Portanto, neste gráfico, o eixo y é a porcentagem dos resíduos que foram modelados e que não estavam no modelo. OK? Então, eu tenho algum modelo. Alguma fração dos aminoácidos não tem correspondência no modelo.

Quantas dessas eu acerto? Em função da dificuldade do alvo, eles têm sua própria definição para a dificuldade do alvo. Você pode olhar no papel real para descobrir o que está na competição CASP, mas é uma combinação de dados estruturais e de sequência. Então, vamos apenas considerar que eles fizeram algumas escolhas razoáveis ​​aqui. Na verdade, eles se esforçaram muito para definir um critério de avaliação.

Cada ponto neste diagrama representa alguma estrutura enviada. O CASP5, uma década atrás, são os triângulos. CASP 9, há dois anos, eram os quadrados e o CASP10 são os círculos. E então eles têm linhas de tendência para CASP9 e CASP10 são mostradas aqui - essas duas linhas.

E você pode ver que eles se saem melhor com as estruturas mais fáceis e pior com as estruturas mais difíceis, que é o que você esperaria, enquanto o CASP5 era praticamente plano em todos eles e se saía tão bem até nas estruturas fáceis como estas outros estão fazendo nas estruturas rígidas.

Então, em termos da fração da proteína para a qual eles não têm um modelo para que eles sejam capazes de acertar, eles estão se saindo muito, muito melhor nos CASPs posteriores do que na década anterior. Então isso é meio encorajador. Infelizmente, a história nem sempre é tão direta.

Portanto, este gráfico é, novamente, a dificuldade alvo no eixo x. O eixo y é o que eles chamam de Teste de distância global e é um modelo de precisão. É a porcentagem dos átomos de carbono alfa nas previsões que estão próximos - e eles têm uma definição precisa de fechamento que você pode observar - que estão próximos da estrutura verdadeira.

Portanto, para um modelo perfeito, estaria aqui na faixa de 90% a 100%, e os modelos aleatórios estariam aqui. Você pode ver que muitos deles são quase aleatórios. Mas o mais importante aqui são as linhas de tendência. Portanto, a linha de tendência para CASP10, a mais recente neste relatório, é preta. E para CASP5, é este amarelo, que não é muito diferente do preto.

O que isso mostra é que, ao longo de uma década, a precisão geral da previsão real não melhorou muito. É um pouco chocante. Então, eles tentaram neste artigo tentar descobrir, por que isso? Quero dizer, a porcentagem de aminoácidos que você está obtendo está aumentando, mas a precisão geral não.

E então eles fazem algumas afirmações de que pode ser que a dificuldade do alvo não seja realmente uma medida justa, porque muitas das proteínas que estão sendo submetidas agora são na verdade muito mais difíceis em um sentido diferente, no sentido de que inicialmente não são proteínas de domínio único. Então, no CASP5, muitas delas eram proteínas com estruturas independentes.

Na época do CASP10, muitas das proteínas que estão sendo submetidas são problemas estruturais mais interessantes, pois seu enovelamento depende de interações com muitas outras coisas. Então, talvez todas as informações de que você precisa não sejam compostas inteiramente na sequência do peptídeo que você recebeu para testar, mas dependa mais das interações dele com seus parceiros.

Portanto, esses eram para modelos de homologia. Estes são os resultados da modelagem gratuita. Portanto, na modelagem livre, não há homologia a ser observada, então eles não têm uma medida de dificuldade, exceto pelo comprimento. Eles estão usando, novamente, o Teste de Distância Global. Então aqui estão modelos perfeitos. Aqui embaixo existem modelos quase aleatórios. CASP10 está em vermelho. CASP5, uma década antes, está em verde. E você pode ver que as linhas de tendência são muito, muito semelhantes. E CASP9, que é a linha tracejada aqui, parece quase idêntico ao CASP5.

Então, novamente, isso não é muito encorajador. Diz que a precisão dos modelos não aprovou muito na última década. E então, eles apontam que se você focar nas estruturas curtas, é bem interessante. Então, no CASP5, que são os triângulos, apenas um deles estava acima de 60%. CASP9, eles tinham 5 de 11 eram muito bons. Mas então você chega ao CASP10 e agora apenas três são maiores que 60%. Portanto, tem flutuado bastante.

Portanto, modelar de novo ainda é um problema muito, muito difícil. E eles têm um monte de teorias sobre o porquê disso. Eles propuseram, como eu já disse, que talvez os modelos que estão tentando resolver tenham se tornado mais difíceis de maneiras que não são fáceis de avaliar.

Muitas das proteínas que antes não teriam um homólogo agora já o têm, porque houve uma década de trabalho estrutural tentando preencher as estruturas de domínio ausentes. E que esses alvos tendem a ter mais irregularidades. Tendência a fazer parte de proteínas maiores. Portanto, novamente, não há informações suficientes na sequência do que você recebeu para fazer a previsão completa.

Então, o que vimos até agora foi a abordagem Rosetta para resolver estruturas de proteínas. E realmente é, jogue tudo nisso. Qualquer truque que você tenha. Vamos dar uma olhada nos bancos de dados. Vamos pegar proteínas homólogas. Direito? Portanto, temos esses homólogos de alto, médio e baixo nível. E mesmo quando estamos fazendo um homólogo, não nos restringimos a essa estrutura de proteína.

Mas, para certas partes, iremos ao banco de dados e encontraremos as estruturas dos peptídeos de comprimento de três a nove. Puxe-os para fora do [? betas. ?] Conecte-os. Nossas funções de energia potencial são informações do saco de viagem, algumas das quais têm princípios físicos fortes, algumas que são apenas ajuste de curva para garantir que mantemos os hidrofóbicos dentro e os hidrofílicos fora.

Assim, lançamos qualquer informação que temos sobre o problema, ao passo que nosso físico desdenha essa abordagem. Ele diz não, não. Estamos indo para isso puramente pelo livro. Todas as nossas equações terão algum fundamento físico para elas. Não vamos começar com modelos de homologia. Vamos tentar fazer a simulação que mostrei a vocês um pequeno filme de cada proteína da qual queremos saber a estrutura.

Agora, por que esse problema é difícil? É porque essas paisagens de energia potencial são incrivelmente complexas. Direito? Eles são muito resistentes. Tentar ir de qualquer posição atual para qualquer outra posição requer uma revisão de muitos, muitos mínimos.

Portanto, a razão pela qual é difícil fazer isso é principalmente uma questão de poder de computação. Simplesmente não há poder de computador suficiente para resolver todos esses problemas. Então, o que um grupo, DE Shaw, fez foi dizer, bem, podemos resolver isso apenas gastando muito dinheiro, o que felizmente eles fizeram.

Assim, eles projetaram um hardware que realmente resolve os componentes individuais da função de energia potencial no hardware, e não no software. Então, eles têm um chip que chamam de Anton que na verdade tem partes que resolvem a função eletrostática, a função de van der Waals.

E assim, nesses chips, em vez de no software, você está fazendo o mais rápido possível para resolver os termos de energia. E isso permite que você experimente muito, muito mais espaço. Execute suas simulações por muito, muito mais tempo em termos de tempo real.

E eles se saem muito bem. Então, aqui estão algumas fotos de um artigo deles - alguns anos atrás agora - com as estruturas previstas e reais. Eu nem me lembro qual cor é qual, mas você pode ver que não importa muito. Eles os colocam em uma resolução muito, muito alta.

Agora, o que você nota sobre todas essas estruturas?

PROFESSOR: Eles são pequenos, certo? Obviamente, há uma razão para isso. É quando você pode fazer em um tempo de computação razoável, mesmo com uma computação de ponta com um propósito especial. Portanto, ainda não estamos em um estado em que eles possam dobrar qualquer estrutura arbitrária.

O que mais você nota sobre eles? Sim, nas costas.

PÚBLICO: Têm estruturas secundárias muito bem definidas.

PROFESSOR: Têm estruturas secundárias muito bem definidas. E eles são especificamente o quê, principalmente?

PROFESSOR: Alfa hélices, certo. E acontece que muito mais informações são codificadas localmente em uma hélice alfa do que em uma folha beta, o que vai depender do tipo de proteína que vai enfrentar. Direito? Enquanto na hélice alfa, vimos que você pode obter 60% de precisão com algoritmos muito rudimentares, certo?

Portanto, faremos o melhor com essas abordagens da física quando tivermos pequenas proteínas que são em grande parte alfa helicoidais. Mas em artigos posteriores - bem, aqui está até um exemplo. Aqui está um que tem uma certa quantidade de planilha beta. E as estruturas vão ficar maiores com o tempo. Portanto, não é um problema inerente. É apenas uma questão de quão rápido o hardware é hoje e amanhã.

OK, uma terceira abordagem. Então, tínhamos a abordagem estatística. Temos a abordagem da física. A terceira abordagem, que não vou entrar em detalhes, mas que vocês podem brincar, foi literalmente vocês mesmos, é um jogo em que temos humanos que tentam identificar a estrutura certa, assim como os humanos fazem muito bem em outros tipos de problemas de reconhecimento de padrões.

Então você pode experimentar este videogame em que são dadas estruturas para tentar resolver e dizer, oh, devo fazer isso helicoidal? Devo girar essa corrente lateral? Então dê uma chance. Basta Google FoldIT e você pode descobrir se pode ser o melhor jogador e vencer o hardware.

Tudo bem. Até agora, falamos sobre como resolver as estruturas de proteínas individuais. Vimos que há algum sucesso neste campo. Melhorou muito em alguns aspectos. Entre CASP1 e CASP5, acho que houve grandes melhorias. Entre CASP5 e CASP10, talvez os problemas tenham ficado difíceis. Talvez não tenha havido melhorias. Vamos deixar isso para outros decidirem.

O que eu gostaria de ver no final desta palestra e no início da próxima são os problemas de proteínas interagindo entre si, e podemos prever essas interações? E isso, então, nos levará a sistemas e problemas de rede ainda maiores.

Então, vamos dividir isso em três problemas de previsão separados. O primeiro deles é prever o efeito de uma mutação pontual na estabilidade de um complexo conhecido. Portanto, de certa forma, você pode pensar que esse é um problema fácil. Eu tenho duas proteínas. Eu conheço sua estrutura. Eu sei que eles se contraem. Quero prever se uma mutação estabiliza essa interação ou a faz desmoronar. Esse é o primeiro dos problemas.

Podemos tentar prever a estrutura de complexos específicos e, então, tentar generalizar isso e tentar prever cada proteína que interage com todas as outras proteínas. Veremos como nos saímos com tudo isso.

Então, vamos entrar em um desses documentos de competição, que são muito bons para avaliar as áreas. Este documento de competição analisou o que chamo de problema simples. Então você tem duas proteínas de estrutura conhecida. Os autores do artigo, que lançaram o desafio, sabiam a resposta para o efeito de cada mutação possível em um monte de posições ao longo dessas proteínas no - bem, uma aproximação da energia livre de ligação.

Então, eles desafiaram os concorrentes a tentar descobrir, nós damos a você a estrutura, dizemos a você todas as posições que mudamos e você nos diz se essas mutações tornaram o complexo mais estável ou tornou o complexo menos estável. Agora, especificamente, eles tinham duas estruturas de proteínas separadas.

Eles transformaram 53 posições em um. 45 posições em outro. Eles não mediram diretamente a energia livre de ligação para cada complexo possível, mas usaram um ensaio de alto rendimento. Não entraremos em detalhes, mas deve acompanhar, mais ou menos, com a energia livre. Portanto, as coisas que parecem ser diretores mais estáveis ​​aqui provavelmente são complexos de energia livre mais baixos.

OK, então como você tentaria resolver isso? Então, usando essas funções de energia potencial que já vimos, você pode tentar conectar a mutação à estrutura. E o que você teria que fazer então para avaliar a energia? Antes de avaliar a energia.

Portanto, tenho uma estrutura conhecida. Eu digo, posição 23 Estou mudando de fenilalanina para alanina. Vou dizer alanina para fenilalanina. Torne-o um pouco mais interessante. OK? Portanto, agora estou preso nesta grande cadeia lateral. Então, o que preciso fazer antes de avaliar a energia da estrutura?

PÚBLICO: Certifique-se de que não haja confrontos.

PROFESSOR: Certifique-se de que não haja confrontos, certo? Portanto, tenho que fazer um dos métodos que já descrevemos para otimizar a confirmação da cadeia lateral, e então posso decidir, com base na energia livre, se é uma melhoria ou piora as coisas.

OK, então vamos ver como eles se comportam. Então, aqui está um exemplo de solução. O remetente, a pessoa que tem o algoritmo para fazer uma previsão, decide sobre algum corte em sua função de energia, se eles pensam que isso está melhorando ou piorando as coisas. Então, eles decidem a cor. Cada um desses pontos representa uma mutação diferente.

No eixo y está a mudança real na ligação, a mudança observada na ligação. Portanto, as coisas acima de zero são vinculadas melhoradas. Abaixo de zero são piores ligações. E aqui estão as previsões na escala de envio. E aqui o apresentador disse que tudo em vermelho deveria ser pior e tudo verde deveria ser melhor. E você pode ver que há alguma tendência. Eles estão indo razoavelmente bem em prever todos esses caras vermelhos como sendo ruins, mas eles não estão indo tão bem nos neutros, claramente, e certamente não estão indo tão bem nos melhores.

Agora, este é um dos melhores apresentadores ou um dos piores? Você esperaria que este fosse um dos piores, mas na verdade este é um dos melhores enviados. Na verdade, não apenas o apresentador principal, mas o apresentador principal observando as mutações que estão bem na interface, onde você pensaria que eles fariam o melhor, certo?

Portanto, se houver alguma mutação na parte posterior da proteína, haverá menos informações estruturais sobre o que isso fará no complexo. Pode haver alguns resultados surpreendentes. Mas aqui, essas são mutações de aminoácidos bem na interface.

Então, aqui está um exemplo do melhor desempenho. Este é o gráfico que acabei de mostrar, focando apenas no [? resíduos?] da interface e de todos os sites. E aqui está um grupo médio. E você pode ver que os grupos médios estão realmente se saindo muito mal. Portanto, este aglomerado azul que está quase inteiramente abaixo de zero deveria ser neutro. E esses verdes deveriam ser melhorados e estão quase inteiramente abaixo de zero. Esta não é uma história encorajadora.

Então, como podemos avaliar objetivamente se eles estão realmente indo bem? Portanto, temos algum tipo de medida de linha de base. Qual é o tipo de algoritmo de linha de base que você poderia usar para prever se uma mutação está melhorando ou prejudicando essa interface? Então, todos os seus algoritmos vão usar algum tipo de função de energia. O que já vimos nas partes anteriores deste curso que poderíamos usar?

Bem, poderíamos usar as matrizes de substituição, certo? Temos a matriz de substituição BLOSUM que nos diz o quão surpresos devemos ficar ao vermos uma evolução, que o Aminoácido A se transforme em Aminoácido B. Então poderíamos usar, neste caso, a matriz BLOSUM. Isso nos dá uma pontuação para cada mutação. Ele varia de menos 4 a 11. E podemos classificar cada mutação com base na matriz BLOSUM para a substituição e dizer, OK, em algum valor neste intervalo as coisas deveriam estar melhorando ou piorando.

Portanto, aqui está uma área sob o gráfico de curva onde traçamos os falsos positivos e as taxas de verdadeiros positivos conforme eu altero meu limite para essa matriz BLOSUM. Calculo qual é a matriz de mutação BLOSUM e digo, OK, um valor 11 é ruim ou é bom? Um valor de 10 é ruim ou bom? É isso que esta curva representa. Conforme eu vario esse limite, quantos eu acerto e quantos eu acerto?

Se estou tomando as decisões aleatoriamente, estarei obtendo positivos verdadeiros e falsos positivos aproximadamente iguais. Eles se saem um pouco melhor no aleatório usando esta matriz. Agora, o melhor algoritmo de previsão que usa energias se sai ligeiramente melhor. Portanto, este é o melhor algoritmo de previsão. Este é o algoritmo de linha de base usando apenas a matriz BLOSUM. Você pode ver que a curva verde que prevê mutações benéficas é realmente difícil. Eles não se saem muito melhor do que aleatórios. E para as mutações deletérias, eles se saem um pouco melhor.

Então, poderíamos fazer esses gráficos para cada um dos algoritmos, mas um pouco mais fácil é apenas calcular a área sob a curva. Então, quanto da área? Se eu estivesse indo perfeitamente, obteria 100% de positivos verdadeiros e nenhum falso positivo, certo? Então minha linha iria para cima e para cima e a área sob a curva seria uma.

E se eu estiver péssimo, não terei nenhum positivo verdadeiro e todos os falsos positivos. Eu estaria flatlining e minha área seria zero. Portanto, a área sob a curva, que é normalizada entre zero e um, me dará uma ideia de como esses algoritmos estão se saindo.

Portanto, este gráfico - concentre-se primeiro nos pontos pretos - mostra em cada um desses algoritmos qual é a área sob a curva para mutações benéficas e deletérias. Benéfico no eixo x, mutações deletérias no eixo y. A matriz BLOSUM está aqui.

Portanto, bons algoritmos devem estar acima disso e à direita. Eles deveriam ter uma área melhor sob a curva. E você pode ver que o algoritmo perfeito estaria lá em cima. Nenhum dos pontos pretos está nem remotamente próximo. O G21, sobre o qual falaremos um pouco em um minuto, é um pouco melhor do que a matriz BLOSUM, mas não muito.

Agora, vou ignorar o segundo turno com muitos detalhes, porque este é um caso em que as pessoas não estavam indo tão bem no primeiro turno, então eles saíram e deram a eles algumas das informações sobre as mutações em todas as posições. E isso realmente muda a natureza do problema, porque então você tem uma quantidade enorme de informações sobre quais posições são importantes e quanto essas mutações estão gerando. Portanto, vamos ignorar a segunda rodada, que acho que é uma maneira excessivamente generosa de comparar esses algoritmos.

OK, então o que os autores deste artigo observaram? Eles observaram que os melhores algoritmos estavam se saindo ligeiramente melhor do que a escolha aleatória. Então, três vezes melhor. E que parecia haver um problema particular ao observar as mutações que afetam as posições polares.

Uma das coisas que eu acho particularmente interessante e bastante relevante quando pensamos sobre essas coisas em um contexto termodinâmico é que os algoritmos que se saíram melhor - nenhum deles poderia ser considerado realmente bom - mas os algoritmos que fizeram melhor não focar apenas na mudança energética entre formar o complexo nativo aqui e formar este complexo mutante indicado pela estrela. Mas eles também se concentraram no efeito da mutação na estabilidade da proteína mutada.

Portanto, há um equilíbrio não apenas no movimento entre as proteínas livres e o complexo, mas também entre o movimento entre as proteínas livres que são dobradas e as proteínas livres que são desdobradas. E algumas dessas mutações estão afetando a energia do estado dobrado e, portanto, estão levando as coisas para a esquerda, para o desdobrado. E se você não incluir isso, você realmente terá problemas.

E eu coloquei um link aqui para algumas notas de aula de um curso diferente que eu ensino, onde você pode consultar alguns detalhes e abordagens mais sofisticadas que realmente levam em consideração muitos dos estados desdobrados.

Portanto, a melhor abordagem - o melhor de um lote ruim - considere os efeitos das mutações na estabilidade. Eles também modelam empacotamento, eletrostacks e solvatação. Mas os algoritmos reais que eles usaram eram uma mistura de abordagens. Portanto, não parecia haver um padrão comum no que eles estavam fazendo, e pensei em guiá-lo por um desses para ver o que realmente estavam fazendo.

Então, a melhor foi essa abordagem de aprendizado de máquina, G21. Então foi assim que eles resolveram o problema. Em primeiro lugar, eles vasculharam a literatura e encontraram 930 casos em que podiam associar uma mutação a uma mudança na energia. Isso não tinha nada a ver com as proteínas em consideração. Eles eram estruturas completamente diferentes. Mas foram casos em que eles realmente tinham informações energéticas para cada mutação.

Em seguida, tentamos prever qual será a mudança estrutural na proteína, usando o algoritmo de outra pessoa, FoldX. E agora, eles descrevem cada mutante, não apenas com uma única energia - focamos, por exemplo, no PyRosetta, que você usará no processo - mas eles realmente tinham 85 recursos diferentes de um monte de programas diferentes.

Então, eles estão tendo uma visão bastante agnóstica. Eles estão dizendo: não sabemos qual dessas funções de energia é a melhor, então vamos deixar o aprendizado de máquina decidir. Então, cada mutação que é colocada para eles como um problema, eles têm 85 parâmetros diferentes para saber se estão melhorando as coisas ou não.

E então, eles tiveram seu banco de dados de 930 mutações. Para cada um deles, eles tinham 85 parâmetros. Esses são dados de tendência de rótulos. Eles sabem se as coisas estão melhorando ou piorando. Na verdade, eles nem contam com um único método de aprendizado de máquina. Na verdade, eles usaram cinco abordagens diferentes.

Discutiremos as redes bayesianas posteriormente neste curso. Não vamos cobrir a maioria desses outros, mas eles usaram várias abordagens computacionais diferentes para tentar decidir como ir desses 85 parâmetros para uma previsão de se as estruturas melhoraram ou não.

Isso mostra a complexidade desse problema aparentemente simples, certo? Aqui está um caso em que tenho duas proteínas de estrutura conhecida. Estou fazendo mutações pontuais muito específicas e, mesmo assim, me saio apenas um pouco melhor do que aleatoriamente. E até mesmo oferecendo a ele todas as melhores técnicas de aprendizado de máquina. Portanto, há claramente muito na estrutura da proteína que ainda não parametrizamos nessas funções de energia.

Então, talvez alguns desses outros problemas não sejam tão difíceis quanto pensamos. Talvez, em vez de tentar ser muito precisos em termos de mudança energética para uma única mutação em uma interface, seria melhor tentar prever parâmetros bastante rudimentares dos quais duas proteínas interagem uma com a outra. Então é isso que veremos na próxima parte do curso. Vamos ver se podemos usar dados estruturais para prever quais duas proteínas irão interagir.

Então aqui temos um problema, que é um problema de encaixe. Eu tenho duas proteínas. Digamos que eles tenham uma estrutura conhecida, mas nunca os vi interagir uns com os outros. Então, como eles vêm juntos? Quais faces das proteínas estão interagindo entre si? Isso é chamado de problema de encaixe.

E se eu quisesse tentar descobrir sistematicamente se a proteína A e a proteína B interagem uma com a outra, eu teria que fazer uma pesquisa sobre todas as confirmações possíveis, certo? Então, eu poderia usar as funções de energia para tentar prever qual delas tem a energia mais baixa. Mas, na verdade, seria uma maneira computacionalmente muito ineficiente de fazer as coisas.

Então, podemos imaginar que queremos resolver esse problema. Para cada parceiro potencial, podemos avaliar todas as posições e orientações relativas. Então, quando eles se juntam, não podemos apenas confiar nisso, mas, como vimos várias vezes, teremos que fazer mudanças de confirmação local para ver como eles se encaixam em cada encaixe possível. E então, uma vez que tenhamos feito isso, podemos dizer, OK, qual destes tem a menor energia de interação?

Isso, obviamente, vai ser muito computacionalmente intensivo para ser feito em grande escala. Pode funcionar muito bem se você tiver um determinado par ou proteínas que precise estudar. Mas em uma grande venda, se quiséssemos prever todas as interações possíveis, não conseguiríamos ir muito longe. Portanto, o que as pessoas normalmente fazem é usar outros tipos de informação para reduzir o espaço de pesquisa. E o que veremos na próxima aula, então, são diferentes maneiras de abordar esse problema.

Agora, uma pergunta que devemos fazer é: que papel a homologia estrutural vai desempenhar? Devo esperar que quaisquer duas proteínas que interajam uma com a outra - digamos que essa proteína A e eu conheçamos seus interatores. Conheci A por interagir com B. Certo? Conheço essa interface.

E agora eu tenho proteína C, e não tenho certeza se ela interage ou não. Devo esperar que a interface de C, que toca A, corresponda à interface de B? Devem ser homólogos? E se não forem precisamente homólogos, então existem propriedades que podemos esperar que sejam semelhantes entre si?

Portanto, podemos adotar abordagens diferentes. E certamente há casos em que você tem proteínas que interagem com um alvo comum que não tem nenhuma similaridade estrutural geral entre si, mas sim uma similaridade estrutural local. Portanto, aqui está um exemplo de subtilisn, que é mostrado em cinza claro, e partes dele que interagem com o destino são mostradas em vermelho.

Então, aqui estão duas proteínas que são relativamente homólogas estruturalmente - elas interagem na mesma região. Isso não é muito surpreendente. Mas aqui está um inibidor de subtilisn que não tem nenhuma semelhança estrutural global com essas duas proteínas e, ainda assim, suas interações com o subtilisn são bastante semelhantes.

Portanto, podemos esperar que, mesmo que C e B não se pareçam globalmente, eles podem ter essa semelhança local.

OK, na verdade, acho que gostaríamos de voltar atrás em seus exames. Então, talvez eu pare por aqui. Retornaremos os exames na classe e, então, continuaremos neste ponto na próxima aula.


As técnicas de aprendizado profundo têm impactado significativamente a previsão da estrutura da proteína e o design da proteína

O uso recente de aprendizado profundo melhorou drasticamente a precisão da modelagem de estruturas de proteínas não homólogas.

O problema de predição da estrutura da proteína foi amplamente resolvido no nível da dobra por meio do uso de redes neurais de ponta a ponta.

As informações armazenadas em redes neurais para a previsão da estrutura da proteína podem ser usadas para projetar novas proteínas.

Mais trabalho é necessário para estender as técnicas de aprendizado profundo para modelar a estrutura complexa de proteínas e projetar proteínas funcionais.

A previsão e o projeto da estrutura da proteína podem ser considerados como dois processos inversos governados pelo mesmo princípio de dobramento. Embora o progresso tenha permanecido estagnado nas últimas duas décadas, a recente aplicação de redes neurais profundas para previsão de restrição espacial e treinamento de modelo ponta a ponta melhorou significativamente a precisão da previsão da estrutura da proteína, resolvendo amplamente o problema no nível de dobra para proteínas de domínio. O campo do design de proteínas também testemunhou uma melhoria dramática, onde exemplos perceptíveis mostraram que as informações armazenadas em modelos de rede neural podem ser usadas para avançar no design de proteínas funcionais. Assim, a incorporação de técnicas de aprendizagem profunda em diferentes etapas de dobramento de proteínas e abordagens de design representa uma direção futura estimulante e deve continuar a ter um impacto transformador em ambos os campos.


Ferramentas de aprendizado de máquina usadas em biologia

Cell Profiler: Há alguns anos, o software para análise biológica de imagens mede apenas um único parâmetro de um grupo de imagens. Como, em 2005, uma bióloga computacional, Anne Carpenter do MIT e Harvard lançou um software chamado CellProfiler para a medição quantitativa de características individuais, como número de células fluorescentes em campo de microscopia. Mas, atualmente, o CellProfiler pode produzir milhares de recursos implementando técnicas de aprendizado profundo.

DeepVariant: A aplicação de aprendizado profundo é amplamente usada em ferramentas para mineração de dados do genoma. Na verdade, a ciência da vida e o Google desenvolveram uma ferramenta baseada no aprendizado profundo, chamada DeepVariant, que prevê um tipo comum de variação genética com mais precisão em comparação com as ferramentas convencionais.

Atomwise: Outro campo é a descoberta de medicamentos em que o aprendizado profundo contribui significativamente. Uma empresa de biotecnologia sediada em San Francisco chamada Atomwise desenvolveu um algoritmo que ajuda a converter moléculas em pixels 3D. Essa representação ajuda a contabilizar a estrutura 3D de proteínas e pequenas moléculas com precisão atômica. Então, usando esses recursos, o algoritmo pode prever pequenas moléculas que possivelmente interagem com determinada proteína [12].

Existem diferentes tipos de métodos de aprendizagem profunda, como rede neural profunda (DNN), rede neural recorrente (RNN), rede neural de convolução (CNN), autoencoder profundo (DA), máquina de Boltzman profunda (DBM), rede de crença profunda (DBN) e rede residual profunda (DRN) etc. No campo da biologia, alguns métodos como DNN, RNN, CNN, DA e DBM são os métodos mais comumente usados ​​[13]. A tradução de dados biológicos para realizar a validação de biomarcadores que revelam o estado da doença é uma tarefa fundamental na biomedicina. DNN desempenha um papel significativo na identificação de potenciais biomarcadores de dados de genoma e proteoma. O aprendizado profundo também desempenha um papel importante na descoberta de medicamentos [14].

O CNN foi usado recentemente para desenvolver a ferramenta computacional DeepCpG para prever os estados de metilação do DNA em células individuais. Na metilação do DNA, os grupos metil associados à molécula de DNA alteram as funções da molécula de DNA causando quaisquer mudanças na sequência. DeepCpG também é usado para a previsão de motivos conhecidos que são responsáveis ​​pela variabilidade de metilação. DeepCpG previu resultados mais precisos em comparação com outros métodos ao avaliar cinco tipos diferentes de dados de metilação. A metilação do DNA é um marcador epigenético mais amplamente estudado [15].

TensorFlow é uma estrutura de aprendizado profundo desenvolvida por pesquisadores do Google. O TensorFlow é um software desenvolvido recentemente que acelera o projeto e o treinamento de DNN. É implementado em várias melhorias como visualização gráfica e complicação de tempo. A principal melhoria do TensorFlow é que ele está disponível com ferramentas de suporte chamadas TensorBoard, usadas para visualização do progresso do treinamento do modelo. Ele pode fornecer a visualização de um modelo complexo [16].

Concluindo, a IA e o aprendizado de máquina estão mudando a maneira como os biólogos realizam pesquisas, interpretam e aplicam para resolver problemas. À medida que a ciência se torna cada vez mais interdisciplinar, é inevitável que a biologia continue a tomar emprestado do aprendizado de máquina, ou melhor ainda, o aprendizado de máquina vai liderar o caminho.

Precisa contratar um consultor de aprendizado de máquina para um projeto? Consulte especialistas autônomos da Kolabtree. É grátis postar seu projeto e obter orçamentos!

Reconhecimento: O autor gostaria de agradecer ao Sr. Arvind Yadav por ajudar nesta postagem do blog.

Referências e leituras adicionais:

  1. http://www.bbc.com/news/technology-43127533
  2. https://www.wired.com/story/why-artificial-intelligence-researchers-should-be-more-paranoid/
  3. https://www.theverge.com/2018/2/20/17032228/ai-artificial-intelligence-threat-report-malicious-uses
  4. http://www.thehindu.com/opinion/lead/the-politics-of-ai/article22809400.ece?homepage=true
  5. https://www.economist.com/news/science-and-technology/21713828-silicon-valley-has-squidgy-worlds-biology-and-disease-its-sights-will
  6. Raina, C. K. (2016). Uma revisão sobre técnicas de aprendizado de máquina. Revista Internacional de Tendências Recentes e Inovadoras em Computação e Comunicação, 4(3), 395-399.
  7. Jordan, M. I., & amp Mitchell, T. M. (2015). Aprendizado de máquina: tendências, perspectivas e perspectivas. Ciência, 349(6245), 255-260.
  8. Praveena, M., & amp Jaiganesh, V. (2017). Uma revisão da literatura sobre algoritmos de aprendizado de máquina supervisionado e processo de boosting. International Journal of Computer Applications, 169(8), 32-35.
  9. Forsberg, F. e Alvarez Gonzalez, P. (2018). Aprendizado de máquina não supervisionado: uma investigação de algoritmos de clustering em um pequeno conjunto de dados.
  10. Gosavi, A. (2009). Aprendizagem por reforço: uma pesquisa tutorial e avanços recentes. INFORMS Journal on Computing, 21(2), 178-192.
  11. Angermueller, C., Pärnamaa, T., Parts, L., & amp Stegle, O. (2016). Aprendizado profundo para biologia computacional. Biologia de sistemas moleculares, 12(7), 878.
  12. Webb, S. (2018). Aprendizado profundo para biologia. Natureza. 2018 554 (7693): 555-557.
  13. Mahmud, M., Kaiser, M. S., Hussain, A., & amp Vassanelli, S. (2018). Aplicações de aprendizagem profunda e aprendizagem por reforço a dados biológicos. Transações IEEE em redes neurais e sistemas de aprendizagem, 29(6), 2063-2079.
  14. Mamoshina, P., Vieira, A., Putin, E., & amp Zhavoronkov, A. (2016). Aplicações de aprendizagem profunda em biomedicina. Farmacêutica molecular, 13(5), 1445-1454.
  15. Angermueller, C., Lee, H. J., Reik, W., & amp Stegle, O. (2017). DeepCpG: previsão precisa dos estados de metilação do DNA de uma única célula usando aprendizado profundo. Biologia do genoma, 18(1), 67.
  16. Rampasek, L., & amp Goldenberg, A. (2016). Tensorflow: a porta da biologia para o aprendizado profundo ?. Sistemas celulares, 2(1), 12-14.
  17. https://ai.googleblog.com/2018/05/deep-learning-for-electronic-health.html
  18. Rajkomar et al., (2018) & # 8220 Aprendizado profundo escalonável e preciso com registros eletrônicos de saúde& # 8220, npj Digital Medicine, 1(1)

A Kolabtree ajuda empresas em todo o mundo a contratar especialistas sob demanda. Nossos freelancers ajudaram empresas a publicar artigos de pesquisa, desenvolver produtos, analisar dados e muito mais. Leva apenas um minuto para nos dizer o que você precisa fazer e obter orçamentos de especialistas gratuitamente.