Grandes atualizações e melhorias no DNA Matching do MyHeritage

Comentários2

Hoje temos melhorias e atualizações nas Correspondências de DNA para todos os usuários. Todos aqueles que já fizeram um teste de DNA do MyHeritage, ou que já carregaram seus dados de DNA, irão receber Correspondências de DNA mais precisas, mais matches (cerca de 10x mais), menos falsos positivos, mais estimativas de relacionamento e indicativos de confiabilidade pequena nas Correspondências de DNA para ajudá-los a maximizar os esforços de pesquisa. Também adicionamos o tão desejado Navegador de Cromossomos, que será explicado abaixo.
Estas atualizações são resultado de meses de trabalho da nossa equipe de cientistas. Foi necessário bastante tempo e esforço pois queríamos aperfeiçoar a ciência por trás do nosso produto a fim de presentar os nossos usuários com resultados otimizados.

O que é o DNA Matching?
O MyHeritage DNA tem um banco de dados de DNA de mais de um milhão de pessoas. 1.075 milhões para sermos mais precisos. currently has more than one million people in the DNA database. 1.075 million to be precise. O DNA Matching compara os kits de DNA no banco de dados do MyHeritage entre si, para encontrar parentes, ou seja, pessoas que compartilham segmentos de DNA com outras pessoas, para explicar como os indivíduos são relacionados entre si.  A presença de segmentos de DNA compartilhados entre duas pessoas pode indicar um relacionamento sanguíneo – ou seja, os segmentos compartilhados podem ser um sinal de que as duas pessoas correspondentes têm um antepassado em comum. Se houver muitos segmentos e eles forem longos, é quase certo que temos aqui um relacionamento de sangue. Por outro lado, se os segmentos compartilhados são poucos e pequenos, pode ser uma simples coincidência, sem que haja nenhuma espécie de relacionamento. Quando houver um match sem que haja parentesco, então se fala de um falso positivo.

Se você já fez um teste de DNA do MyHeritage e já recebeu os resultados, ou se já carregou os dados de DNA no site do MyHeritage, você terá certamente recebido uma lista de Correspondências de DNA. As correspondências são atualizadas diariamente e os usuários são notificados sobre suas melhores matches em um email semanal.

Com “melhores” nós queremos dizer as correspondências que têm a maior quantidade de DNA compartilhado – o que significa que o grau de relacionamento é mais próximo. A lista das Correspondências de DNA mostra os indivíduos que compartilham segmentos de DNA com você, a quantidade e a percentagem de DNA que vocês compartilham, o número de segmentos de DNA que vocês têm em comum, bem como o tamanho do maior segmento compartilhado. O MyHeritage também dá uma estimativa do grau de relacionamento através da análise do número e tamanho dos segmentos de DNA compartilhados e da comparação em um pool de referência com centenas de milhares de outras matches com relacionamentos conhecidos, de acordo com as árvores genealógicas que foram confirmados através do DNA. A página de análise das Correspondências de DNA oferece pistas que você pode seguir para traçar a sua linhagem até um antepassado em comum.

A partir de hoje, os usuários que receberam Correspondências de DNA anteriormente, verão matches modificadas e melhoradas seguindo estas atualizações. Isto significa que muitas correspondências novas irão aparecer. Algumas correspondências que já apareciam antes – que eram falsos positivos – irão desaparecer. Muitas correspondências terão seus parâmetros alterados (por exemplo, a quantidade de DNA compartilhada) para valores mais precisos. Os usuários que ainda não receberam correspondências irão receber matches de qualidade maior, desde o primeiro dia.

Como funciona o DNA Matching?

Representação esquemática do canal que produz as correspondências de DNA.

Vamos começar com uma visão geral de como funciona o DNA Matching. Então, passaremos para as melhorias que fizemos em várias fases diferentes do processo.

O processo começa quando você faz o teste de DNA e envia sua amostra para o laboratório. Nós então lemos seu DNA e produzimos um arquivo de dados com informações. Nós não lemos o seu DNA todo – já que isso significaria 3 bilhões de pontos diferentes. A leitura completa é um método bastante caro chamado de sequenciamento genético, reservado atualmente para questões de pesquisa médica específicas. Em vez disso, nós nos concentramos em ler aproximadamente 700.000 localizações no seu DNA que são conhecidas por variar bastante entre os indivíduos, chamados de polimorfismos nucleotídeos únicos (SNPs na sigla em inglês, pronuncia-se “Snips”). Este método é chamado genotipagem e produz um arquivo de dados em que são listados cada SNP lido por nós, sua posição no seu DNA e os dois genotipos lá encontrados (isto é, o A, T, G ou C que você herdou do seu pai, ou sua mãe). Se você carregou os dados de DNA resultantes de um teste que você fez em um outro lugar, nós recebemos um arquivo de dados com estas mesmas informações.

Depois disso, utilizamos a imputação para inferir os SNPs que não lemos. Para você entender melhor, pense na imputação do DNA como se fosse a leitura de uma frase, onde algumas letras estão faltando – é bem possível que você possa inferir as letras que estão faltando através do contexto. Nem todos os provedores de testes de DNA lêem os mesmos SNPs. Para encontrar Correspondências de DNA para os usuários que usaram provedores diferentes é importante inferir as SNPs que não foram lidas, a fim de se comparar os resultados. Algumas pessoas questionam o rigor da imputação. No entanto, descobrimos que este método é bastante preciso e, em algumas situações, seu uso é inevitável.

Depois da imputação vem o escalonamento. Em cada par de cromossomos, cada pessoa recebe um cromossomo da mãe e outro do pai. A tecnologia de genotipagem que lê a sua amostra genética determina que genótipos você herdou dos seus pais em cada SNP, mas não nos diz que grupos de variantes foram co-herdados do mesmo pai, ou da mesma mãe. O escalonamento nos ajuda a separar estas informações. Ele agrupa todas as variações herdadas do pai em um lote e as variações da mãe em um outro lote.

O próximo passo é fazer a correspondência em si e comparar  entre si todos os kits de DNA do banco de dados que não foram descartados para correspondência por seus donos. Isto é feito de forma bastante escalável num sistema chamado de Hadoop, que permite executar o processo massivo de distribuição de forma bastante eficiente. O Matching identifica os segmentos compartilhados entre cada par de kits, a partir do qual pode-se deduzir o relacionamento entre dois indivíduos (se houver algum). Segmentos compartilhados adjacentes são então “costurados” se forem considerados contíguos.

Finalmente, utilizamos algoritmos estatísticos avançados, chamados de classificadores, para analizar as Correspondências de DNA e rejeitar falsos positivos, para determinar o grau de confiabilidade das correspondências que não foram rejeitadas e para sugerir o tipo de relacionamento para cada correspondência. É assim que criamos nossa lista de Correspondências de DNA.

Como melhoramos o DNA Matching?
Melhoramos a precisão da nossa imputação de forma significativa através do aumento mais de dez vezes maior do número de genomas de referência. Da mesma maneira que ler 10 vezes mais livros aumentaria a chance de uma pessoa inferir mais letras faltando de frases, ao aumentar o painel de referência do genoma aumentou também de forma significativa a nossa habilidade de imputar os SNPs que não lemos, de forma mais precisa.

Consertamos o escalonamento. O processo anterior das Correspondências de DNA tinha alguns erros ocasionais na fase de escalonamento. Estes erros geravam alguns falsos positivos, onde nós previamente estimamos de forma elevada alguns segmentos compartilhados por parentes muito distantes. Isto levou a alguns problemas quando nós estimamos de menos segmentos compartilhados por parentes próximos. Agora usamos um algoritmo melhor que arrumou estes erros de escalonamento.

Na parte de matching nós recalibramos o limite para erros de genotipagem. A tecnologia que lê sua amostra de DNA comete erros ocasionais. Estes são chamados de erros de genotipagem. Se um erro de genotipagem ocorrer no meio do que deveria ser um segmento compartilhado entre correspondências de DNA, aquele segmento não mais parecerá ser idêntico e assim pode haver uma divisão de dois segmentos correspondentes que são menores. Nós recalibramos o limite de quando ignoramos pequenas discrepâncias entre segmentos de outra forma correspondentes; agora tratamos os segmentos compartilhados como se fossem idênticos apesar de pequenas partes que não correspondam. Este método compensa para erros de genotipagem inevitáveis. Se ignorarmos seções discrepantes que forem muito grandes iremos presumir acidentalmente que um segmento é compartilhado, quando de fato não é. Se não ignorarmos seções discrepantes que são resultado de erros de genotipagem, nós talvez acabemos por não encontrar correspondências de DNA reais. A nova calibragem é mais rígida que a anterior o que significa que teremos menos falsos positivos.

Correspondências mais distantes são permitidas. Depois de aumentar a exatidão das correspondências e de calibrar os parâmetros acima, ficamos confortáveis em permitir que correspondências mais distantes sejam apresentadas a vocês. Antigamente o mínimo de DNA compartilhado para que fosse considerada uma correspondência era de 12 cM e agora o mínimo é 8 cM. Isto juntamente com nossas outras melhorias produziram um aumento 10 vezes maior do número de correspondências de DNA que nossos usuários recebem.
Estas correspondências irão aparecer automaticamente para todos os usuários que fizeram um teste de DNA do MyHeritage ou que carregaram seus resultados brutos de DNA.

Melhor alinhamento dos segmentos adjacentes. Para além de compensar os erros de genotipagem dentro dos segmentos, é necessário compensar os demais erros de escalonamento entre os segmentos. Por exemplo, excluindo o cromossomo ligado ao sexo, espera-se que uma mãe e sua filha compartilhem 22 segmentos num teste de DNA autossomal – um cromossomo inteiro do par de cromossomos da filha é herdado da mãe. Assim, cada um dos 22 cromossomos autossomais deveriam aparecer como longos segmentos compartilhados únicos. No entanto, devido a um erro no escalonamento, às vezes pequenas seções dos cromossomos herdados da mãe são trocados de forma computacional com seções paralelas herdadas do pai. Este é um resultado de erros técnicos, não processos biológicos. Nós superamos estes erros ao aumentar o tamanho das lacunas que alinhavamos, enquanto calibramos tudo com precisão para evitar novos erros.

O último passo na Correspondência de DNA é filtrar falsos positivos e estimar o relacionamento específico entre dois indivíduos com segmentos compartilhados de DNA. Já que muitos de nós somos descendentes dos mesmos antepassados muito antigos, frequentemente nós compartilhamos segmentos minúsculos de DNA com pessoas que não consideramos família. Nós buscamos um método de filtrar estas correspondências que só frustram genealogistas. Para isto, nós medimos falsos positivos internamente quando checamos trios – estes são grupos de filho, mãe e pai todos testados através de kits de DNA do MyHeritage e recebemos resultados que validaram que os relacionamentos entre pai, mãe e filho eram corretos. Qualquer correspondência que o filho tenha com uma outra pessoa, que não bata nem com o pai, nem com a mãe, é considerada uma falsa positiva, chamada de correspondência só com o filho. Nós medimos a porcentagem de correspondências só com o filho entre todas as correspondências para os filhos em todos os trios conhecidos do MyHeritage e este valor é chamado de porcentagem de suspeitas de falsos positivos, indicados por correspondências só com o filho. Conseguimos baixar este valor para 16-20%, o que é um bom resultado. Pelo que sabemos este resultado é equivalente ou melhor que todos os outros serviços de DNA.

Nossos algoritmos classificadores melhorados conseguiram baixar nossa taxa de falsos positivos para o menor nível.
Mas não ficamos por aqui. Queremos criar um método que permita focar nas pesquisas genealógicas da forma mais efetiva possível. Para isso usamos algoritmos estatísticos para categorizar as correspondências da seguinte forma: grau de correspondência alto, médio e baixo.

As correspondências que têm um grau de confiança baixo ou médio são marcados desta forma no site. Estas Correspondências de DNA devem ser tratadas com ceticismo pois há o risco de serem falsos positivos. Estas correspondências têm poucos segmentos de DNA compartilhados. Estas indicações ajudam para que você use o seu tempo de forma mais eficiente. Analise primeiramente as correspondências de nível alto e, caso você esteja a fim de um desafio, siga para os tesouros escondidos nas correspondências de nível baixo ou médio. Observe que estas correspondências de nível inferior não estão incluídas nas notificações semanais que você recebe.

Os novos classificadores são tão bons que a porcentagem de correspondências só com filhos que não forem marcadas como de nível baixo ou médio, você pode ter certeza quase absoluta de que você não está perdendo seu tempo com um falso positivo. Se a correspondência que você está analisando for estimada como a de um primo de segundo grau, ou mais próximo, vocês compartilham tanto DNA que você pode ter certeza não se tratar de um falso positivo.

A precisão na estimativa de relacionamento de uma correspondência de DNA é medida usando-se dois parâmetros chamados de recall (chamada) e precision (precisão). A exatidão perfeita significa tanto poder dizer para um usuário o relacionamento correto entre uma correspondência de DNA todas as vezes (recall), quanto poder dizer somente um relacionamento em vez de propor uma série de ideias (precision). Por exemplo, se dois indivíduos são de fato irmãos, um algoritmo perfeito sugeriria que eles são irmãos e só sugeriria que são irmãos, nada mais. O algoritmo não daria a sugestão de que eles são talvez irmãos, talvez primos (embora, biologicamente, devido à natureza da herança genética, o algoritmo perfeito não exista). O MyHeritage agora pode sugerir o relacionamento correto para as Correspondências de DNA em 93% das vezes para parentes mais distantes, como primos de 4° ou 5º grau, o que é algo extremamente difícil de se fazer. No caso de parentes mais próximos, a precisão é ainda maior, perto dos 100%. Ao mesmo tempo, nós só sugerimos 2 ou 3 possibilidades de parentesco para Correspondências de DNA como primos de 1º grau, ou mais próximos. Para primos distantes, nós mostramos uma média de até 5 graus de parentesco possíveis (como primos de segundo grau, ou primos de terceiro grau) – uma gama relativamente pequena, se pensarmos bem. As ferramentas de precision e recall dos parentescos de MyHeritage estão agora melhores do que nunca.

Nós validamos a alta qualidade do nosso algoritmo de Correspondências de DNA através da comparação de novas listas de Correspondências de DNA com listas produzidas por outras empresas – o resultado foi bastante similar.

Algumas populações particularmente endogâmicas, como os judeus Ashkenazi, representam um desafio especial para as Correspondências de DNA. Como estas populações tiveram muitos casamentos entre eles, indivíduos relacionadas não geneaologicamente têm mais DNA compartilhado do que seria esperado para indivíduos não aparentados de outra forma. O MyHeritage treinou um algoritmo classificatório adicional, utilizando aprendizado eletrônico, para classificar parentescos entre Ashkenazi, com uma resolução muito maior do que qualquer outro serviço de DNA. Nós utilizamos este classificador para fornecer uma rejeição maior a falsos positivos para judeus ashkenazis, de forma que o número de falsos positivos ficasse no mesmo nível do restantes da população.

O que estas melhorias vão trazer para os usuários do MyHeritage DNA?
Agora vocês terão:

  • Correspondências de DNA mais precisas
  • Cerca de 10 vezes mais Correspondências de DNA
  • Estimativas de grau de parentesco mais específicas e mais precisas
  • Indicações do grau de confiabilidade das Correspondências de DNA para que você possa direcionar os esforços da sua pesquisa

Navegador de Cromossomos
Juntamente com as melhorias na precisão, também adicionamos ferramentas novas para usar com suas Correspondências de DNA. A primeira, pedida por vocês, é o Navegador de Cromossomos para Correspondências de DNA compartilhadas. Ele foi adicionado à página de análise de Correspondências de DNA.

Um navegador de cromossomos é uma representação esquemática dos cromossomos de uma pessoa, onde os segmentos de DNA podem ser visualizados. Muitos de nossos usuários pediram pelo navegador de cromossomos e sabemos que esta é uma ferramenta importante para os genealogistas. Assim, nós prometemos que iríamos desenvolvê-lo e agora estamos cumprindo aquela promessa. O novo navegador de cromossomos do MyHeritage é um lançamento que será amadurecido com o passar do tempo, designado para a visualização dos segmentos de DNA compartilhados, nas Correspondências de DNA. Esta ferramenta é gratuita, que pode ser usada por todos os usuários do MyHeritage que tenham feito um teste de DNA do MyHeritage ou que carregaram seus dados de DNA no site. O navegador mostra os segmentos compartilhados com o seu match em roxo. Quando você passa com o mouse sobre qualquer segmento compartilhado, você vê a posição genômica do segmento compartilhado, o tamanho do segmento e o número dos SNPs. Segmentos em cinza mostram que não há compartilhamento com a correspondência de DNA e seções riscadas não foram analisadas devido à falta de DNPs naquelas regiões.

Observe que, embora nós jamais permitiremos que outro usuário faça o download dos seus dados brutos de DNA, outros usuários que compartilhem segmentos com você e que podem ver seus detalhes (posição e tamanho) poderão analisar informações dos segmentos compartilhados com o DNA deles para deduzir os genótipos que você tem no seu DNA, num segmento específico. Assim, os usuários que preferirem evitar que outras pessoas – que compartilham seu DNA – vejam estes detalhes dos segmentos compartilhados, podem parar de ver esta ferramenta através de configurações de privacidade – uma configuração nova que incluímos especialmente para este fim.

O navegador de cromossomos também inclui a possibilidade de se fazer um download dos dados referentes aos segmentos compartilhados. Para acessar esta opção, use o menu “Opções Avançadas” no canto superior direito do Navegador de Cromossomos. Usuários mais experientes podem usar esta opção para fazer o download das informações sobre os segmentos compartilhados e depois usá-las para visualizá-las em outras ferramentas ou navegadores de cromossomos. Muitas funções virão se somar a estas no futuro, como, por exemplo, a habilidade de visualização simultânea de 3 ou mais segmentos compartilhados das Correspondências de DNA no navegador de cromossomos. A visualização de segmentos compartilhados de múltiplas Correspondências de DNA ao mesmo tempo ajuda a retroceder e identificar um antepassado em comum, que passou adiante o segmento a todas as correspondências de DNA que o compartilham, para se descobrir como as pessoas são relacionadas entre si. Também estamos planejando adicionar em breve a possibilidade de se imprimir os segmentos compartilhados, mostrados no navegador de cromossomos.

Com alguma prática, todos os nossos usuários poderão usar o Navegador de Cromossomos, para começar a identificar segmentos específicos em seu DNA, bem como o antepassado que passou este pedaço de seu DNA, para que tenham maior clareza em relação às suas Correspondências de DNA e um melhor entendimento sobre o parentesco que conecta estas matches de DNA. Esperamos que isso irá ajudar a comunidade a quebrar barreiras na sua pesquisa, a identificar melhor seus antepassados e entender o parentesco com os familiares descobertos através das correspondências de DNA.

Mudanças no visual e navegação facilitada
Fizemos pequenas revisões da interface do usuário, para que haja uma maior consistência com as outras telas ligadas ao DNA. A maioria das mudanças são bastante pequenas e quase nem visíveis, como os botões na lista das Correspondências de DNA que agora são roxos e não mais laranja. Contudo, uma melhoria mais significativa é que agora a lista das correspondências de DNA revela os detalhes do kit de DNA no alto da página, assim, conforme você vai baixando o cursos para checar a lista, você não deixa de ver de quem são as correspondências que você está analisando no momento.

Trabalho em andamento
Nosso trabalho está sempre em andamento. As correspondências de DNA estão sempre em curso e estaremos trabalhando sempre para melhorá-las ainda mais no futuro. O tamanho crescente do nosso banco de dados de DNA, bem como a associação entre os kits de DNA e as árvores genealógicas, nos dão mais oportunidades para otimizar os algoritmos de matching de DNA e pretendemos fazê-lo regularmente para melhorar ainda mais a precisão.

Em relação aos dados de DNA carregados de outros provedores, ainda não oferecemos suporte aos kits de DNA que sejam baseados em chips Illumina GSA. Isto significa kits do 23andMe (na versão recente V5) e Living DNA. Nós já temos em nosso laboratório suporte para dados de DNA de chips GSA e está funcionando bem. Mas ainda não está perfeito, então decidimos exclui-lo desta release até que esteja tudo aperfeiçoado. Acreditamos que isto será adicionado nos próximos meses. A composição genética está separada das correspondências de DNA e as melhorias descritas aqui não afetam a composição genética. Estamos planejando fazer um update nos relatórios de etnicidade nos próximos meses para melhorar a precisão lá também. Fique ligado!

Próximos passos
Peça um kit de DNA do MyHeritage para aproveitar estas novas funções e updates, caso você ainda não o tenha feito. Se você já fez o teste, pense em pedir kits para seus familiares, especialmente os mais velhos, para encontrar mais familiares e fazer a triangulação até o antepassado em comum. Por exemplo, ao testar a mãe ou pai de um primo, quaisquer correspondências que você tiver com parentes novos que você já tem e que também sejam compartilhados com seu primo, poderá ser triangulado para um antepassado em comum, através de um caminho junto a um antepassado mais recente da sua árvore genealógica e que seja compartilhado com aquele primo.

O novo navegador de cromossomos será útil para entender estas correspondências. Assim, caso houver um ramo em especial na sua árvore genealógica que lhe interessa mais, compre kits de DNA adicionais para parentes mais velhos daquela parte da família.

Se você já fez um teste de DNA em algum outro lugar, carregue os dados de DNA no MyHeritage. MyHeritage é a única empresa, entre as grandes do mercado, a oferecer o upload dos dados de DNA. Aproveite esta vantagem enquanto ela ainda é grátis e receba gratuitamente correspondências de DNA e composição genética gratuita para dados já existentes. Com a base de dados considerável do MyHeritage, de mais de um milhão de pessoas, isso será moleza. Você receberá seus resultados gratuitamente em uns dois dias, ou menos.

Se você já administra mais de um kit de DNA no MyHeritage por favor, aproveite para checar se cada kit administrado por você está atribuído a pessoa certa. Isto pode ser arrumado, caso necessário, através da função “Gerenciar kits de DNA”, acessível através da aba DNA. Utilize a opção “Associar kit a outra pessoa” caso você tenha um kit que não tenha sito atribuído corretamente. Isto é necessário caso todos os kits carregados para vários parentes ainda estejam associados com o seu próprio perfil na árvore genealógica.

Finalmente, os kits de DNA no MyHeritage são muito mais úteis quando associados a uma árvore genealógica. Isto lhe dá uma perspectiva melhor em relação às suas correspondências de DNA, através da presença de Smart Matches, sobrenomes ancestrais em comum ou locais de nascimento de antepassados em comum, entre você e sua correspondência de DNA. Se você tem um kit de DNA do MyHeritage mas nenhuma árvore, ou uma árvore muito pequena, é uma boa hora de começar a criar a sua! Suas correspondências de DNA só têm a ganhar e com isso, você sai ganhando também.

Aproveite!
Equipe MyHeritage

Deixar um comentário

O e-mail será mantido em sigilo e não será mostrado