Полногеномное секвенирование

Заметки о полногеномном (Whole genome sequencing — WGS) секвенировании с 30х покрытием.

  1. Основная проблема — не созданы надежные приемы и программы которые могут проанализировать разом все полиморфизмы и взаимодействие между всеми белками предсказав с 100% точностью эффект для клетки, органа, для всего организма. Может через десятилетия они будут созданы. Пока что это требует ручной работы в каждом случае — пример экспериментов будет в конце. Нехило меня выбесило что уже изначально кривое, неудобное, тормозное ПО генетическое принуждает сотни раз делать ctrl+c ctrl+v с названиями полиморфизмов в гугл, да ещё чертыхаться от того что одни и теже полиморфизмы называют по 5-10 разными названиями, обычное дело что у гена 10 разных названий, их все надо сначала искать в БД, а потом гуглить, 10*10 = 100 комбинаций в статьях могут быть. И конечно авторы статей каждый раз используют совершенно рандомные комбинации названия гена и названия полиморфизма, либо вообще не пишут удобных ключевых слов! Вывод — пока не будет нормальной работы с информацией, жестких правил по ключевым словам в статьях, нормального ПО, БД, интеграции все будет через пень колоду. Пока этого нет промежуточное решение — в момент падение цены полногеномного секвенирования до 50-100 долларов запустить проект по полному секвенированию всего населения и связь с медкартами. Это уже показало возможность получения интересных данных, когда шел отбор людей с неработающими генами (у всех есть такие уникальные особенности, по сути это замена экспериментов на мышах с удаленными генами) https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5600291/
  2. На тему спортивной генетики — ни один широкораспространенный полиморфизм или их комбинация не является преградой или индульгенцией результата. Анекдотично звучат вопросы стоит ли есть больше салата если у вас SOD2 с полиморфизмом. Тренировка лучший генетический тест сейчас.
  3. Отправка слюны, крови и проч за рубеж запрещена. Как это решить можете найти в интернете.
  4. Цена на 2017 30х была 1300 долларов, в обозримом будущем ожидается введение аппаратуры нового поколения и падение цены до 100 долларов.
  5. Для серьезных медицинских решений в США рекомендуется 300х покрытие NGS и/или верификация всех находок методом Сэнгера.
  6. Причина — вплоть до 50% случаев в российских лабораториях оказывается что уникальные находки секвенирования — баг аппаратуры или баг программного обеспечения. Мне так программа-анализатор нашла Болезнь Лея (смертельный сбой в белке митохондрии) и мышечную дистрофию Дюшенна (хотя есть случаи субклинической формы Дюшенна https://www.ncbi.nlm.nih.gov/pubmed/456392 ), в реальности неверная работа ПО, в BAM (файл с исходными данными) их нет. Предположим что все остальное реально есть для простоты раз есть в BAM файле.
  7. Обязательно параллельно в другой лаборатории сдавайте недорогой (30-50 долл) чип — для того чтобы проверить не перепутали ли пробирки и оценить качество работы. На 60 тысяч полиморфизмов было 60 ошибок. Вообще WGS дает сразу данные о 700 миллионах полиморфизмах и о всем что найдут в будущем.
  8. Помимо SNP (полиморфизм из 1 нуклеотида) полногеномное секвенирование дает данные о уникальных лично для вас особенностях, которых вы не найдете в чипе за 30 долларов:
  9. Frameshift — когда удалены или добавлены нуклеотиды не кратные 3, в следствие чего вся аминокислотная последовательность белка меняется (в одном белке вы можете иметь множество фреймшифтов одновременно)
  10. Splice disrupt — нарушен сплайсинг — процесс при котором из одной последовательности нуклеотидов должно производиться много (вплоть до >10) разных белков с разными или похожими функциями, если в точках отвечающих за него не те нуклеотиды происходит сбой.
  11. Делеции/инсерции — удалены куски ДНК — вплоть до десятков/сотен/тысяч нуклеотидов. Действительно большие делеции можно обнаружить при секвенировании сверхдлинными ридами за 3-5 тыс долларов.
  12. Nonsence — замена привела к образованию стоп-кодона преждевременно останавливающего считывание, и кусок гена, вплоть до 95% не переносится в белок.
  13. Nonstop / Misstart — потерян стоп-кодон либо нарушена точка начала считывания так или иначе.
  14. Термин консервативен у млекопитающих — значит что в этом месте ДНК ни у кого, или почти ни у кого из млекопитающих нет альтернативного нуклеотида/аминокислоты. Скорее всего замена тут вредна и мешает выживанию, так-же все замены рядом стоит рассматривать как подозрительные. При выставлении фильтров в важных белках на консервативность почти всегда редкие мутации оказывались только в 1 копии гена.
  15. Даже самые грозные мутации могут не иметь никаких последствий — по тому что могут быть багом секвенирования, по тому что оставшийся обрезок белка справляется с работой цельного белка, по тому что 1 рабочей копии гена может быть достаточно. Более того это может быть даже вашим преимуществом, как потеря миостатина из широкоизвестных, хотя тут есть побочные эффекты помимо гипертрофии мышц. Из моих ~50 мутаций с 1х стоп-кодоном (у всех людей они есть) большая часть генов вообще не изучена, но нашлось:
  16. WNK3 – отключение гена может облегчить последствия инсульта, снизить объём повреждения мозга, т.е. гипотетически стоп-кодон в этом гене даже идет мне на пользу https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5381450/   https://www.ncbi.nlm.nih.gov/pubmed/26069258
  17. UCN2  Как минимум UCN1 при его блокировке снижает тягу к алкоголю. https://www.ncbi.nlm.nih.gov/pubmed/29056154  Отключение UCN2 у мыши снижает агрессивность https://www.ncbi.nlm.nih.gov/pubmed/22640813
  18. 2х стоп-кодоны были только в 2 генах- это NPDC1 (Neural Proliferation, Differentiation And Control 1 — сдерживает деление нервных клеток и их перерождение в раковые, удаление гена не вызывало никаких фатальных последствий у мышей https://www.ncbi.nlm.nih.gov/pubmed/15563841 ) —   PKD1L2 — отсутствие не имеет опасных последствий (повышенная выработка может иметь — https://www.ncbi.nlm.nih.gov/pubmed/19578180). И не факт что стоп-кодон мой дает тот-же эффект что и полное удаление гена у мышей.
  19. Более сложные моменты — возьмем например работу сердца. У меня есть в 1 копии, но никогда в 2 копиях ряда генов саркомеров или просто генов белковый продукт которых есть в сердце замены консервативных участков, как это все трактовать? Невозможно в ручную анализировать список из сотен генов где практически все полиморфизмы уникальные.
  20. Например RXRA — рецептор X ретиноидов альфа может влиять на формирование сердца, но не факт что мой полиморфизм misstart равен этому knockout http://genesdev.cshlp.org/content/8/9/1007.full.pdf
  21. По мнению программы у меня нарушены консервативные акцепторы MYH6 — сердечного миозина, TPM1 (тропомиозина 1 альфа, в сердце есть). Так-же есть и нарушения в мышечных миозинах MYH1 MYH3, в TNNC2 (тропонин 2 тип 2 быстрый), TCAP (titin-cap) ACTA1 (актин альфа 1 мышечный), мышечной креатинкиназе и ещё массе белков, их сотни, я упомянул лишь те которые широко известны. Отчего к ним внимание? Программа видит что консервативные участки в большом количестве содержат замены, либо буквально в 1-2 нуклеотидах бывает очень опасная мутация и предлагает обратить внимание, проверить на наличие фенотипа кардиомиопатии / мышечных паталогий. Ученые, да и я сам догадался предлагают простой интегральный тест — экономичность при кручении велоэргометра. Чем больше реально паталогических белков в саркомерах тем ниже экономичность, в виду того что реально аномальные белки приводят к сбоям в сборке саркомеров (они неправильно ориентированы, не работают по факту) и существенной трате АТФ в пустую если даже сокращаются. Экономичность у меня высокая, все ок.
  22. TLN2 одновременная потеря TLN1 и TLN2 ведет к дилатационной кардиомиопатии и 100% смертности мышей к 6 месяцу. Потеря только одного гена талина ничего не значит, ибо полностью компенсируется вторым.  https://www.ncbi.nlm.nih.gov/pubmed/28698364
  23. В первом приближении — раз в моей семье нет кардиомиопатии то все ОК. А раз для меня физические нагрузки не вызывали паталогий на ЭКГ и ЭхоКГ, раз пульсометр на мне нормально работает под нагрузкой, нет аномальной вариабельности, нет скачков сердечных белков в крови после тренировок, низкие уровни КФК, миоглобина, мочевины и проч маркёров повреждения — значит и для меня все ОК. Во втором приближении — реально паталогические мутации не всегда могут проявляться, тем более в 1 копии гена, они могут быть скрытыми до поры до времени. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5679632/pdf/pone.0187948.pdf
  24. Аналогичная ситуация по свертываемости крови — есть одновременно как полиморфизмы редкие найденные при повышенной так и пониженной свертываемости, реально изучены эффекты их. Теперь загадка — как их одновременное присутствие влияет в итоге? Все просто — сдаем анализ свертываемости максимальный вот и ответ. А с практической точки зрения я точно знаю что прием растительного масла и/или рыбьего жира вызывает резкое падение свертываемости у меня до нежелательного уровня. А вот если есть жирную рыбу с растительным маслом и всегда заедать зеленым салатом и/или сливочным маслом нет такой проблемы.
  25. Как пример сложности ситуации в трактовке я опишу один пример. Есть белок NUBPL который собирает комплекс I дыхательной цепи. В нем есть редкая мутация 815-27T>C, встречающаяся в 1 копии в 0.3% случаев на 120 тысяч человек. Она вызывает сбой в образовании белка, но сбоя в одной копии мало для болезни. А вот если вы унаследуете любую другую паталогическую мутацию в NUBPL вместе с 815-27T>C, или обе копии будут с 815-27T>C то вы получите тяжелую митохондриальную болезнь, из-за того что NUBPL будет плохо собирать 1 комплекс, а ещё начнутся нарушения в формировании митохондрий. У дрожжей и растений отключение NUBPL (другое название INDH) так-же нарушает их рост (2 картинки ниже, сразу видно унылое маленькое растение без NUBPL), но 1 копия нарушенная не проблема. Это все нас возвращает к первому пункту конспекта — пока нет очень продвинутого программного обеспечения для анализа комбинаций миллионов полиморфизмов и их влияение на клетки, органы, весь организм — практического толку очень мало от секвенирования, рассвет генетики в будущем, тогда когда создадут ПО.  Руками анализировать 1 миллион уникальных полиморфизмов которые у меня нереально, да и тысячи консервативных тоже. Хотя процесс попыток распутать те или иные полиморфизмы был для меня интересен.
  26. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2772561/  https://www.researchgate.net/publication/51786057_Next-generation_sequencing_in_molecular_diagnosis_NUBPL_mutations_highlight_the_challenges_of_variant_detection_and_interpretation   https://www.ncbi.nlm.nih.gov/pubmed/23553477   http://www.plantcell.org/content/25/10/4014  https://www.ncbi.nlm.nih.gov/pubmed/?term=yeast+nubpl

 

Final image file