Начинаем работать с биоинформатикой NGS

Если вы биолог, решивший включить биоинформатику следующего поколения (NGS) в свои исследования, вы можете чувствовать себя перегруженным, пытаясь обработать данные. Я почувствовал это, когда впервые проводил анализ экспрессии генов, но быстро понял, что биоинформатика NGS не только мощна, но и может быть забавной! Вот некоторые соображения, которые следует иметь в виду во время навигации по этим данным. (Если Вы заинтересованы в том, чтобы стать биоинформатором, то прочитайте эту статью).

Кодить или не кодить?

Программирование больше не является обязательным условием для применения биоинформатики NGS в ваших исследованиях, хотя именно оно является обязательным, если биоинформатика будет являться вашей профессией или составляет основу ваших исследований. Если нет, рассмотрите преимущества и недостатки кодирования.

Преимущества обучения программированию

Самостоятельное программирование вычислений даст вам больший контроль. Кроме того, программное обеспечение, которое требует от вас навыков извлечения данных, в основном, с открытым исходным кодом — другими словами, бесплатно, что делает ваши исследования дешевле. Но, возможно, вы никогда раньше не пользовались языками программирования, и они читаются для вас как тарабарщина.

К счастью, сайты, предоставляющие программные среды программирования, включая Python и R, которые чаще всего используются для биоинформатики, содержат ресурсы, с помощью которых вы можете начать учиться их использовать. Сайт на Python содержит пошаговые инструкции в виде письменных инструкций и аудио/видеоклипов, а на сайте R — руководства и список книг.

Если книги — это ваша тема, то эта книга отлично подходит для начала работы с Bioconductor, программным пакетом специально для высокопроизводительной геномики, который в основном распространяется как дополнительный модуль в R. Для получения дополнительных инструкций, MIT OpenCourseware, UCLA Coding Boot Camp, и Codecademy — это только несколько примеров мест, где вы можете пройти курсы программирования онлайн.

Графические пользовательские интерфейсы позволяют вам избежать программирования.

Если вы хотите пропустить аспект написания кода биоинформатики NGS, вы (или ваша компания), возможно, захотите инвестировать в программу с графическим пользовательским интерфейсом (GUI) — то есть в программу, не требующую языка программирования. Если Вы учитесь в академии, Ваш университет, скорее всего, уже имеет подписку на такие программы, и это не будет стоить Вам или Вашей лаборатории ни копейки; Вам просто нужно будет подать заявку на учетную запись для входа в систему.

Например, чтобы помочь мне проанализировать мои данные RNA-seq, мой университет предоставил мне Partek Flow и Partek Genomics Suite, а также программу от Qiagen под названием Ingenuity Pathway Analysis (IPA), которая дает последующий анализ биологических функций, влияющих на гены или транскрипты в ваших данных.

Если вы работаете в промышленности, AltAnalyze, Apache Taverna и UGENE являются бесплатными альтернативами пакета Partek. Вы также можете уговорить своего босса инвестировать в программное обеспечение Partek или Qiagen, или сделать это самостоятельно, если Вы являетесь владельцем компании. В конечном счете, в зависимости от финансов Вашей компании, от того, насколько Вы удовлетворены программным обеспечением с открытым исходным кодом и в какой степени Вы намерены использовать биоинформатику в будущем.

Узнать некоторые команды Linux
Заключительное замечание о коде: Я рекомендую, даже если Вы обнаружили, что Вам не нужен код для биоинформатики NGS, постараться выучить хотя бы несколько команд Linux, если только для настройки передачи файлов Вам понадобится начать работу. Даже программы с графическим интерфейсом иногда имеют несколько ранних шагов в командной строке. Например, скажем, что Вы делаете целый NGS проект на Partek Flow. Еще до того, как начнется биоинформатика NGS, Вам, скорее всего, понадобится перенести файлы исходных данных секвенирования с сервера, который выполнял секвенирование, на Ваш компьютер или (скорее всего) на облачный сервис для хранения и запуска процессов, которые занимают большое количество места. Передача файлов в командной строке Linux сведет к минимуму вероятность замораживания процесса в середине передачи, как это часто бывает с графическими интерфейсами (Google Drive, например, печально известен тем, что загрузка файлов замораживается после первых 2.0 ГБ).

Командная строка Linux легко доступна на Mac или компьютере под управлением операционной системы Linux, но с клиентским приложением, таким как PuTTY, также легко выполнять команды Linux на PC. Maker Pro предоставляет одну из многих страниц ресурсов для изучения команд Linux, которую мне удалось запомнить намного легче, чем другие языки программирования. Кроме того, небольшой опыт ввода команд подготовит Ваш мозг к изучению большего количества кода, если однажды Вы решите погрузиться глубже в удивительный мир вычислений.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.