Nền tảng điện toán đám mây lưu trữ dữ liệu gene cho nghiên cứu khoa học toàn cầu

11:04, 20/01/2022

Một nhóm nghiên cứu quốc tế do các nhà khoa học máy tính Đại học Johns Hopkins dẫn đầu đã tạo ra nền tảng cơ sở điện toán đám mây, cho phép các nhà nghiên cứu gene học dễ dàng truy cập vào một trong những cơ sở dữ liệu bộ gene lớn nhất thế giới.

Được gọi là AnVIL (Genomic Data Science Analysis, Visualization, Informatics Lab-space), nền tảng dữ liệu mới cung cấp cho các nhà khoa học hàng nghìn công cụ phân tích, hồ sơ bệnh nhân và hơn 300.000 bộ gene. 

Chủ nhiệm dự án Michael Schatz, GS Khoa học Máy tính và Sinh học Cao cấp của Bloomberg tại Johns Hopkins cho biết, AnVIL mang đến những cơ hội mới cho khoa học gene, kết nối các nhà nghiên cứu và những cơ sở dữ liệu theo phương thức mới, tạo cơ sở cho những khám phá có ý nghĩa quan trọng.

Thông thường, phân tích bộ gene bắt đầu bằng việc các nhà khoa học tải một lượng lớn dữ liệu từ những kho tập trung đến trung tâm dữ liệu của cơ sở. Quá trình này tiêu tốn nhiều thời gian, hiệu quả thấp và tốn kém, gây khó khăn trong hợp tác với những nhà nghiên cứu ở nhưng cơ sở khác.

AnVIL mang tính chuyển đổi mới đối với tất cả các tổ chức mọi quy mô, đặc biệt là những tổ chức nhỏ, không có nguồn lực xây dựng trung tâm dữ liệu. AnVIL cho phép mọi người có quyền truy cập bình đẳng để nghiên cứu và khám phá.

Những yếu tố nguy cơ di truyền các bệnh như ung thư hoặc tim mạch thường đòi hỏi các nhà khoa học phải phân tích hàng nghìn bộ gene bệnh nhân để phát hiện những mối liên quan. Dữ liệu thô một bộ gene người khoảng 40GB, tải xuống hàng nghìn bộ gene sẽ mất vài ngày đến vài tuần. Một bộ gene cá nhân đơn yêu cầu khoảng 10 DVD giá trị dữ liệu, tải hàng nghìn bộ gene tương đương với di chuyển "hàng chục nghìn DVD dữ liệu.

Hơn thế nữa, những nghiên cứu yêu cầu tích hợp dữ liệu, thu thập tại nhiều cơ sở, có nghĩa là mỗi cơ sở phải tải xuống bản sao dữ liệu đồng thời phải đảm bảo duy trì bảo mật dữ liệu bệnh nhân. Thách thức này càng ngày càng lớn trong tương lai, khi các nhà khoa học tiến hành các nghiên cứu, đòi hỏi phải phân tích hàng trăm nghìn đến hàng triệu bộ gen cùng lúc.

Kết nối với AnVIL từ xa loại bỏ nhu cầu tải xuống dữ liệu, tiết kiệm thời gian và chi phí. Thay vì tải xuống, các nhà nghiên cứu trên thế giới dễ dàng tiếp cận cơ sở dữ liệu trên đám mây điện toán.

Công nghệ cũng cho phép chia sẻ bộ dữ liệu dễ dàng, dữ liệu có thể được kết nối theo những phương thức mới, hình thành các liên kết mới và đơn giản hóa nhiều các vấn đề trong tính toán như dữ liệu được mã hóa mạnh và yếu tố riêng tư của bệnh nhân.

AnVIL cung cấp cho các nhà khoa học một số công cụ phân tích như Galaxy, được phát triển một phần tại Johns Hopkins và những công cụ phổ biến khác như R/Bioconductor, sổ ghi chép Jupyter, WDL, Gen3 và Dockstore hỗ trợ phân tích tương tác và những tính toán quy mô lớn. Những công cụ này cho phép các nhà khoa học tiến hành những nghiên cứu lớn, không cần thiết phải xây dựng môi trường máy tính cho công việc.

Các nhà khoa học trên thế giới hiện đang sử dụng nền tảng AnVIL nghiên cứu nhiều loại bệnh di truyền phức tạp như rối loạn phổ tự kỷ, tim mạch và động kinh. Nhóm nghiên cứu của GS Schatz thuộc Tổ hợp Telomere-to-Telomere, đã sử dụng AnVIL phân tích lại hàng nghìn bộ gene người với hệ gene tham chiếu mới, phát hiện được hơn 1 triệu biến thể.

Thu Hằng (T/h)