Liên thông dữ liệu là gì?

10:22, 26/06/2025

Hiện nay trong các chương trình, dự án về chuyển đổi số, ứng dụng công nghệ thông tin và trên các phương tiện truyền thông người ta hay dùng cụm từ “liên thông dữ liệu”. Vậy “liên thông dữ liệu” là gì? Hiểu thế nào cho đúng để làm cho đúng? Bài viết này trình bày khái niệm "liên thông dữ liệu", các mô hình phổ biến, lợi ích mang lại, phương pháp triển khai và những lưu ý đặc biệt trong trường hợp dữ liệu nhạy cảm.

I. CÁC ĐỊNH NGHĨA

• Định nghĩa 1: "Liên thông dữ liệu" là quá trình cho phép các hệ thống thông tin, cơ sở dữ liệu của các cơ quan, tổ chức khác nhau kết nối và chia sẻ dữ liệu với nhau một cách tự động, an toàn, đồng bộ và hiệu quả.

• Định nghĩa 2: "Liên thông dữ liệu" là khả năng chia sẻ và trao đổi thông tin, dữ liệu một cách liền mạch, tự động và hiệu quả giữa các hệ thống, ứng dụng hoặc tổ chức khác nhau.

Ảnh minh họa.(Ảnh được tạo bởi AI ChatGPT).

Hiểu một cách đơn giản, liên thông dữ liệu giúp cho các hệ thống riêng lẻ có thể "nói chuyện" và "hiểu" được dữ liệu của nhau mà không cần phải thực hiện các thao tác như nhập liệu lại, xuất nhập file thủ công, v.v.

II. CÁC Ý NGHĨA CHÍNH CỦA LIÊN THÔNG DỮ LIỆU

Tăng cường hiệu quả hoạt động: Khi dữ liệu được chia sẻ dễ dàng, các quy trình nghiệp vụ có thể diễn ra nhanh chóng và chính xác hơn, giảm thiểu sai sót và thời gian chờ đợi.

Cải thiện khả năng ra quyết định: Việc có được cái nhìn toàn diện và cập nhật về dữ liệu từ nhiều nguồn khác nhau giúp cho việc phân tích và đưa ra quyết định sáng suốt hơn.

Nâng cao trải nghiệm người dùng/khách hàng: Dữ liệu liên thông cho phép cung cấp các dịch vụ cá nhân hóa, tiện lợi và nhất quán hơn cho người dùng hoặc khách hàng.

Tiết kiệm chi phí: Giảm thiểu các thao tác thủ công, trùng lặp dữ liệu và các lỗi phát sinh do thiếu thông tin.

Thúc đẩy đổi mới sáng tạo: Việc dễ dàng tiếp cận và kết hợp dữ liệu từ nhiều nguồn có thể tạo ra những ý tưởng và giải pháp mới.Đảm bảo tính nhất quán và đồng bộ của dữ liệu: Các hệ thống khác nhau sẽ có cùng một nguồn thông tin chính xác và cập nhật.

III. CÁC VÍ DỤ VỀ LIÊN THÔNG DỮ LIỆU

+ Trong lĩnh vực y tế: Liên thông dữ liệu hồ sơ bệnh án giữa các bệnh viện giúp bác sĩ có thể dễ dàng xem lịch sử khám chữa bệnh của bệnh nhân, từ đó đưa ra chẩn đoán và phác đồ điều trị phù hợp hơn.

+ Trong lĩnh vực ngân hàng: Liên thông dữ liệu khách hàng giữa các chi nhánh và các kênh giao dịch trực tuyến giúp ngân hàng cung cấp dịch vụ nhất quán và tiện lợi cho khách hàng.

+ Trong chính phủ điện tử: Liên thông dữ liệu giữa các cơ quan nhà nước giúp người dân và doanh nghiệp thực hiện các thủ tục hành chính một cách nhanh chóng và dễ dàng hơn.

+ Trong thương mại điện tử: Liên thông dữ liệu giữa hệ thống quản lý kho, hệ thống bán hàng và hệ thống vận chuyển giúp doanh nghiệp quản lý đơn hàng và giao hàng hiệu quả hơn.Tóm lại, liên thông dữ liệu là một yếu tố then chốt trong quá trình chuyển đổi số, giúp các tổ chức hoạt động hiệu quả hơn, đưa ra quyết định tốt hơn và mang lại nhiều lợi ích cho người dùng và khách hàng.

IV. CÁC MÔ HÌNH LIÊN THÔNG DỮ LIỆU:

Có hai mô hình liên thông dữ liệu chính sau:

1) Truy xuất theo yêu cầu (real-time/on-demand)
+ Hệ thống A cần dữ liệu từ hệ thống B → gửi yêu cầu → hệ thống B trả dữ liệu về ngay tại thời điểm đó.

+ Không lưu trữ bản sao.

+ Dữ liệu luôn mới nhất, nhưng phụ thuộc vào độ sẵn sàng của hệ thống cung cấp.Ví dụ: Cổng dịch vụ công quốc gia truy vấn CSDL quốc gia về dân cư để kiểm tra thông tin cá nhân khi người dân nộp hồ sơ.

2) Đồng bộ dữ liệu định kỳ (batch hoặc schedule sync)
+ Dữ liệu từ hệ thống B được gửi sang hệ thống A theo lịch (hàng ngày, hàng giờ, hoặc thời gian thực).

+ Có lưu trữ bản sao dữ liệu, thường là bản ghi cần thiết (không phải toàn bộ).

+ Tăng tốc độ xử lý và giảm phụ thuộc, nhưng cần cơ chế cập nhật/đồng bộ để tránh lỗi.

Ví dụ: Hệ thống của Sở Y tế đồng bộ danh sách cơ sở khám chữa bệnh với hệ thống của Bộ Y tế định kỳ hàng ngày.

Có 1 câu hỏi là: Việc liên thông dữ liệu giữa 2 hoặc nhiều hệ thống có bắt buộc mỗi hệ thống phải lưu trữ bản sao dữ liệu của các hệ thống khác không?

Câu trả lời là: Không bắt buộc phải lưu trữ bản sao dữ liệu của các hệ thống khác. Việc có lưu hay không phụ thuộc vào mục đích sử dụng, yêu cầu nghiệp vụ, kiến trúc kỹ thuật, và quy định về bảo mật, chia sẻ dữ liệu.

V. ĐỂ LIÊN THÔNG DỮ LIỆU CẦN PHẢI LÀM GÌ?

Để liên thông được dữ liệu giữa các hệ thống, ứng dụng hoặc tổ chức, cần thực hiện một loạt các bước và đáp ứng nhiều yêu cầu khác nhau. Dưới đây là tổng quan các công việc chính cần thực hiện:

1) Xác định mục tiêu và phạm vi liên thông:
• Mục tiêu: Xác định rõ mục đích của việc liên thông dữ liệu là gì? (Ví dụ: cải thiện hiệu quả hoạt động, nâng cao trải nghiệm khách hàng, hỗ trợ ra quyết định, v.v.)

• Phạm vi: Xác định những hệ thống, ứng dụng hoặc tổ chức nào sẽ tham gia vào quá trình liên thông và những loại dữ liệu nào sẽ được chia sẻ.

2) Phân tích và chuẩn hóa dữ liệu:
• Phân tích dữ liệu nguồn: Tìm hiểu cấu trúc, định dạng, chất lượng và ý nghĩa của dữ liệu ở các hệ thống khác nhau.

• Chuẩn hóa dữ liệu: Đảm bảo dữ liệu giữa các hệ thống có định dạng, cấu trúc và ý nghĩa thống nhất. Điều này có thể bao gồm: 

+ Chuẩn hóa kiểu dữ liệu: Ví dụ: ngày tháng, số điện thoại, đơn vị đo lường.

+ Chuẩn hóa cấu trúc dữ liệu: Ví dụ: tên trường, cách tổ chức bảng biểu.

+ Chuẩn hóa giá trị dữ liệu: Ví dụ: sử dụng bộ mã thống nhất cho các danh mục (ví dụ: giới tính, tỉnh/thành phố).

• Làm sạch dữ liệu: Loại bỏ dữ liệu trùng lặp, sai sót, không đầy đủ hoặc không nhất quán.

3) Lựa chọn mô hình liên thông dữ liệu  

Việc lựa chọn mô hình liên thông dữ liệu phụ thuộc vào trường hợp sử dụng, hay nói đúng hơn là yêu cầu sử dụng dữ liệu. Bảng sau tóm tắt một số nguyên tắc lựa chọn mô hình liên thông dữ liệu:

4) Lựa chọn phương pháp và công nghệ liên thông:

Có nhiều phương pháp và công nghệ khác nhau để liên thông dữ liệu, tùy thuộc vào yêu cầu cụ thể, mô hình liên thông, quy mô và tính chất của các hệ thống liên quan:

a) Trường hợp không cần lưu trữ bản sao (hoặc chỉ lưu trữ tạm thời):
• Sử dụng API (Application Programming Interface): Khi một hệ thống cần dữ liệu từ hệ thống khác, nó sẽ gửi yêu cầu thông qua API. Hệ thống cung cấp dữ liệu sẽ xử lý yêu cầu và trả về dữ liệu cần thiết. Dữ liệu thường không được lưu trữ cố định ở hệ thống yêu cầu (trừ khi có nhu cầu cache dữ liệu tạm thời để tăng hiệu suất).

• Sử dụng ESB (Enterprise Service Bus): ESB hoạt động như một trung gian, định tuyến và trao đổi dữ liệu giữa các hệ thống. Dữ liệu có thể được truyền qua ESB mà không cần lưu trữ bản sao cố định ở các hệ thống tham gia.

• Message Queuing: Dữ liệu được gửi dưới dạng tin nhắn đến hàng đợi và hệ thống nhận sẽ xử lý tin nhắn đó. Dữ liệu không nhất thiết phải được lưu trữ bản sao ở cả hai hệ thống đồng thời.

• Virtualization/Federation: Các công nghệ này cho phép truy cập và kết hợp dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu vật lý. Dữ liệu vẫn nằm nguyên ở các hệ thống nguồn.

b) Trường hợp cần lưu trữ bản sao:
• Sử dụng ETL (Extract, Transform, Load) và Kho dữ liệu (Data Warehouse): Trong trường hợp này, dữ liệu từ nhiều hệ thống nguồn được trích xuất, biến đổi và tải vào một kho dữ liệu tập trung. Kho dữ liệu này chứa bản sao của dữ liệu từ các hệ thống nguồn, được tối ưu hóa cho việc phân tích và báo cáo.

• Sao chép cơ sở dữ liệu (Database Replication): Để đảm bảo tính sẵn sàng cao hoặc cải thiện hiệu suất đọc, có thể tạo bản sao của toàn bộ hoặc một phần cơ sở dữ liệu sang một hệ thống khác.

• Cache dữ liệu: Để tăng tốc độ truy cập, một số hệ thống có thể lưu trữ tạm thời (cache) các bản sao dữ liệu thường xuyên được sử dụng từ các hệ thống khác. Tuy nhiên, đây thường là bản sao tạm thời và cần được đồng bộ hóa.

5) Xây dựng và triển khai hệ thống liên thông:
• Thiết kế kiến trúc liên thông: Xác định cách các hệ thống sẽ kết nối và trao đổi dữ liệu với nhau.

• Phát triển các thành phần liên thông: Xây dựng các API, quy trình ETL, ESB hoặc các giải pháp kết nối khác.• Kiểm thử và đảm bảo chất lượng: Kiểm tra kỹ lưỡng hệ thống liên thông để đảm bảo dữ liệu được truyền tải chính xác, an toàn và hiệu quả.

• Triển khai hệ thống: Đưa hệ thống liên thông vào hoạt động.

6) Đảm bảo an ninh và quản trị dữ liệu:

• Xác thực và ủy quyền: Đảm bảo chỉ những đối tượng được phép mới có thể truy cập và trao đổi dữ liệu.

• Mã hóa dữ liệu: Bảo vệ dữ liệu trong quá trình truyền tải và lưu trữ.

• Kiểm soát truy cập: Thiết lập các quy tắc và chính sách để quản lý việc truy cập dữ liệu.

• Theo dõi và giám sát: Theo dõi hoạt động của hệ thống liên thông để phát hiện và xử lý các vấn đề phát sinh.

• Quản lý vòng đời dữ liệu: Xác định chính sách lưu trữ, sao lưu và phục hồi dữ liệu.

7) Duy trì và nâng cấp hệ thống:

• Theo dõi hiệu suất: Đảm bảo hệ thống liên thông hoạt động ổn định và đáp ứng được nhu cầu.

• Cập nhật và nâng cấp: Cập nhật các phần mềm, công nghệ và quy trình liên thông khi cần thiết.

• Xử lý sự cố: Có quy trình rõ ràng để xử lý các vấn đề và lỗi xảy ra trong quá trình liên thông.

8) Các yếu tố quan trọng khác:

• Sự hợp tác giữa các bên liên quan: Cần có sự phối hợp chặt chẽ giữa các bộ phận, phòng ban hoặc tổ chức tham gia vào quá trình liên thông.

• Khung pháp lý và tiêu chuẩn: Tuân thủ các quy định pháp luật và các tiêu chuẩn liên quan đến chia sẻ và bảo vệ dữ liệu.

• Nguồn lực: Đảm bảo có đủ nguồn lực về nhân lực, tài chính và công nghệ để triển khai và duy trì hệ thống liên thông.

VI. LIÊN THÔNG DỮ LIỆU NHẠY CẢM

Trong trường hợp dữ liệu thuộc loại nhạy cảm, hạn chế truy cập như hồ sơ bệnh án, việc lưu trữ tập trung toàn bộ dữ liệu để phục vụ liên thông là một phương án tiềm ẩn nhiều rủi ro về bảo mật và tuân thủ quy định. Thay vào đó, các giải pháp liên thông dữ liệu cho loại dữ liệu này thường tập trung vào việc chia sẻ có kiểm soát và giới hạn thông tin cần thiết thông qua các cơ chế an toàn.

Dưới đây là các yếu tố cần cân nhắc và các phương pháp thường được áp dụng thay vì lưu trữ tập trung toàn bộ dữ liệu nhạy cảm:

1) Rủi ro khi lưu trữ tập trung dữ liệu nhạy cảm:

• Tăng nguy cơ bị tấn công và rò rỉ dữ liệu: Một kho lưu trữ tập trung chứa lượng lớn dữ liệu nhạy cảm trở thành mục tiêu hấp dẫn cho các cuộc tấn công mạng.

• Khó khăn trong việc quản lý quyền truy cập: Việc kiểm soát và theo dõi quyền truy cập vào một lượng lớn dữ liệu tập trung trở nên phức tạp hơn.

• Vấn đề tuân thủ pháp lý: Các quy định về bảo vệ dữ liệu cá nhân, bí mật kinh doanh, sở hữu trí tuệ (ví dụ: hồ sơ bệnh án) thường rất nghiêm ngặt và có thể không cho phép lưu trữ tập trung toàn bộ dữ liệu mà không có các biện pháp bảo vệ phù hợp.

2) Các phương pháp liên thông dữ liệu nhạy cảm thường được áp dụng:

• Liên thông dựa trên API có kiểm soát nghiêm ngặt:

+ Các hệ thống bệnh viện vẫn lưu trữ hồ sơ bệnh án riêng lẻ.

+ Khi một hệ thống khác (ví dụ: hệ thống quản lý sức khỏe quốc gia, bệnh viện tuyến trên) cần thông tin, họ sẽ gửi yêu cầu thông qua API.

+ API này được thiết kế với các cơ chế xác thực mạnh mẽ, ủy quyền chi tiết (chỉ cho phép truy cập vào những thông tin cần thiết cho mục đích cụ thể), và ghi nhật ký mọi truy cập.

+ Dữ liệu chỉ được trao đổi khi có yêu cầu hợp lệ và tuân thủ các chính sách bảo mật.• Sử dụng các nền tảng trao đổi dữ liệu an toàn:

+ Các nền tảng này cung cấp một môi trường an toàn để chia sẻ dữ liệu giữa các tổ chức được ủy quyền.

+ Dữ liệu có thể được mã hóa trong quá trình truyền tải và lưu trữ (nếu có lưu trữ tạm thời).

+ Các nền tảng này thường có các cơ chế kiểm soát truy cập và theo dõi hoạt động chặt chẽ.

• Mô hình liên thông phi tập trung (Decentralized Interoperability):

+ Mỗi hệ thống vẫn giữ quyền kiểm soát hoàn toàn đối với dữ liệu của mình.

+ Việc chia sẻ dữ liệu diễn ra trực tiếp giữa các hệ thống được ủy quyền dựa trên các tiêu chuẩn và giao thức thống nhất.

+ Công nghệ Blockchain hoặc các giải pháp tương tự có thể được sử dụng để đảm bảo tính toàn vẹn và không thể chối bỏ của các giao dịch dữ liệu.

• Sử dụng các dịch vụ trung gian an toàn: 

+ Một tổ chức trung gian đáng tin cậy có thể đóng vai trò là bên trung gian để quản lý việc trao đổi dữ liệu giữa các hệ thống.

+ Tổ chức này sẽ đảm bảo rằng chỉ những thông tin cần thiết được chia sẻ và tuân thủ các quy định bảo mật.

• Mã hóa và ẩn danh hóa dữ liệu: 

+ Trước khi chia sẻ, dữ liệu nhạy cảm có thể được mã hóa hoặc ẩn danh hóa để giảm thiểu rủi ro nếu có sự cố rò rỉ.

+ Chỉ những người có quyền truy cập và khóa giải mã mới có thể xem được dữ liệu gốc.Đối với dữ liệu nhạy cảm như hồ sơ bệnh án, việc ưu tiên là bảo mật và tuân thủ. Thay vì lưu trữ tập trung toàn bộ dữ liệu, các giải pháp liên thông thường tập trung vào việc chia sẻ dữ liệu có kiểm soát, giới hạn và an toàn thông qua các cơ chế như API bảo mật, nền tảng trao đổi dữ liệu an toàn, hoặc mô hình liên thông phi tập trung. Việc lựa chọn phương pháp cụ thể sẽ phụ thuộc vào yêu cầu nghiệp vụ, mức độ nhạy cảm của dữ liệu và các quy định pháp lý liên quan.

Tóm lại, liên thông dữ liệu là một quá trình phức tạp, đòi hỏi sự chuẩn bị kỹ lưỡng, lựa chọn phương pháp phù hợp, xây dựng hệ thống an toàn và hiệu quả, cũng như sự phối hợp chặt chẽ giữa các bên liên quan.

Ths. Lê Hồng Hà 

Phó Chủ tịch Hội Tin học Việt Nam