Cải tiến công nghệ phân tích dữ liệu Hệ thống Tăng tốc trên Chip
12:57, 14/03/2016
Hệ thống phân tích dữ liệu được cải tiến với giao diện mở giúp tăng tính bảo mậ trong quy trình phân tích dữ liệu với mã hóa bảo mật hai điểm đầu cuối.
Nhằm hỗ trợ các lập trình viên thiết kế những nền tảng phân tích Dữ liệu Lớn thế hệ kế tiếp, Oracle vừa ra mắt một giao diện lập trình ứng dụng API mở cùng bộ lập trình chuyên dụng cho hệ thống Tăng tốc Phân tích Dữ liệu (DAX – Data Analytics Accelerator) qua Chương trình Lập trình viên Phần mềm trên nền Silicon. Chương trình cũng đồng thời giúp các lập trình viên tìm hiểu nhiều hoàn cảnh sử dụng và mẫu code tiêu biểu, từ đó kiểm nghiệm và xác nhận khả năng của hệ thống DAX trong việc tăng tốc các phần mềm phân tích khi sử dụng công nghệ Phần mềm trên nền Slicon.
Cùng việc phát hành vi xử lý SPARC M7 với 32 lõi và 256 nhân, Oracle đã thành công tạo một số tính năng Phần mềm trên nền Silicon bằng việc tích hợp những chức năng phần mềm cấp độ cao vào thiết kế vi xử lý. Một trong những khả năng mới vượt trội của vi xử lý SPARC M7, cũng là một trong những cải tiến Phần mềm trên nền Silicon trong SPARC M7, là công nghệ DAX – giúp phần tích dữ liệu không thường gặp một cách hiệu quả.
Hệ thống tăng tốc phân tích dữ liệu trên SPARC M7
Hệ thống DAX tăng khả năng xử lý của các chức năng tùy chọn – như Quét, Xuất, Chọn và Dịch dữ liệu – với tốc độ rất nhanh. Hệ thống DAX của SPARC M7 giúp tăng tốc những quá trình phân tích bước đầu này tại một thiết bị riêng biệt với các lõi điện toán tiêu chuẩn.
Nâng cấp phần mềm cơ bản giúp DAX tương thích với Cơ sở dữ liệu Orace 12c, và mọi ứng dụng thế hệ trước. Từ đó, hệ thống tăng tốc phân tích dữ liệu được cải tiến trong toàn bộ ứng dụng của Orace, của mô hình cộng đồng cung cấp phần mềm độc lập ISV và của riêng khách hàng.
Quy trình quét và chọn lọc dữ liệu ở số lượng lớn sẽ không còn khó khăn bởi khả năng sử dụng đồng thời 32 lõi xử lý chuyên dụng trong bộ vi xử lý SPARC, giúp tốc độ hoạt động tuyến bộ nhớ lên tới 160 GB/s giữa bộ nhớ cache và bộ nhớ DRAM. Hệ thống tăng tốc này lần đầu tiên được tích hợp ngay trên chip giúp đạt tốc độ và hiệu suất cao nhất, cho phép các lập trình viên tận dụng các giao diện lập trình ứng dụng API trong hệ thống điều hành doanh nghiệp Oracle Solaris 11, và ứng dụng phù hợp trong nhiều hoàn cảnh sử dụng khác nhau.
Như một ví dụ tiêu biểu của việc tích hợp hệ thống Tăng tốc Phân tích Dữ liệu vào quá trình học máy và sử dụng Dữ liệu Lớn, các kỹ sư của Oracle đã chứng minh được rằng hệ thống DAX có thể cải thiện đáng kể tốc độ của các khuôn khổ xử lý dữ liệu Apache Spark, một trong những phương thức xử lý một khối lượng dữ liệu lớn phổ biến nhất hiện nay. Qua dự án này, các kỹ sư đã sử dụng công nghệ DAX cùng Apache Spark để lấy 1 tỷ dòng dữ liệu trong bộ nhớ và chắt lọc qua một khối 3D nhanh chóng đến mức việc phân tích dữ liệu tương tác nay cũng trở nên khả thi.
Thiết kế của SPARC M7 và DAX mang lại những lợi ích sau:
Bộ nhớ băng thông hàng đầu: Với bộ nhớ băng thông hàng đầu tốc độ 16BG/s, bộ vi xử lý SPARC M7 có đủ khả năng điều hành cả các hệ thống DAX và các lõi vi xử lý.
Giảm tải cho hệ thống DAX: Giải phóng các lõi vi xử lý để phục vụ các công đoạn xử lý khác.
Giải nén kết hợp với xử lý trong bộ nhớ hiệu quả: Tích hợp quá trình giải nén vào hệ thống DAX giờ sẽ nhanh hơn rất nhiều so với việc triển khai phần mềm. Thiết kế quá trình giải nén cùng với quá trình quét dữ liệu giúp tránh các công đoạn chuyển bộ nhớ không cần thiết. Kết quả từ hệ thống DAX sẽ được nhập vào bộ nhớ CPU cache giúp tăng tính hiệu quả của CPU.
So sánh trong phạm vi với DAX: Rất nhiều truy vấn phân tích dữ liệu thực tế đều được lập trình để xác định lượng dữ liệu chuyển giao giữa các ngày, hay phân loại giá sản phẩm cụ thể, v.v… Công nghệ DAX có thể so sánh trong phạm vi với tốc độ tương đương những so sánh riêng biệt. Các vi xử lý khác thường phải mất thêm một lượng thời gian tính toán cho mỗi lần so sánh.
Tránh tình trạng đầy bộ nhớ cache: Hệ thống DAX tự thực hiện các công đoạn tính toán mà không cần lưu trữ dữ liệu trung gian vào bộ nhớ cache, giúp giải phóng bộ nhớ cache của CPU vào các công đoạn xử lý khác.