Lộ dữ liệu gần 235 triệu người dùng Instagram, TikTok, YouTube
Một cơ sở dữ liệu khổng lồ với dữ liệu cóp nhặt từ gần 235 triệu người dùng Instagram, TikTok và YouTube đã bị lộ mà không có bất kỳ mật khẩu bảo vệ nào.
Theo Hindustantime Tech, cơ sở dữ liệu này chứa thông tin người dùng như tên, thông tin liên hệ, hình ảnh và số liệu thống kê về những người theo dõi (followers, subscribers) trên Instagram, TikTok và YouTube.
Số dữ liệu trên được cóp nhặt bằng một kỹ thuật được gọi là "web scraping", có khả năng thu thập dữ liệu từ các trang web một cách tự động. Kỹ thuật "web scraping" này mặc dù không phải là bất hợp pháp nhưng các công ty mạng xã hội vẫn luôn ngăn chặn hành vi này để bảo vệ dữ liệu người dùng.
Lượng dữ liệu khổng lồ này có thể bị lạm dụng vào các mục đích phát tán thư rác, lừa đảo
Tuy nhiên, nhiều công ty phân tích tạo ra cơ sở dữ liệu khổng lồ về thông tin người dùng bằng cách sử dụng trình duyệt web trên các trang web phổ biến và bán thông tin chi tiết thu thập được từ các cơ sở dữ liệu này cho các công ty khác.
Trưởng nhóm nghiên cứu về bảo mật từ Comparitech đã tìm thấy ba bản sao giống hệt nhau của cơ sở dữ liệu vào hôm 1.8. Nhóm này cho biết, số dữ liệu này thuộc về một công ty có tên Deep Social hiện không còn tồn tại. Khi Comparitech liên hệ với Deep Social, yêu cầu kết nối đã được chuyển tiếp đến một công ty có trụ sở đặt tại Hồng Kông có tên là Social Data. Công ty này sau đó đã đóng quyền truy cập vào cơ sở dữ liệu trên, đồng thời phủ nhận có bất kỳ liên quan nào tới Deep Social.
Người phát ngôn của Social Data tuyên bố tất cả dữ liệu trên đều được công khai và không bị thu thập dưới bất kỳ hình thức đáng ngờ nào. Tuy nhiên, các công ty chủ quản YouTube, Instagram và TikTok vốn đều cấm các hoạt động "web scraping" từ lâu.
Dữ liệu cóp nhặt bị lộ gồm có bốn bộ dữ liệu chính với thông tin chi tiết về hàng triệu người dùng từ TikTok, Instagram và YouTube. Các thông tin này bao gồm tên hồ sơ, họ tên, ảnh hồ sơ, tuổi, giới tính và số liệu thống kê về những người theo dõi (follower, subscriber). Dữ liệu loại này thường được sử dụng cho các chiến dịch thư rác và lừa đảo.
Minh Anh