Dữ liệu khủng từ AI đòi hỏi hạ tầng công nghệ mới
Nhu cầu dữ liệu khổng lồ khi áp dụng trí tuệ nhân tạo (AI) lên tới hàng tỷ gigabyte đang đòi hỏi một hệ thống đám mây và cơ sở hạ tầng mới.
Trong nhiều năm, các dịch vụ đám mây và mạng riêng ảo chỉ phải xử lý một lượng dữ liệu tương đối hạn chế. Tuy nhiên, với sự thúc đẩy của AI và học sâu, lượng lớn hình ảnh, video, âm thanh và ngôn ngữ tự nhiên được đưa vào hệ thống, dẫn đến dữ liệu mà trước đây được đo bằng gigabyte và terabyte, giờ đây được đo bằng các đơn vị lớn hơn nhiều như petabyte và exabyte.
Theo Steven Rosenbush, chuyên gia công nghệ của tờ WSJ, các hệ thống thông tin, bao gồm cả đám mây, phải mở rộng để lưu trữ tất cả dữ liệu đó. Nhưng các công ty phải giải quyết một bài toán khó: khả năng truy cập tất cả thông tin đó với tốc độ cao hơn nhưng chi phí vận hành thấp hơn.
Nhu cầu về hạ tầng mới
Một số công ty đã bắt đầu phát triển thế hệ hạ tầng tiếp theo. CoreWeave, một nhà cung cấp dịch vụ điện toán đám mây cung cấp cho khách hàng quyền truy cập vào các chip AI tiên tiến của Nvidia, đang tập trung vào thị trường mới nổi này.
Vào tháng 5, CoreWeave đã công bố một vòng gọi vốn trị giá 1,1 tỷ USD và định giá startup bảy năm tuổi này ở mức 19 tỷ USD, sau khi đã vay 7,5 tỷ USD từ các nhà đầu tư bao gồm Blackstone, Carlyle Group, BlackRock hay Nvidia.
CoreWeave đồng thời là khách hàng của một startup có tên VAST Data, công ty tiếp cận quá trình hiện đại hóa đám mây và mạng riêng ảo từ góc độ phần mềm. VAST đã phát triển cái mà họ gọi là hệ điều hành nhanh hơn, rẻ hơn và có khả năng mở rộng tốt hơn cho mọi loại mạng phân tán.
“Chúng tôi đã có tầm nhìn xây dựng cơ sở hạ tầng cho các khối lượng công việc AI mới này,” CEO Renen Hallak, người thành lập công ty tại Israel vào năm 2016, cho biết. Vào tháng 12, VAST tuyên bố đã huy động được 118 triệu USD trong vòng gọi vốn Series E, dẫn đầu bởi Fidelity Management & Research, gần như gấp ba lần định giá của công ty lên 9,1 tỷ USD. Công ty đã vượt qua mức 200 triệu USD doanh thu định kỳ hàng năm và tuyên bố có tỷ suất lợi nhuận gộp gần 90%.
Theo Hallak, dữ liệu thường được lưu trữ theo từng cấp, trong đó dữ liệu mới và quan trọng được giữ dễ truy cập, còn dữ liệu cũ hơn bị đẩy xuống các cấp thấp hơn. “Điều đó không còn đúng nữa với các khối lượng công việc AI mới,” Hallak trả lời tờ WSJ.
“Khi bạn có một mô hình AI tốt, bạn muốn suy luận trên toàn bộ lịch sử của mình, vì đó là cách bạn tạo ra giá trị từ nó. Và sau đó, khi có thêm thông tin, bạn muốn huấn luyện lại và xây dựng một mô hình tốt hơn,” Hallak nói.
“Bạn đọc dữ liệu liên tục trên nhiều petabyte, và trong một số trường hợp là exabyte. Và đó là một vấn đề rất khác biệt,” ông nói thêm.
"Các hệ thống truyền thống cũng mở rộng bằng cách thêm các node lưu trữ một phần của tập dữ liệu lớn hơn. Bản chất của kiến trúc này yêu cầu tất cả các phần phải sử dụng tài nguyên để giao tiếp với nhau và có thể gặp sự cố nếu một node gặp vấn đề. Do đó, nhiều hệ thống doanh nghiệp chỉ có thể mở rộng đến vài chục node, không đủ để đáp ứng nhu cầu do AI tạo ra," Hallak nói.
Theo cách tiếp cận của VAST, tất cả các node đều có quyền truy cập vào toàn bộ thông tin cùng lúc, cải thiện khả năng mở rộng, tốc độ và khả năng phục hồi. VAST cũng tách rời giá của lưu trữ dữ liệu và tính toán, điều mà công ty tuyên bố giúp tiết kiệm chi phí.
Chuẩn bị cho nền kinh tế tương lai
Nhu cầu về một hạ tầng công nghệ mới ban đầu gợi đến các gã khổng lồ công nghệ, nhưng nó sẽ thâm nhập sâu hơn vào nền kinh tế. Một ví dụ mà WSJ đưa ra là hãng phim Pixar nổi tiếng.
Công ty được tập đoàn Disney hậu thuẫn vừa ra mắt bộ phim hoạt hình “Inside Out 2” và đã làm việc với VAST từ năm 2018. Theo đó, nhu cầu dung lượng dữ liệu đã tăng gấp đôi so với bộ phim “Soul” ra mắt vào năm 2020 và yêu cầu sức mạnh tính toán tăng khoảng 75%.
Trước đây, hệ thống của Pixar chuyển dữ liệu từ ổ đĩa hiệu suất cao sang ổ đĩa hiệu suất thấp hơn khi không sử dụng. Nhưng cách làm này không hoạt động đối với việc dựng hình nhân vật thể tích giúp tạo nhân vật sắc nét và sống động hơn, theo Eric Bermender, Giám đốc bộ phận cơ sở hạ tầng dữ liệu và nền tảng tại Pixar. Đối với AI, Pixar có xu hướng sử dụng các mạng nội bộ thay vì đám mây.
AI nói chung không dễ dàng phù hợp với các kiến trúc truyền thống. “Các quy trình làm việc này có xu hướng yêu cầu xử lý lượng lớn dữ liệu đa dạng không thể lưu trữ, không tuần tự và thông thường sẽ được lưu trữ trong các cấp lưu trữ có hiệu suất thấp hơn,” ông Bermender nói.
Điểm mấu chốt đối với các công ty là việc áp dụng AI phải diễn ra trong một môi trường công nghệ có khả năng quản lý nhu cầu dữ liệu chưa từng có của nó. Điều này tương tự như một chiếc xe điện, yêu cầu phải suy nghĩ lại toàn bộ nhiều bộ phận của một chiếc xe chạy bằng xăng, ngay cả đến lốp xe. Để có thể hoạt động tốt, AI cũng sẽ cần một hệ thống hạ tầng mới tương xứng.