Thế giới đang dần cạn kiệt dữ liệu để đào tạo AI

Hoàng Hà

24/07/2024

Các mô hình AI ngày càng phát triển và đang yêu cầu lượng dữ liệu lớn hơn, chất lượng cao hơn ...

Nguồn dữ liệu để đào tạo các mô hình AI đang ngày càng cạn kiệt. Ảnh minh họa

Khi các mô hình AI do các công ty công nghệ phát triển ngày càng trở nên lớn hơn, nhanh hơn và tham vọng hơn, lượng dữ liệu cần thiết để đào tạo các mô hình cũng đòi hỏi phải chất lượng cao hơn và số lượng nhiều hơn.

CUỘC KHỦNG HOẢNG DỮ LIỆU

Tuy nhiên, nguồn dữ liệu đang bắt đầu cạn kiệt, một phần vì các trang web nội dung nói chung, các trang báo chí nói riêng, đang hạn chế các công ty AI sử dụng văn bản, hình ảnh và video của họ trong việc đào tạo AI. Điều này đã tạo ra “cuộc khủng hoảng dữ liệu”, hay đúng hơn là “cuộc khủng hoảng về các thỏa thuận đồng ý sử dụng dữ liệu”, theo một nghiên cứu gần đây của Sáng kiến Nguồn gốc Dữ liệu, một nhóm do các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) dẫn đầu.

Nghiên cứu phát hiện rằng chỉ trong năm vừa qua đã chứng kiến “sự gia tăng nhanh chóng các trang web đồng loạt hạn chế công ty AI sử dụng dữ liệu”. Nguyên nhân được cho là do những lo ngại liên quan đến thách thức đạo đức và pháp lý khi AI “ngang nhiên sử dụng dữ liệu công cộng”.

Động thái này đã hạn chế phần lớn các trang web cho phép sử dụng dữ liệu của họ, dù với mục đích thương mại hay học thuật. Giữa tháng 4 năm 2023 và tháng 4 năm 2024, xem xét khoảng 14.000 tên miền web được sử dụng để tập hợp bộ ba tập dữ liệu lớn là C4, RefinedWeb và Dolma cho thấy 5% tổng dữ liệu và 25% dữ liệu từ các nguồn chất lượng cao nhất đã bị hạn chế,.

Các công ty AI lớn thường thu thập dữ liệu thông qua các bot tự động được gọi là web crawlers, chúng khám phá internet và ghi lại nội dung. Trong trường hợp của tập dữ liệu C4, 45% dữ liệu đã bị hạn chế thông qua các giao thức trang web ngăn chặn các web crawlers truy cập nội dung. Các hạn chế này ảnh hưởng không đồng đều đến các crawlers từ các công ty công nghệ khác nhau và thường có lợi cho “các nhà phát triển AI ít được biết đến hơn”.

Ví dụ, các crawlers của OpenAI đã bị hạn chế truy cập vào gần 26% các nguồn dữ liệu chất lượng cao, trong khi crawler của Google chỉ bị ngăn chặn khoảng 10% và Meta là khoảng 4%.

Nếu những hạn chế này vẫn chưa đủ khiến tình hình đào tạo AI gặp khó khăn, thì còn một thực tế khắc nghiệt nữa, đó là nguồn cung cấp dữ liệu công cộng để đào tạo các mô hình AI dự kiến sẽ cạn kiệt sớm.

Với tốc độ hiện tại của các công ty đang làm việc để cải thiện các mô hình AI, các nhà phát triển có thể hết dữ liệu vào khoảng từ năm 2026 đến năm 2032, theo một nghiên cứu được công bố vào tháng 6 bởi nhóm nghiên cứu Epoch AI.

CÁC CÔNG TY AI ĐANG CHI HÀNG TRIỆU ĐỂ MUA DỮ LIỆU ĐÀO TẠO

Khi các công ty công nghệ lớn cố gắng tìm đủ dữ liệu để hỗ trợ các mục tiêu AI đầy tham vọng của họ, một số công ty đang ký kết các hợp đồng với các ấn phẩm nội dung để có quyền truy cập vào kho lưu trữ của họ.

Ví dụ, OpenAI được cho là đã đề nghị trả từ 1 triệu đến 5 triệu USD cho các đối tác như vậy. Gã khổng lồ AI này đã ký kết các hợp đồng với các ấn phẩm như The Atlantic, Vox Media, The Associated Press, Financial Times, Time và News Corp để sử dụng kho lưu trữ của họ vào đào tạo các mô hình AI.

Để mở khóa dữ liệu mới, OpenAI thậm chí đã cân nhắc sử dụng Whisper, công cụ nhận diện giọng nói, để phiên âm video và âm thanh từ các trang web như YouTube - một phương pháp mà Google cũng đã thảo luận. Trong khi đó, các nhà phát triển AI khác như Meta, đang tìm cách mua lại các công ty xuất bản như Simon & Schuster để có được kho sách lớn của họ.

SỬ DỤNG DỮ LIỆU DO CHÍNH AI TẠO RA ĐỂ ĐÀO TẠO AI

Một giải pháp tiềm năng khác cho cuộc khủng hoảng dữ liệu AI là dữ liệu tổng hợp, một thuật ngữ dùng để mô tả dữ liệu được tạo ra bởi các mô hình AI thay vì con người. Sam Altman của OpenAI đã đề cập đến phương pháp này trong một cuộc phỏng vấn đầu năm nay khi ông lưu ý rằng dữ liệu từ Internet cuối cùng “sẽ hết”.

Các công ty công nghệ lớn cố gắng tìm đủ dữ liệu để hỗ trợ các mục tiêu AI đầy tham vọng của họ. Ảnh minh họa

“Miễn là có thể vượt qua thách thức dữ liệu tổng hợp, nguồn dữ liệu do chính AI tạo ra, để có những dữ liệu tổng hợp tốt, tôi nghĩ mọi thứ sẽ ổn thôi”, người đứng đầu OpenAI nói.

Tuy nhiên, một số nhà nghiên cứu AI nổi bật, tin rằng lo ngại về một cuộc khủng hoảng dữ liệu đang nổi lên là quá phóng đại. Khi phát biểu tại Hội nghị Công nghệ Bloomberg vào tháng 5, Fei-Fei Li, một nhà khoa học máy tính tại Stanford và thường được gọi là “Mẹ đỡ đầu của AI” cho rằng lo ngại về giới hạn dữ liệu là một “quan điểm rất hẹp”.

Trong khi các nguồn dữ liệu, nội dung trên internet đang bị thắt chặt bởi những hạn chế thỏa thuận, Fei-Fei Li lưu ý rằng một loạt các nguồn dữ liệu thay thế và liên quan vẫn chưa được khai thác cho AI. Ví dụ như dữ liệu trong ngành chăm sóc sức khỏe hay các ngành như giáo dục, “vì vậy không, tôi không nghĩ chúng ta đang hết dữ liệu”, bà nói.

Từ khóa:

Dòng sự kiện:

Kiến trúc dữ liệu quốc gia

Khi các mô hình AI trọng số mở của Trung Quốc ngày càng phổ biến, giới công nghệ Mỹ bắt đầu cảnh báo Washington đang bỏ lỡ một mặt trận chiến lược quan trọng. Ảnh minh họa của CNBC

Mô hình AI mở của Trung Quốc phơi bày những "điểm mù" trong chiến lược trí tuệ nhân tạo của Mỹ

Những tập đoàn công nghệ hàng đầu nước Mỹ đang đồng loạt kêu gọi Chính phủ coi phát triển AI mở là một ưu tiên chiến lược quốc gia. Theo họ, nếu Mỹ đã có chiến lược về chip AI thì giờ đây cũng cần một chiến lược tương tự dành cho các mô hình AI mở...

16:28 31/07/2026

Robot hình người được nhiều tổ chức nghiên cứu dự báo có thể trở thành một trong những công nghệ quan trọng trong tương lai. Ảnh: Reuters

Mỹ cấm robot hình người mới từ Trung Quốc, siết chuỗi cung ứng AI

Chính quyền Tổng thống Donald Trump vừa ban hành các biện pháp hạn chế nhập khẩu robot hình người, robot bốn chân và bộ biến tần điện mới từ Trung Quốc…

09:29 31/07/2026

Những nghề nghiệp bất ngờ “hưởng lợi” từ AI

Đằng sau cuộc đua AI là một cuộc săn nhân lực mới. Không chỉ kỹ sư phần mềm, các thợ điện, thợ xây, kỹ thuật viên cũng đang trở thành nhân sự “nóng” để xây dựng hạ tầng công nghệ tương lai.

09:45 30/07/2026

Kết hợp công nghệ chip bảo mật chuyên dụng với các công nghệ sản xuất bán dẫn có thể góp phần thúc đẩy sự phát triển của các giải pháp bảo mật mới. Ảnh minh họa

Intel bắt tay Fortinet, phát triển chip bảo mật thế hệ mới

Sự gia tăng của các mối đe dọa mạng và yêu cầu xử lý dữ liệu trong kỷ nguyên AI đang thúc đẩy nhu cầu phát triển các công nghệ bảo mật mới…

10:46 29/07/2026

Trước sức ép ngày càng lớn, nhiều doanh nghiệp bắt đầu ứng dụng AI để tự động phát hiện lỗ hổng, giám sát hệ thống và xử lý các cuộc tấn công. Ảnh minh họa

AI khiến tấn công mạng diễn ra nhanh đến mức con người "không kịp phản ứng"

Theo CrowdStrike, thời gian trung bình từ lúc tin tặc xâm nhập thành công đến khi bắt đầu di chuyển sang các hệ thống khác đã giảm từ 98 phút vào năm 2021 xuống chỉ còn 29 phút trong năm 2025. Đáng báo động hơn, có trường hợp kẻ xâm nhập chỉ cần 27 giây...

22:30 28/07/2026

Một chương trình tin tức chiếu cảnh Chủ tịch Trung Quốc Tập Cận Bình phát biểu tại lễ khai mạc Hội nghị Trí tuệ Nhân tạo Thế giới. Ảnh: AFP/Getty Images

Trung Quốc đẩy mạnh "ngoại giao AI"

Thông qua việc thúc đẩy các mô hình AI nguồn mở, đào tạo nhân lực và xây dựng mạng lưới hợp tác quốc tế, Trung Quốc đang đưa ra một lời đề nghị mà nhiều quốc gia đang phát triển khó có thể từ chối...

11:24 27/07/2026

Có những lo ngại rằng công nghệ, với khả năng phản hồi tức thì đối với các yêu cầu, có thể làm giảm đi quá trình nỗ lực học tập hiệu quả giúp học sinh tiếp thu kiến thức. Ảnh: USA Today

Các hãng AI bắt đầu thâm nhập thị trường edtech trị giá 6.000 tỷ USD

Đối với các công ty AI, đây không chỉ là cơ hội hỗ trợ xã hội thích ứng với kỷ nguyên AI mà còn là một thị trường có quy mô hàng nghìn tỷ USD và là nơi có thể tiếp cận thế hệ người dùng tương lai ngay từ trên ghế nhà trường...

11:24 27/07/2026

Làn sóng đầu tư mạnh mẽ vào AI trên toàn cầu đang tạo ra cơ hội tăng trưởng mới cho các doanh nghiệp công nghệ Trung Quốc. Ảnh: SCMP

AI thúc đẩy doanh nghiệp công nghệ Trung Quốc toàn cầu hóa

Nhiều công ty Trung Quốc đang từng bước giành vị trí trong cả hai mắt xích quan trọng của chuỗi giá trị AI toàn cầu: phần mềm và hạ tầng...

18:46 24/07/2026

Nhiều người đến gian hàng Moonshot AI để chiêm ngưỡng mô hình Kimi K3 tại Hội nghị Trí tuệ Nhân tạo Thế giới ở Thượng Hải. Ảnh: AFP

Trung Quốc cân nhắc "siết" xuất khẩu mô hình AI và công nghệ chip tiên tiến

Trung Quốc đang xem xét khả năng tăng cường kiểm soát xuất khẩu đối với các công nghệ trí tuệ nhân tạo (AI) và bán dẫn tiên tiến...

13:45 23/07/2026

Động thái của Pháp diễn ra trong bối cảnh nhiều quốc gia đang thúc đẩy các quy định tương tự nhằm kiểm soát việc trẻ em tiếp cận mạng xã hội. Ảnh: NYT

Pháp trở thành quốc gia châu Âu đầu tiên cấm trẻ dưới 15 tuổi dùng mạng xã hội

Việc Pháp thông qua đạo luật cấm trẻ em dưới 15 tuổi sử dụng mạng xã hội đánh dấu bước đi mạnh mẽ nhất của một quốc gia châu Âu trong nỗ lực bảo vệ trẻ vị thành niên trên không gian số…

13:44 23/07/2026