Cả triệu giờ video trên YouTube đã được chuyển thành tri thức của AI

17/04/2024 09:15
D

OpenAI, Google và Meta đã phớt lờ các chính sách của cơ quan quản lý và tìm cách lách luật bản quyền khi họ tìm kiếm thông tin trực tuyến nhằm đào tạo hệ thống AI.

Vào cuối năm 2021, OpenAI bắt đầu gặp vấn đề về nguồn cung dữ liệu. Phòng thí nghiệm trí tuệ nhân tạo của công ty đã cạn kiệt mọi nguồn văn bản tiếng Anh uy tín trên Internet khi phát triển hệ thống AI mới nhất của mình.

Trong lúc khó khăn, các nhà nghiên cứu của OpenAI đã tạo ra một công cụ nhận dạng giọng nói có tên Whisper. Nó có thể phiên âm tiếng nói từ video trên YouTube, từ đó tạo ra văn bản đàm thoại nhằm cung cấp dữ liệu cho hệ thống AI.

Một số nhân viên của OpenAI lo ngại rằng hành động này có thể vi phạm chính sách của YouTube khi nền tảng video trực tuyến cấm sử dụng video cho các ứng dụng độc lập với mục đích thương mại.

Sau cùng, một nhóm của OpenAI vẫn quyết định sao chép hơn một triệu giờ phát video trên YouTube, với sự tham gia của Greg Brockman, Chủ tịch OpenAI. Các văn bản sau khi thu được sẽ đưa vào một hệ thống có tên GPT-4, một trong những mô hình trí tuệ nhân tạo mạnh mẽ nhất hiện nay.

Săn lùng dữ liệu

Cuộc đua dẫn đầu trong lĩnh vực AI đã khiến nhiều ông lớn công nghệ phải gấp rút thu thập dữ liệu nhằm đào tạo mô hình AI của riêng mình. Theo một cuộc điều tra của New York Times, các công ty công nghệ bao gồm OpenAI, Google và Meta đã cắt giảm nhiều chính sách của nền tảng và tìm cách lách luật để thu về dữ liệu.

Tại Meta, công ty sở hữu Facebook và Instagram, các nhà quản lý đã thảo luận về việc mua lại nhà xuất bản Simon & Schuster để sở hữu các tác phẩm văn học đặc biệt. Họ cũng bàn bạc về việc thu thập dữ liệu có bản quyền từ khắp nơi trên Internet, ngay cả khi hành động này sẽ phải đối mặt với các rủi ro pháp lý.


Du lieu dao tao AI anh 1

OpenAI đã phát triển một công cụ đọc video trên YouTube để thu thập dữ liệu cho AI. Ảnh: New York Times.

Trong khi đó, Google cũng có hành động tương tự OpenAI khi sao chép các video YouTube nhằm thu thập văn bản cho các mô hình AI. Điều này ẩn chứa khả năng vi phạm bản quyền đối với video thuộc về nhà sáng tạo nội dung.

Trong năm 2023, Google cũng nới rộng nhiều điều khoản dịch vụ của một số ứng dụng, bao gồm Docs và Maps để gia tăng khả năng thu thập dữ liệu. Tuy nhiên, với tốc độ phát triển chóng mặt của các công ty AI, lượng dữ liệu trên Internet có thể không được “sản xuất” đủ nhanh nhằm phục vụ hệ thống.

“Cách duy nhất để những công cụ AI tồn tại là để chúng truy cập vào lượng dữ liệu khổng lồ mà không cần cấp phép. Hiện tại, lượng dữ liệu cần thiết để đào tạo các mô hình trí tuệ nhân tạo đang vượt ngoài sức tưởng tượng”, Sy Damle, luật sư đại diện của quỹ đầu tư Andreessen Horowitz cho biết.

Nhu cầu dữ liệu khổng lồ

Vào tháng 1/2020, Jared Kaplan, một nhà vật lý học tại Đại học Johns Hopkins đã xuất bản bài nghiên cứu chuyên sâu về AI. Trong đó, ông kết luận rằng dữ liệu đào tạo một mô hình ngôn ngữ lớn sẽ quyết định sức mạnh của chúng.

“Mọi người đều rất ngạc nhiên khi thấy những xu hướng này đều có tính logic chính xác như những gì trong thiên văn học hoặc vật lý”, Jared Kaplan nói.


Du lieu dao tao AI anh 2

Tác giả Jared Kaplan đã viết một bài báo quan trọng về AI và dữ liệu. Ảnh: Bloomberg.

Khi OpenAI công bố GPT-3 vào tháng 11/2020, công cụ này được đào tạo dựa trên lượng dữ liệu lớn nhất từ trước đến nay, với khoảng 300 tỷ “mã thông báo”. Sau khi học, hệ thống sẽ tạo ra văn bản với độ chính xác cao cùng khả năng viết các bài đăng trên blog, thơ và một số chương trình máy tính của riêng nó.

Đến năm 2022, DeepMind, một phòng thí nghiệm AI thuộc sở hữu của Google, còn đạt được bước tiến xa hơn khi thử nghiệm 400 mô hình AI. Cụ thể, mô hình Chinchilla AI của Deepmind được đào tạo dựa trên 1,4 nghìn tỷ token dữ liệu. Thậm chí, Google còn tiết lộ một hệ thống AI mới với tên gọi PaLM 2 có thể học tới 3,6 nghìn tỷ token.

Hiện tại, OpenAI là một trong những công ty đang rất cần dữ liệu để phát triển mô hình AI thế hệ tiếp theo. Do đó, một số nhân viên của công ty đã thảo luận về việc sao chép podcast, sách nói và video trên YouTube để lọc dữ liệu. Họ cũng cân nhắc mua lại một số công ty khởi nghiệp đã tích trữ lượng dữ liệu kỹ thuật số lớn.

Tương lai của dữ liệu đào tạo AI

CEO Sam Altman của OpenAI cho biết công ty đã có kế hoạch giải quyết tình trạng thiếu dữ liệu trong tương lai gần. Ông cho biết tại hội nghị tháng 5/2023 rằng các công ty trí tuệ nhân tạo nói chung sẽ sử dụng văn bản do chính AI tạo ra để đào tạo ngược lại hệ thống. Đây được gọi là dữ liệu tổng hợp.

Ông Altman và những người khác lập luận rằng một số mô hình AI có thể tạo ra văn bản giống con người nên các hệ thống có thể tự sinh ra dữ liệu mới. Điều này sẽ giúp các nhà phát triển xây dựng công nghệ ngày càng mạnh mẽ và giảm sự phụ thuộc vào dữ liệu có bản quyền.


Du lieu dao tao AI anh 3

Logo OpenAI được đặt cùng màn hình phản hồi của ChatGPT. Ảnh: Reuters.

“Miễn là bạn có thể tận dụng dữ liệu tổng hợp, nơi mô hình đủ thông minh để tạo ra nguồn văn bản tốt, mọi thứ sẽ ổn định”, Sam Altman nói.

Trong khi đó, Jeff Clune, cựu nhà nghiên cứu của OpenAI, hiện giảng dạy khoa học máy tính tại Đại học British Columbia, cho biết các mô hình AI lấy chính kết quả đầu ra của chúng để "tái học hỏi và phát triển" có thể bị mắc vào một vòng lặp. Trong đó, các hệ thống sẽ củng cố những quan điểm kỳ quặc, sai lầm và tự hạn chế sự phát triển của chính mình.

“Dữ liệu mà các hệ thống AI cần giống như một con đường đi xuyên rừng. Nếu chúng chỉ được huấn luyện dựa trên dữ liệu tổng hợp, các mô hình có thể bị lạc đường”, ông Jeff Clune nhận định.

Đọc bài viết tại đây

Theo: Znews.vn

Bình luận

Tối thiểu 10 chữ Tiếng việt có dấu Không chứa liên kết

Gửi bình luận

Tin cùng chuyên mục

Lenovo khẳng định vị thế bằng loạt sản phẩm mới được trang bị AI

Lenovo khẳng định vị thế bằng loạt sản phẩm mới được trang bị AI

Triển lãm Điện tử Tiêu dùng 2024: Nhiều ứng dụng hỗ trợ người khuyết tật

Triển lãm Điện tử Tiêu dùng 2024: Nhiều ứng dụng hỗ trợ người khuyết tật

Ngành hàng điện tử tiêu dùng có dễ ‘lội ngược dòng’?

Ngành hàng điện tử tiêu dùng có dễ ‘lội ngược dòng’?

MacBook Pro mới sử dụng chip M3 có giá từ 39,39 triệu đồng

MacBook Pro mới sử dụng chip M3 có giá từ 39,39 triệu đồng

Wacom ra mắt loạt sản phẩm mới

Wacom ra mắt loạt sản phẩm mới

JBL trình làng bộ đôi tai nghe chụp tai 'pin khủng' lên đến 70 giờ

JBL trình làng bộ đôi tai nghe chụp tai 'pin khủng' lên đến 70 giờ

Sony 'King of 4K TV 2023' chính thức lên kệ tại Việt Nam

Sony 'King of 4K TV 2023' chính thức lên kệ tại Việt Nam

Kỷ niệm 25 năm Dyson có mặt tại Nhật Bản, Dyson ra mắt phiên bản giới hạn Ceramic Pop

Kỷ niệm 25 năm Dyson có mặt tại Nhật Bản, Dyson ra mắt phiên bản giới hạn Ceramic Pop

JBL Authentics 200: món quà đậm chất cổ điển

JBL Authentics 200: món quà đậm chất cổ điển

AQUA sớm đưa hệ thống dây chuyền sản xuất thông minh Smart Line đi vào hoạt động

AQUA sớm đưa hệ thống dây chuyền sản xuất thông minh Smart Line đi vào hoạt động

Đà Nẵng Audio Day 2023: giải pháp âm thanh cho nhà hàng, khách sạn và khu nghỉ dưỡng

Đà Nẵng Audio Day 2023: giải pháp âm thanh cho nhà hàng, khách sạn và khu nghỉ dưỡng

Xiaomi Smart Display Max: màn hình thông minh 86inch giá chỉ 27 triệu đồng

Xiaomi Smart Display Max: màn hình thông minh 86inch giá chỉ 27 triệu đồng

Tin mới cập nhật

Facebook âm thầm bán tin nhắn người dùng cho Netflix hàng thập kỷ

Facebook âm thầm bán tin nhắn người dùng cho Netflix hàng thập kỷ

Buôn bán lỗ hổng bảo mật như một 'nền công nghiệp'

Buôn bán lỗ hổng bảo mật như một 'nền công nghiệp'

Fintech giúp nhà xuất bản, phát hành sách tiếp cận triệu người dùng

Fintech giúp nhà xuất bản, phát hành sách tiếp cận triệu người dùng

Triển khai 'Trường học số Google'

Triển khai 'Trường học số Google'

Chuyển đổi số, cấp phường ở Hà Nội quản lý 370 nhà trọ qua ứng dụng

Chuyển đổi số, cấp phường ở Hà Nội quản lý 370 nhà trọ qua ứng dụng

Cung ứng điện năm 2024: Cần sự chung tay, chia sẻ trách nhiệm

Cung ứng điện năm 2024: Cần sự chung tay, chia sẻ trách nhiệm

5 tai nghe Open Ear nổi bật mới bán

5 tai nghe Open Ear nổi bật mới bán

Cẩm nang du lịch Đền Hùng 2024

Cẩm nang du lịch Đền Hùng 2024

Hacker vượt qua xác thực hai yếu tố để chiếm tài khoản Gmail

Hacker vượt qua xác thực hai yếu tố để chiếm tài khoản Gmail

Facebook lỗi hiển thị trên diện rộng

Facebook lỗi hiển thị trên diện rộng

Nhà máy đối mặt khủng hoảng thiếu nhân lực Gen Z

Nhà máy đối mặt khủng hoảng thiếu nhân lực Gen Z

Cục An ninh mạng: Lao động nên cẩn trọng với app cho vay

Cục An ninh mạng: Lao động nên cẩn trọng với app cho vay

Tin đọc nhiều

Kỷ niệm 25 năm Dyson có mặt tại Nhật Bản, Dyson ra mắt phiên bản giới hạn Ceramic Pop

Kỷ niệm 25 năm Dyson có mặt tại Nhật Bản, Dyson ra mắt phiên bản giới hạn Ceramic Pop

JBL Authentics 200: món quà đậm chất cổ điển

JBL Authentics 200: món quà đậm chất cổ điển

AQUA sớm đưa hệ thống dây chuyền sản xuất thông minh Smart Line đi vào hoạt động

AQUA sớm đưa hệ thống dây chuyền sản xuất thông minh Smart Line đi vào hoạt động

Đà Nẵng Audio Day 2023: giải pháp âm thanh cho nhà hàng, khách sạn và khu nghỉ dưỡng

Đà Nẵng Audio Day 2023: giải pháp âm thanh cho nhà hàng, khách sạn và khu nghỉ dưỡng

Xiaomi Smart Display Max: màn hình thông minh 86inch giá chỉ 27 triệu đồng

Xiaomi Smart Display Max: màn hình thông minh 86inch giá chỉ 27 triệu đồng

Samsung tiếp tục chiều lòng fan bằng màn trải nghiệm mới

Samsung tiếp tục chiều lòng fan bằng màn trải nghiệm mới

Asanzo ra mắt Google TV thế hệ mới

Asanzo ra mắt Google TV thế hệ mới

LG mang cả ‘ngôi làng bền vững’ đến IFA 2023 

LG mang cả ‘ngôi làng bền vững’ đến IFA 2023 

Samsung ra mắt màn hình gaming Dual UHD đầu tiên trên thế giới

Samsung ra mắt màn hình gaming Dual UHD đầu tiên trên thế giới

Lenovo Legion Slim 5i 2023: làm hay, chơi giỏi

Lenovo Legion Slim 5i 2023: làm hay, chơi giỏi

Video xem nhiều

Video chương trình "Chuyển đổi số cùng bạn" - số tháng 03-2024: "Chuyển đổi số Đà Nẵng phát triển nguồn nhân lực số"

Video chương trình "Chuyển đổi số cùng bạn" - số tháng 03-2024: "Chuyển đổi số Đà Nẵng phát triển nguồn nhân lực số"

Đánh giá ổ cắm điện PHILIPS CHP4335WB/74: Đa năng, đa dụng, an toàn, giá rất hợp lý

Đánh giá ổ cắm điện PHILIPS CHP4335WB/74: Đa năng, đa dụng, an toàn, giá rất hợp lý