Kỹ sư Việt dùng AI viết 10 bài hát trong một giây
Mô hình AI của Nguyễn Hoàng Bảo Đại được xây dựng trong hai năm, dựa trên 30.000 bài hát tiếng Việt. Chương trình có thể viết 10 bài hát trong một giây.
Nguyễn Hoàng Bảo Đại sinh năm 1994 và là một trong những kỹ sư đặc biệt trong cộng đồng AI Việt Nam. Anh vừa có thể lập trình, lại có thể sáng tác và biểu diễn âm nhạc.
Đam mê âm nhạc từ nhỏ nhưng đứng trước lựa chọn quan trọng của cuộc đời, Bảo Đại không thể tiếp tục theo đuổi ước mơ mà chuyển hướng sang học về Công nghệ Thông tin. Năm 24 tuổi, anh cùng đồng đội giành giải nhất cuộc thi Zalo AI Challenge trong thử thách nhận diện giọng nói. Hai năm sau, Bảo Đại tự xây dựng mô hình "AI sáng tác nhạc" của riêng mình.
Con đường dẫn đến AI
Mùa hè cuối cùng trong thời học sinh - năm 2012, Đại cùng bạn bè đứng trước lựa chọn quan trọng đầu tiên của cuộc đời: chọn ngành và trường đại học. "Ước mơ lâu nay của mình là Nhạc viện, nhưng khi nói dự định ấy với người thân, mình không nhận được bất kỳ sự ủng hộ nào, kể cả thầy cô", chàng trai 9x nhớ lại.
Bảo Đại kể: "Lúc đó mọi người đều nghĩ rằng nếu đi theo đường nghệ thuật, sau này sẽ rất cực và khó tiến thân. Trong khi mình học tốt toán, tại sao lại bỏ lỡ? Ngay cả mẹ cũng ngăn cản lựa chọn theo học Nhạc viện. Mình hoàn toàn mất phương hướng và hoang mang vô cùng trước ngưỡng cửa đầu đời".
Không thể thuyết phục được thầy cô, gia đình, nhưng cũng không biết lựa chọn ngành học nào, Đại hỏi cậu bạn thân thi gì và nộp hồ sơ thi chung để sau này "học chung cho vui". Cuối cùng, Bảo Đại thi vào ngành Công nghệ Thông tin của Đại học Khoa học Tự nhiên.
"Lúc đó mình nghĩ Công nghệ Thông tin cũng hay, chắc là học về word, excel, Photoshop rồi những thứ trên máy tính chứ không hề có một chút khái niệm nào về ngành này. Mình cũng càng không thể ngờ quyết định đó lại đưa mình đến với AI như bây giờ", Bảo Đại nói. Khi biết kết quả, cậu bạn thân của Đại lại trượt, chỉ một mình cậu đỗ. Đại lại một lần nữa mất phương hướng, dò dẫm bước vào tương lai của mình.
Hai năm đại cương trên giảng đường đại học là quãng thời gian dài vô tận với một người mất định hướng như Đại. "Đến năm thứ 3, mình bắt đầu được học về trí tuệ nhân tạo, học máy. Lúc này mình thấy thích thú vô cùng vì nó hoàn toàn mới mẻ, có thể nghiên cứu, sáng tạo nhiều thứ. AI lúc ấy như vị cứu tinh của đời mình", Bảo Đại nhớ lại.
Đại mê say nghiên cứu về AI, máy học, dù lúc đó chưa thực sự biết sau này có thể ứng dụng vào việc gì. Song song đó, anh tiếp tục nuôi dưỡng đam mê âm nhạc bằng cách theo học các khóa học chuyên sâu bên ngoài.
Kết thúc bốn năm đại học, Bảo Đại lại đứng trước lựa chọn quan trọng tiếp theo của cuộc đời - chọn công việc mình muốn gắn bó. "Lúc đó mình vẫn không biết sẽ trở thành kỹ sư hay nhạc sĩ. Cuối cùng, mình chọn đi làm trong lĩnh vực công nghệ nhưng vẫn tiếp tục giữ đam mê âm nhạc, tiếp tục sáng tác", Đại nói. Một trong những dấu ấn nổi bật nhất của anh trong vai trò "kỹ sư âm nhạc" là ca khúc Dân IT được cộng đồng trẻ đón nhận rộng rãi.
Năm 2015 - 2016, khi AI bắt đầu rộ lên, máy học đạt được nhiều thành tựu đáng kinh ngạc, Bảo Đại cũng bắt đầu nghiên cứu về các mô hình AI trên thế giới. "So với lĩnh vực hình ảnh, AI về âm thanh, đặc biệt là âm nhạc ít được quan tâm hơn. Mình nghĩ AI có thể vẽ tranh thì 'nó' cũng có thể viết nhạc. Vì vậy, mình bắt đầu ấp ủ dự định về một mô hình AI viết nhạc cho người Việt và theo thị hiếu của người Việt".
Mỗi ngày đàn 300 bài hát để huấn luyện AI
Khi nghiên cứu về các mô hình AI trong âm nhạc đang được xây dựng trên thế giới, Bảo Đại đúc kết ba mô hình có thể tạo được nhạc: Mạng neuron truyền thẳng; vanilla RNN (mạng neuron hồi quy) và Transformer. Tuy nhiên, nhược điểm của những mô hình này là sáng tác nhạc cổ điển, khác rất nhiều với thị hiếu nghe nhạc của người Việt là những bản nhạc nhẹ, nhạc Pop. "Hơn nữa, những mô hình này vẫn còn một số hạn chế, như nhiều quãng nghịch, nghe chói và không bắt tai. Mình nghĩ, nếu cứ chờ, sẽ không biết đến bao giờ mới có một mô hình AI viết nhạc cho người Việt. Nếu muốn nhanh, chỉ có cách tự mình xây dựng một thuật toán cho riêng mình", Bảo Đại nói.
Tuy nhiên, việc xây dựng một mô hình AI không đơn giản, hầu hết các sản phẩm AI đều thuộc các công ty công nghệ hoặc viện nghiên cứu. Ngoài vấn đề về kinh phí, nhân lực, hai thách thức lớn nhất với bất kỳ ai làm về AI là dữ liệu đầu vào để huấn luyện máy học và phải có một hệ thống máy tính lớn để làm các thuật toán.
"Cá nhân mình khó tự lắp đặt được một dàn máy. Vì vậy, mình tìm đến phương án cloud computing - dùng dịch vụ máy ảo và trả tiền theo nhu cầu sử dụng. Khó khăn tiếp theo là dữ liệu đầu vào, vì dữ liệu âm nhạc, đặc biệt là nhạc Việt không có sẵn trên Internet như hình ảnh hay giọng nói", Đạt kể.
Mô hình Đại dùng để huấn luyện AI là Encoder - Decoder kết hợp thuật toán Attention và một vài công cụ cho nhạc pop Việt Nam. Để máy đọc được các giai điệu, dữ liệu đầu vào phải là file ở định dạng Midi. Anh giải thích: "Có thể hiểu nôm na rằng một bài hát hoàn chỉnh cũng như một món ăn. Mình ăn thấy ngon nhưng rất khó để biết được trong đó có những nguyên liệu, gia vị nào, liều lượng ra sao. Máy móc nghe nhạc ở định dạng Wav, Mp3... sẽ không thể tự tách hoà âm, phối khí ra để lấy giai điệu nên phải dùng nhạc định dạng Midi".
Khó khăn tiếp theo là âm nhạc định dạng Midi trên Internet rất hiếm. Bảo Đại phải "lang thang" khắp các diễn đàn âm nhạc để thu thập các bản nhạc, nhưng vẫn không đủ dữ liệu. Cuối cùng anh phải tự nghe đi nghe lại các bài hát và đàn lại để lấy dữ liệu cho máy học. "Các bài hát mới, được yêu thích thì không có ngay file Midi trên Internet, nên mình phải tự đàn giai điệu, chuyển hết về nốt Đô trưởng và La thứ. Công đoạn này có thể hiểu nôm na là chuẩn hoá dữ liệu trước khi đưa vào mô hình cho AI học".
Đến nay kho dữ liệu của Bảo Đại có khoảng 30.000 bài hát, trong đó 60% là do anh tự đàn. Trong hai năm ròng rã, anh đã đàn gần 18.000 bài hát. Có những ngày, Đại chỉ nhốt mình trong phòng và đàn từ sáng đến đêm để lấy dữ liệu cho máy học. "Ngày cao điểm mình đàn đến 300 bài hát, chỉ ăn và đàn", Bảo Đại kể.
Sau hai năm xây dựng, mô hình AI này đã có thể viết được 10 bài hát trong vòng một giây. AI sáng tác nhạc của Đại hoạt động theo mô hình: Nhạc sĩ "mớm" cho máy 3 - 5 nốt nhạc, sau đó, AI sẽ tự hoàn thiện, đưa ra một bài hát hoàn chỉnh. Theo Bảo Đại, điều đặc biệt của mô hình AI này là người dùng chỉ cần chọn một giai điệu ngắn muốn viết, sau đó bấm nút. Máy sẽ cho ra các lựa chọn khác nhau, bạn sẽ chỉ cần nghe và chọn giai điệu mình thích. Trong từng giai điệu cũng có thể tiếp tục điều chỉnh theo ý mình. Nếu AI chưa đưa ra được kết quả như ý, có thể bắt "nó" viết tiếp đến khi nào ưng ý thì thôi. Thuật toán ngẫu nhiên trong AI cho phép tạo ra các bản nhạc không trùng nhau. Vì vậy, nỗi lo về bản quyền cũng có thể được kiểm soát bằng chính AI.
Mô hình AI này cũng không tuân theo một phong cách nhất định, vì vậy, "nó" luôn đưa ra những lựa chọn mới, không đơn điệu, một màu. Thậm chí khi nhạc sĩ không có ý tưởng nào, không đưa ra bất kỳ gợi ý nào, AI cũng có thể tự sáng tác nhạc theo ý muốn của "nó".
"Ngày xưa, khi nghe những bản nhạc do máy móc sáng tác, mọi người có thể nhận ra ngay. Nhưng bây giờ, với lượng dữ liệu ngày một lớn, thuật toán ngày càng thông minh, khác biệt giữa nhạc do AI viết và nhạc do người viết đã không còn rõ ràng. Một ngày nào đó khoảng cách này sẽ bị xoá mờ", Bảo Đại khẳng định.
Định kiến và niềm tin AI
Khác với hình dung của mọi người về việc sáng tác, nhạc sĩ thường mất rất nhiều thời gian để viết phần giai điệu. Có khi mỗi ngày chỉ viết được vài giai điệu, hôm sau nghe lại thấy không hay lại bỏ đi. Việc này cứ lặp đi lặp lại khiến một bài hát có thể phải sáng tác trong 5 - 6 tháng. Nhưng với mô hình AI, nhạc sĩ có thể rút ngắn công đoạn này, thay vì viết, mình chỉ việc bấm nút, nghe, lựa chọn và điều chỉnh cho giai điệu đúng với ý mình. Thời gian còn lại có thể chăm chút nhiều hơn cho phần hoà âm, phối khí, viết lời. Đây đều là những yếu tố quan trọng, hình thành nên một bài hát hay chứ không chỉ là viết giai điệu.
Khi AI đã "thành hình" và có thể sáng tác, Bảo Đại khoe thành quả này với bạn bè trong cả giới nghệ thuật lẫn IT. Nhưng trái với những háo hức ban đầu, anh lại nhận về "gáo nước lạnh" từ cả bạn bè lẫn thầy cô của mình.
"Một nửa đón nhận, nhưng nửa còn lại thì không. Thầy dạy sáng tác của mình không thẳng thắn từ chối, nhưng cho rằng việc nhạc sĩ không viết nhạc, chỉ ngồi bấm nút và lựa chọn thì không phải là sáng tạo theo nghĩa truyền thống. Mình rất buồn, hụt hẫng, khi nhận về những phản hồi như thế", "cha đẻ" của mô hình AI viết nhạc chia sẻ. Tuy nhiên, cũng có nhiều người thích thú và ủng hộ mô hình này.
Những lúc hoài nghi về lựa chọn của mình, Đại thường nghĩ lại mục tiêu ban đầu là kết hợp AI với âm nhạc. Đây không chỉ là một sản phẩm mà còn là ước mơ và lý tưởng anh theo đuổi lâu nay. "Dù sao lĩnh vực này còn quá mới. Thế giới cũng đang tìm cách giải quyết các bài toán, vì vậy mình sẽ tiếp tục", 9x chia sẻ.
"Cha đẻ" của mô hình "AI viết nhạc" tin rằng bản chất của AI vẫn là giúp con người giải quyết những công việc tiêu hao nhiều thời gian, công sức. Con người vẫn phải chịu trách nhiệm cuối cùng về sản phẩm mình làm ra. Hiện tại AI vẫn còn rất thô sơ, mới chỉ viết được phần giai điệu, nhưng phần giai điệu này vẫn chưa phải xuất sắc, nhạc sĩ vẫn phải điều chỉnh, tham chiếu, lựa chọn. Vì vậy, những người viết nhạc cũng không cần lo lắng về việc AI sẽ lấy đi công việc của mọi người, hay sáng tác nhạc bằng AI sẽ làm mờ đi bản sắc của người nghệ sĩ.
Những người làm AI như Bảo Đại vẫn tin rằng mỗi cuộc cách mạng về khoa học công nghệ đều lấy đi một lượng công việc nhất định, nhưng cũng sản sinh ra một lớp việc mới. Những người làm nghệ thuật, nhạc sĩ, cũng như những nghệ nhân, sẽ luôn có chỗ đứng với những sản phẩm chất lượng cá tính, mang bản sắc riêng. AI sẽ hiện hữu khắp ngõ ngách cuộc sống. Nhưng dữ liệu AI học được là từ con người, nhạc sĩ vẫn luôn có thể sáng tác ra những giai điệu, bài hát mới mà AI chưa thể học theo.
Theo Khương Nha/vnexpress.net
https://vnexpress.net/ky-su-viet-dung-ai-viet-10-bai-hat-trong-mot-giay-4225812.html