• Tin nóng

• Huyện Cao Lộc: Giao lưu các trường THCS đạt chuẩn quốc gia. • Lạng Sơn: Triển khai lấy ý kiến cử tri về sắp xếp đơn vị hành chính cấp xã hành chính cấp xã. • Gần 500 vận động viên dự Giải bóng đá, kéo co trong công nhân, viên chức, lao động thành phố Lạng Sơn. • Lộc Bình: Chặn thực phẩm đông lạnh xuất nhập lậu. • Giao lưu thể thao nhân kỷ niệm 50 năm Ngày Giải phóng miền Nam, thống nhất đất nước.

Chủ nhật, 20/04/2025 12:45 [(GMT +7)]

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

Thứ 6, 13/01/2023 | 17:25:00 [(GMT +7)] A A

Các mô hình chuyển văn bản thành giọng nói có thể giúp bảo toàn âm điệu cảm xúc của người nói cũng như môi trường âm thanh của giọng nói.

Mô hình của VALL-E cho phép AI nhại giọng của bất kỳ ai. (Nguồn: ARS Technica)

Các nhà nghiên cứu của công ty Microsoft vừa công bố một mô hình trí tuệ nhân tạo (AI) có khả năng chuyển văn bản thành giọng nói mới mang tên VALL-E. Điều thú vị là VALL-E có thể mô phỏng rất sát giọng nói của một người, khi được cung cấp một mẫu âm thanh do người này đọc, với độ dài chỉ 3 giây.

Sau khi học được một giọng nói cụ thể, VALL-E có thể tổng hợp và tạo ra âm thanh của người đó đang nói bất kỳ nội dung gì, kèm theo diễn cảm khi nói rất giống thật.

Những người tạo ra VALL-E cho rằng AI này có thể được sử dụng cho các ứng dụng chuyển văn bản thành giọng nói chất lượng cao. VALL-E cũng có thể được dùng để chỉnh sửa giọng nói, trong đó bản ghi âm của một người có thể được chỉnh sửa và thay đổi để họ nói thêm điều gì đó mà ban đầu không nói tới. Ngoài ra, VALL-E cũng có thể được dùng để tạo nội dung âm thanh, khi kết hợp với các mô hình AI sáng tạo khác như GPT-3.

Microsoft gọi VALL-E là “bộ giải mã thần kinh của mô hình ngôn ngữ ” và nó được xây dựng dựa trên công nghệ có tên EnCodec mà công ty Meta từng công bố vào tháng 10/2022. Không giống như các phương thức chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều chỉnh các dải sóng âm, VALL-E tạo ra các bộ mã âm thanh riêng biệt từ dữ liệu nhập vào là văn bản và âm thanh.

Về cơ bản, nó sẽ phân tích cách một người phát âm khi nói, rồi chia thông tin thành các thành phần riêng biệt (được gọi là các “token”) nhờ EnCodec. Tiếp đó, AI sử dụng dữ liệu được đào tạo để khớp với những gì nó “hiểu biết” về cách thức âm thanh được tạo ra khi một người nói và tạo ra các âm thanh mới, giống hệt với lối nói và cảm xúc nằm trong đoạn âm thanh mẫu dài 3 giây ban đầu.

Hoặc chúng ta có thể hiểu về VALL-E như giải thích chính thức của Microsoft: Để tổng hợp ra một giọng nói được cá nhân hóa, VALL-E tạo token âm thanh tương ứng dựa trên token âm thanh của bản ghi âm mẫu dài 3 giây và dữ liệu đầu vào về âm vị, sẽ hạn chế thông tin về nội dung và người nói tương ứng. Cuối cùng, token âm thanh tạo ra từ quá trình này sẽ được sử dụng để tổng hợp thành dải sóng âm, thông qua một giải mã thần kinh của mô hình ngôn ngữ tương ứng.

Microsoft đã đào tạo khả năng tổng hợp giọng nói của VALL-E dựa trên một thư viện âm thanh do Meta tổng hợp, có tên là LibriLight. Nó chứa 60.000 giờ bài phát biểu bằng tiếng Anh, từ hơn 7.000 người nói. Hầu hết các giọng nói này thực tế là những sản phẩm sách nói, được trích xuất từ kho sách nói công cộng LibriVox.

Để VALL-E cho ra kết quả tốt, giọng nói trong mẫu ghi âm dài 3 giây phải khớp với giọng nói trong dữ liệu huấn luyện AI này.

Trên trang web trình diễn năng lực của VALL-E, Microsoft cung cấp rất nhiều ví dụ cho thấy hoạt động của mô hình AI. Người hứng thú với sản phẩm này có thể truy cập theo địa chỉ https://valle-demo.github.io/ để trải nghiệm.

Mô hình hoạt động của VALL-E. (Nguồn: ARS Technica)

Ngoài việc bảo toàn âm sắc giọng nói và giai điệu cảm xúc của người nói, VALL-E cũng có thể bắt chước “môi trường âm thanh” của âm thanh mẫu. Ví dụ: nếu mẫu đến từ một cuộc gọi điện thoại, thì đầu ra âm thanh sẽ mô phỏng các thuộc tính âm thanh và tần số của một cuộc gọi điện thoại trong sản phẩm tổng hợp cuối.

Nhưng có lẽ do khả năng của VALL-E quá mạnh, có thể bị kẻ xấu sử dụng để phục vụ cho các trò lừa đảo, nên hiện Microsoft không cho phép công chúng thử nghiệm AI này. Nhóm nghiên cứu dường như cũng nhận thức được tác hại xã hội tiềm ẩn liên quan tới sản phẩm của họ.

Vì thế, họ đã kết luận ở cuối bài báo khoa học giới thiệu về VALL-E như sau: “Vì VALL-E có thể tổng hợp giọng nói để duy trì danh tính của người nói, nên nó có thể chứa những rủi ro tiềm ẩn nếu sử dụng sai mô hình, chẳng hạn như giả mạo giọng nói hoặc mạo danh một người nói cụ thể. Để giảm thiểu những rủi ro như vậy, có thể xây dựng thêm một mô hình phát hiện, để phân biệt liệu một đoạn âm thanh có phải là sản phẩm do VALL-E tổng hợp hay không. Chúng tôi cũng sẽ áp dụng các Nguyên tắc AI của Microsoft vào thực tế khi phát triển thêm AI này”./.

https://www.vietnamplus.vn/microsoft-phat-trien-cong-cu-co-the-nhai-giong-bat-ky-ai-sau-3-giay/841068.vnp

Theo Vietnamplus

Ý kiến ()

0 / 500 ký tự

Không có dữ liệu!

STT	Tiêu đề	Kiểu Poll	Tác vụ
{{key + 1}}	{{value.title}}	Single choice	Multiple choice

Thông tin chung

Phương án lựa chọn

Danh sách Biểu đồ

Mã	Tiêu đề Chart	Kiểu Chart	Tác vụ
{{value.id}}	{{value[0].title}}	{{value[0].type}}

Tạo Biểu đồ mới

Loại biểu đồ

Giá trị

Microsoft phát triển công cụ có thể nhại giọng bất kỳ ai sau 3 giây

Ý kiến ()

Cùng chuyên mục

Trực tiếp {{item.name}}

Tin xem nhiều

Chi Lăng: Đông đảo người dân tham dự phiên tòa xét xử lưu động hai vụ án hình sự về ma túy

Ban Chấp hành Đảng bộ tỉnh cho ý kiến về phương án sắp xếp, sáp nhập đơn vị hành chính cấp cơ sở trên địa bàn

Thành phố Lạng Sơn: Họp công tác chuẩn bị Ngày Văn hoá các dân tộc Việt Nam, Ngày Sách và văn hoá đọc Việt Nam năm 2025

Lạng Sơn: Liên tiếp xảy ra các vụ cháy rừng, trảng cỏ

UBND tỉnh họp xem xét tiến độ triển khai các dự án khu, cụm công nghiệp đã thành lập trên địa bàn tỉnh

Cựu chiến binh Lạng Sơn: Anh dũng thời chiến, cống hiến thời bình

Khởi động các hoạt động Giao lưu hữu nghị Quốc phòng biên giới Việt Nam - Trung Quốc lần thứ 9

Quyết định điều chuyển tài sản công giữa 6 sở, ngành sau sắp xếp tổ chức bộ máy

Đại tướng Phan Văn Giang, Bộ trưởng Bộ Quốc phòng làm việc với Ban Thường vụ Tỉnh ủy Lạng Sơn

Lãnh đạo tỉnh kiểm tra công tác chuẩn bị Chương trình Giao lưu hữu nghị Quốc phòng biên giới Việt Nam - Trung Quốc