Công nghệ tổng hợp giọng nói sử dụng trí tuệ nhân tạo đã đạt đến mức độ có thể tham gia các cuộc hội thoại một cách chân thực đáng kinh ngạc.
Những hệ thống AI này không chỉ bắt chước được giọng điệu, thì thầm mà còn có thể tái tạo giọng nói của những người thật. Điều này đặt ra câu hỏi: Làm thế nào để phân biệt giọng nói do AI tạo ra và giọng nói của con người?
Trong những cuộc trò chuyện với chatbot sử dụng trí tuệ nhân tạo, việc phân biệt giữa người và máy trở nên ngày càng khó khăn. Công cụ sao chép giọng nói dựa trên AI đã được dùng để tạo ra các bản sao giọng nói thuyết phục, bao gồm cả giọng của những nhân vật nổi tiếng như Sir Michael Parkinson và Sir David Attenborough. Dù có người sử dụng công nghệ này cho các mục đích lừa đảo, một số khác lại đưa nó vào chatbot để làm cho các cuộc hội thoại trở nên tự nhiên và đồng cảm hơn. Jonathan Harrington, một giáo sư về ngữ âm tại Đại học Munich, ghi nhận những tiến bộ trong công nghệ tổng hợp giọng nói của AI nhưng vẫn tin rằng vẫn còn những tín hiệu giúp phân biệt giữa giọng của con người và giọng của AI.
Để kiểm tra khả năng của các giọng nói do AI tạo ra, các cặp đoạn âm thanh đã được chuẩn bị – một đoạn được đọc bởi con người, một đoạn do AI tạo ra. Điều đáng ngạc nhiên là nhiều người không thể phân biệt giữa giọng thật và giọng AI, qua đó thể hiện sự mô phỏng ấn tượng mà công nghệ AI đạt được.
Các chuyên gia an ninh mạng nhấn mạnh rằng việc phát hiện giọng nói do AI tạo ra là một thách thức, đồng thời khuyến cáo nên xem xét kỹ ngữ cảnh và phát hiện những mẫu phát âm không tự nhiên. Khi công nghệ sao chép giọng nói tiếp tục phát triển, sự khác biệt giữa giọng của con người và AI có thể sẽ càng khó nhận biết hơn. Các chuyên gia lo ngại rằng công nghệ này có thể bị lạm dụng, dẫn đến các vụ vi phạm an ninh và lừa đảo. Họ khuyến nghị áp dụng thêm các biện pháp xác thực và luôn thận trọng khi sử dụng công nghệ giọng nói.
Ngữ điệu, bao gồm trọng âm, ngữ điệu và cách diễn đạt, đóng vai trò quan trọng trong việc phân biệt giọng nói con người. Dù AI có thể tái tạo mẫu phát âm, nhưng những chi tiết như hơi thở tự nhiên và những khuyết điểm nhỏ vẫn là dấu hiệu giúp nhận diện giọng thật. Khi AI tiếp tục cải thiện khả năng tổng hợp giọng nói, ranh giới giữa giọng con người và AI càng trở nên mờ nhạt. Các chuyên gia dự đoán rằng công nghệ AI sẽ còn tiến xa hơn, đồng thời cảnh báo về những nguy cơ lạm dụng và lừa dối.
Mặc dù một số ý kiến cho rằng có thể sử dụng các yếu tố ngữ điệu để xác thực giọng nói, khả năng của AI trong việc bắt chước các mẫu phát âm con người khiến sự phân biệt trở nên khó khăn hơn. Khi công nghệ AI phát triển, việc phát hiện giọng của AI so với giọng con người sẽ đòi hỏi những phương pháp kiểm tra phức tạp hơn.
Nỗ lực để tăng cường phát hiện deepfake và ngăn chặn sao chép giọng nói đang được thực hiện, nhưng bản chất ngày càng phức tạp của công nghệ AI đặt ra những thách thức liên tục. Duy trì giao tiếp trực tiếp và các cuộc gặp mặt trực diện có thể là một giải pháp đơn giản để ngăn chặn sự lừa đảo của AI.
Trong bối cảnh giọng nói do AI tạo ra đang không ngừng phát triển, việc phân biệt giữa con người và AI vẫn là một nhiệm vụ phức tạp. Khi công nghệ tiếp tục tiến bộ, nhu cầu cảnh giác và đánh giá cẩn thận các tương tác giọng nói trở nên ngày càng quan trọng.