Hiểu nhận dạng giọng nói

Hiểu nhận dạng giọng nói

Hãy tưởng tượng bạn đang ngồi thư giãn trên ghế sofa và chỉ cần ra lệnh cho máy tính hoặc máy tính xách tay hoặc điện thoại di động của bạn để thực hiện các công việc đơn giản như gõ một lá thư hoặc thực hiện một vài lệnh. Nó có khả thi không?

Tất nhiên, đó là lúc Nhận dạng giọng nói trở thành hình ảnh.




Theo định nghĩa, nó là quá trình nhận dạng giọng nói của con người và giải mã nó thành dạng văn bản.



Nguyên tắc

Nguyên tắc cơ bản của nhận diện giọng nói liên quan đến thực tế là lời nói hoặc lời nói của bất kỳ con người nào gây ra rung động trong không khí, được gọi là sóng âm thanh. Các sóng liên tục hoặc tương tự này được số hóa và xử lý, sau đó được giải mã thành các từ thích hợp và sau đó là các câu thích hợp.

nhận diện giọng nói



Các thành phần của Hệ thống nhận dạng giọng nói

Vậy Hệ thống Nhận dạng Giọng nói cơ bản bao gồm những gì?

Các thành phần của Hệ thống nhận dạng giọng nói

  • Thiết bị ghi âm giọng nói : Nó bao gồm một micrô, chuyển đổi tín hiệu sóng âm thanh thành tín hiệu điện và Bộ chuyển đổi tín hiệu tương tự sang kỹ thuật số lấy mẫu và số hóa tín hiệu tương tự để thu được dữ liệu rời rạc mà máy tính có thể hiểu được.
  • Một mô-đun tín hiệu kỹ thuật số hoặc một bộ xử lý : Nó thực hiện xử lý tín hiệu giọng nói thô như chuyển đổi miền tần số, chỉ khôi phục thông tin cần thiết, v.v.
  • Lưu trữ tín hiệu được xử lý trước : Giọng nói được xử lý trước được lưu trữ trong bộ nhớ để thực hiện thêm nhiệm vụ nhận dạng giọng nói.
  • Tham khảo các mẫu bài phát biểu : Máy tính hoặc hệ thống bao gồm các mẫu hoặc mẫu giọng nói được xác định trước đã được lưu trữ trong bộ nhớ, được sử dụng làm tham chiếu để đối sánh.
  • Thuật toán đối sánh mẫu : Tín hiệu lời nói không xác định được so sánh với mẫu giọng nói tham chiếu để xác định các từ thực tế hoặc mẫu của từ.
Hoạt động của hệ thống

Bây giờ chúng ta hãy xem toàn bộ hệ thống thực sự hoạt động như thế nào.




Hoạt động của hệ thống

  • Một bài phát biểu có thể được xem như một dạng sóng âm, tức là tín hiệu mang thông tin tin nhắn. Một người bình thường với tốc độ chuyển động hạn chế của bộ khớp (cơ quan phát âm) có thể tạo ra giọng nói với tốc độ trung bình 10 âm mỗi giây. Tốc độ thông tin trung bình khoảng 50-60 bit / giây. Nó có nghĩa là thực tế chỉ có 50 bit / giây thông tin được yêu cầu trong tín hiệu lời nói. Dạng sóng âm này được chuyển đổi thành tín hiệu điện tương tự bởi micrô. Bộ chuyển đổi Tương tự sang Kỹ thuật số chuyển đổi tín hiệu tương tự này sang các mẫu kỹ thuật số bằng cách thực hiện các phép đo chính xác của sóng ở những khoảng thời gian riêng biệt.
  • Tín hiệu số hóa bao gồm một luồng tín hiệu định kỳ được lấy mẫu ở tốc độ 16000 lần mỗi giây và không phù hợp để thực hiện nhận dạng giọng nói vì không thể định vị dễ dàng mẫu. Để trích xuất thông tin thực, tín hiệu trong miền thời gian được chuyển đổi thành tín hiệu trong miền tần số. Điều này được thực hiện bởi Bộ xử lý tín hiệu kỹ thuật số sử dụng kỹ thuật FFT. Trong tín hiệu kỹ thuật số, thành phần sau mỗi 1/100thứ tựcủa một giây được phân tích và phổ tần số cho từng thành phần như vậy được tính toán. Nói cách khác, tín hiệu số hóa được phân đoạn thành các phần nhỏ của biên độ tần số.
  • Mỗi đoạn hoặc biểu đồ tần số biểu thị các âm thanh khác nhau do con người tạo ra. Máy tính thực hiện đối sánh các phân đoạn không xác định với ngữ âm được lưu trữ của ngôn ngữ cụ thể. Kết hợp mẫu này được thực hiện theo 3 cách:

Sử dụng cách tiếp cận ngữ âm Acoustic : Trong cách tiếp cận ngữ âm Acoustic, thường sử dụng Mô hình Markov ẩn. Mô hình này phát triển một mô hình xác suất không xác định cho việc nhận dạng giọng nói. Mô hình này bao gồm hai biến - trạng thái ẩn của các âm vị được lưu trữ trong bộ nhớ máy tính và phân đoạn tần số nhìn thấy của tín hiệu kỹ thuật số. Mỗi âm vị có xác suất riêng và phân đoạn được ghép với âm vị theo xác suất và các âm vị phù hợp sau đó được thu thập lại với nhau để tạo thành các từ đúng theo các quy tắc ngữ pháp được lưu trữ của ngôn ngữ.

Sử dụng phương pháp nhận dạng mẫu : Trong cách tiếp cận nhận dạng mẫu, hệ thống được huấn luyện với một mẫu giọng nói cụ thể cho bất kỳ ngôn ngữ nào và mẫu giọng nói không xác định được so sánh với mẫu giọng nói tham chiếu bằng cách xác định khoảng cách giữa các tín hiệu bằng kỹ thuật làm cong thời gian.

Sử dụng trí tuệ nhân tạo : Phương pháp tiếp cận Trí tuệ nhân tạo dựa trên việc sử dụng các nguồn kiến ​​thức cơ bản như kiến ​​thức về âm thanh được nói trên cơ sở các phép đo phổ, kiến ​​thức về các từ có nghĩa và cú pháp thích hợp.

Các yếu tố mà Hệ thống nhận dạng giọng nói phụ thuộc vào

Hệ thống nhận dạng giọng nói phụ thuộc vào các yếu tố sau:

  • Các từ biệt lập : Cần có khoảng dừng giữa các từ liên tiếp được nói vì các từ liên tục có thể trùng lặp, khiến hệ thống khó hiểu khi nào một từ bắt đầu hoặc kết thúc. Do đó cần có khoảng lặng giữa các từ liên tiếp.
  • Loa đơn : Nhiều người nói cố gắng đưa ra đầu vào bằng giọng nói cùng một lúc có thể gây ra sự chồng chéo của các tín hiệu và gián đoạn. Hầu hết các hệ thống nhận dạng giọng nói được sử dụng là hệ thống phụ thuộc vào loa.
  • Kích thước từ vựng : Những ngôn ngữ có lượng từ vựng lớn khó được coi là phù hợp với mẫu hơn những ngôn ngữ có lượng từ vựng nhỏ vì khả năng có những từ không rõ ràng sẽ ít hơn ở những ngôn ngữ sau.
Hệ thống nhận dạng giọng nói trên Windows 7

Tôi muốn giới thiệu các bước sau cho bất kỳ người nào sử dụng Windows 7 cho hệ thống nhận dạng giọng nói

  • Mở Control Panel từ menu bắt đầu hoặc bằng cách nhấp vào biểu tượng.
  • Chọn Dễ truy cập, sau đó bấm Nhận dạng giọng nói.
  • Tiếp theo, nhấp vào thiết lập micrô và chọn micrô trên máy tính để bàn từ các tùy chọn có sẵn.
  • Tiếp theo, thực hiện phần hướng dẫn bài phát biểu và làm theo các hướng dẫn đã cho.
  • Sau đó, huấn luyện máy tính của bạn để có các tùy chọn tốt hơn để máy tính lưu trữ một mẫu tín hiệu giọng nói nhất định của bạn. Điều này được thực hiện bằng cách nhấp vào tùy chọn ‘đào tạo máy tính của bạn để hiểu rõ hơn về bạn’ rồi làm theo hướng dẫn.
  • Bây giờ hãy khởi động biểu tượng nhận dạng giọng nói và bắt đầu đọc chính tả bài phát biểu của bạn vào máy tính. Bạn cũng có thể thêm các từ của riêng mình vào từ điển máy tính.
Hệ thống nhận dạng giọng nói thực tế: Sử dụng HM2007

Hệ thống nhận dạng giọng nói thực tế có thể được xây dựng bằng IC Nhận dạng giọng nói HM2007 . HM2007 là một vi mạch 48 chân cung cấp chức năng nhận dạng giọng nói. Nó hoạt động ở hai chế độ: Chế độ thủ công hoặc chế độ CPU. Trong cả hai chế độ, IC đầu tiên được huấn luyện để nhận dạng các từ khi người dùng nói từng từ cho số tương ứng được nhấn trên phím. IC lưu từng tín hiệu từ vào vị trí bộ nhớ tương ứng với từ đó. Đầu ra dữ liệu từ IC được giao tiếp với Vi điều khiển từ nơi nó được hiển thị trên màn hình LCD.

Hệ thống nhận dạng giọng nói thực tế

Thông thường, chúng tôi sử dụng chế độ thủ công cho hoạt động HM2007.

  • HM2007 bao gồm một chân RDY là một chân thấp hoạt động cho biết IC đã sẵn sàng cho mục đích huấn luyện.
  • Đầu vào Giọng nói sẽ được đưa ra thông qua một micrô được kết nối với chân MICIN của vi mạch.
  • IC được giao tiếp với một bàn phím được sử dụng để cung cấp đầu vào số tương ứng với mỗi từ. IC hoạt động ở hai chức năng - Clear và Train. Khi phím Train được nhấn trên bàn phím, IC bắt đầu quá trình huấn luyện của nó.
  • Người dùng nhấn một phím số trước khi nhấn phím chức năng ‘Train’ và nói từ cần thiết vào micrô.
  • IC gửi tín hiệu cao đến chân ME (Memory Enable) được kết nối với chân ME tương ứng của SRAM. Tín hiệu dữ liệu 8 bit tương ứng với số được nhấn được lưu trong SRAM (RAM ngoài) thông qua bus bên ngoài.
  • Sau khi đầu vào bằng giọng nói được phát hiện, chân RDY ở mức logic cao và vi mạch đi đến trạng thái nhận dạng, nơi nó bắt đầu quá trình nhận dạng.
  • Kết quả của quá trình được đưa ra thông qua bus dữ liệu với chân DEN (Data Enable) cao.
  • Dữ liệu 8 bit sau đó có thể được cung cấp cho Bộ vi điều khiển thông qua một bộ xử lý Giao diện nối tiếp hoặc được chốt đầu tiên bằng cách sử dụng IC chốt 74HC573.
  • Vi điều khiển được giao diện với một màn hình LCD và được lập trình để từ tương ứng được hiển thị trên màn hình.

Biện pháp phòng ngừa duy nhất cần được thực hiện là không sử dụng từ đồng âm (những từ có âm thanh tương tự) và cũng cần chú ý đến sự kích thích trong giọng nói.

Vì vậy, đây là tất cả cách hệ thống nhận dạng giọng nói cơ bản làm. Mọi thông tin đầu vào đều được hoan nghênh để được thêm vào.

Tín dụng hình ảnh

  • Hệ thống nhận dạng giọng nói của Gstatic
  • Thao tác dạng sóng giọng nói bằng Dadisp

Các thành phần của Hệ thống nhận dạng giọng nói theo Giới thiệu về Nhận dạng giọng nói và người nói - Richard D. Peacocke và Daryl H. Graf