Ghi tiếng nói thành văn bản

Bạn tham dự một cuộc hội thảo quốc tế, trong đó các tham luận đều được ứng khẩu nói bằng tiếng Anh. Bạn có máy ghi âm để ghi lại lời nói của diễn giả đem về nhà nghe lại, nhưng quả thực tiếng Anh đối với bạn “đọc dễ hơn nghe”. Vậy thì thay vì nghe, tại sao bạn lại không đọc nhỉ! Thời buổi công nghệ thông tin phát triển này, việc chuyển lời thành chữ đâu có gì quá khó khăn. Chỉ cần có một máy tính mạnh (CPU Core Duo2 càng tốt), hệ điều hành Vista mới nhất, Microsoft Word mới nhất và card màn hình - âm thanh mạnh thì bạn có thể dễ dàng ghi thành file văn bản những gì nghe được, chẳng những đối với tiếng Anh mà còn cả với tiếng Trung và tiếng Nhật nữa (các ngôn ngữ khác, trong đó có tiếng Việt, sẽ được bổ sung trong thời gian sắp tới).

1. Chuẩn bị

Trước tiên, bạn cần có Microsoft Word, phiên bản đầy đủ và mới nhất là 2007. Nếu không có, bạn cũng có thể dùng lại Word 2003, tuy nhiên hiệu quả có thể sẽ không cao. Mở Word, vào Tools > Speech. Sau đó đưa đĩa cài đặt Microsoft Office vào, làm theo các hướng dẫn để đưa công cụ nhận diện ngôn ngữ vào. Nếu việc đưa công cụ này vào Word bị trở ngại thì có thể Microsoft Word đã bị lỗi, bạn cần uninstall rồi install lại nó. Sau đó, làm như trên để đưa công cụ này vào.

Nếu việc cài đặt thành công, một thanh công cụ sẽ xuất hiện trong Word hay trên desktop. Nếu bạn muốn ghi Anh văn thì không cần cài đặt gì thêm, nhưng nếu muốn ghi tiếng Trung hay tiếng Nhật, Hàn thì bạn cần có thêm công cụ dành cho các ngôn ngữ này, cách làm như sau:

Vào Start > Control Panel > Regional and Language Options > Languages, chọn Install files for East Asian languages > OK. Đưa đĩa CD Windows vào ổ đĩa > Apply. Sau khi cài xong, bạn bấm lên phím Details... > Add, chọn tiếng Nhật > OK > Apply. Làm tương tự để đưa tiếng Trung, tiếng Hàn vào máy.

Sau đó, quay trở lại thanh ngôn ngữ, ở phía ngoài cùng bên trái, có một phím chỉ ngôn ngữ, thường thì nó sẽ có tên là English (United States), đôi khi là Vietnamese hay chữ khác tùy việc bạn chọn ngôn ngữ mặc định trong Windows là gì. Nếu muốn ghi ngôn ngữ nào, bạn bấm vào phím này rồi chọn ngôn ngữ đó, ví dụ trong trường hợp này, tôi chọn tiếng Anh thì sẽ bấm vào mục English (United States).

2. Thiết lập tùy chọn

Sau đó, chuyển sang phía ngoài cùng bên phải, bạn sẽ thấy bộ phím mũi tên, bấm vào phím mũi tên di chuyển xuống, một pop-up hiện ra, bạn chọn hết tất cả các mục: Correction, Dictation, Voice Command, Speak Text, Pause Speaking, Speech Tools, Help và Settings...

Trong pop-up hiện ra, ở thẻ Settings, dưới ngôn ngữ bạn định ghi (Anh, Hoa, Nhật) tương ứng sẽ có một biểu tượng của cái micro và dòng chữ Speech Recognition, bấm lên nó rồi chọn Properties.

l Chọn:

- Show speech messages: hiển thị công cụ ghi nhận âm thanh.

- Automatically recognize new words in documents temporarily: Word có thể tự thêm các từ mới vào trong thư viện ngôn ngữ của nó nếu chưa có từ này trong đó.

- Save speech data with the document in supporting applications: bạn có thể lưu kết quả nhận dạng âm thanh của Word vào các ứng dụng khác khi cần.

- Automatically remove whitespace for punctuation: tự động bỏ các khoảng trắng khi chấm câu. Lựa chọn này giúp cho việc hiển thị kết quả bằng văn bản rõ ràng hơn, giúp bạn không phải chỉnh sửa gì nhiều đối với việc trình bày kết quả ấy.

- Playback original audio when correcting: phát lại âm thanh gốc của từ trong quá trình kiểm tra lỗi chính tả.

- Allow dictation when correction window is open: duy trì công cụ đọc chép khi công cụ sửa lỗi đang hoạt động.

- Enable commands in dictation mode: có thể can thiệp sửa ngay một từ nếu bạn cho rằng máy đã ghi nhận sai trong khi nó vẫn đang chuyển những âm khác.

l Bỏ (không chọn):

- Require high confidence for short words: để cho phép chương trình đoán các chữ mà âm thanh nghe không rõ ràng.

- Disable dictation while typing: để cho phép công cụ sửa lỗi hoạt động khi một chữ đang được chuyển từ “âm sang ngữ”.

Như vậy, với việc thiết lập như trên, bạn đã làm tới ba vòng nhận dạng từ. Thứ nhất là máy sẽ nghe rồi viết ra từ đó - công cụ chính tả hoạt động song song để sửa từ viết sai; Thứ hai là bạn cũng nghe và kiểm tra lại xem máy có viết đúng không, nếu sai bạn sẽ được quyền can thiệp để sửa lại và máy lại có quyền can thiệp vào nếu bạn... sửa không đúng; Thứ ba là máy sẽ kiểm tra lại tổng quát văn bản dựa trên các khung âm thanh từ gốc có sẵn trong máy để được văn bản nhận dạng sát nhất với đoạn âm thanh phát ra. Ba vòng hoạt động này đòi hỏi cấu hình máy phải khá mạnh. Bấm Apply để xác nhận chọn lựa.

l Bấm vào phím Voice command rồi chọn hết tất cả các mục trong cửa sổ hiện ra > OK. Bấm phím Advanced Speech, dòng Pronunciation Sensitivity, kéo thanh trượt về bên phải để đạt mức High trong khả năng phán đoán và có chấp nhận việc bạn sửa một từ mà nó đã nhận diện không. Nếu chọn mức Low, thì bạn sửa gì máy cũng đồng ý; nhưng với mức High, bạn sửa xong rồi, máy sẽ kiểm tra lại và nếu đúng nó mới chấp nhận. Do đó việc có được một văn bản đáng tin cậy sẽ đạt tỉ lệ cao hơn khi người và máy cùng làm việc độc lập với nhau (có lẽ đây là lần đầu tiên con người cùng hợp tác với máy để làm một việc trong tư thế ngang hàng, còn phần lớn các trường hợp khác là người chỉ huy máy, hay máy với người đối đầu - đấu cờ vua chẳng hạn).

l Trong Accuracy vs. Recognition Response Time bạn cũng kéo thanh trượt sang tận cùng bên phải để máy có thể nhận diện âm thanh với tốc độ nhanh nhất, đồng nghĩa với việc tốc độ ghi file sẽ chậm lại (bạn nên có RAM mạnh hay dung lượng ổ cứng lớn để làm bộ nhớ đệm cho máy). Nếu máy không có các cấu hình như yêu cầu về phần cứng, bạn có thể chia nhỏ file âm thanh ra thành từng đoạn nhỏ khoảng năm phút (nếu đoạn âm thanh gốc quá dài) để không gây ảnh hưởng đến khả năng làm việc của bộ công cụ này. Bấm OK > OK > OK > OK để xác nhận chọn lựa. Sau đó gõ chuột lên bốn phím Correction, Microphone, Voice Command và Dictation - các phím này sẽ nổi lên. Tắt Word đi. Bấm lên thanh ngôn ngữ, chọn Close the Language bar > OK để tắt nó đi.

3. Ghi ra văn bản

Hãy gắn micro và loa vào máy, rồi mở Microsoft Word lên - nên nhớ là một file Word mới chứ không phải là file đã có sẵn nội dung bên trong, và cũng nhớ chuyển ngôn ngữ của thanh công cụ sang tiếng Anh hay ngôn ngữ mà bạn sắp nghe, nếu quên theo kiểu bạn nghe tiếng Nhật chọn mặc định tiếng Anh thì coi chừng máy của bạn sẽ... “khóc” đấy (các chữ hiện ra sẽ toàn là hic.hic.hic). Bây giờ, bạn cho phát lại bài tham luận đã ghi âm lúc trước. Vào Tools > Speech để khởi động công cụ ngôn ngữ. Nếu khi đang phát mà trong khung trống của thanh ngôn ngữ chữ Dictating hiện ra thì có nghĩa là nó đang cố gắng chuyển ngữ cho phần lời nói đó (nếu là chữ Listening thì có nghĩa là microphone không thu hay phát được âm thanh). Nếu không có, hãy kiểm tra lại các phần thiết lập bên trên xem có sai sót gì không. Nên dùng headphone thì hiệu quả thu được sẽ cao nhất vì dùng loa sẽ gây ra tiếng ồn. Sau khi nghe xong, hãy quét chọn lại toàn bộ đoạn văn vừa hiện ra rồi bấm phím Speak để kiểm tra xem kết quả có đúng không và sửa lại những chỗ nhận diện sai. Bằng cách này, bạn cũng có thể ghi ra thành văn bản các bản tin phát thanh trực tuyến.

Với việc chuyển lời nói ra văn bản này, việc học Anh văn và ngoại ngữ nói chung của bạn sẽ dễ dàng và sống động hơn rất nhiều. Bạn cũng có thể xem các bản tin của Trung Quốc, Hàn Quốc hay Nhật Bản bằng chính ngôn ngữ của họ bằng cách dùng chương trình này để tạo các đoạn script và vào Google Translate http://www.google.com/translate_t để dịch chúng ra tiếng Anh.

Lưu ý: phần lớn các trường hợp không nhận diện được ngôn ngữ, chủ yếu là do bạn lựa chọn các ngôn ngữ không tương thích. Khi nghe tiếng Anh nhớ chọn ngôn ngữ mặc định là English (United States), tiếng Trung là Simplified Chinese, Traditional Chinese, Nhật là Japanese, và Hàn là Korean.

NGUYỄN TỬ CHÍNH LONG BẢO ỨNG

VIET ARROW

Luôn đồng hành cùng quý khách

Ghi tiếng nói thành văn bản