電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 73|回復(fù): 0
收起左側(cè)

如何利用Whisper與ChatGPT打破語言障礙,掌握全球電子技術(shù)知識

[復(fù)制鏈接]

8

主題

8

帖子

166

積分

一級會員

Rank: 1

積分
166
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-12 20:24:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
在當(dāng)今這個信息爆炸的時代,全球電子行業(yè)的技術(shù)知識正以前所未有的速度增長,特別是有了像YouTube、Linkedin、EDI CON Online、ZOOM這樣的網(wǎng)絡(luò)平臺之后,人們可以很方便地跨越地理位置限制進行知識的傳播分享。除了我們中國地區(qū),世界各地的電子技術(shù)愛好者和行業(yè)專家每天也都在通過視頻分享他們的發(fā)現(xiàn)和創(chuàng)新以及工作上的心得。
互聯(lián)網(wǎng)打破了地域上的限制,然而,語言的障礙則成了一個巨大的挑戰(zhàn)。比如老wu所關(guān)注的Keysight、Zuken、Rohde&Schwarz等原廠的賬號,他們都是跨國性的公司,所以他們的技術(shù)分享視頻或者網(wǎng)絡(luò)研討會的回放錄像,就包括了多種語言、有英語、德語、日語或者韓語等等。
在以前,對于非中文及英文的視頻,老wu也就只能通過視頻里的PPT看圖猜意

。而現(xiàn)在,隨著AI技術(shù)的發(fā)展,我們可以使用先進的技術(shù)工具來幫助我們跨越語言障礙。Whisper,由OpenAI開發(fā)的一款強大的語音識別系統(tǒng),能夠?qū)⑦@些視頻的語音內(nèi)容轉(zhuǎn)換成文字,并且支持多達99種語言的識別和翻譯。這意味著,無論視頻的原始語言是什么,我們都能夠通過Whisper生成準(zhǔn)確的字幕。
生成字幕后,我們可以進一步利用像ChatGPT這樣的人工智能翻譯服務(wù),將這些多語言的字幕翻譯成中文。這樣,我們就能夠跨越語言上的障礙,更容易地理解外語視頻中的內(nèi)容,從而學(xué)習(xí)到全球的電子技術(shù)分享知識。
在ChatGPT進化到ChatGPT 4o大語言模型之后,對于視頻里給出的PPT或者其他信息,我們也可以直接截屏,然后把截圖直接扔給ChatGPT 4o提取其中的文字并整理翻譯為中文。甚至還可以更懶一點,可以先讓ChatGPT去YouTube里對視頻做中文的總結(jié),如果覺得視頻內(nèi)容合適,再進行全面的字幕提取并進行字幕的翻譯和回放,有了中文字幕,甚至可以將視頻和中文字幕扔到剪映軟件里,再選一個你喜歡的蘿莉音進行中文配音,轉(zhuǎn)換成中文蘿莉音視頻內(nèi)容  

。
如果你有一塊性能不錯的CUDA顯卡,Whisper結(jié)合GPU進行實時字幕轉(zhuǎn)譯也是可以的,這樣即使是參加國外的實時網(wǎng)絡(luò)研討會或者在線課程也不成問題了。
什么是 WhisperWhisper 是由 OpenAI 開發(fā)的一款先進的語音識別系統(tǒng),它不僅能夠進行語音轉(zhuǎn)寫,還能在多種語言之間進行翻譯。這款模型以其高準(zhǔn)確率和多語言支持而著稱,特別擅長處理不同口音和復(fù)雜嘈雜的音頻環(huán)境。Whisper 模型采用了編碼器-解碼器結(jié)構(gòu)的 Transformer 模型,通過大量多語言和多任務(wù)的監(jiān)督數(shù)據(jù)進行訓(xùn)練,使其在英語語音識別上達到了接近人類水平的魯棒性和準(zhǔn)確性。
Whisper 模型的訓(xùn)練數(shù)據(jù)集非常龐大,包含了68萬小時的多語言音頻,涵蓋了98種不同的語言。這種大規(guī)模的訓(xùn)練數(shù)據(jù)使得 Whisper 能夠很好地應(yīng)對口音、背景噪音和技術(shù)術(shù)語等挑戰(zhàn)。此外,Whisper 還具備多任務(wù)處理能力,除了語音識別,還能執(zhí)行語音翻譯和語言識別等任務(wù)。
如何在 Windows 上安裝并使用 GPU加速的 WhisperWhisper 模型是基于深度神經(jīng)網(wǎng)絡(luò)的,而深度學(xué)習(xí)模型訓(xùn)練和推理需要處理大量的矩陣計算。GPU 擅長進行大規(guī)模的并行計算,能夠同時處理大量的計算任務(wù),相比于 CPU 的串行處理方式,GPU 可以大幅加速模型的推理速度。在使用Whisper 的大型模型(如 Whisper 的 large 語言模型)時,這種并行計算優(yōu)勢尤為明顯。
在老wu的I9 9900K+A4000顯卡配置的電腦上,同一份視頻,使用Whisper 的 Large V3模型的情況下,GPU會比使用CPU快上5倍左右。所以,如果你有一張顯存在12GB( Large V3需要10GB左右的顯存)以上的N卡,建議使用GPU來加速Whisper。
如果你已經(jīng)可以訪問ChatGPT 4o大語言模型了,那你就直接問ChatGPT:“如何在windows系統(tǒng)中安裝Whisper并啟用CUDA GPU進行語音識別”,老wu下邊的安裝方法也是在ChatGPT 4o上問來的( ̄▽ ̄)”,老wu在自己的電腦上親測過沒有問題,下邊附上相關(guān)操作步驟:
1. 安裝Python環(huán)境確保你的系統(tǒng)上安裝了Python 3.8或更高版本。如果沒有,請從Python官方網(wǎng)站:https://www.python.org/downloads/下載安裝。
安裝后在命令行中運行以下命令檢查是否正確安裝了Python:
python --version
2. 創(chuàng)建虛擬環(huán)境建議為Whisper創(chuàng)建一個虛擬環(huán)境,方便管理依賴庫。
打開命令提示符,運行以下命令來創(chuàng)建并激活虛擬環(huán)境:
python -m venv whisper_env
whisper_env\Scripts\activate
3. 安裝CUDA和cuDNN要啟用GPU支持,你需要確保系統(tǒng)已安裝NVIDIA的CUDA Toolkit和cuDNN庫。
3.1 安裝CUDA Toolkit從NVIDIA官方CUDA下載頁面 https://developer.nvidia.com/cuda-downloads下載并安裝與您的GPU和系統(tǒng)版本匹配的CUDA Toolkit(建議使用11.7或更高版本)。
3.2 安裝cuDNN從NVIDIA cuDNN頁面 https://developer.nvidia.com/cudnn下載cuDNN庫,解壓后將 bin, include, lib 文件夾的內(nèi)容復(fù)制到CUDA安裝目錄中(通常在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.x)。
4. 安裝PyTorchWhisper使用PyTorch作為其深度學(xué)習(xí)框架。要啟用CUDA加速,你需要安裝支持GPU的PyTorch版本。
在虛擬環(huán)境中運行以下命令來安裝PyTorch(包括CUDA支持):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
這個命令假設(shè)你安裝了CUDA 11.7。如果使用其他版本的CUDA,請根據(jù)PyTorch的官方安裝頁面選擇相應(yīng)的命令。
5. 安裝Whisper在虛擬環(huán)境中運行以下命令來安裝Whisper:
pip install git+https://github.com/openai/whisper.git
ps:如果以上的pip命令執(zhí)行失敗,提示網(wǎng)絡(luò)連接的問題,需要先為windows的控制臺設(shè)置一下代理,參見老wu博客里的這篇文章:
https://www.mr-wu.cn/windows-cmd-set-http-proxy/
6.安裝FFMPEG在Windows系統(tǒng)中安裝FFmpeg可以通過以下步驟來完成:
6.1. 下載FFmpeg首先,從FFmpeg的官方網(wǎng)站下載FFmpeg的Windows版本:
訪問FFmpeg的官方網(wǎng)站:https://ffmpeg.org/download.html
選擇“Windows”部分,點擊其中的鏈接進入FFmpeg Builds頁面。
在該頁面下,找到“Release builds”部分,下載最新的ffmpeg-release-essentials.zip壓縮包。
6.2. 解壓FFmpeg下載完成后,將ffmpeg-release-essentials.zip解壓縮到你想要存儲的目錄。推薦將其解壓到C:\ffmpeg文件夾中,以方便管理。
6.3. 配置系統(tǒng)環(huán)境變量為了在命令行或腳本中全局使用FFmpeg,需要將FFmpeg的路徑添加到系統(tǒng)環(huán)境變量中。
6.3.1 打開環(huán)境變量設(shè)置右鍵單擊“此電腦”或“我的電腦”,選擇“屬性”。
在左側(cè)菜單中選擇“高級系統(tǒng)設(shè)置”。
點擊“環(huán)境變量”按鈕。
6.3.2 添加FFmpeg到系統(tǒng)路徑在“系統(tǒng)變量”部分找到并選擇Path,然后點擊“編輯”。
在彈出的對話框中點擊“新建”,然后添加FFmpeg的bin目錄路徑。例如:
C:\ffmpeg\bin
6.3.3 保存設(shè)置點擊“確定”保存所有更改,關(guān)閉所有窗口。
6.3.4. 驗證安裝完成環(huán)境變量配置后,打開命令提示符(cmd),并輸入以下命令來驗證FFmpeg是否已成功安裝:
ffmpeg -version
如果安裝成功,你將看到FFmpeg的版本信息。
6.3.5. 配合Python使用如果你打算在Python項目中使用FFmpeg,建議安裝一個庫來方便與FFmpeg進行交互,比如ffmpeg-python。可以使用以下命令安裝:
pip install ffmpeg-python
7. 測試CUDA是否工作你可以通過如下代碼確認(rèn)PyTorch是否成功使用了GPU:
打開命令提示符(cmd),然后輸入whisper_env\Scripts\activate切換到Whisper虛擬環(huán)境,接著輸入python,進入python環(huán)境
在python環(huán)境中輸入以下代碼:
import torch
import whisper
# 檢查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else"cpu"
print(f"Using device: {device}")

如果輸出為True,則表明CUDA已成功啟用。
通過這些步驟,你應(yīng)該能夠在Windows系統(tǒng)上安裝并使用Whisper,同時啟用CUDA GPU來加速語音識別任務(wù)。
如果你沒有合適的N卡,只能用CPU運算的話,可以直接安裝使用整個buzz項目的安裝包,無需手動配置python環(huán)境,對新手更為友好些:
https://github.com/chidiwilliams/buzz/releases
使用ChatGPT翻譯為中文字幕Whisper本身是可以將非英文語音內(nèi)容直接翻譯為英文字幕的,但對直接翻譯輸出為中文語言的字幕支持得不夠好,老wu一般都是在Whisper里先生成視頻語言對應(yīng)的字幕,然后再扔給ChatGPT 4o整理翻譯為中文字幕。
當(dāng)然,ChatGPT 4o還可以翻譯外文文檔資料,使用了一段時間了,老wu覺得對英文、德文、日文、韓文的翻譯質(zhì)量都挺高的。
如何使用ChatGPT可以參考老wu之前的這篇文檔:
https://www.mr-wu.cn/how-to-register-for-chatgpt/
ps:距離老wu寫的《如何注冊O(shè)penAI賬號體驗ChatGPT》也有一段時間了,目前ChatGPT的ChatGPT 4o mini模型已經(jīng)可以免費使用,而且不需要境外的手機賬號接收短信驗證碼進行驗證了,只需搞定網(wǎng)絡(luò)訪問的問題即可。如果需要ChatGPT 4o 的付費模型,目前國內(nèi)也有一些不錯的ChatGPT Plus共享賬戶的購買平臺,10個人共享一個賬號,只需19.99元每月,如果使用頻率不高的情況下可以考慮購買這種共享的賬號,老wu也用了一段時間了,還是挺穩(wěn)的,缺點就是多人共享,你的提問會被其他人看到,還有就是會話次數(shù)會被別人消耗完而需要等待一個小時的冷卻時間。
回復(fù)

使用道具 舉報

發(fā)表回復(fù)

您需要登錄后才可以回帖 登錄 | 立即注冊

本版積分規(guī)則

關(guān)閉

站長推薦上一條 /1 下一條


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表