電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 191|回復(fù): 0
收起左側(cè)

如何利用Whisper與ChatGPT打破語(yǔ)言障礙,掌握全球電子技術(shù)知識(shí)

[復(fù)制鏈接]

11

主題

11

帖子

257

積分

一級(jí)會(huì)員

Rank: 1

積分
257
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2024-9-12 20:24:00 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
在當(dāng)今這個(gè)信息爆炸的時(shí)代,全球電子行業(yè)的技術(shù)知識(shí)正以前所未有的速度增長(zhǎng),特別是有了像YouTube、Linkedin、EDI CON Online、ZOOM這樣的網(wǎng)絡(luò)平臺(tái)之后,人們可以很方便地跨越地理位置限制進(jìn)行知識(shí)的傳播分享。除了我們中國(guó)地區(qū),世界各地的電子技術(shù)愛(ài)好者和行業(yè)專(zhuān)家每天也都在通過(guò)視頻分享他們的發(fā)現(xiàn)和創(chuàng)新以及工作上的心得。
互聯(lián)網(wǎng)打破了地域上的限制,然而,語(yǔ)言的障礙則成了一個(gè)巨大的挑戰(zhàn)。比如老wu所關(guān)注的Keysight、Zuken、Rohde&Schwarz等原廠的賬號(hào),他們都是跨國(guó)性的公司,所以他們的技術(shù)分享視頻或者網(wǎng)絡(luò)研討會(huì)的回放錄像,就包括了多種語(yǔ)言、有英語(yǔ)、德語(yǔ)、日語(yǔ)或者韓語(yǔ)等等。
在以前,對(duì)于非中文及英文的視頻,老wu也就只能通過(guò)視頻里的PPT看圖猜意

。而現(xiàn)在,隨著AI技術(shù)的發(fā)展,我們可以使用先進(jìn)的技術(shù)工具來(lái)幫助我們跨越語(yǔ)言障礙。Whisper,由OpenAI開(kāi)發(fā)的一款強(qiáng)大的語(yǔ)音識(shí)別系統(tǒng),能夠?qū)⑦@些視頻的語(yǔ)音內(nèi)容轉(zhuǎn)換成文字,并且支持多達(dá)99種語(yǔ)言的識(shí)別和翻譯。這意味著,無(wú)論視頻的原始語(yǔ)言是什么,我們都能夠通過(guò)Whisper生成準(zhǔn)確的字幕。
生成字幕后,我們可以進(jìn)一步利用像ChatGPT這樣的人工智能翻譯服務(wù),將這些多語(yǔ)言的字幕翻譯成中文。這樣,我們就能夠跨越語(yǔ)言上的障礙,更容易地理解外語(yǔ)視頻中的內(nèi)容,從而學(xué)習(xí)到全球的電子技術(shù)分享知識(shí)。
在ChatGPT進(jìn)化到ChatGPT 4o大語(yǔ)言模型之后,對(duì)于視頻里給出的PPT或者其他信息,我們也可以直接截屏,然后把截圖直接扔給ChatGPT 4o提取其中的文字并整理翻譯為中文。甚至還可以更懶一點(diǎn),可以先讓ChatGPT去YouTube里對(duì)視頻做中文的總結(jié),如果覺(jué)得視頻內(nèi)容合適,再進(jìn)行全面的字幕提取并進(jìn)行字幕的翻譯和回放,有了中文字幕,甚至可以將視頻和中文字幕扔到剪映軟件里,再選一個(gè)你喜歡的蘿莉音進(jìn)行中文配音,轉(zhuǎn)換成中文蘿莉音視頻內(nèi)容  

。
如果你有一塊性能不錯(cuò)的CUDA顯卡,Whisper結(jié)合GPU進(jìn)行實(shí)時(shí)字幕轉(zhuǎn)譯也是可以的,這樣即使是參加國(guó)外的實(shí)時(shí)網(wǎng)絡(luò)研討會(huì)或者在線課程也不成問(wèn)題了。
什么是 WhisperWhisper 是由 OpenAI 開(kāi)發(fā)的一款先進(jìn)的語(yǔ)音識(shí)別系統(tǒng),它不僅能夠進(jìn)行語(yǔ)音轉(zhuǎn)寫(xiě),還能在多種語(yǔ)言之間進(jìn)行翻譯。這款模型以其高準(zhǔn)確率和多語(yǔ)言支持而著稱(chēng),特別擅長(zhǎng)處理不同口音和復(fù)雜嘈雜的音頻環(huán)境。Whisper 模型采用了編碼器-解碼器結(jié)構(gòu)的 Transformer 模型,通過(guò)大量多語(yǔ)言和多任務(wù)的監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,使其在英語(yǔ)語(yǔ)音識(shí)別上達(dá)到了接近人類(lèi)水平的魯棒性和準(zhǔn)確性。
Whisper 模型的訓(xùn)練數(shù)據(jù)集非常龐大,包含了68萬(wàn)小時(shí)的多語(yǔ)言音頻,涵蓋了98種不同的語(yǔ)言。這種大規(guī)模的訓(xùn)練數(shù)據(jù)使得 Whisper 能夠很好地應(yīng)對(duì)口音、背景噪音和技術(shù)術(shù)語(yǔ)等挑戰(zhàn)。此外,Whisper 還具備多任務(wù)處理能力,除了語(yǔ)音識(shí)別,還能執(zhí)行語(yǔ)音翻譯和語(yǔ)言識(shí)別等任務(wù)。
如何在 Windows 上安裝并使用 GPU加速的 WhisperWhisper 模型是基于深度神經(jīng)網(wǎng)絡(luò)的,而深度學(xué)習(xí)模型訓(xùn)練和推理需要處理大量的矩陣計(jì)算。GPU 擅長(zhǎng)進(jìn)行大規(guī)模的并行計(jì)算,能夠同時(shí)處理大量的計(jì)算任務(wù),相比于 CPU 的串行處理方式,GPU 可以大幅加速模型的推理速度。在使用Whisper 的大型模型(如 Whisper 的 large 語(yǔ)言模型)時(shí),這種并行計(jì)算優(yōu)勢(shì)尤為明顯。
在老wu的I9 9900K+A4000顯卡配置的電腦上,同一份視頻,使用Whisper 的 Large V3模型的情況下,GPU會(huì)比使用CPU快上5倍左右。所以,如果你有一張顯存在12GB( Large V3需要10GB左右的顯存)以上的N卡,建議使用GPU來(lái)加速Whisper。
如果你已經(jīng)可以訪問(wèn)ChatGPT 4o大語(yǔ)言模型了,那你就直接問(wèn)ChatGPT:“如何在windows系統(tǒng)中安裝Whisper并啟用CUDA GPU進(jìn)行語(yǔ)音識(shí)別”,老wu下邊的安裝方法也是在ChatGPT 4o上問(wèn)來(lái)的( ̄▽?zhuān)?”,老wu在自己的電腦上親測(cè)過(guò)沒(méi)有問(wèn)題,下邊附上相關(guān)操作步驟:
1. 安裝Python環(huán)境確保你的系統(tǒng)上安裝了Python 3.8或更高版本。如果沒(méi)有,請(qǐng)從Python官方網(wǎng)站:https://www.python.org/downloads/下載安裝。
安裝后在命令行中運(yùn)行以下命令檢查是否正確安裝了Python:
python --version
2. 創(chuàng)建虛擬環(huán)境建議為Whisper創(chuàng)建一個(gè)虛擬環(huán)境,方便管理依賴(lài)庫(kù)。
打開(kāi)命令提示符,運(yùn)行以下命令來(lái)創(chuàng)建并激活虛擬環(huán)境:
python -m venv whisper_env
whisper_env\Scripts\activate
3. 安裝CUDA和cuDNN要啟用GPU支持,你需要確保系統(tǒng)已安裝NVIDIA的CUDA Toolkit和cuDNN庫(kù)。
3.1 安裝CUDA Toolkit從NVIDIA官方CUDA下載頁(yè)面 https://developer.nvidia.com/cuda-downloads下載并安裝與您的GPU和系統(tǒng)版本匹配的CUDA Toolkit(建議使用11.7或更高版本)。
3.2 安裝cuDNN從NVIDIA cuDNN頁(yè)面 https://developer.nvidia.com/cudnn下載cuDNN庫(kù),解壓后將 bin, include, lib 文件夾的內(nèi)容復(fù)制到CUDA安裝目錄中(通常在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.x)。
4. 安裝PyTorchWhisper使用PyTorch作為其深度學(xué)習(xí)框架。要啟用CUDA加速,你需要安裝支持GPU的PyTorch版本。
在虛擬環(huán)境中運(yùn)行以下命令來(lái)安裝PyTorch(包括CUDA支持):
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
這個(gè)命令假設(shè)你安裝了CUDA 11.7。如果使用其他版本的CUDA,請(qǐng)根據(jù)PyTorch的官方安裝頁(yè)面選擇相應(yīng)的命令。
5. 安裝Whisper在虛擬環(huán)境中運(yùn)行以下命令來(lái)安裝Whisper:
pip install git+https://github.com/openai/whisper.git
ps:如果以上的pip命令執(zhí)行失敗,提示網(wǎng)絡(luò)連接的問(wèn)題,需要先為windows的控制臺(tái)設(shè)置一下代理,參見(jiàn)老wu博客里的這篇文章:
https://www.mr-wu.cn/windows-cmd-set-http-proxy/
6.安裝FFMPEG在Windows系統(tǒng)中安裝FFmpeg可以通過(guò)以下步驟來(lái)完成:
6.1. 下載FFmpeg首先,從FFmpeg的官方網(wǎng)站下載FFmpeg的Windows版本:
訪問(wèn)FFmpeg的官方網(wǎng)站:https://ffmpeg.org/download.html
選擇“Windows”部分,點(diǎn)擊其中的鏈接進(jìn)入FFmpeg Builds頁(yè)面。
在該頁(yè)面下,找到“Release builds”部分,下載最新的ffmpeg-release-essentials.zip壓縮包。
6.2. 解壓FFmpeg下載完成后,將ffmpeg-release-essentials.zip解壓縮到你想要存儲(chǔ)的目錄。推薦將其解壓到C:\ffmpeg文件夾中,以方便管理。
6.3. 配置系統(tǒng)環(huán)境變量為了在命令行或腳本中全局使用FFmpeg,需要將FFmpeg的路徑添加到系統(tǒng)環(huán)境變量中。
6.3.1 打開(kāi)環(huán)境變量設(shè)置右鍵單擊“此電腦”或“我的電腦”,選擇“屬性”。
在左側(cè)菜單中選擇“高級(jí)系統(tǒng)設(shè)置”。
點(diǎn)擊“環(huán)境變量”按鈕。
6.3.2 添加FFmpeg到系統(tǒng)路徑在“系統(tǒng)變量”部分找到并選擇Path,然后點(diǎn)擊“編輯”。
在彈出的對(duì)話框中點(diǎn)擊“新建”,然后添加FFmpeg的bin目錄路徑。例如:
C:\ffmpeg\bin
6.3.3 保存設(shè)置點(diǎn)擊“確定”保存所有更改,關(guān)閉所有窗口。
6.3.4. 驗(yàn)證安裝完成環(huán)境變量配置后,打開(kāi)命令提示符(cmd),并輸入以下命令來(lái)驗(yàn)證FFmpeg是否已成功安裝:
ffmpeg -version
如果安裝成功,你將看到FFmpeg的版本信息。
6.3.5. 配合Python使用如果你打算在Python項(xiàng)目中使用FFmpeg,建議安裝一個(gè)庫(kù)來(lái)方便與FFmpeg進(jìn)行交互,比如ffmpeg-python?梢允褂靡韵旅畎惭b:
pip install ffmpeg-python
7. 測(cè)試CUDA是否工作你可以通過(guò)如下代碼確認(rèn)PyTorch是否成功使用了GPU:
打開(kāi)命令提示符(cmd),然后輸入whisper_env\Scripts\activate切換到Whisper虛擬環(huán)境,接著輸入python,進(jìn)入python環(huán)境
在python環(huán)境中輸入以下代碼:
import torch
import whisper
# 檢查CUDA是否可用
device = "cuda" if torch.cuda.is_available() else"cpu"
print(f"Using device: {device}")

如果輸出為T(mén)rue,則表明CUDA已成功啟用。
通過(guò)這些步驟,你應(yīng)該能夠在Windows系統(tǒng)上安裝并使用Whisper,同時(shí)啟用CUDA GPU來(lái)加速語(yǔ)音識(shí)別任務(wù)。
如果你沒(méi)有合適的N卡,只能用CPU運(yùn)算的話,可以直接安裝使用整個(gè)buzz項(xiàng)目的安裝包,無(wú)需手動(dòng)配置python環(huán)境,對(duì)新手更為友好些:
https://github.com/chidiwilliams/buzz/releases
使用ChatGPT翻譯為中文字幕Whisper本身是可以將非英文語(yǔ)音內(nèi)容直接翻譯為英文字幕的,但對(duì)直接翻譯輸出為中文語(yǔ)言的字幕支持得不夠好,老wu一般都是在Whisper里先生成視頻語(yǔ)言對(duì)應(yīng)的字幕,然后再扔給ChatGPT 4o整理翻譯為中文字幕。
當(dāng)然,ChatGPT 4o還可以翻譯外文文檔資料,使用了一段時(shí)間了,老wu覺(jué)得對(duì)英文、德文、日文、韓文的翻譯質(zhì)量都挺高的。
如何使用ChatGPT可以參考老wu之前的這篇文檔:
https://www.mr-wu.cn/how-to-register-for-chatgpt/
ps:距離老wu寫(xiě)的《如何注冊(cè)O(shè)penAI賬號(hào)體驗(yàn)ChatGPT》也有一段時(shí)間了,目前ChatGPT的ChatGPT 4o mini模型已經(jīng)可以免費(fèi)使用,而且不需要境外的手機(jī)賬號(hào)接收短信驗(yàn)證碼進(jìn)行驗(yàn)證了,只需搞定網(wǎng)絡(luò)訪問(wèn)的問(wèn)題即可。如果需要ChatGPT 4o 的付費(fèi)模型,目前國(guó)內(nèi)也有一些不錯(cuò)的ChatGPT Plus共享賬戶(hù)的購(gòu)買(mǎi)平臺(tái),10個(gè)人共享一個(gè)賬號(hào),只需19.99元每月,如果使用頻率不高的情況下可以考慮購(gòu)買(mǎi)這種共享的賬號(hào),老wu也用了一段時(shí)間了,還是挺穩(wěn)的,缺點(diǎn)就是多人共享,你的提問(wèn)會(huì)被其他人看到,還有就是會(huì)話次數(shù)會(huì)被別人消耗完而需要等待一個(gè)小時(shí)的冷卻時(shí)間。

發(fā)表回復(fù)

本版積分規(guī)則


聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表