音视频转文字

识别音视频中的语音,并转为文字。