世界最高精度かつ高速での文字起こしと話者分離を同時に実現するAIソリューション ”Geniee Speech AI” を開発

議事録や通話記録などを各種システムに短時間で自動記録可能に JAPAN AI株式会社は、世界最高精度（※1）かつ高速（※2）の文字起こしを、話者を分離した状態で行える “Geniee Speech AI” を開発いたしました。Geniee Speech AIを様々なシステムと連携することで、これまで手入力もしくは自動でも時間がかかっていた様々な記録業務を自動化・効率化することが可能となります。 ※1：OpenAI公式の文字起こしシステム ”whisper large-v3” に準拠 ※2 : OpenAI公式の文字起こしシステム ”whisper large-v3” の18倍（当社調べ） 背景と課題 議事録のような会話を記録する作業は、自動化による工数削減が期待されています。しかし、文字起こしの精度に課題があり、まだ完全な自動化には至っていません。 他社が展開するAIソリューションには、高精度の文字起こしを実現しているものもありますが、誰がどの内容を話したのかが分かる状態（話者分離）にするには別のシステムを併用する必要があり、実用には高いレベルの技術や工数が求められます。 そのため、システムの実装や運用にコストがかかるだけでなく、データ処理に半日~1日かかるなど、実務面にも影響が出ておりました。 また、議事録だけでなく、SFAやMAのような『会話記録そのものが主目的ではないものの、記録することでより有効活用できるシステム』もまた記録の自動化が期待される場ではありますが、これらへの記録は基本的に会話メモの登録や動画ファイルの保存といった手動の手法が一般的であり、作業者の工数圧迫や、記録情報の正確性に課題があました。 Geniee Speech AIによって実現できること ① 処理時間の短縮で会話内容の即時確認が可能に。インフラコスト削減で実質負担を軽減 ※測定に用いた音声データはこちら（https://youtu.be/1CwitJu9cPs?feature=shared） Geniee Speech AIは、Open AI社が展開しているwhisper large-v3を利用しており、文字起こしの精度は世界最高です。 さらに、速度は独自技術によりwhisper large-v3の18倍を実現し、1時間程度の音声であれば、処理は数十秒で完了します。 これらの特徴により、会話の内容を即時確認し、より速い意思決定をすることが可能となりました。 また、一日に大量の音声を処理している企業は、処理時間にともなって膨大なインフラコストをかけていますが、Geniee Speech AIであれば、インフラコストとそれに伴う実質費用を軽減できます。 ② 自動での話者分離を実現 Geniee Speech AIでは、文字起こしから話者分離までを一気通貫で行うため、専用システムで話者分離の処理を実装する必要がありません。 これまでは、話者分離の実装に高い技術と工数を要しましたが、その点を気にすることなく、話者分離された会話を自動記録することが可能となりました。 ③ 連携により、様々なシステムへの会話の自動記録が可能に 文字起こしデータを様々なシステムにアウトプット可能 Geniee Speech AIは、様々なシステムと連携し、それぞれのシステムに話者分離した会話履歴を自動記録することを実現しました。 例えばSFA、MA、CRMなどは、記録の手間がかかることで社内浸透しづらいという課題を抱えていましたが、Geniee Speech AIと連携することで、記録作業を削減できます。 また、例えば電話の内容を正確にチェックしたい場合に、既存システムよりも高い精度と速い速度でCTIに記録させるといったことも可能となります。 今後の展望 開発不要で様々なシステムとの連携が可能となるよう、開発を進めてまいります。 JAPAN AI株式会社 JAPAN AIは「企業が1社に一つオリジナルのAIを持つ時代を創る。AIは働く人をサポートし、圧倒的な生産性を実現する。」というビジョンを掲げ、最新のAI技術を活用したプロダクトやサービス提供により、多様な業界での事業拡大や産業の発展に貢献していきます。U R L：https://japan-ai.co.jp/

世界最高精度かつ高速での文字起こしと話者分離を同時に実現するAIソリューション ”Geniee Speech AI” を開発

ガクイチNEWS

佐賀県立唐津南高等学校の生徒が佐賀県相知町で養蜂に挑戦...

ふるさと納税サイト「ふるさとチョイス」を運営するトラス...

カテゴリー