プレスリリース
大規模言語モデルによる複数言語字幕対応 動画字幕生成プラットフォームを11月3日より提供開始
~動画コンテンツのユニバーサル・アクセスに向けて~
INISOFT Co.,Ltd.(東京都渋谷区渋谷2-7-14 VORT AOYAMA 401号室、代表取締役社長:Jaewung Lee、以下 INISOFT)は、Large Language Modes(LLM)を活用した動画(VoD)向けの複数言語対応の字幕生成機能「INI AI Subtitle agent for VoD」を開発し、2025年11月3日から提供を開始いたします。
「INISOFT」
【「INI AI Subtitle agent for VoD」開発の背景】
INISOFTは、ライブ配信プラットフォーム「INI Live Streaming Platform」にて、ショート動画や映像コンテンツにDRM(デジタル著作権管理)を提供しており、韓国エンターテインメント企業との協業として、オンラインコンサート専用プラットフォーム「Beyond LIVE(ビヨンドライブ: https://beyondlive.com/ )」と連携し、韓国を代表するK-POPアーティストの公演を世界中のファンに配信してまいりました。
ライブ配信に関しては、昨年発表したライブ音声からリアルタイムで多言語字幕を生成し配信を行う「INI AI Subtitle」を使い、世界中のK-POPファンに向けてINISOFTのAI Subtitle技術を活用した多言語字幕の提供を開始する予定です。また、アーティストとファンがリアルタイムで交流するファンプラットフォームのライブ配信機能においても、INISOFTのAI Subtitleを活用し、リアルタイムで字幕を生成・提供することで、世界中のファンが言語の壁を越えて即座にコミュニケーションを取ることが可能になります。
そして、ライブ向けの字幕生成機能をご覧になられた多くの方々から動画(VoD)への対応のご要望をいただいたことから、この度、多言語字幕サービスの拡大を目的として、ライブ向けAI字幕生成で培ったノウハウと、動画での運用を考慮した新しいUI/UX機能を実装した「INI AI Subtitle agent for VoD」を開発し、正式リリースすることになりました。

字幕編集画面

大規模言語モデルでの翻訳編集画面
(*)権利の都合により動画映像部分に加工をしてありますが、利用時は編集で利用可能な入力映像、配信映像が再生されます。
【「INI AI Subtitle agent for VoD」の特長】
1.言語設定および、用語集設定
動画で使われるオリジナルの言語および、配信時に用意する字幕の言語を複数設定可能です。現在対応している言語は、以下の19言語となります。
● 日本語
● 韓国語
● 英語
● 中国語(簡体字)
● 中国語(繁体字)
● インドネシア語
● ドイツ語
● スペイン語
● フランス語
● イタリア語
● ポーランド語
● ポルトガル語
● ベトナム語
● トルコ語
● ロシア語
● アラビア語
● ヒンディー語
● タイ語
● フィリピン語
また、人名など発話された音声から正しく変換されない可能性がある単語に関して、イベントごとの単語辞書(用語集)を作成、登録することで、AIによる誤認識、誤翻訳を防ぐことが可能です。

用語集画面
2.SPEECH to TEXTの選択
動画の音声から文字起こし(SPEECH to TEXT)を行うために使われる各種モデルには、言語や発話の方法によって得手不得手があります。本システムでは、複数のSTTモデルに対応しており、文字起こしをする際に使用するモデルをユーザが選択可能となっており、動画に最適な最も認識率のよいモデルを利用することが可能です。現在利用可能なモデルは以下の通りです。(今後の開発状況により変更される場合があります)
● Azure
● OpenAI
● Amazon
● daglo
● Tencent
● Whisper
● BytePlus
また、すでに動画の言語に対応した字幕データが存在する場合、その字幕データを取り込むことで文字起こし処理をスキップして、多言語字幕生成に進むことも可能です。
3.大規模言語モデル(Large Language Models)による翻訳
本システムでは、動画の種類や利用者の多様なニーズに対応するため、動画からの文字起こし(SPEECH to TEXT:STT)した結果に対する翻訳として、機械翻訳と大規模言語モデル(LLM)の翻訳を併用可能となっており、どちらの結果を利用するかはユーザが判断することが可能です。なお、文字起こしした結果に対する初期翻訳は機械翻訳が使用されます。
● 機械翻訳:ニュースやスポーツ中継など、文法に則った再現性の高い翻訳が必要な場合
● LLM翻訳:ドラマや映画など文脈や時代背景に沿ったより自然な翻訳結果が必要な場合

3.大規模言語モデル(Large Language Models)による翻訳
4.字幕の編集
文字起こしの結果および翻訳結果は、字幕編集画面においてさまざまな編集が可能となっております。
● マージ:二つの文章に分割されている字幕を一つに統合および、統合した結果を元に戻すことが可能
● 追加、コピー:ユーザの利便性のため、音声には存在しない内容を字幕として表示したい場合など、字幕データを追加したり、既存字幕をコピーすることで1つの文章を簡単に分割することが可能
● 削除:文字起こしで誤検出した内容や、演出の都合で字幕としては表示したくない場合、該当字幕を表示対象外とすることが可能
● 時刻合わせ:編集画面に表示される動画を、字幕を表示させたい位置に調整することで、字幕のタイムコードを簡単に設定可能
5.翻訳作業専用のユーザ追加とアクセス制限
翻訳作業を複数で担当する場合や外注している場合、システム内のデータアクセス範囲を制限する必要がありますが、本システムでは、管理者が編集者のアカウントを自由に作成でき、各編集用アカウントにコンテンツごとにアクセスの可否を設定が可能です。
6.ストレージ管理
本システムで文字起こし、翻訳を行う対象の動画は、システムが認識できるクラウド上のストレージにアップロードして使用することになりますが、このストレージについては、システムが提供するストレージ以外に、ユーザが用意したストレージを登録して利用することが可能です。なお、現在利用可能なストレージはAWS S3のみとなっております。
【「INI AI Subtitle agent」のシステム構成】

「INI AI Subtitle agent」のシステム構成

「INI AI Subtitle agent」の処理シーケンス
【Inter BEE 2025へ出展】
INISOFTは、Inter BEE 2025(メディア・ソリューション部門)に出展いたします。当日は、本発表でご紹介した「INI AI Subtitle agent for VoD」に対応した「INI Live Streaming Platform」のデモ展示を行う予定ですので、ぜひお越しください。
日時: 2025年11月19日(水)~21日(金)
場所: 幕張メッセ(ブース:Hall 8の8305)
URL : https://www.inter-bee.com/ja/

InterBEE 2025
■会社概要
<本社>
商号 : INISOFT Co.,Ltd.
代表者: 代表取締役社長 Jaewung Lee
所在地: A-519, BundangSuji U-Tower, 767 Shinsu-ro, Suji-gu, Yongin-si,
Gyeonggi-do 16827 Korea
設立 : 2001年
URL : https://www.inisoft.tv/
<日本支店>
商号 : 株式会社アイエヌアイソフト 日本支店
所在地: 〒150-0002 東京都渋谷区渋谷2-7-14 VORT AOYAMA 401号室
本プレスリリースに記載されている会社名および商品・サービス名は、各社の登録商標または商標です。画像は開発中のものです。実際のご利用時とは異なる場合があります。