テキストを抽出する際、ページ内の位置や周辺要素の情報もあわせて保持します
翻訳精度を向上させる取り組み
Webサイトには単語単位の短いテキストが非常に多く、単純な機械翻訳では誤訳が多数発生します。Autolingualでは、Webサイトにおける翻訳精度を向上させるために以下の取り組みを行っています。
言語ごとの語順の違いに対応するために、テキストをブロック単位で翻訳します。
Google LLMが、ページ内の位置や前後関係をもとにテキスト翻訳を行います。
翻訳のパフォーマンス
細かなニュアンスを反映した翻訳
単語をそのまま置き換えるのではなく、表現の意図やニュアンスまで踏まえた翻訳を目指します。たとえば、商品紹介ページで使われる表現と、コーポレートサイトで使われる表現では、自然に伝わる言い回しが異なります。そうした差まで考慮することで、直訳感の少ない訳文に近づけます。
サイト文脈を踏まえた翻訳
同じ単語でも、サイトの種類によって意味が変わるケースがあります。たとえば「いくら」は、ECや価格案内のページでは “how much” に近く、食品や飲食の文脈では “salmon roe” を意味します。サイト全体のテーマやコンテンツの傾向を踏まえることで、こうした訳し分けの精度を高めます。
ページ内の位置や前後関係も考慮した翻訳
単語単体ではなく、ページ内でどこに置かれているか、前後にどんな文脈があるかも踏まえて翻訳を最適化します。たとえば「Home」が本文中なら「家」を意味することがありますが、ナビゲーション内では「ホーム」が自然です。また「火」も、曜日の文脈なら “Tuesday”、注意喚起や災害文脈なら “fire” と、前後関係によって適切な訳が変わります。