2012/06/10

宮藤は私の妹です


ちょっと前にネットで話題になっていたが、Google翻訳で「yoshika is my sister」を英日翻訳すると「宮藤は私の妹です」と訳出される。

『ストライクウィッチーズ』というアニメに宮藤芳佳というキャラがいる。同作にはシスコンの気があるバルクホルンというキャラがいて、彼女は宮藤を自分の妹と重ねて見ているところがある。そういう度を過ぎた「お姉ちゃん」属性がネットでネタにされている。バルクホルンは「芳佳」ではなく「宮藤」と苗字で呼ぶため、「yoshika is my sister」に対する「宮藤は私の妹です」という翻訳は彼女のキャラを正しく反映した訳出になっているということで話題になった。

しかしこれどうやってんだ? まず大きく分類すると以下の2パターンしかない。

(1) Googleにアニオタがいて、翻訳ルールに個別に手を入れてる。
(2) 翻訳用の言語リソースをネットから自動でかき集めたら勝手にこうなった。

試してみたら「yoshika」と入れた時点でもう「宮藤」と訳出された。ということは(1)説は排除されるような気がする。「yoshika」という名前の人物は実在・非実在関わらず一定数いるはずで、それらがみんな「宮藤」になったら困るだろ。というか俺の祖母も「芳香(多分この字)」なんだよ。試してみたら「yoshika is my grand mother」が「宮藤は私の祖母です」になるじゃないか。誰だよそれ。あれか? 俺の祖母は本当は実の祖母ではなくて「宮藤よしか」という実の祖母が俺の知らないところにいて、Googleはその圧倒的情報量でもってその事実を把握してるってのか? ってそんなわけないだろ。

そうすると(2)か。このアニメは根強い人気があるので「yoshika」という音は「芳佳」でググられるケースが相対的に多いのだと思う。それを受けて「yoshika」に対する漢字は「芳佳」である確率が高いと判断できる。一方で「宮藤芳佳」という単語とそれがキャラクター名であるというメタデータもGoogle翻訳が使ってるコーパスにはあるだろ。だから「yoshika」→「芳佳」→「宮藤芳佳」→「宮藤」と出来るのはわかる。わかるが、そんなことする必要性がわからん。
コーパスでは「宮藤芳佳」は「芳佳」よりも「宮藤」と呼ばれる文例の方が多いのか? だとすると翻訳の過程でより「呼ばれやすそう」な呼び方に置換しているということか? いや、違うな「miyafuji is my sister.」は「芳佳は私の妹です」に訳出された。この推測が正しければ「宮藤は私の妹です」に訳出されないとダメだ。

同じような状態になる名前があるかどうか色々と試してみたが、見当たらない。というかそもそも作中で苗字と名前が同じような頻度で呼ばれるキャラというのがあまり思い当たらない。

Google翻訳は翻訳結果が間違ってた際に任意の値を正解として登録する機能があるが、それで誰かが「yoshika」に対して「宮藤」を登録して、その結果が全体にフィードバックされてるってオチじゃないだろうな? 

なんかそんな気すらしてきた。