R&D — Remote

Research Engineer (TTS/STT)

1,800万円 ~ 2,000万円

Full-time

About the Team

R&Dチームは、BluesのコアとなるAI技術の限界を押し広げることに情熱を注ぐ、研究者とエンジニアの集団です。「人間と区別がつかない自然な対話」を実現するため、音声合成、音声認識、自然言語処理の各分野で世界最先端の研究を行っています。論文発表だけでなく、実際のプロダクトとして数百万人に利用される技術を創り出すことに重きを置いています。

About the Role

「人間と区別がつかない」レベルの音声対話体験を実現するために、音声合成（TTS）および音声認識（STT/ASR）のコアエンジンを研究・開発するポジションです。 Bluesの競争力の源泉は、圧倒的な「応答速度」と「自然な表現力」にあります。最新の論文（ICASSP, Interspeech, NeurIPS等）を常にキャッチアップし、SOTA（State-of-the-Art）モデルを実装・検証するだけでなく、それを実際のプロダクトとして稼働させるための推論高速化、軽量化、安定化までを一気通貫で担います。世界中の研究者と競い合いながら、まだ世の中にない新しい音声体験を創り出す、極めてチャレンジングで創造的な役割です。

Responsibilities

次世代のEnd-to-End音声合成（TTS）および音声認識（STT/ASR）モデルのアーキテクチャ探索と研究開発
大規模かつ高品質な自社データセットの構築戦略立案と、データパイプラインの整備
PyTorch/TensorFlow等を用いたモデルの学習、評価、ファインチューニング
推論エンジンの極限までの高速化・低遅延化（量子化、蒸留、CUDAカーネル最適化、ONNX/TensorRT活用等）
リアルタイム音声対話におけるレイテンシ削減のためのアルゴリズム開発
感情認識、話者識別、環境音除去などの周辺技術の研究開発
最新の研究成果の論文発表や、OSSコミュニティへの貢献

Requirements

コンピュータサイエンス、機械学習、信号処理または関連分野における修士号・博士号、またはそれに準ずる実務経験
深層学習を用いた音声処理（TTS, ASR, VC等）の研究開発経験（3年以上）
PyTorch, TensorFlow, JAX等のフレームワークを用いた高度な実装スキル
最新の論文を読み解き、数式をコードに落とし込み、再現・改善できる能力
C++ / CUDA等を用いた低レイヤーの最適化に関する知識・経験
Gitを用いたチーム開発経験と、可読性の高いコードを書く能力

Nice to have

国際会議（ICASSP, Interspeech, NeurIPS, ICLR等）でのトップカンファレンス採択実績
大規模言語モデル（LLM）と音声モダリティの統合（Audio-LLM）に関する研究経験
エッジデバイス（モバイル、IoT）での推論最適化経験
Kaggle等のコンペティションでの上位入賞経験
Hugging Face等でのモデル公開や、主要OSSへのコントリビューション実績

Working Conditions

雇用形態

期間の定めなし（正社員）

試用期間

試用期間：3ヶ月（条件変更なし）

勤務時間

フレックスタイム制（コアタイムなし） ※標準労働時間：1日8時間

休日・休暇

完全週休2日制（土・日）、祝日年末年始休暇、有給休暇、慶弔休暇、リフレッシュ休暇

福利厚生

各種社会保険完備（健康・厚生年金・雇用・労災）交通費全額支給 PC・周辺機器支給書籍購入補助カンファレンス参加費補助

受動喫煙防止措置

屋内原則禁煙（喫煙室なし）

選考プロセス

書類選考 → 面接（2~3回） → オファー面談 ※オンライン実施可

募集者

合同会社Blues

About Blues

Bluesは、「音声コミュニケーションの未来を再定義する」ことをミッションに掲げるAIスタートアップです。私たちは、人間のように自然に対話し、感情を理解し、複雑なタスクを遂行できるAIエージェントを開発しています。

私たちの技術は、単なる効率化ツールではありません。人が本来注力すべき創造的な業務に集中できる世界を実現し、労働力不足という社会課題を解決するための鍵となると信じています。多様なバックグラウンドを持つプロフェッショナルが集まり、互いに刺激し合いながら、世界を変えるプロダクト作りに取り組んでいます。