覚えたら書く

IT関係のデベロッパとして日々覚えたことを書き残したいです。twitter: @yyoshikaw

TensorFlow User Group #3 行ってきたよ

TensorFlow User Group #3に行ってきました。

今回は開催回数が奇数回だったので、TensorFlowの利用事例の発表がメインでした。

以下自分用のメモです


概要

  • 場所: Google ジャパン
  • 日時: 2017/2/22 19:00~


Retty流 「2200万ユーザさんを支える機械学習基盤」の作り方

Retty株式会社 樽石将人 氏

https://speakerdeck.com/taru0216/tfug-number-3-rettyliu-2200mo-yuzasanwozhi-eruji-jie-xue-xi-ji-pan-falsezuo-rifang-dockerbian

  • Rettyのサービス
    • 「人から探せる」グルメサービスを運営
    • 「この人のおすすめは自分に合ってそう」というのが直感的にわかるユーザ体験を作っている
  • グルメ情報に関する信頼性等向上の取り組み
    • 実名・顔写真公開による投稿
    • 投稿内容をリアルな友達・知人に見てもらう
    • 二次著作の許諾
  • Rettyのデータの種類と規模
    • 口コミ
    • 画像
    • 人の行動・ソーシャルグラフ
    • 店舗情報
  • Retty機械学習マシン
    • GPU付自作PCを全自動ネットインストールでセットアップ
    • ブラウザでも開発できます
    • Kubernets(Docker) + juju + MAAS
    • すべてのDockerイメージはコアDocker(retty2-runtime-core)から継承
    • KubernetsのDaemon Setで全マシンにデプロイ
    • Kubernetsはjuju & MAASでネット自動インストール


DeepLearningの自然言語処理への応用事例 -文字単位CNNによる口コミ分類-

Retty株式会社 氏原淳志 氏

  • 日本語の自然言語の処理の大きな壁。単語の切れ目がさっぱりわからない
    • 分かち書き(形態素解析)
    • これには辞書が必要。未知の単語には対応できない。
  • 自然言語処理でのDeep Learning
    • 画像は1pixel単位でCNNにかけてる。なら文字列も単語単位ではなく文字単位にCNNにかける
    • 文章を文字単位分割⇒UNICODEに変換⇒それぞれの文字N次元ベクトル⇒CNN
  • デートに使える店の口コミ
    • 焼き鳥店の口コミでも内容によって分類結果が大きく異なった
  • 教師作りのソルジャーは必要


SENSYにおける深層学習活用事例とTensorFlowの悩み相談

カラフル・ボード株式会社 武部雄一 氏

  • SENSY
    • SENSY=パーソナルAI
    • SENSYの位置づけ=特化型人工知能
  • SENSYを応用したtoBソリューション
    • AI技術提供
      • toCサービスで語りにした成果物を応用して企業へ提供・導入
  • SENSYにおける機械学習/深層学習の活用事例
    • 画像に対するカテゴリや雰囲気のタグ付け
    • 画像背景の透過
    • コーディネートの自動作成
  • 事例
    • 広告CVR予測 with TensorFlow
      • マーチャントとパートナーの特徴量作成にオートエンコーダーを利用。RBFNを用いてCVRの予測回帰モデルを作成
      • 今回の対象ではシグモイド関数を利用
    • ファッションアイテムの推薦最適化
      • ヒートマップは、画像特徴量をt-SNEで2次元に落とし込み、各画像の推定スコアを色で表現
      • CNNはChainer
      • 可視化されていると顧客との共通認識を持ちやすい
      • 今後、分散化による速度向上を目的にTensorFlow / Cloud ML に変えていく予定
  • Chainerで作った既存プロジェクト、TensorFlowでもやってみたいとは思うが各フレームワークの設計思想が異なりモデルの変換は絶望的
  • Chainerは実装しながらモデルを創れるのでミスを発見しやすい。比べてTensorFlowはミスや想定外箇所を特定しづらい
  • TensorFLowは小一時間で基本構成要素を理解できる


NNで広告配信のユーザー最適化をやってみた

GMOインターネット次世代システム研究室 勝田隼一郎 氏

  • AkaNe
    • 広告配信のルール⇒学習Model
    • Model候補
      • オーディエンス拡張
        • 特徴量の空間でclickするUserに近いclusterを見つけ、拡張Userとして配信ターゲットにする
        • 今回はこれは不採用
      • MLP
        • 配信履歴よりclickしたUserしてないUserに分類
        • これを教師データとしてMLP(多層パーセプトロン)で学習を行う
    • Embedding
      • スパースなデータを圧縮(Embedding)する必要があった
      • 大量データを扱うため、Apache SparkのMLibのALSを用いた
  • 実配信によるABテストで従来に比べてCTRが2倍に向上したことを確認できた



関連エントリ