Comment Acquia utilise le contenu comme données pour informer sa stratégie d'apprentissage machine

Au cours de l'année écoulée, peu de tendances se sont développées aussi rapidement que l'apprentissage par machine (ml) et l'intelligence artificielle (ai). Chez Acquia, nous utilisons des techniques de ml pour rendre les expériences numériques plus attrayantes. L'astuce est de comprendre comment vous pouvez utiliser le contenu comme des données. Plus nous comprenons sur nos utilisateurs et le contenu, les expériences plus engageants et fructueux seront. Cela peut sembler difficile, mais il existe une variété d'approches qui ont été développées par le domaine ml qui rendent cette stratégie possible.

Les données d'entreprise sont (relativement) de petites données

IBM essaie de se démarquer des goûts de Google, Facebook et Amazon en se concentrant sur «l'entreprise ai», contrairement à ce qu'il appelle «ai perception» ou parfois Snidely comme «chats et chiens. Ce qu'ils obtiennent à est que le apprentissage profond approches vanté par Google et d'autres, qui fonctionnent bien avec des quantités massives de données téléchargées par le grand public (par exemple, photos CAT), ne fonctionnent pas toujours pour les données de l'entreprise.

Acquia soutient une variété de clients d'entreprise et doit être intelligent au sujet de travailler avec de plus petites quantités de données. Il ya certaines techniques qui peuvent aider, tels que transfert d'apprentissage , peu-Shot apprentissage et Human-in-the-Loop Learning machine . Je vais vous expliquer ce qu'ils sont dans un moment, mais d'abord, de quel type de données parlons-nous même ici?

Jouer à nos forces

Il est souvent suggéré que les entreprises qui cherchent à faire usage de techniques d'apprentissage machine devrait commencer par les données qui les définit comme une entreprise et de travailler à partir de là. Chez Acquia, nous cherchons à fournir des fonctionnalités ml pour les produits qui sont utilisés par les clients couvrant une grande variété de domaines de données. Peu importe l'industrie, tous nos clients ont beaucoup de contenu. La bonne nouvelle est que nous pouvons traiter le contenu comme des données.

Cela signifie que les mots qui comportaient des messages blog, Articles de nouvelles ou description du produit doivent être compris par les machines. Le truc c'est que les machines ne comprennent pas les mots, elles ne comprennent que les nombres. Cela nous oblige à proposer des représentations numériques des mots qui fonctionneront en quelque sorte pour des tâches comme classer le contenu, fournir des recommandations de contenu similaire, identifier le contenu en double, etc.

Rester informé

Recevez le meilleur contenu sur le futur du marketing, les changements dans le secteur et les avis de nos experts.

Incorporation de mots

En 2003, Bengio et coll. proposé une idée ingénieuse pour apprendre les représentations de mots qui captent le sens sémantique. En 2013, une équipe de chercheurs de Google a rendu cela possible avec l'algorithme Word2Vec. Word2Vec et d'autres approches récentes (comme gant de Stanford) apprennent à partir de corpus massifs de texte, par exemple des millions d'articles Google nouvelles ou tous les wikipedia. Les représentations qu'ils apprennent après avoir dévoré tout ce texte sont des vecteurs numériques de, disons, 300 dimensions. Autrement dit, cela signifie que la représentation d'un seul mot est une longue liste de nombres. La beauté de celui-ci est que la relation mathématique entre ces vecteurs parvient à capturer la relation sémantique entre les mots. L'exemple classique donné est King-Man + femme = Queen.

Ce qui est vraiment chouette, c'est qu'une fois que ces représentations ont été apprises à partir d'un ensemble de données massive, ils peuvent ensuite être utilisés dans d'autres tâches comme la classification du contenu en catégories.

Apprenez du meilleur, transférez au reste.

La technique ml connu sous le nom transfert d'apprentissage est sur les connaissances acquises par la formation sur une tâche en cours de réutilisation dans la résolution d'une autre tâche. L'utilisation d'incrustations de mots pré-formés en est un exemple. Nous pouvons prendre les incrustations de mot formés par Google ou Stanford et les transférer pour une utilisation dans nos propres tâches.

Une de ces tâches est recommandations de contenu fondées sur la similitude . Si nous avons des représentations numériques de notre contenu qui capte la sémantique, alors nous avons automatiquement une mesure de similitude entre les morceaux de contenu. Même si deux éléments de contenu parlent exactement le même sujet, mais en utilisant des mots différents, ils seront toujours identifiés comme étant similaires en raison de la nature de ces représentations. Ce n'est pas le cas des approches traditionnelles pour représenter les mots comme des chiffres dans l'apprentissage par ordinateur parce que les chiffres en question étaient liés à des comptes de mots particuliers dans les documents.

Apprendre à partir de très peu d'exemples

Vous avez peut-être déjà entendu l'expression «les données sont le nouveau pétrole», cependant, quelqu'un a fait un pas de plus à la Conférence de l'IA 2017 O'Reilly's en proposant que «les données étiquetées sont la nouvelle «nouvelle huile». «Pour les tâches de classification, l'apprentissage à peu de tirs est une approche qui contraste avec les approches d'apprentissage approfondi standard, car l'apprentissage approfondi nécessite d'énormes quantités de données étiquetées.

La clé pour être en mesure d'apprendre de très peu d'exemples est d'avoir de grandes représentations de vos données. Pour cette raison, l'apprentissage de transfert et peu d'apprentissage de tir vont souvent main dans la main. Vous transférez les connaissances d'une tâche précédente et l'utilisez pour créer des représentations de vos données. Il suffit d'étiqueter un ou deux exemples, puis permet à tous les autres d'être étiquetés automatiquement. C'est notre approche de l'étiquetage automatisé de contenu.

'Human in the Loop'ML

Une solution au problème du manque de données de formation étiquetées est d'amener des humains à étiqueter vos données. C'est ce qu'on appelle Human-in-the-Loop (HitL) ML, un terme qui pourrait bien avoir été inventé par le fondateur d'une société appelée Crowdflower, qui se spécialise dans une approche de crowdsourcing à cette technique. Ils vont prendre vos données non étiquetées et amener les humains à étiqueter tout cela pour vous. Une autre entreprise, Mighty ai, se concentre spécifiquement sur les données de formation pour les véhicules autonomes. N'importe qui avec un iPhone peut gagner quelques centimes un aller en étiquetant des piétons, des poteaux de lampe, des voitures stationnées etc. dans les images.

Les humains peuvent être fait partie de la boucle dans d'autres, moins droites-Forward manières que l'étiquetage ensemble des ensembles d'entraînement pour alimenter dans des algorithmes de ML. Toute application ou service qui demande explicitement aux utilisateurs de rétroaction sous la forme d'évaluations-Netflix Movie ratings par exemple-peut être considéré comme employant HitL. La société Stitchfix, qui fournit un service de vêtements où ils envoient des clients un «correctif» régulier des Articles de vêtements sélectionnés par un styliste, obtient beaucoup de données initiales des utilisateurs en leur demandant de noter les styles à travers une série de photos. Plus les données qu'ils peuvent obtenir de leurs utilisateurs à l'avant, moins ils ont à déduire par le biais du comportement d'achat. Ceci est important pour le succès de leur service parce que sans HitL initiales "correctifs" serait une mauvaise chance d'être achetés. Les entreprises qui utilisent HitL comprennent que l'interface qu'ils présentent à l'homme dans leur boucle est d'une importance vitale.

Reconnaître où UX et Engineering jouent leur rôle

Dans la vague actuelle d'excitation sur ML, beaucoup de conseils sont offerts aux entreprises sur la façon d'incorporer ces techniques pour améliorer leur entreprise. Selon qui l'offre, le Conseil diffère grandement. Ceux dans les affaires de formation et de recrutement des scientifiques de données vous diront que vous avez besoin de beaucoup de scientifiques de données, alors que ceux dans l'entreprise de vente "machine learning As a service" (MLaaS) des solutions diront que vous n'avez pas besoin de scientifiques de données à tous. La réalité est bien sûr quelque part entre les deux.

Il est certainement important d'avoir des gens qui savent comment encadrer les problèmes de votre entreprise en tant que science des données ou des problèmes d'apprentissage machine et assurez-vous que les données nécessaires pour les résoudre sont disponibles. Il suffit d'obtenir vos ingénieurs pour alimenter des masses de données dans Amazon ou les MLaaS de Google ne va pas atteindre beaucoup. D'autre part, les scientifiques de données à eux seuls ne peuvent probablement pas tout faire. Si vous construisez un produit, seulement un ou deux scientifiques de données travaillant avec des ingénieurs et des professionnels d'UX seront beaucoup plus efficaces que 10 scientifiques de données. Le bon mélange dépend de ce que vous essayez d'accomplir

Chez Acquia, nous utilisons ML pour améliorer nos offres SaaS et avons construit une équipe axée spécifiquement sur ce domaine. Il comprend des scientifiques de données, des ingénieurs de données, des ingénieurs frontaux et des ingénieurs back-end. L'équipe travaille également en étroite collaboration avec notre équipe UX. Lorsque nous utilisons HitL, UX est absolument vital pour nous assurer que nous obtenons les données dont nous avons besoin pour soutenir nos algorithmes d'apprentissage pour les rendre aussi précis que possible. D'autres efforts n'impliquent pas un aspect de HitL mais exigent des ingénieurs habiles pour s'assurer que les services livrant des prédictions de ML sont performants et évolutifs.

Nous n'avons personne dans l'équipe avec un doctorat en intelligence artificielle ou machine learning. Peut-être, un jour nous le serons. Dans l'intervalle, nous avons des gens intelligents qui sont familiers avec les types de solutions que la recherche machine learning a développé (dont beaucoup sont disponibles dans les bibliothèques Open source) et les types de problèmes auxquels ils sont les mieux appliqués. Cette expertise, couplée à de solides compétences en ingénierie et en UX, est ce dont nous avons besoin pour exécuter notre stratégie ML. Si nous n'avions pas une stratégie bien pensée sur la façon de jouer à nos forces, utiliser des jeux de données accessibles au public et des bibliothèques Open source, et d'incorporer les autres fonctions techniques nécessaires dans nos efforts, un doctorat AI lutte pour ajouter de la valeur.