summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
authorVivien Kraus <vivien@planete-kraus.eu>2021-06-16 11:54:04 +0200
committerVivien Kraus <vivien@planete-kraus.eu>2021-06-16 12:26:37 +0200
commitabcc35e552cbd2ec455267704e082f45b28a780e (patch)
treedc5cb609eb0ab040a8b18f128db831511dee75c8
parent5b94603adae19c76216118f25e9687c4e8cf1f50 (diff)
Quelques corrections
-rw-r--r--manuscrit.html275
1 files changed, 163 insertions, 112 deletions
diff --git a/manuscrit.html b/manuscrit.html
index 24b5061..f78da6d 100644
--- a/manuscrit.html
+++ b/manuscrit.html
@@ -120,17 +120,17 @@
</p>
<p>
This thesis focuses on this fundamental framework. First, we
- begin by proposing a method for semi-supervised regression
- learning, that we challenge through a detailed experimental
+ begin by proposing a method for semi-supervised regression,
+ that we challenge through a detailed experimental
study. Thanks to this new method, we present a second
contribution, more fitted to the multi-label framework. We
also show its efficiency with a comparative study on
literature data sets. Furthermore, the problem dimension is
always a pain point of machine learning, and reducing it
sparks the interest of many researchers. Feature selection is
- one of the major tasks addressing this problems, and we
- propose to study it here in a complex framework: for
- semi-supervised, multi-label regression.
+ one of the major tasks addressing this problem, and we propose
+ to study it here in a complex framework: for semi-supervised,
+ multi-label regression.
</p>
<p>
Finally, an experimental validation is proposed on a real
@@ -171,11 +171,11 @@
d'images.
</p>
<p>
- Dans ce contexte, le principe général consiste à modéliser une
- fonction statistique qui nous permet de résoudre le problème
- abordé. Cette modélisation est jugée pertinente si elle permet
- de généraliser la décision à de nouvelles formes de données
- inconnues au modèle, a priori.
+ Dans ce contexte, le principe général consiste à effectuer une
+ modélisation statistique d’une fonction qui nous permet de
+ résoudre le problème abordé. Cette modélisation est jugée
+ pertinente si elle permet de généraliser la décision à de
+ nouvelles formes de données inconnues au modèle, a priori.
</p>
<p>
Dans le cadre de cette thèse, la modélisation que nous cherchons
@@ -198,19 +198,21 @@
<p>
Selon le type d'apprentissage envisagé, nous pouvons utiliser un
certain nombre d'algorithmes, c'est-à-dire une fonction qui à
- partir des données construit le modèle <h:eq>f</h:eq>. Dans le
- cadre qui nous intéresse ici, l'algorithme consiste à minimiser
- une fonction de coût, en cherchant le modèle parmi une certaine
- classe de fonctions. La fonction de coût accumule donc les
- erreurs commises sur l'ensemble du jeu de données. En la
- minimisant, l'objectif est d'obtenir le modèle le plus adapté à
- la distribution des données.
+ partir des données construit une approximation du
+ modèle <h:eq>f</h:eq>. Dans le cadre qui nous intéresse ici,
+ l'algorithme consiste à minimiser une fonction de coût, en
+ cherchant le modèle parmi une certaine classe de fonctions. La
+ fonction de coût accumule donc les erreurs commises sur
+ l'ensemble du jeu de données. En la minimisant, l'objectif est
+ d'obtenir le modèle le plus adapté à la distribution des
+ données.
</p>
<p>
Par ailleurs, en apprentissage automatique, l'extraction de
variables permet de synthétiser l'information contenue dans les
caractéristiques du problème, de façon à en obtenir de nouvelles
- où chaque observation est décrite différemment. Cela permet
+ où chaque observation est décrite différemment. L’utilisation de
+ ces nouvelles variables, souvent moins nombreuses, permet
d'effectuer une réduction de dimension. D'autre part, la
sélection de variables est un cas particulier, pour lequel
chaque variable obtenue est une variable de description de
@@ -262,30 +264,32 @@
Sur l'aspect applicatif, cette thèse s’inscrit dans le cadre
d’une convention CIFRE entre le laboratoire LIRIS et la société
Lizeo IT du groupe Lizeo <h:fn>Cette thèse fait l'objet d'une
- "Convention Industrielle de Formation par la Recherche" (CIFRE)
- proposée par l’Agence Nationale de la Recherche Technique
- (ANRT). Ce mode de financement consiste en un partenariat entre
- une entreprise, ici Lizeo IT du groupe Lizeo et une université
- (ici, l'université Claude Bernard Lyon 1 , UCBL).</h:fn>. En
+ "Convention Industrielle de Formation par la Recherche" (CIFRE)
+ proposée par l’Agence Nationale de la Recherche Technique
+ (ANRT). Ce mode de financement consiste en un partenariat entre
+ une entreprise, ici Lizeo IT du groupe Lizeo et une université
+ (ici, l'université Claude Bernard Lyon 1 , UCBL).</h:fn>. En
effet, dans le cadre de ses activités, l'entreprise récolte de
nombreux documents textuels issus de multiples sources et
- décrivant les qualités des pneumatiques. Chacune de ces
- caractéristiques représente un score d'appréciation continu
- (sous forme d'une note) : ce sont donc des variables cible,
- réelles. La connaissance extraite de ces données d'appréciation
- sont d'une très grande importance pour les manufacturiers et les
- distributeurs, mais l'annotation manuelle est très délicate,
- puisqu'elle requiert des connaissances vis-à-vis des produits,
- et coûteuse puisqu'elle doit s'effectuer sur plusieurs critères
- différents. Par conséquent, l'apprentissage doit s'inscrire
- dans le cadre semi-supervisé pour la régression multi-labels.
+ décrivant les qualités des pneumatiques, à travers un certain
+ nombre de caractéristiques étudiées pour les pneumatiques.
+ Chacune de ces caractéristiques représente un score
+ d'appréciation continu (sous forme d'une note) : ce sont donc
+ des variables cible, réelles. La connaissance extraite de ces
+ données d'appréciation sont d'une très grande importance pour
+ les manufacturiers et les distributeurs, mais l'annotation
+ manuelle est très délicate, puisqu'elle requiert des
+ connaissances vis-à-vis des produits, et coûteuse puisqu'elle
+ doit s'effectuer sur plusieurs critères différents. Par
+ conséquent, l'apprentissage doit s'inscrire dans le cadre
+ semi-supervisé pour la régression multi-labels.
</p>
<h2>Contributions</h2>
<p>
Tout d'abord, nous avons commencé à aborder le problème de la
régression dans le cadre mono-label. Pour ce faire, nous nous
sommes fondés sur deux algorithmes représentatifs de l'état de
- l'art : <emph>SSSL</emph> (Simple algorithm for Semi-supevised
+ l'art : <emph>SSSL</emph> (Simple algorithm for Semi-supervised
Learning, <h:cite href="ji_simple_2012"/>) et celui de la
régularisation Laplacienne
<h:cite href="belkin_manifold_2006"/>. <emph>SSSL</emph>
@@ -293,7 +297,7 @@
données ; nous proposons de reprendre ce changement d'espace et
d'apporter une régularisation Laplacienne à la régression, pour
obtenir l'algorithme <emph>Laplacian-regularized Simple
- Semi-Supervised Learning</emph>, ou <emph>LapS3L</emph>.
+ Semi-Supervised Learning</emph>, ou <emph>LapS3L</emph>.
</p>
<p>
Nous avons proposé par la suite une adaptation
@@ -424,8 +428,8 @@
d'adjacence du graphe des individus ;</li>
<li><h:eq>M_m \in \mathbb{R}^{m, m}</h:eq> : la matrice
d'adjacence du graphe des labels ;</li>
- <li><h:eq>P, Q</h:eq> : deux matrices décomposant le
- modèle <h:eq>W = P + Q</h:eq> ou <h:eq>W = P Q</h:eq> ;</li>
+ <li><h:eq>P, Q</h:eq> : deux matrices décomposant un modèle <h:eq>W</h:eq>,
+ <h:eq>W = P + Q</h:eq> ou <h:eq>W = P Q</h:eq> ;</li>
<li><h:eq>\mathcal{R}</h:eq> : lorsqu'une régularisation
quelconque s'applique sur un modèle <h:eq>W</h:eq>, nous la
noterons <h:eq>\mathcal{R} (W)</h:eq> ;</li>
@@ -444,11 +448,11 @@
apprentissage multi-labels ;</li>
<li><h:eq>y \in \mathbb{R}^{n_l}</h:eq> : le vecteur de labels
(pour de la régression mono-label) ;</li>
- <li><h:eq>Y \in \mathbb{R}^{n, m}</h:eq> : la matrice de
- labels. De dimension <h:eq>N \times m</h:eq>, elle contient des
- lignes de valeur non spécifiée pour les individus non
- labellisés. De dimension <h:eq>n_l \times m</h:eq>, il ne s'agit
- que des individus labellisés ;</li>
+ <li><h:eq>Y \in \mathbb{R}^{n, m}</h:eq> : la matrice de labels,
+ de dimension <h:eq>N \times m</h:eq>. Elle contient des lignes
+ de valeur non spécifiée pour les individus non labellisés. De
+ dimension <h:eq>n_l \times m</h:eq>, il ne s'agit que des
+ individus labellisés ;</li>
<li><h:eq>\hat Y \in \mathbb{R}^{n_t, m}</h:eq> : la sortie du
modèle pour la prédiction des labels d'un ensemble
de <h:eq>n_t</h:eq> individus ;</li>
@@ -495,9 +499,10 @@
constante de Lipschitz de la fonction de gradient vis-à-vis
de <h:eq>W</h:eq>, <h:eq>V</h:eq> et <h:eq>B</h:eq> ;</li>
<li><h:eq>\mathcal{C}</h:eq> : un cluster ;</li>
- <li><h:eq>f, h</h:eq> : une fonction de prédiction, prend en
- entrée un individu ou un ensemble d'individus et retourne les
- valeurs de tous les labels pour ces individus ;</li>
+ <li><h:eq>f</h:eq>, ou <h:eq>h</h:eq> : une fonction de
+ prédiction, prend en entrée un individu ou un ensemble
+ d'individus et retourne les valeurs de tous les labels pour
+ ces individus ;</li>
<li><h:eq>i</h:eq> : indice d'itération d'individu ;</li>
<li><h:eq>I</h:eq> : la matrice identité ;</li>
<li><h:eq>j</h:eq> : indice d'itération de variables ;</li>
@@ -526,6 +531,11 @@
l'ensemble d'apprentissage ;</li>
<li><h:eq>{x_l}_i,\quad i = \{1 ... n_l\}</h:eq> : un individu
labellisé de l'ensemble d'apprentissage ;</li>
+ <li><h:eq>\hat y_i</h:eq> désigne la prédiction mono-label d’un
+ individu de test <h:eq>i</h:eq> ;</li>
+ <li><h:eq>\hat Y_{i,k}</h:eq> désigne la prédiction d’un
+ individu de test <h:eq>i</h:eq> pour un
+ label <h:eq>k</h:eq> ;</li>
<li><h:eq>z</h:eq> : le vecteur de label pour SSSL ;</li>
<li><h:eq>\hat z</h:eq> : la prédiction pour SSSL.</li>
</ul>
@@ -539,22 +549,23 @@
</p>
<ul>
<li>la norme de Minkowski, pour un
- indice <h:eq>p</h:eq> : <h:eq>\left\|x\right\|_{p} =
+ indice <h:eq>p</h:eq> : <h:eq>\left\|x_i\right\|_{p} =
\left(\sum_{i = 1}^n \left|x\right|^p\right)^{\frac 1
p}</h:eq> ;</li>
<li>la norme <h:eq>l_2</h:eq>, cas particulier pour <h:eq>p =
2</h:eq> : <h:eq>\left\|x\right\|_{2} = \sqrt{\sum_{i = 1}^n
- \left|x\right|^2}</h:eq> ;</li>
+ \left|x_i\right|^2}</h:eq> ;</li>
<li>la norme <h:eq>l_1</h:eq>, autre cas particulier
pour <h:eq>p = 1</h:eq> : <h:eq>\left\|x\right\|_1 = \sum_{i =
- 1}^n \left|x\right|</h:eq> ;</li>
+ 1}^n \left|x_i\right|</h:eq> ;</li>
<li>la norme matricielle <h:eq>l_{p, q}</h:eq> pour deux indices
de Minkowski, est la norme <h:eq>q</h:eq> du vecteur constitué
des normes <h:eq>p</h:eq> de chacune des lignes de la
matrice ;</li>
- <li>la norme <h:eq>l_{2, 1}</h:eq> s'écrit
- donc : <h:eq>\left\|W\right\|_{2, 1} = \sum_{j = 1} ^ d
- \left\|W_{j, .}\right\|_2</h:eq> ;</li>
+ <li>la norme <h:eq>l_{2, 1}</h:eq> s'écrit donc pour une
+ matrice <h:eq>W \in
+ \mathbb{R}^{d,m}</h:eq> : <h:eq>\left\|W\right\|_{2, 1} =
+ \sum_{j = 1} ^ d \left\|W_{j, .}\right\|_2</h:eq> ;</li>
<li>la norme <h:eq>l_{1, 1}</h:eq>
s'écrit : <h:eq>\left\|W\right\|_{1, 1} = \sum_{j = 1} ^ d
\left\|W_{j, .}\right\|_1</h:eq> ;</li>
@@ -854,9 +865,9 @@
</h:equation>
<p>
Cette matrice <h:eq>M</h:eq> est généralement rendue
- parcimonieuse (<emph>sparse</emph>), pour faciliter les calculs
- quand le nombre d'individus est très élevé. En ce sens, on
- affecte souvent à 0 la valeur de <h:eq>M_{ij}</h:eq>
+ parcimonieuse (<emph>sparse</emph>), pour faciliter
+ les calculs quand le nombre d'individus est très élevé. En ce
+ sens, on affecte souvent à 0 la valeur de <h:eq>M_{ij}</h:eq>
si <h:eq>i</h:eq> et <h:eq>j</h:eq> sont trop éloignés,
c'est-à-dire si <h:eq>x_i</h:eq> n'est pas un des <h:eq>k</h:eq>
plus proches voisins de <h:eq>x_j</h:eq> et
@@ -1350,9 +1361,9 @@
</li>
<li>
Effectuer la prédiction pour l'ensemble non labellisé :
- prédire <h:eq>\hat Y_1</h:eq> à partir de <h:eq>X1</h:eq> avec
- le classifieur <h:eq>h_1</h:eq>, et <h:eq>\hat Y_2</h:eq> à
- partir de <h:eq>X2</h:eq> avec le
+ prédire <h:eq>\hat Y_1</h:eq> à partir de <h:eq>X_1</h:eq>
+ avec le classifieur <h:eq>h_1</h:eq>, et <h:eq>\hat Y_2</h:eq>
+ à partir de <h:eq>X_2</h:eq> avec le
classifieur <h:eq>h_2</h:eq>. Calculer également la confiance
dans la prédiction pour les deux algorithmes ;
</li>
@@ -1514,7 +1525,7 @@
y_j\right)^2} {2 \sigma^2}\right)
</h:equation>
<p>
- Ce graphe peut aussi être rendu <emph>sparse</emph> en ne
+ Ce graphe peut aussi être rendu <emph>éparse</emph> en ne
sélectionnant que les arêtes les plus fortes. Le score
semi-supervisé consiste donc à combiner ces deux formulations
pour obtenir le graphe suivant :
@@ -1609,7 +1620,7 @@
</p>
<ul>
<li>
- la <emph>RMSE</emph>, pour <emph>root of mean of squared
+ la <emph>RMSE</emph>, pour <emph>root-mean-squared
error</emph>, i.e. la racine de l'erreur quadratique moyenne ;
</li>
<li>
@@ -1619,7 +1630,7 @@
<li>
les métriques relatives : <emph>RRSE</emph> pour <emph>root of
relative squared error</emph>, i.e. racine de l'erreur
- quadratique relative, et <emph>rae</emph> pour <emph>root of
+ quadratique relative, et <emph>RAE</emph> pour <emph>root of
absolute error</emph>, i.e. racine de l'erreur absolue. Ces
métriques expriment le rapport entre la métrique associée à
la prédiction et la métrique associée à la prédiction
@@ -1767,7 +1778,7 @@
</h:mini>
<p>
La solution, en fonction de la valeur de <h:eq>\alpha</h:eq>,
- sera plus ou moins <emph>sparse</emph>, c'est-à-dire que le
+ sera plus ou moins éparse, c'est-à-dire que le
modèle <h:eq>w</h:eq> aura un certain nombre de composantes
entièrement nulles. Plus précisément, l'optimisation de ce
problème par descente de gradient proximal nous indique que la
@@ -1916,13 +1927,14 @@
clusters de labels, en supposant que les clusters sont
<h:eq>\left(\mathcal{C}_{l}\right)_{l = 1}^o</h:eq>, dont chacun
est de taille <h:eq>n_l</h:eq>, et l'indicatrice des clusters se
- nomme <h:eq>C \in \mathbb{R}^{k, m}</h:eq> telle que :
+ note <h:eq>C \in \mathbb{R}^{k, m}</h:eq> telle que pour un
+ label <h:eq>k</h:eq> et un cluster <h:eq>o</h:eq> :
</p>
<h:equation>
C_{k l} =
\begin{cases}
- \frac 1 {\sqrt{n_l}}, &amp; k \in \mathbb{\mathcal{C}_l} \\
- 0, &amp; k \notin \mathbb{\mathcal{C}_l}
+ \frac 1 {\sqrt{n_l}}, &amp; k \in \mathcal{C}_l \\
+ 0, &amp; k \notin \mathcal{C}_l
\end{cases}
</h:equation>
<p>
@@ -2014,9 +2026,9 @@
</h:mini>
<p>
Ce problème n'est pas convexe ; il peut cependant être relaxé
- pour être résolu itérativement, en utilisant plusieurs étapes
- (d'où son nom). À chaque itération, on détermine les lignes pour
- lesquelles la régularisation s'applique, en calculant la norme
+ pour être résolu itérativement, en utilisant plusieurs étapes. À
+ chaque itération, on détermine les lignes pour lesquelles la
+ régularisation s'applique, en calculant la norme
<h:eq>l_1</h:eq> du modèle à l'itération précédente. Puis on
résout le problème en appliquant la régularisation uniquement
sur ces lignes.
@@ -2119,14 +2131,15 @@
multi-labels. Par exemple, l'utilisation du score Laplacien
supervisé, utilisé dans <emph>SSLS</emph>
<h:cite href="doquire_graph_2013"/> permet de faire de la
- sélection de variables pour plusieurs labels, mais ne correspond
- pas vraiment au problème de sélection de variables
- multi-labels. En effet, la construction du graphe supervisé met
- en relation les individus de l'ensemble d'apprentissage dont la
- distance dans l'espace des labels est faible. La sélection de
- variables consiste donc en une sélection <emph>moyenne</emph>
- pour les différents labels, et elle n'est pas conçue pour
- traiter tous les labels en même temps.
+ sélection de variables, en s’appliquant sur un jeu de données à
+ plusieurs labels, mais ne correspond pas à notre problème de
+ sélection de variables multi-labels. En effet, la construction
+ du graphe supervisé met en relation les individus de l'ensemble
+ d'apprentissage dont la distance dans l'espace des labels est
+ faible. La sélection de variables consiste donc en une
+ sélection <emph>moyenne</emph> pour les différents labels, et
+ elle n'est pas conçue pour traiter tous les labels en même
+ temps.
</p>
<p>
De la même façon, une adaptation naïve du Lasso en multi-labels
@@ -2241,6 +2254,14 @@
l'algorithme MIFS choisit une optimisation alternée pour
l'optimisation.
</p>
+ <h2>Conclusion</h2>
+ <p>
+ Dans ce chapitre, nous avons présenté des méthodes de l’état de
+ l’art pour résoudre des problèmes d’apprentissage
+ semi-supervisés, et pour la régression multi-labels. Nous nous
+ sommes également intéressés au problème de sélection de
+ variables.
+ </p>
<h1 short="LapS3L">Régression Laplacienne semi-supervisée</h1>
<h:résumé-chapitre>
<p>
@@ -2318,8 +2339,8 @@
</p>
<ol>
<li>
- Extraction de variables non supervisée au moyen d'une k-PCA
- (<emph>kernel PCA</emph>, ACP avec un noyau) ;
+ Extraction de variables non supervisée au moyen d'une ACP à
+ noyau (<emph>k-PCA</emph>, <emph>kernel PCA</emph>) ;
</li>
<li>
Apprentissage supervisé dans ce nouvel espace.
@@ -2472,17 +2493,19 @@
faible.
</p>
<p>
- Puisque les lignes de <h:eq>X</h:eq> sont aussi les lignes
- de <h:eq>\mathcal{V}</h:eq>, il est possible de ne conserver que
- les lignes correspondant aux individus labellisés. On obtient
- ainsi une sous-matrice <h:eq>X_l \in \mathbb{R}^{n, s}</h:eq>.
+ Puisque les lignes de <h:eq>X</h:eq> sont aussi les lignes de la
+ matrice de données dans l’espace
+ original, <h:eq>\mathcal{V}</h:eq>, il est possible de ne
+ conserver que les lignes correspondant aux individus
+ labellisés. On obtient ainsi une sous-matrice <h:eq>X_l \in
+ \mathbb{R}^{n, s}</h:eq>.
</p>
<h3>Régression régularisée</h3>
<p>
Dans la deuxième partie de l'algorithme, l'implémentation
consiste à effectuer une régression simple à partir de ces
- nouvelles variables. On obtient donc une liste de <h:eq>s</h:eq>
- coefficients, <h:eq>w</h:eq>.
+ nouvelles variables. On obtient donc une liste de
+ coefficients, <h:eq>w</h:eq>, de dimension <h:eq>s</h:eq>.
</p>
<h:mini id="reg-sssl">
<h:variables>w \in \mathbb{R}^s</h:variables>
@@ -2556,6 +2579,23 @@
<h:ref href="#algorithme-laps3l-predict"/> décrit la fonction de
prédiction.
</p>
+ <p>
+ Le problème de minimisation de la fonction objectif,
+ <h:ref href="#reg-laps3l"/>, admet une solution analytique
+ <h:cite href="chapelle_semi-supervised_2006"/> :
+ </p>
+ <p>
+ La partie déterminante de la complexité de l’algorithme réside
+ dans la décomposition en valeurs propres et vecteurs propres de
+ la matrice de noyau, de dimension <h:eq>N \times N</h:eq>. Comme
+ nous ne nous intéressons qu’aux valeurs propres les plus grandes
+ en valeur absolue de cette matrice symétrique réelle, nous
+ pouvons appliquer un algorithme itératif
+ <h:cite href="arpack"/>.
+ </p>
+ <h:equation>
+ W \gets \left[X_l' X_l + \alpha I + \beta X' L X\right]^{-1}X_l' Y
+ </h:equation>
<h:algorithm id="algorithme-laps3l-train">
<alg:algorithmic>
<alg:donnée><h:eq>\mathcal{V} \in \mathbb{R}^{N, d}</h:eq></alg:donnée>
@@ -2661,7 +2701,7 @@
assurance pour une caravane. Là encore, la cible est
déséquilibrée, puisque seuls 6% des clients ont une assurance
pour une caravane. La base consistant à prédire la valeur
- moyenne done une <emph>RMSE</emph> de 0.237, et prédire 0
+ moyenne donne une <emph>RMSE</emph> de 0.237, et prédire 0
donne une <emph>RMSE</emph> de 0.244 et une <emph>MAE</emph>
de 0.06.
</li>
@@ -2940,9 +2980,10 @@
et <emph>SSSL</emph> obtiennent une erreur de régression
inférieure à 0.244 (pour insurance) et 0.89 (pour wine), qui
étaient les lignes de base à dépasser. La métrique RMSE a été
- utilisée pour le tuning des hyperparamètres, ce qui n'est pas le
- cas pour la métrique MAE, dont la ligne de base n'est pas
- toujours respectée.
+ utilisée pour la recherche des hyperparamètres (ci-après
+ dénotée <emph>tuning</emph>), ce qui n'est pas le cas pour la
+ métrique MAE, dont la ligne de base n'est pas toujours
+ respectée.
</p>
<p>
Plus précisément, la table <h:ref href="#results-laps3l-mae"/>
@@ -3078,8 +3119,8 @@
<h3>Algorithmes</h3>
<p>
Dans la version non linéaire de
- l'algorithme <emph>LapRLS</emph>, il s'agit de minimiser la
- fonction objectif suivante :
+ l'algorithme <emph>LapRLS</emph><h:cite href="belkin_manifold_2006"/>,
+ il s'agit de minimiser la fonction objectif suivante :
</p>
<h:mini>
<h:variables>f \in \mathcal{H}_{\kappa}</h:variables>
@@ -3480,8 +3521,8 @@
</p>
<table latex-align="ccc">
<caption id="tbl-hireau">
- Métrique RMSE pour le jeu de données d'assainissement en
- années pour
+ Métrique RMSE pour le jeu de données d'assainissement en année
+ pour
<emph>LapS3L</emph>,
<emph>SSSL</emph>,
<emph>LapRLS</emph>
@@ -3837,7 +3878,7 @@
une résolution d'un système linéaire de dimension <h:eq>s \times
s</h:eq>. Malheureusement, on ne peut pas l'appliquer
directement pour <emph>LSMR</emph>, à moins d'avoir à résoudre
- <h:eq>m^2</h:eq> systèmes linéaire distincts. Cette limitation
+ <h:eq>m^2</h:eq> systèmes linéaires distincts. Cette limitation
est commune à beaucoup de méthodes de régularisation
multi-labels, ce qui pousse les méthodes de MALSAR à adopter une
méthode d'optimisation différente.
@@ -4036,7 +4077,7 @@
données SARCOS <h:cite href="sarcos"/>. Nous n'avons pas
conservé tous les jeux de données, les plus grands contenant
trop d'individus pour appliquer directement l'algorithme
- LSMR. Les jeux de données et leur caractéristiques sont résumés
+ LSMR. Les jeux de données et leurs caractéristiques sont résumés
dans la table <h:ref href="#tbl-lsmr-datasets"/>.
</p>
<table latex-align="|l|cccc|">
@@ -4195,7 +4236,7 @@
</p>
<p>
La métrique doit être minimisée. Puisque l'on a normalisé les
- labels individuellements, si les labels du jeu de test suivent
+ labels individuellement, si les labels du jeu de test suivent
exactement la même distribution que le jeu d'apprentissage, la
métrique est égale à 1 en prédisant toujours 0.
</p>
@@ -4231,8 +4272,8 @@
<p>
En tant qu'extension de l'algorithme <emph>SSSL</emph>, nous
vérifions la pertinence des hyperparamètres introduits. Nous
- commençons par tuner le noyau et le nombre de composantes pour
- minimiser l'erreur de régression de
+ commençons par rechercher le noyau et le nombre de composantes
+ pour minimiser l'erreur de régression de
l'algorithme <emph>SSSL</emph>. Les valeurs obtenues sont
résumées dans la table <h:ref href="#tbl-local-hyper"/>.
</p>
@@ -4594,7 +4635,8 @@
<p>
La régularisation du rang peut s'effectuer en régularisant la
norme trace <h:cite href="rank"/>, <emph>TNR</emph> (<emph>trace
- norm regularization</emph>). La régularisation employée est :
+ norm regularization</emph>), c’est-à-dire la somme de toutes les
+ valeurs propres. La régularisation employée est :
</p>
<h:equation>
\left\|W\right\|_{*} = \sum_{\sigma \mathrm{~valeur~propre~de~} W} \sigma
@@ -5026,9 +5068,7 @@
La précision de l'extraction des labels ;
</li>
<li>
- La cohérence des labels extraits : si deux individus sont
- proches dans l'espace des variables, alors les valeurs de
- leurs labels extraits doivent être également proches ;
+ La cohérence des labels extraits ;
</li>
<li>
La sélection de variables, sur le modèle prédisant les labels
@@ -5670,7 +5710,9 @@
<p>
Pour évaluer la pertinence de notre approche de sélection de
variables et de labels, nous proposons une étude expérimentale
- qui met en concurrence <strong>RSMS</strong>, <emph>SFUS</emph>
+ qui met en concurrence <strong>RSMS</strong> avec d’autres
+ algorithmes de sélection de variables multi-labels adaptés à la
+ régression, <emph>SFUS</emph>
<h:cite href="sfus"/>, <emph>RFS</emph> <h:cite href="rfs"/>
et <emph>MIFS</emph> <h:cite href="mifs"/>.
</p>
@@ -6087,7 +6129,7 @@
régression multi-labels. Nous avons également montré la
pertinence de la sélection de labels, pour déduire les labels
dont l'apprentissage est plus facile, ce qui guide la sélection
- de variables à superformer davantage.
+ de variables à de meilleures performances.
</p>
<h1 short="Application">
Application à l’annotation automatique de pneumatiques
@@ -6604,7 +6646,6 @@
sélectionner les 10 candidats donnant la meilleure erreur de
régression.
</p>
- <h3>Stacking</h3>
<p>
La méthode de <emph>bagging</emph> prévoit de traiter
l'apprentissage d'un modèle par ensemble. La prédiction pour un
@@ -6615,14 +6656,15 @@
Cette méthode a l'avantage de s'appliquer de manière naturelle dans le
cas de la régression multi-labels.
</p>
+ <h3>Stacking</h3>
<p>
Nous utilisons aussi une deuxième approche d'agrégation, nommée
<emph>stacking</emph> <h:cite href="stacking"/>. Dans cette
- approche, on considère un nouveau jeu de données
- artificiel. Dans ce jeu de données, l'individu statistique est
- toujours le même, mais il est décrit cette fois par les
- prédictions de chacun des modèles retenus, et les labels sont
- les mêmes que pour le jeu d'apprentissage original.
+ approche, on considère un nouveau jeu de données. Dans celui-ci,
+ l'individu statistique est toujours le même, mais il est décrit
+ cette fois par les prédictions de chacun des modèles retenus, et
+ les labels sont les mêmes que pour le jeu d'apprentissage
+ original.
</p>
<p>
Étant donné le cadre multi-labels de l'apprentissage original,
@@ -6688,7 +6730,7 @@
modèle final. Nous évaluons deux autres algorithmes de sélection
de variables multi-labels : <emph>RFS</emph>
<h:cite href="rfs"/> et <emph>MIFS</emph>
- <h:cite href="mifs"/>. Nous n'avons pas pu tuner et appliquer
+ <h:cite href="mifs"/>. Nous n'avons pas pu appliquer
l'algorithme <emph>SFUS</emph> en un temps raisonnable, à cause
de la décomposition en valeurs propres et vecteurs propres d'une
matrice <h:eq>d \times d</h:eq>.
@@ -7480,9 +7522,9 @@
de labels</h2>
<p>
Pour terminer, nous appliquons
- l'algorithme <strong>LSMR</strong> avec bagging sur les deux
- sous-ensembles de variables obtenus auparavant : les 993
- variables de la sélection de l'agrégation de l'algorithme
+ l'algorithme <strong>LSMR</strong> avec <emph>bagging</emph> sur
+ les deux sous-ensembles de variables obtenus auparavant : les
+ 993 variables de la sélection de l'agrégation de l'algorithme
<strong>RSMS</strong>, et les 199 variables de la sélection
de <strong>RSMS</strong> par époques. Nous ajoutons également
les 993 et 199 meilleures variables selon <emph>RFS</emph>
@@ -9304,6 +9346,15 @@
<b:year>2017</b:year>
<b:publisher>ACM New York, NY, USA</b:publisher>
</b:article>
+ <b:book id="arpack">
+ <b:title>
+ ARPACK users' guide: solution of large-scale eigenvalue
+ problems with implicitly restarted Arnoldi methods
+ </b:title>
+ <b:author>Lehoucq, Richard B and Sorensen, Danny C and Yang, Chao</b:author>
+ <b:year>1998</b:year>
+ <b:publisher>SIAM</b:publisher>
+</b:book>
</h:bibliography>
</body>
</html>