Merge pull request #5 from shijiashuai/master

Zeyi Wen · web-flow · commit d2d9f3e9fc5e · 2016-11-05T16:08:19.000+11:00
added probability training and prediction
diff --git a/mascot/svmModel.cu b/mascot/svmModel.cu
@@ -11,6 +11,7 @@
 #include <helper_cuda.h>
 #include <cuda_runtime_api.h>
 #include "trainingFunction.h"
+
 unsigned int svmModel::getK(int i, int j) const {
     return ((nrClass - 1) + (nrClass - i)) * i / 2 + j - i - 1;
 }
@@ -24,6 +25,7 @@ void svmModel::fit(const svmProblem &problem, const SVMParam &param) {
     probB.clear();
     supportVectors.clear();
     label.clear();
+    probability = false;
 
     coef.resize(cnr2);
     rho.resize(cnr2);
@@ -33,16 +35,140 @@ void svmModel::fit(const svmProblem &problem, const SVMParam &param) {
 
     this->param = param;
     label = problem.label;
+    int k = 0;
     for (int i = 0; i < nrClass; ++i) {
         for (int j = i + 1; j < nrClass; ++j) {
             svmProblem subProblem = problem.getSubProblem(i, j);
             printf("training classifier with label %d and %d\n", i, j);
+            if (param.probability) {
+                SVMParam probParam = param;
+                probParam.probability = 0;
+                probParam.C = 1.0;
+                svmModel model;
+                model.fit(subProblem, probParam);
+                vector<float_point *> decValues;
+                //todo predict with cross validation
+                model.predictValues(subProblem.v_vSamples, decValues);
+                //binary model has only one sub-model
+                sigmoidTrain(decValues.front(), subProblem.getNumOfSamples(), subProblem.v_nLabels, probA[k], probB[k]);
+                probability = true;
+            }
             svm_model binaryModel = trainBinarySVM(subProblem, param);
-            addBinaryModel(subProblem, binaryModel,i,j);
+            addBinaryModel(subProblem, binaryModel, i, j);
+            k++;
         }
     }
 }
 
+void svmModel::sigmoidTrain(const float_point *decValues, const int l, const vector<int> &labels, float_point &A,
+                            float_point &B) {
+    double prior1 = 0, prior0 = 0;
+    int i;
+
+    for (i = 0; i < l; i++)
+        if (labels[i] > 0)
+            prior1 += 1;
+        else
+            prior0 += 1;
+
+    int max_iter = 100;    // Maximal number of iterations
+    double min_step = 1e-10;    // Minimal step taken in line search
+    double sigma = 1e-12;    // For numerically strict PD of Hessian
+    double eps = 1e-5;
+    double hiTarget = (prior1 + 1.0) / (prior1 + 2.0);
+    double loTarget = 1 / (prior0 + 2.0);
+    double *t = (double *) malloc(sizeof(double) * l);
+    double fApB, p, q, h11, h22, h21, g1, g2, det, dA, dB, gd, stepsize;
+    double newA, newB, newf, d1, d2;
+    int iter;
+
+    // Initial Point and Initial Fun Value
+    A = 0.0;
+    B = log((prior0 + 1.0) / (prior1 + 1.0));
+    double fval = 0.0;
+
+    for (i = 0; i < l; i++) {
+        if (labels[i] > 0)
+            t[i] = hiTarget;
+        else
+            t[i] = loTarget;
+        fApB = decValues[i] * A + B;
+        if (fApB >= 0)
+            fval += t[i] * fApB + log(1 + exp(-fApB));
+        else
+            fval += (t[i] - 1) * fApB + log(1 + exp(fApB));
+    }
+    for (iter = 0; iter < max_iter; iter++) {
+        // Update Gradient and Hessian (use H' = H + sigma I)
+        h11 = sigma; // numerically ensures strict PD
+        h22 = sigma;
+        h21 = 0.0;
+        g1 = 0.0;
+        g2 = 0.0;
+        for (i = 0; i < l; i++) {
+            fApB = decValues[i] * A + B;
+            if (fApB >= 0) {
+                p = exp(-fApB) / (1.0 + exp(-fApB));
+                q = 1.0 / (1.0 + exp(-fApB));
+            } else {
+                p = 1.0 / (1.0 + exp(fApB));
+                q = exp(fApB) / (1.0 + exp(fApB));
+            }
+            d2 = p * q;
+            h11 += decValues[i] * decValues[i] * d2;
+            h22 += d2;
+            h21 += decValues[i] * d2;
+            d1 = t[i] - p;
+            g1 += decValues[i] * d1;
+            g2 += d1;
+        }
+
+        // Stopping Criteria
+        if (fabs(g1) < eps && fabs(g2) < eps)
+            break;
+
+        // Finding Newton direction: -inv(H') * g
+        det = h11 * h22 - h21 * h21;
+        dA = -(h22 * g1 - h21 * g2) / det;
+        dB = -(-h21 * g1 + h11 * g2) / det;
+        gd = g1 * dA + g2 * dB;
+
+        stepsize = 1;        // Line Search
+        while (stepsize >= min_step) {
+            newA = A + stepsize * dA;
+            newB = B + stepsize * dB;
+
+            // New function value
+            newf = 0.0;
+            for (i = 0; i < l; i++) {
+                fApB = decValues[i] * newA + newB;
+                if (fApB >= 0)
+                    newf += t[i] * fApB + log(1 + exp(-fApB));
+                else
+                    newf += (t[i] - 1) * fApB + log(1 + exp(fApB));
+            }
+            // Check sufficient decrease
+            if (newf < fval + 0.0001 * stepsize * gd) {
+                A = newA;
+                B = newB;
+                fval = newf;
+                break;
+            } else
+                stepsize = stepsize / 2.0;
+        }
+
+        if (stepsize < min_step) {
+            printf("Line search fails in two-class probability estimates\n");
+            break;
+        }
+    }
+
+    if (iter >= max_iter)
+        printf(
+                "Reaching maximal iterations in two-class probability estimates\n");
+    free(t);
+}
+
 void svmModel::addBinaryModel(const svmProblem &problem, const svm_model &bModel, int i, int j) {
     unsigned int k = getK(i, j);
     for (int l = 0; l < bModel.nSV[0] + bModel.nSV[1]; ++l) {
@@ -55,41 +181,146 @@ void svmModel::addBinaryModel(const svmProblem &problem, const svm_model &bModel
     rho[k] = bModel.rho[0];
 }
 
-vector<float_point*> svmModel::predictValues(const vector<vector<float_point> > &v_vSamples) const {
-    vector<float_point *> decisionValues(cnr2);
+void
+svmModel::predictValues(const vector<vector<float_point> > &v_vSamples, vector<float_point *> &decisionValues) const {
+    decisionValues.clear();
     for (int k = 0; k < cnr2; ++k) {
-            float_point *kernelValues = new float_point[v_vSamples.size() * supportVectors[k].size()];
-            computeKernelValuesOnFly(v_vSamples, supportVectors[k], kernelValues);
-            decisionValues[k] = predictLabels(kernelValues, (int) v_vSamples.size(), k);
-            delete[] kernelValues;
-        }
-    return decisionValues;
+        float_point *kernelValues = new float_point[v_vSamples.size() * supportVectors[k].size()];
+        computeKernelValuesOnFly(v_vSamples, supportVectors[k], kernelValues);
+        decisionValues.push_back(
+                predictLabels(kernelValues, (int) v_vSamples.size(), k));//TODO not return local pointer in function
+        delete[] kernelValues;
+    }
 }
 
-vector<int> svmModel::predict(const vector<vector<float_point> > &v_vSamples) const {
-    vector<float_point*> decisionValues = predictValues(v_vSamples);
+vector<int> svmModel::predict(const vector<vector<float_point> > &v_vSamples, bool probability) const {
+    vector<float_point *> decisionValues;
+    predictValues(v_vSamples, decisionValues);
     vector<int> labels;
-    for (int l = 0; l < v_vSamples.size(); ++l) {
-        vector<int> votes(nrClass,0);
-        int k = 0;
-        for (int i = 0; i < nrClass; ++i) {
-            for (int j = i+1; j < nrClass; ++j) {
-                if(decisionValues[k++][l]>0)
-                    votes[i]++;
-                else
-                    votes[j]++;
+    if (!probability) {
+        for (int l = 0; l < v_vSamples.size(); ++l) {
+            vector<int> votes(nrClass, 0);
+            int k = 0;
+            for (int i = 0; i < nrClass; ++i) {
+                for (int j = i + 1; j < nrClass; ++j) {
+                    if (decisionValues[k++][l] > 0)
+                        votes[i]++;
+                    else
+                        votes[j]++;
+                }
             }
+            int maxVoteClass = 0;
+            for (int i = 0; i < nrClass; ++i) {
+                if (votes[i] > votes[maxVoteClass])
+                    maxVoteClass = i;
+            }
+            labels.push_back(this->label[maxVoteClass]);
         }
-        int maxVoteClass = 0;
-        for (int i = 0; i < nrClass; ++i) {
-            if (votes[i]>votes[maxVoteClass])
-                maxVoteClass = i;
+    } else {
+        printf("predict with probability\n");
+        assert(this->probability);
+        vector<vector<float_point> > prob = predictProbability(v_vSamples);
+        // todo select max using GPU
+        for (int i = 0; i < v_vSamples.size(); ++i) {
+            int maxProbClass = 0;
+            for (int j = 0; j < nrClass; ++j) {
+                if (prob[i][j] > prob[i][maxProbClass])
+                    maxProbClass = j;
+            }
+            labels.push_back(this->label[maxProbClass]);
         }
-        labels.push_back(this->label[maxVoteClass]);
     }
     return labels;
 }
 
+float_point svmModel::sigmoid_predict(float_point decValue, float_point A, float_point B) const {
+    double fApB = decValue * A + B;
+    // 1-p used later; avoid catastrophic cancellation
+    if (fApB >= 0)
+        return exp(-fApB) / (1.0 + exp(-fApB));
+    else
+        return 1.0 / (1 + exp(fApB));
+}
+
+void svmModel::multiclass_probability(const vector<vector<float_point> > &r, vector<float_point> &p) const {
+    int t, j;
+    int iter = 0, max_iter = max(100, nrClass);
+    double **Q = (double **) malloc(sizeof(double *) * nrClass);
+    double *Qp = (double *) malloc(sizeof(double) * nrClass);
+    double pQp, eps = 0.005 / nrClass;
+
+    for (t = 0; t < nrClass; t++) {
+        p[t] = 1.0 / nrClass;  // Valid if k = 1
+        Q[t] = (double *) malloc(sizeof(double) * nrClass);
+        Q[t][t] = 0;
+        for (j = 0; j < t; j++) {
+            Q[t][t] += r[j][t] * r[j][t];
+            Q[t][j] = Q[j][t];
+        }
+        for (j = t + 1; j < nrClass; j++) {
+            Q[t][t] += r[j][t] * r[j][t];
+            Q[t][j] = -r[j][t] * r[t][j];
+        }
+    }
+    for (iter = 0; iter < max_iter; iter++) {
+        // stopping condition, recalculate QP,pQP for numerical accuracy
+        pQp = 0;
+        for (t = 0; t < nrClass; t++) {
+            Qp[t] = 0;
+            for (j = 0; j < nrClass; j++)
+                Qp[t] += Q[t][j] * p[j];
+            pQp += p[t] * Qp[t];
+        }
+        double max_error = 0;
+        for (t = 0; t < nrClass; t++) {
+            double error = fabs(Qp[t] - pQp);
+            if (error > max_error)
+                max_error = error;
+        }
+        if (max_error < eps)
+            break;
+
+        for (t = 0; t < nrClass; t++) {
+            double diff = (-Qp[t] + pQp) / Q[t][t];
+            p[t] += diff;
+            pQp = (pQp + diff * (diff * Q[t][t] + 2 * Qp[t])) / (1 + diff)
+                  / (1 + diff);
+            for (j = 0; j < nrClass; j++) {
+                Qp[j] = (Qp[j] + diff * Q[t][j]) / (1 + diff);
+                p[j] /= (1 + diff);
+            }
+        }
+    }
+    if (iter >= max_iter)
+        printf("Exceeds max_iter in multiclass_prob\n");
+    for (t = 0; t < nrClass; t++)
+        free(Q[t]);
+    free(Q);
+    free(Qp);
+}
+
+vector<vector<float_point> > svmModel::predictProbability(const vector<vector<float_point> > &v_vSamples) const {
+    vector<vector<float_point> > result;
+    vector<float_point *> decValues;
+    predictValues(v_vSamples, decValues);
+    for (int l = 0; l < v_vSamples.size(); ++l) {
+        vector<vector<float_point> > r(nrClass, vector<float_point>(nrClass));
+        double min_prob = 1e-7;
+        int k = 0;
+        for (int i = 0; i < nrClass; i++)
+            for (int j = i + 1; j < nrClass; j++) {
+                r[i][j] = min(
+                        max(sigmoid_predict(decValues[k][l], probA[k], probB[k]), min_prob), 1 - min_prob);
+                r[j][i] = 1 - r[i][j];
+                k++;
+            }
+        vector<float_point> p(nrClass);
+        multiclass_probability(r, p);
+        result.push_back(p);
+    }
+    return result;
+}
+
 void
 svmModel::computeKernelValuesOnFly(const vector<vector<float_point> > &samples,
                                    const vector<vector<float_point> > &supportVectors,
diff --git a/mascot/svmModel.h b/mascot/svmModel.h
@@ -9,6 +9,7 @@
 #include "../svm-shared/gpu_global_utility.h"
 #include "svmProblem.h"
 #include "svmParam.h"
+
 using std::vector;
 
 class svmModel {
@@ -22,24 +23,37 @@ class svmModel {
     vector<float_point> probA;
     vector<float_point> probB;
     vector<int> label;
+    bool probability;
 
     unsigned int inline getK(int i, int j) const;
 
-    float_point* predictLabels(const float_point *kernelValues, int, int) const;
+    float_point *predictLabels(const float_point *kernelValues, int, int) const;
 
-    float_point* ComputeClassLabel(int nNumofTestSamples,
+    float_point *ComputeClassLabel(int nNumofTestSamples,
                                    float_point *pfDevSVYiAlphaHessian, const int &nNumofSVs,
                                    float_point fBias, float_point *pfFinalResult) const;
 
     void computeKernelValuesOnFly(const vector<vector<float_point> > &samples,
                                   const vector<vector<float_point> > &supportVectors, float_point *kernelValues) const;
 
     void addBinaryModel(const svmProblem &, const svm_model &, int i, int j);
+
+    float_point sigmoid_predict(float_point decValue, float_point A, float_point B) const;
+
+    void multiclass_probability(const vector<vector<float_point> > &, vector<float_point> &) const;
+
+    void
+    sigmoidTrain(const float_point *decValues, const int, const vector<int> &labels, float_point &A, float_point &B);
+
 public:
 
-    void fit(const svmProblem& problem, const SVMParam &param);
-    vector<int> predict(const vector<vector<float_point> > &) const;
-    vector<float_point* > predictValues(const vector<vector<float_point> >&) const;
+    void fit(const svmProblem &problem, const SVMParam &param);
+
+    vector<int> predict(const vector<vector<float_point> > &, bool probability=false) const;
+
+    vector<vector<float_point> > predictProbability(const vector<vector<float_point> > &) const;
+
+    void predictValues(const vector<vector<float_point> > &, vector<float_point *> &) const;
 };
 
 
diff --git a/mascot/trainingFunction.cu b/mascot/trainingFunction.cu
@@ -47,12 +47,17 @@ svmModel trainSVM(SVMParam &param, string strTrainingFileName, int nNumofFeature
     rawDataRead.ReadFromFile(strTrainingFileName, nNumofFeature, v_v_DocVector, v_nLabel);
     svmProblem problem(v_v_DocVector, v_nLabel);
     svmModel model;
+    param.probability = 1;//train with probability
     model.fit(problem, param);
-    vector<int> predictLabels = model.predict(v_v_DocVector);
+    vector<int> predictLabels = model.predict(v_v_DocVector, true);
     int numOfCorrect = 0;
     for (int i = 0; i < v_v_DocVector.size(); ++i) {
         if (predictLabels[i] == v_nLabel[i])
             numOfCorrect++;
+//        for (int j = 0; j < problem.getNumOfClasses(); ++j) {
+//            printf("%.2f,",prob[i][j]);
+//        }
+//        printf("\n");
     }
     printf("training accuracy = %.2f%%(%d/%d)\n", numOfCorrect / (float) v_v_DocVector.size()*100, numOfCorrect,
            (int) v_v_DocVector.size());