Add XGBRanker and transformer (#649)

* Add XGBRanker and transformer * Map XGBoostRegressorTransformer to XGBRanker * Add unit tests * Remove unused import * Revert addition of type * Update function comment * Distinguish objective based on model class
2025-07-11 00:02:14 +08:00 · 2024-01-11 15:48:13 -05:00 · 2024-01-11 15:48:13 -05:00 · 926f0b9b5c
commit 926f0b9b5c
parent 840871f9d9
3 changed files with 68 additions and 4 deletions
--- a/eland/ml/ml_model.py
+++ b/eland/ml/ml_model.py
@ -45,7 +45,11 @@ if TYPE_CHECKING:
    except ImportError:
        pass
    try:
-        from xgboost import XGBClassifier, XGBRegressor  # type: ignore # noqa: F401
+        from xgboost import (  # type: ignore # noqa: F401
            XGBClassifier,
            XGBRanker,
            XGBRegressor,
        )
    except ImportError:
        pass
    try:
@ -252,6 +256,7 @@ class MLModel:
            "RandomForestRegressor",
            "RandomForestClassifier",
            "XGBClassifier",
            "XGBRanker",
            "XGBRegressor",
            "LGBMRegressor",
            "LGBMClassifier",
@ -304,6 +309,11 @@ class MLModel:
                    - "binary:logistic"
                    - "multi:softmax"
                    - "multi:softprob"
            - xgboost.XGBRanker
                - only the following objectives are supported:
                    - "rank:map"
                    - "rank:ndcg"
                    - "rank:pairwise"
            - xgboost.XGBRegressor
                - only the following objectives are supported:
                    - "reg:squarederror"
--- a/eland/ml/transformers/xgboost.py
+++ b/eland/ml/transformers/xgboost.py
@ -27,7 +27,13 @@ from .base import ModelTransformer
 import_optional_dependency("xgboost", on_version="warn")
-from xgboost import Booster, XGBClassifier, XGBModel, XGBRegressor  # type: ignore
+from xgboost import (  # type: ignore
    Booster,
    XGBClassifier,
    XGBModel,
    XGBRanker,
    XGBRegressor,
 )
 class XGBoostForestTransformer(ModelTransformer):
@ -140,7 +146,7 @@ class XGBoostForestTransformer(ModelTransformer):
        if len(tree_nodes) > 0:
            transformed_trees.append(self.build_tree(tree_nodes))
        # We add this stump as XGBoost adds the base_score to the regression outputs
-        if self._objective.partition(":")[0] == "reg":
+        if self._objective.partition(":")[0] in ["reg", "rank"]:
            transformed_trees.append(self.build_base_score_stump())
        return transformed_trees
@ -184,6 +190,7 @@ class XGBoostForestTransformer(ModelTransformer):
 class XGBoostRegressorTransformer(XGBoostForestTransformer):
    def __init__(self, model: XGBRegressor, feature_names: List[str]):
        self._regressor_model = model
        # XGBRegressor.base_score defaults to 0.5.
        base_score = model.base_score
        if base_score is None:
@ -197,6 +204,13 @@ class XGBoostRegressorTransformer(XGBoostForestTransformer):
        return "regression"
    def is_objective_supported(self) -> bool:
        if isinstance(self._regressor_model, XGBRanker):
            return self._objective in {
                "rank:pairwise",
                "rank:ndcg",
                "rank:map",
            }
        return self._objective in {
            "reg:squarederror",
            "reg:squaredlogerror",
@ -264,5 +278,6 @@ class XGBoostClassifierTransformer(XGBoostForestTransformer):
 _MODEL_TRANSFORMERS: Dict[type, Type[ModelTransformer]] = {
    XGBRegressor: XGBoostRegressorTransformer,
    XGBRanker: XGBoostRegressorTransformer,
    XGBClassifier: XGBoostClassifierTransformer,
 }
--- a/tests/ml/test_ml_model_pytest.py
+++ b/tests/ml/test_ml_model_pytest.py
@ -40,7 +40,7 @@ except ImportError:
    HAS_SKLEARN = False
 try:
-    from xgboost import XGBClassifier, XGBRegressor
+    from xgboost import XGBClassifier, XGBRanker, XGBRegressor
    HAS_XGBOOST = True
 except ImportError:
@ -555,6 +555,45 @@ class TestMLModel:
        # Clean up
        es_model.delete_model()
    @requires_xgboost
    @pytest.mark.parametrize("compress_model_definition", [True, False])
    @pytest.mark.parametrize(
        "objective",
        ["rank:ndcg", "rank:map", "rank:pairwise"],
    )
    def test_xgb_ranker(self, compress_model_definition, objective):
        X, y = datasets.make_classification(n_features=5)
        rng = np.random.default_rng()
        qid = rng.integers(0, 3, size=X.shape[0])
        # Sort the inputs based on query index
        sorted_idx = np.argsort(qid)
        X = X[sorted_idx, :]
        y = y[sorted_idx]
        qid = qid[sorted_idx]
        ranker = XGBRanker(objective=objective)
        ranker.fit(X, y, qid=qid)
        # Serialise the models to Elasticsearch
        feature_names = ["f0", "f1", "f2", "f3", "f4"]
        model_id = "test_xgb_ranker"
        es_model = MLModel.import_model(
            ES_TEST_CLIENT,
            model_id,
            ranker,
            feature_names,
            es_if_exists="replace",
            es_compress_model_definition=compress_model_definition,
        )
        # Get some test results
        check_prediction_equality(es_model, ranker, random_rows(X, 20))
        # Clean up
        es_model.delete_model()
    @requires_xgboost
    @pytest.mark.parametrize("compress_model_definition", [True, False])
    @pytest.mark.parametrize(