Add support for eland.Series.unqiue()

2025-07-11 00:02:14 +08:00 · 2022-03-31 19:03:15 +05:30 · 2022-03-31 19:03:15 +05:30 · 76a52b7947
commit 76a52b7947
parent 15a3007288
6 changed files with 85 additions and 4 deletions
--- a/docs/sphinx/reference/api/eland.Series.unique.rst
+++ b/docs/sphinx/reference/api/eland.Series.unique.rst
@ -0,0 +1,6 @@
+eland.Series.unique
+====================
+
+.. currentmodule:: eland
+
+.. automethod:: Series.unique
--- a/docs/sphinx/reference/series.rst
+++ b/docs/sphinx/reference/series.rst
@ -78,6 +78,7 @@ Computations / Descriptive Stats
   Series.std
   Series.var
   Series.nunique
+   Series.unique
   Series.value_counts
   Series.mode
   Series.quantile
--- a/eland/operations.py
+++ b/eland/operations.py
@ -800,6 +800,33 @@ class Operations:
        else:
            return df if is_dataframe else df.transpose().iloc[0]

+    def unique(self, query_compiler: "QueryCompiler") -> pd.Series:
+
+        query_params, _ = self._resolve_tasks(query_compiler)
+        body = Query(query_params.query)
+
+        fields = query_compiler._mappings.all_source_fields()
+        assert len(fields) == 1  # Unique is only for eland.Series
+        field = fields[0]
+        bucket_key = f"unique_{field.column}"
+
+        body.composite_agg_bucket_terms(
+            name=bucket_key,
+            field=field.aggregatable_es_field_name,
+        )
+
+        # Composite aggregation
+        body.composite_agg_start(size=DEFAULT_PAGINATION_SIZE, name="unique_buckets")
+
+        unique_buckets: List[Any] = sum(
+            self.bucket_generator(query_compiler, body, agg_name="unique_buckets"), []  # type: ignore
+        )
+
+        return np.array(
+            [bucket["key"][bucket_key] for bucket in unique_buckets],
+            dtype=field.pd_dtype,
+        )
+
    def aggs_groupby(
        self,
        query_compiler: "QueryCompiler",
@ -920,7 +947,9 @@ class Operations:
            size=DEFAULT_PAGINATION_SIZE, name="groupby_buckets", dropna=dropna
        )

-        for buckets in self.bucket_generator(query_compiler, body):
+        for buckets in self.bucket_generator(
+            query_compiler, body, agg_name="groupby_buckets"
+        ):
            # We recieve response row-wise
            for bucket in buckets:
                # groupby columns are added to result same way they are returned
@ -984,7 +1013,7 @@ class Operations:

    @staticmethod
    def bucket_generator(
-        query_compiler: "QueryCompiler", body: "Query"
+        query_compiler: "QueryCompiler", body: "Query", agg_name: str
    ) -> Generator[Sequence[Dict[str, Any]], None, Sequence[Dict[str, Any]]]:
        """
            This can be used for all groupby operations.
@ -1015,7 +1044,7 @@ class Operations:
            )

            # Pagination Logic
-            composite_buckets: Dict[str, Any] = res["aggregations"]["groupby_buckets"]
+            composite_buckets: Dict[str, Any] = res["aggregations"][agg_name]

            after_key: Optional[Dict[str, Any]] = composite_buckets.get(
                "after_key", None
@ -1028,7 +1057,7 @@ class Operations:
                yield buckets

                body.composite_agg_after_key(
-                    name="groupby_buckets",
+                    name=agg_name,
                    after_key=after_key,
                )
            else:
--- a/eland/query_compiler.py
+++ b/eland/query_compiler.py
@ -621,6 +621,9 @@ class QueryCompiler:
            self, ["nunique"], numeric_only=False
        )

+    def unique(self) -> pd.Series:
+        return self._operations.unique(self)
+
    def mode(
        self,
        es_size: int,
--- a/eland/series.py
+++ b/eland/series.py
@ -1560,6 +1560,24 @@ class Series(NDFrame):
        results = super().nunique()
        return results.squeeze()

+    def unique(self) -> pd.Series:
+        """
+            Returns all unique values within a Series.
+            Note that behavior is slightly different between pandas and Eland: pandas will return values in the order
+            they're first seen and Eland returns values in sorted order.
+
+        Returns
+        -------
+        pd.Series
+            A series containing unique values of given series is returned.
+
+        See Also
+        --------
+        :pandas_api_docs:`pandas.Series.unique`
+
+        """
+        return self._query_compiler.unique()
+
    def var(self, numeric_only: Optional[bool] = None) -> pd.Series:
        """
        Return variance for a Series
--- a/tests/series/test_metrics_pytest.py
+++ b/tests/series/test_metrics_pytest.py
@ -156,6 +156,30 @@ class TestSeriesMetrics(TestData):
        else:
            assert pd_quantile * 0.9 <= ed_quantile <= pd_quantile * 1.1

+    @pytest.mark.parametrize("column", ["FlightDelayMin", "dayOfWeek"])
+    def test_flights_unique_numeric(self, column):
+        pd_flights = self.pd_flights()[column]
+        ed_flights = self.ed_flights()[column]
+
+        # Pandas returns unique values in order of their appearance
+        # ES returns results in ascending order, hence sort the pandas array to check equality
+        pd_unique = np.sort(pd_flights.unique())
+        ed_unique = ed_flights.unique()
+
+        np.testing.assert_allclose(pd_unique, ed_unique)
+
+    @pytest.mark.parametrize("column", ["Cancelled", "DestCountry"])
+    def test_flights_unique_strings(self, column):
+        pd_flights = self.pd_flights()[column]
+        ed_flights = self.ed_flights()[column]
+
+        # Pandas returns unique values in order of their appearance
+        # ES returns results in ascending order, hence sort the pandas array to check equality
+        pd_unique = np.sort(pd_flights.unique())
+        ed_unique = ed_flights.unique()
+
+        np.equal(pd_unique, ed_unique)
+
    @pytest.mark.parametrize("quantiles_list", [[np.array([1, 2])], ["1", 2]])
    def test_quantile_non_numeric_values(self, quantiles_list):
        ed_flights = self.ed_flights()["dayOfWeek"]