How do I apply multiple columns in GroupBy/PartitionBy in Spark Java API

Question

If I have a list/Seq of columns in Scala like: I can easily use it in partitionBy or groupBy like But if I want to do the same thing in Spark Java API what should I do? Answer partitionBy has two signatures: So you may choose between one of the two. Let&#8217;s say that partitions is a list of String.

Accepted Answer

partitionBy has two signatures:partitionBy(Seq cols)partitionBy(String colName, Seq colNames)So you may choose between one of the two. Let’s say that partitions is a list of String. It would go like this:import scala.collection.JavaConversions;import scala.collection.Seq;List columns = partitions.stream() .map(functions::col) .collect(Collectors.toList());Seq columnSeq = JavaConversions.asScalaBuffer(columns).toSeq();WindowSpec windowSpec = Window.partitionBy(columnSeq);// ORSeq columnSeq2 = JavaConversions.asScalaBuffer(partitions).toSeq();WindowSpec windowSpec = Window .partitionBy(partitions.get(0), columnSeq2.tail().toSeq());

Advertisement

Answer