Scalding Cascading 的 Scala API开源项目

我要开发同款
匿名用户2013年03月04日
44阅读
开发技术Scala
所属分类分布式应用/网格、服务器软件
授权协议Apache

作品详情

Scalding是一个Scala库简化了HadoopMapReduce作业开发。基于Cascading构建。Scalding跟Pig类似,但提供更紧密的Scala集成。

Hadoop是一个统计词(countingwords)的分布式系统。这里看Scalding如何实现统计词:

package com.twitter.scalding.examplesimport com.twitter.scalding._class WordCountJob(args: Args) extends Job(args) {  TypedPipe.from(TextLine(args("input")))    .flatMap { line => tokenize(line) }    .groupBy { word => word } // use each word for a key    .size // in each group, get the size    .write(TypedTsv[(String, Long)](args("output")))  // Split a piece of text into individual words.  def tokenize(text : String) : Array[String] = {    // Lowercase each word and remove punctuation.    text.toLowerCase.replaceAll("[^a-zA-Z0-9\\s]", "").split("\\s+")  }} 
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论