Scalding Cascading 的 Scala API开源项目

我要开发同款
匿名用户2013年03月04日
86阅读

技术信息

开源地址
https://github.com/twitter/scalding
授权协议
Apache

作品详情

Scaldig是一个Scala库简化了HadoopMapReduce作业开发。基于Cascadig构建。Scaldig跟Pig类似,但提供更紧密的Scala集成。

Hadoop是一个统计词(coutigwords)的分布式系统。这里看Scaldig如何实现统计词:

package com.twitter.scaldig.examplesimport com.twitter.scaldig._class WordCoutJob(args: Args) exteds Job(args) {  TypedPipe.from(TextLie(args("iput")))    .flatMap { lie => tokeize(lie) }    .groupBy { word => word } // use each word for a key    .size // i each group, get the size    .write(TypedTsv[(Strig, Log)](args("output")))  // Split a piece of text ito idividual words.  def tokeize(text : Strig) : Array[Strig] = {    // Lowercase each word ad remove puctuatio.    text.toLowerCase.replaceAll("[^a-zA-Z0-9\\s]", "").split("\\s+")  }} 

功能介绍

Scalding 是一个 Scala 库简化了 Hadoop MapReduce 作业开发。基于 Cascading 构建。Scalding 跟 Pig 类似,但提供更紧密的 Scala 集成。...

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论