该存储库是 Couchdoop 的演示项目,CouchdoopCouchbase 的 Hadoop 连接器。它是 Cloudera 博客上发表的 Couchdoop 文章的一部分。假设我们有一个使用 Couchbase 作为其数据库的新闻网站,目标是通过 Hadoop 向用户推荐文章。网站会在会话期间跟踪用户活动并将其存储在 Couchbase 文档中。所有用户会话文档需要导入到 HDFS 中,作为推荐系统的输入。存储在 HDFS 中的计算推荐需要导出到 Couchbase。该项目包含两个 Hadoop MapReduce 驱动程序:从 Couchbase 导入 JSON 会话文档,将它们重新格式化为带分隔符的文本格式,并将其写入 HDFS 中用户指定的路径。假设推荐者需要文件,其中每一行包括会话 ID,后跟选项卡和用户行为数据。