文章目錄
  1. 1. org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/user/long/README.md

因为Oryx推荐引擎需要用到Spark, 所以开始了解Spark,

按照使用Spark MLlib给豆瓣用户推荐电影写了一个Python版本, 算是有了一个初步了解。只是不知道推荐效果怎样,关键是不好测试效果。

使用的过程中遇到一个问题

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/user/long/README.md

这是在执行官方文档例子quickstart例子时遇到,

1
2
>>> textFile = sc.textFile("README.md")
>>> textFile.count()

一直想不通,后来想到在测试Oryx的例子时,在conf/spark-env.sh里配置了HADOOP_CONF_DIR,把它注释掉即可。

而之所以之前配置了HADOOP_CONF_DIR, 是因为在执行Oryx的例子时,会使用bin/spark-submit –master yarn-client提交,此时如果没有配置HADOOP_CONF_DIR, 会报Exception in thread “main” java.lang.Exception: When running with master ‘yarn-client’ either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.错误。

参考文章

文章目錄
  1. 1. org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/user/long/README.md