拉格朗月

spark权威指南学习笔记二

spark
该部分总结自《Spark权威指南》第三章内容,个人学习笔记。 Spark工具集下图是Spark工具集的概览,包括了结构化的API、低级的API,结构化流、机器学习相关的MLlib进行高级数据分析、第三方库/包等。 提交上线应用环境我们可以在spark提供的交互性shell环境中进行交互 ...
Read more

spark权威指南学习笔记一

spark
什么是Spark?spark是一个分布式的内存计算引擎。由于在现在的环境下,单台计算机没有足够的计算资源进行大规模数据的计算,使得应用者能够在相对短的时间内获得计算的结果。spark的出现使得大规模数据计算可以在一群计算机之间展开,从而解决单台计算机计算资源不足的问题。spark是一个计算引 ...
Read more

[读书]这就是搜索引擎-核心技术讲解

读书 搜索引擎
搜索引擎一直以来都是学习、查找资料的工具,是从海量网页查找有效信息的途径。搜索引擎的交互界面非常简单,通常只有一个搜索框,但背后涉及的技术却不简单。虽然一直都在使用搜索引擎,但是却从来没有仔细了解过背后的原理,对搜索引擎也没有整体的认识。由于即将从事搜索引擎相关的工作,遂通过这本书来扫盲。 ...
Read more

文本领域的Tricks

文本预处理 数据增强
在图像领域,有不少数据增强的办法,用来对数据进行增强,比如图片旋转,图片的裁剪,随机噪声等。而在文本领域,同样有很多针对文本的预处理方法和数据增强的方法。这些方法在提高模型的泛化能力上起到很重要的作用,在各种比赛中也经常被使用到。 文本预处理 停用词过滤。无论中文还是英文,都可以进行停用词的 ...
Read more

PyCharm配置远程python解释器和在本地修改服务器代码

环境配置
搬运一篇旧博客的配置开发环境的文章 最近在学习机器学习的过程中,常常需要将本地写的代码传到GPU服务器中,然后在服务器上运行。之前的做法一直是先在本地写好代码,然后通过FileZilla这样的文件传输工具来将写好的文件传到服务器,再通过ssh工具远程连接到服务器,执行相应的python ...
Read more
Prev Next