2020年4月3日
spark
该部分总结自《Spark权威指南》第三章内容,个人学习笔记。
Spark工具集下图是Spark工具集的概览,包括了结构化的API、低级的API,结构化流、机器学习相关的MLlib进行高级数据分析、第三方库/包等。
提交上线应用环境我们可以在spark提供的交互性shell环境中进行交互 ...
Read more
2020年4月2日
spark
什么是Spark?spark是一个分布式的内存计算引擎。由于在现在的环境下,单台计算机没有足够的计算资源进行大规模数据的计算,使得应用者能够在相对短的时间内获得计算的结果。spark的出现使得大规模数据计算可以在一群计算机之间展开,从而解决单台计算机计算资源不足的问题。spark是一个计算引 ...
Read more
2020年3月31日
读书
搜索引擎
搜索引擎一直以来都是学习、查找资料的工具,是从海量网页查找有效信息的途径。搜索引擎的交互界面非常简单,通常只有一个搜索框,但背后涉及的技术却不简单。虽然一直都在使用搜索引擎,但是却从来没有仔细了解过背后的原理,对搜索引擎也没有整体的认识。由于即将从事搜索引擎相关的工作,遂通过这本书来扫盲。
...
Read more
2019年9月22日
文本预处理
数据增强
在图像领域,有不少数据增强的办法,用来对数据进行增强,比如图片旋转,图片的裁剪,随机噪声等。而在文本领域,同样有很多针对文本的预处理方法和数据增强的方法。这些方法在提高模型的泛化能力上起到很重要的作用,在各种比赛中也经常被使用到。
文本预处理
停用词过滤。无论中文还是英文,都可以进行停用词的 ...
Read more
2017年11月18日
环境配置
搬运一篇旧博客的配置开发环境的文章
最近在学习机器学习的过程中,常常需要将本地写的代码传到GPU服务器中,然后在服务器上运行。之前的做法一直是先在本地写好代码,然后通过FileZilla这样的文件传输工具来将写好的文件传到服务器,再通过ssh工具远程连接到服务器,执行相应的python ...
Read more