tips

4月 232017
 
http://alias-i.com/lingpipe/  LingPipe is tool kit for processing text using computational linguistics.
http://svmlight.joachims.org/ 基于svm做文本分类
http://adrem.ua.ac.be/~tmartin/  svm jni java接口
https://github.com/antoniosehk/keras-tensorflow-windows-installation  windows上安装基于tensoflow-gpu的keras深度学习包
http://thegrandjanitor.com/  机器学习
http://www.wsdm-conference.org/2017/accepted-papers/  wsdm 2017 accepted papers
https://www.slideshare.net/BhaskarMitra3/neural-text-embeddings-for-information-retrieval-wsdm-2017
https://github.com/laura-dietz/tutorial-utilizing-kg
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://cmusatyalab.github.io/openface/
https://eliasvansteenkiste.github.io/ Predicting lung cancer
https://brage.bibsys.no/xmlui/handle/11250/2433761 Tree Boosting With XGBoost - Why Does XGBoost Win "Every" Machine Learning Competition?
https://github.com/YaronBlinder/MIMIC-III_readmission/ Predicting 30-day ICU readmissions from the MIMIC-III database
https://github.com/caffe2/caffe2  facebook  开源深度学习框架 caffe2
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications https://arxiv.org/abs/1704.04861
https://zhuanlan.zhihu.com/p/24322376 欺诈盛宴:百万黑产军团,两千万手机号,瓜分百亿蛋糕


 
 Posted by at 6:16 下午
4月 222017
 

常用工具

1. 文本处理

(1)atom ,https://atom.io/,常用插件

列编辑,https://atom.io/packages/Sublime-Style-Column-Selection

Run code in Atom 主要是运行 python https://atom.io/packages/script

项目管理 https://atom.io/packages/project-manager

markdown编辑 https://atom.io/packages/markdown-preview-plus

markdown-scroll-sync https://atom.io/packages/markdown-scroll-sync 

Python Autocomplete Package https://atom.io/packages/autocomplete-python

HQL (Apache Hive) query language https://atom.io/packages/language-hql

(2)sublime text ,http://www.sublimetext.com/

(3)markdown mac版本,http://macdown.uranusjr.com/

(4) pandoc, http://www.pandoc.org/, 格式转换,markdown等处理

(5) word, ppt, excel, onenote, 画图,笔记,表格处理

2. 编码相关工具

pycharm,http://www.jetbrains.com/pycharm/

intelij IDEA, http://www.jetbrains.com/idea/

maven , http://maven.apache.org/, 项目管理

visual studio code,https://code.visualstudio.com/

rstudio, https://www.rstudio.com/

3. 思维导图

xmind http://www.xmindchina.net/

4. 终端登录工具

iterm2 macos http://www.iterm2.com/

putty windows 

5. 网络分析

gelphi,https://gephi.org/

6. 可视化工具

graphviz, http://www.graphviz.org/

7. ftp工具

FileZilla, https://filezilla-project.org/

8. 代码版本管理

git, https://git-scm.com/

9. 文档写作

mkdocs, http://www.mkdocs.org/

10. 数据库工具

mysql, https://www.mysql.com/ postgresql, https://www.postgresql.org/


 
 Posted by at 12:22 上午
4月 152017
 
http://adventuresinmachinelearning.com/neural-networks-tutorial/
http://adventuresinmachinelearning.com/improve-neural-networks-part-1/
http://adventuresinmachinelearning.com/stochastic-gradient-descent/
https://github.com/adventuresinML/adventures-in-ml-code
https://github.com/yandexdataschool/Practical_RL 增强学习实践课程
https://github.com/yandexdataschool/YSDA_deeplearning17 Deep Learning course, 2017
https://webhose.io/datasets  免费数据集
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/keras/python/keras/applications/vgg16.py
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/contrib/keras/python/keras/applications/vgg19.py
https://arxiv.org/pdf/1409.1556.pdf VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
https://github.com/machrisaa/tensorflow-vgg
transfer learning
pre-train networks
https://github.com/BVLC/caffe/tree/master/models
http://mscoco.org/dataset/#download
https://github.com/visipedia/inat_comp
https://rahulduggal2608.wordpress.com/2017/04/02/alexnet-in-keras/


互联网黑产剖析——虚假号码
http://mp.weixin.qq.com/s?__biz=MzA4MjI2MTcwMw==&mid=2650485616&idx=1&sn=d26063f090b936d7efd3fedf32108df0&chksm=8787f0d8b0f079ce57ba26a9a6deb1f444a7939b6a1d443a3cbc773b662084bc6eaf8a16ea74&scene=21#wechat_redirect
互联网黑产剖析——代理和匿名
http://mp.weixin.qq.com/s?__biz=MzA4MjI2MTcwMw==&mid=2650485686&idx=1&sn=b8d3fd492e7fd27c0ceec7a98511c63b&chksm=8787f01eb0f0790824d1d0ac37a6817416e7ec79e535d7ba8e628628eef6fcaac962ca3ebfe0&scene=21#wechat_redirect
关于IP,这里有你想知道的一切!(上篇)
http://mp.weixin.qq.com/s?__biz=MzA4MjI2MTcwMw==&mid=2650485704&idx=1&sn=a34cb411701008ed13b1042ba549d341&chksm=8787f060b0f0797642628a9bba9f4ea5f713f4bb8b0347a69630938c333ca6ee3ce46ca470a3&scene=21#wechat_redirect

https://github.com/stuxuhai/jpinyin  JPinyin是一个汉字转拼音的Java开源类库
   com.github.stuxuhai
   jpinyin
   1.1.8


https://github.com/NLPchina/ansj_seg  中文分词
    org.ansj
    ansj_seg
    5.1.1

emoji-java is a lightweight java library that helps you use Emojis in your java applications.
  com.vdurmont
  emoji-java
  3.2.0


 
 Posted by at 6:22 下午
4月 052017
 

大数据风控创业公司

1. siftscience

介绍

https://siftscience.com

提供的服务:

盗账户,支付欺诈,垃圾内容, 账户冒用,营销资金冒用,设备指纹

服务行业:

电子商务,旅游,订票,数字产品等;

技术博客

https://engineering.siftscience.com,介绍siftscience的风控技术,工程,算法和架构;

2. forter

介绍

https://www.forter.com

服务: All E-Commerce Needs Marketplaces,Digital Goods,Services,Physical Goods,Travel ,Mobile (SDK & API),Alternative Payments

技术: Machine Learning with a Human Touch, Understanding the Context of a Transaction, Real-Time Approve/Decline Decision

技术博客

http://blog.forter.com,介绍反欺诈相关的业务,技术发展和报告;

3. datavisor

介绍

https://www.datavisor.com

提供的服务:

金融欺诈,反洗钱,电子商务反欺诈

服务行业:

yelp, momo,唱吧等

技术博客

https://www.datavisor.com/blog/, 介绍datavisor在大数据风控的技术,产品和架构,机器学习,规则引擎和决策平台等;

4. patternex

介绍

https://www.patternex.com

提供的服务: 数据分析,盗账户, 人工智能风控助理 基于大数据分析驱动人工智能,提供大数据风控服务;

技术博客

https://www.patternex.com/blog,介绍patternex通过人工智能技术在大数据风控领域的研究和探索,技术介绍和反欺诈相关的报告;


 
 Posted by at 8:55 下午
3月 252017
 

python 获取tensorflow课程讲义

# -*- coding: utf-8 -*-
# @DATE    : 2017/3/25 11:08
# @Author  : 
# @File    : pdf_download.py

import os
import shutil
import requests
from bs4 import BeautifulSoup
import urllib2

def download_file(url, file_folder):
    file_name = url.split("/")[-1]
    file_path = os.path.join(file_folder, file_name)
    r = requests.get(url=url, stream=True)
    with open(file_path, "wb") as f:
        for chunk in r.iter_content(chunk_size=1024 * 1024):
            if chunk:
                f.write(chunk)
    r.close()
    return file_path

def get_pdfs(url, root_url, file_folder):
    html = urllib2.urlopen(url)
    soup = BeautifulSoup(html, "lxml")
    cnt = 0
    for link in soup.find_all("a"):
        file_url = link.get("href")
        if file_url.endswith(".pdf"):
            file_name = download_file(file_url, file_folder)
            print("downloading {} -> {}".format(file_url, file_name))
            cnt += 1
    print("downloaded {} pdfs".format(cnt))

def main():
    root_url = "http://web.stanford.edu/class/cs20si/lectures/"
    course_url = "http://web.stanford.edu/class/cs20si/syllabus.html"
    file_folder = "./course_note"
    if os.path.exists(file_folder):
        shutil.rmtree(file_folder)
    os.mkdir(file_folder)
    get_pdfs(course_url, root_url, file_folder)

if __name__ == "__main__":
    main()

 
 Posted by at 7:42 下午
3月 172017
 

文档制作工具mkdocs学习

最近在写项目文档,发现mkdocs非常轻量,基于markdown,生成静态html,托管在服务器即可访问,非常方便适用。

1. 介绍

mkdocs是一款基于markdown构建项目文档的工具,并且通过静态html文件,可以部署在服务器上提供访问。

2. mkdocs安装

pip install mkdocs


$ mkdocs --version
mkdocs, version 0.16.1

3.1 用法

新建项目 mkdocs new 项目名称,生成一个配置文件mkdocs.yml,同时在docs文件夹下生成一个 markdown文件index.md。


$ mkdocs new deeplearning
INFO    -  Creating project directory: deeplearning
INFO    -  Writing config file: deeplearning/mkdocs.yml
INFO    -  Writing initial docs: deeplearning/docs/index.md
$ cd deeplearning/
$ ll
total 8
drwxr-xr-x  3   staff   102B  3 17 11:11 docs
-rw-r--r--  1   staff    19B  3 17 11:11 mkdocs.yml

启动mkdocs内置的develop server


 $ mkdocs serve
INFO    -  Building documentation...
INFO    -  Cleaning site directory
[I 170317 11:35:02 server:283] Serving on http://127.0.0.1:8000
[I 170317 11:35:02 handlers:60] Start watching changes
[I 170317 11:35:02 handlers:62] Start detecting changes

http://localhost:8000



3.2 文档编辑

(1)编辑页面

(2)编辑配置文件


$ cat mkdocs.yml
site_name: 深度学习
pages:
    - home: index.md
    - content: deeplearning.md
    - about: about.md




 
 Posted by at 8:36 下午
1月 072017
 

win7usb启动盘制作

最近在更换电脑,需要重装系统,好久没有重装windows操作系统,回收记得最近也是多年以前,基于
windows光盘安装操作系统。目前,很少接触到带光驱的电脑,需要制作基于usb启动的windows系统
安装盘。制作流程总结如下,方便以后重装系统使用。

1.下载微软官方制作工具

http://www.microsoft.com/en-us/download/windows-usb-dvd-download-tool/
http://wudt.codeplex.com

2. 安装USB制作工具

打开下载的制作工具,直接进行安装,即可;

3.开始制作usb启动盘

(1)下载windows7操作系统iso文件,电脑是64位的,准备好64位windows7操作系统;
(2)点击安装好的usb启动盘制作工具,
第一步,选择要制作的操作系统的iso文件;
第二步,选择要制作的类型,有usb类型和dvd类型,这里选择usb;
第三步,插入u盘,选择u盘,这时会提示要对u盘
进行格式化;
第四步,进行booter安装;至安装结束 可能会出现这样安装可能会出现错误,We were unable to copy your files. Please check your USB
device and the selected ISO file and try again.
此处有雷,最好手动进行格式化,解决方案如下,
打开windows命令行工具,输入命令,
diskpart
list disk
select disk #
clean
create partition primary
select partition 1
active
format quick fs=fat32
assign
exit
继续前面的过程,这时可能在第四步碰到如下错误,出现bootsect错误;解决方案如下,
下载32位windows7 iso文件,打开iso文件,进入boot文件夹,复制bootsect.exe文件,放到usb制作
工具的安装文件夹下。(尝试过64位操作系统下的booysect文件,还是报错,无法正常制作成功);至此,重新进行前面的安装
流程。出现提示制作成功。

4. 开始windows7系统安装

在新电脑上插入usb启动盘,选择从usb启动,我的电脑是自动识别,直接进入window安装界面,一路下去,安装成功;


 
 Posted by at 10:29 下午
12月 272016
 
蚂蚁金服 风险智能部 诚招数据挖掘,机器学习,base 上海 or 杭州
岗位描述:
主要从事互联网金融风控领域数据挖掘;
岗位要求:
(1)编码能力(python  or java)
(2)数据挖掘,机器学习实践应用经验(互联网领域)
(3)熟悉hadoop or tensorflow or spark技术;
(4)工作有激情;
欢迎站内联系;

 
 Posted by at 8:46 下午
6月 262016
 

最近读的一本书《新资本论》,对金融资本主义的兴起,金融危机和如何面对金融危机,进行了学习,有一个整体的了解,受益匪浅。



https://book.douban.com/subject/26249397/

新资本论

通俗易懂的讲述全球金融资本主义的兴起,经济危机和全球资本主义的救赎。结合金融的兴起,工业革命,经济危机等事件,描述金融资本主义。

1 金融资本主义的兴起

人类经济体系:全球化+第三次工业革命+金融资本主义

1971年布雷森顿体系崩溃,资本主义经济体系决定性地转变为全球金融资本主义。商业资本->产业资本->金融资本。

全球金融资本主义的三个基本含义:私有产权和市场竞争为基本的运行规则的经济体系;产业分工,贸易和资本的全球化;金融市场和金融资产价格主导和支配的经济体系;

动力和契机:布雷森顿体系的崩溃(以美元为国际货币中心的货币政策);新兴市场从计划经济转向自由市场经济;滞胀和能源危机迫使西方开始管制放松和私有化浪潮;现代经济学和金融学理论,金融技术的创新;信息技术革命的第三次工业革命改变全球产业分工体系,金融和实体经济之间的关系;第三次工业革命降低金融市场的交易成本,为金融市场提供技术支持和保障。

We are living in financial times

全球金融资本主义特征:金融市场成为整个经济体系中最重要的市场;三大关键价格信号,利率,汇率和资产价格;企业行为准则为市值最大化;核心理论基础为有效市场假设;全球金融资本主义重塑了全球产业模式和产业分工体系;

张五常:复杂世界的要用简单的理论进行描述

有效市场假说:理性人假说;信息获取成本为0;投资者消化信息,将信息转化为价格的速度无穷快;

微笑曲线:施正荣先生提出,描述国际分工体系的历史性巨变;全球产业链和价值链划分为五个主要环节:研发,设计,生产,销售和服务。产品研发和设计,销售及售后服务居于产业链和价值链的高端,获得整个产业链的绝大部分利润;生产组装在低端,只能获得很低的利润和加工费;譬如在中国生产的iPhone

全球金融市场的幕后金主,当今社会有两大超级权力机构,美国和穆迪评级,美国用炸弹摧毁你,穆迪通过降低你的债券评级毁灭你。

美元的兴起

汉密尔顿为美国构建的货币金融体系:统一的国债市场;中央银行主导的银行体系;统一的铸币体系;以关说和消费税为主体的税收体系;鼓励制造业发展的金融贸易政策。

完全自由放任的市场调节机制或市场经济其实是一个不切实际的乌托邦。

全球危机,美元本位制和浮动汇率的七宗罪

1)史无前例的通货膨胀;(2)频繁发生的货币危机或金融危机;(3)急剧下降的实体经济增长;(4)不断恶化的全球失衡;(5)美元本位制和浮动利率推动的金融市场自由化让发展中国家的经济进入困境;(6)美元超级霸权和超级利益不断强化,利益被美国获取;(7)加剧国际货币体系的不对称性和不公正性;

资本主义主要思想体系

亚当斯密的自然演化秩序和和谐之美,国富论;马克思,矛盾,冲突,动态,演化,危机和灭亡,资本论;熊彼特,创新,企业家精神和创造性毁灭;

 

2 全球金融资本主义的危机

2008年金融危机,全球制造中心和货币金融中心的背离,虚拟经济和是实体经济的背离,金融资本和虚拟经济的过度膨胀,金融投机的肆意泛滥,是全球金融危机的总根源。

金融危机,政治,社会,人文和生态危机,环环相扣。投机赌博资本主义加剧贫富分化。

全球金融危机的老鼠赛

为了获得所谓金钱财富和资产市值,人类可以毁灭一切动物和植物,可以让美丽河山满目疮痍,可以不管沧海桑田,可以不顾任何后果去制造假酒,假烟,假食品,假药品,假报表乃至一切虚假的事物,还可以凭借尖端武器将其他国家和民族的资源据为己有。

金融体系三个新的假说,三个两级分化

信用资源分配的两级分化,虚拟经济和实体经济的两级分化,真实收入和财富的两级分化。

 

3 全球金融资本主义的救赎

用金融挽救金融,饮鸩止渴。量化宽松,

魔鬼隐藏在细节之中

从实体经济出发,金融服务实体经济

发达经济体系崩溃面临的五个基本困难:经济负增长或增速放慢;政府债务规模和财政赤字居高不下;零利率或者低利率政策无法实现经济再通胀;私人消费和投资持续萎靡;银行体系的去杠杆化过程远未完成。

量化宽松和人民币汇率升值的危害

遏制中国出口增长,削弱中国出口竞争力,加速中国经济泡沫化,制造中国式金融危机和经济危机,加剧中国财富向美国政府转移,加剧中国财富向国际投机者转移,加剧中国财富向富裕阶层转移,贫富分化和收入差距严重恶化,导致中国货币政策部分丧失独立性。

金融服务实体

制度改革跟不上技术革命的步伐

中国模式:共产党+产权+市场

张五常:西方的经济学学术无法解释中国奇迹和中国的经济制度;中国人民,能吃苦,聪明而有耐力。

未来之路,教育,医疗,社保等公共服务的均等化则是缓解收入差距和贫富分化的最佳途径。

 


 
 Posted by at 7:52 下午
7月 012014
 
<失控>
kk.org


1 创新往往发生在边缘地带,发生在不那么优化的区域
2 问题越复杂,最后用到的模型就越简单。跟数据严丝合缝其实并不难,但如果你真的去做了,那你最后
一定只是侥幸成功,概括是关键
3 控制的未来是:伙伴关系,协同控制,人机混合控制
4 一个蚂蚁军团,智愚而不知测量,视短儿不及远望,却能迅速找到穿越崎岖地面的最短路径
5 进化的创造力是无穷的,它能超过人类的设计能力
6 分布式,去中心化,协作及可适应性
7 思考即行动,行动即思考
8 要消除一切先入之见,要想领悟复杂事物的群体本质,需要一种可以称为蜂群思维的意识。放下一切固有和确有的执念
9 自我复制,自我管理,有限的自我复制,适度进化以及局部学习
10 机器正在生物化,而生物正在工程化
<胡适文选>


1 不信任一切没有证据的东西
2 多研究些问题,少谈些主义,凡是有价值的思想,都是从这个那个具体问题下手的
3 我要教人疑而后信,考而后信,有充分证据而后信
4 大胆假设,小心求证
<信息简史>



 青春就应该这样绽放  游戏测试:三国时期谁是你最好的兄弟!!  你不得不信的星座秘密
 Posted by at 6:49 下午