醉书楼 > 都市小说 > 股海弄潮TXT下载 > 股海弄潮最新章节列表 > 第236章:第一个“因子”的寻找(第2节)

股海弄潮最新章节全文阅读

作者:天门山的魅狐  加入书架  股海弄潮天门山的魅狐  股海弄潮全文阅读
股海弄潮最新章节第一卷知识点(26-03-12)    第240章:第一个小胜利:结合因子的增强(26-03-28)    第239章:因子库的扩张(26-03-28)    

第236章:第一个“因子”的寻找(第2节)

默站在他身后,看着屏幕上那些代码。

他不完全懂,但他能看懂陆方脸上的表情——不是烦躁,是专注。

那种“我一定要搞定你”的专注。

“能处理吗?”他问。

陆方点头:

“能。但得加一个清洗层。把所有明显异常的数据标记出来,回头人工核对。”

“需要多少人?”

陆方想了想:

“至少两个。专门干这个。”

陈默看了看房间里的人。

小林在研究周寻给的论文,小吴在整理过去的研究笔记,小周在学Python,王涛在调试那两台服务器。赵姐在算账,老刘在联系便宜的云服务商。

没有人闲着。

但也没有人能专门做数据清洗。

陈默沉默了几秒。

然后他说:

“我来。”

陆方抬起头,看着他。

“您?”

“我。”陈默说,“我干过这个。”

他走到那堆打印出来的Excel表格前,坐下来:

“1992年,我刚入市的时候,没有电脑,没有软件。所有的K线图,都是我手画的。每一根K线,开盘、收盘、最高、最低,一个一个从报纸上抄下来,然后用尺子画在坐标纸上。”

他看着陆方:

“现在有Excel了。比那时候强多了。”

陆方看了他几秒,然后点了点头。

没再说别的。

---

周寻的第一个任务:定标准。

爬虫爬下来的数据,乱七八糟。

同一天,不同网站的开盘价可能差几分钱。同一只股票,不同年份的股本可能变过好几次,不复权、前复权、后复权,根本对不上。财务数据更乱——有的公司用旧会计准则,有的用新会计准则;有的报表里“净利润”是归属于母公司的,有的是合并报表的;有的“每股收益”是摊薄的,有的是加权的。

周寻拿着一份自己整理的《数据清洗标准手册》,对着那一堆原始数据,一条一条核对。

“这里,”他指着屏幕,“2005年6月30日,招商银行。三个来源的数据,两个说收盘价是6.52,一个说是6.55。差三分钱。”

陈默凑过去看。

“三分钱,影响大吗?”

周寻摇头:

“单看

本章未完,请点击"下一页"继续阅读! 第2页 / 共6页