引用第7楼semilibra于2011-01-30 12:13发表的 :
呵呵~很高兴2位跟小弟我谈這话題,小弟本身是純理论数學出身的,我們所谈到的LLN,分成離散和連續型的,
当我們要成立一个模型時,space,metric,time,measure,element,set 都是要給定的!!
這个模型,功用就是用來估计的~
不可否认的,一定還是有他的限制性!!
存世量过少的品種,可能正如你們所说的,但是我們是可以透过相関的係数來修正!!
.......
我的专长是 data engineering, 属于计算机科学的一个分支. 所以考虑问题的方式更 practical 一些.
在很多实际应用中, 数学模型(特别是许多预测模型)并不总能够像理论上预计的效果那么好. 因为有时候决定结果好坏的并不是模型本身, 而是作为模型参数和输入的那些数据的质量.
如果数据本身是脏的, 依靠手工调整模型参数并不总能解决根本问题. 就好像做指纹识别, 识别方法做的再好, 数据采集或者预处理环节做不好、特征提取的时候引入的脏数据过多, 结果的准确率也很难保证. 就是所谓的 garbage in / garbage out 了.
这也是为什么现在很多一流的研究组都在花大力气做 data quality / data cleaning 方面的研究.
还有一个需要考虑的问题是模型的验证. 对于古钱币, 经历数百上千年的损毁、流失、埋藏, 当代真实的存世量是无法知道的. 依靠所谓专家作出的直观判断也未必靠谱. 这就使得靠模型估计出来的结果难以证实或证伪, 也难以评估其误差大小, 这对于科学研究来说就很尴尬了.