为了能够让Agent使用的规则识别出当前环境的整个运行状态及信息,我们需要对状态历史信息进行编码。在这里我们用一个60位长的二进制串对股市的状态历史编码,其中这个二进制串的一个位就代表股市历史Ht符合一个描述判断。具体说来,我们可以采用一组诸如“股息上升”、“股息在5个周期内的平均值持续上升”、“当前股息大于最近100个周期内的股息平均值”以及“价格在4个周期内一直上升”、“价格*利率与股息的比大于1/2”等等这样的语句来描述股市状态以及历史信息,这样每一个语句就构成了对股市的一个判断,所以我们把一个二进制位对应一个语句。这样,就得到了一个环境编码和与其对应的语句集合: | 为了能够让Agent使用的规则识别出当前环境的整个运行状态及信息,我们需要对状态历史信息进行编码。在这里我们用一个60位长的二进制串对股市的状态历史编码,其中这个二进制串的一个位就代表股市历史Ht符合一个描述判断。具体说来,我们可以采用一组诸如“股息上升”、“股息在5个周期内的平均值持续上升”、“当前股息大于最近100个周期内的股息平均值”以及“价格在4个周期内一直上升”、“价格*利率与股息的比大于1/2”等等这样的语句来描述股市状态以及历史信息,这样每一个语句就构成了对股市的一个判断,所以我们把一个二进制位对应一个语句。这样,就得到了一个环境编码和与其对应的语句集合: |