DecisionTree-3.4.3.html

<!DOCTYPE html>
<html>
<head>
<title>
DecisionTree-3.4.3.html
</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<style type="text/css">
p.morelinespace {
    line-height: 130%;
    font-weight: bold;
}
body {
    background-color: #f0f0f8;
}
hr.myhr1 {
    width:100%;
    height:8px;
    border:4px solid red;
}
</style>
</head>

<body>  
<hr class="myhr1">
<div style="color:blue; font-size:300%">  
  <strong>DecisionTree</strong></div>
<div style="color:blue; font-size:150%"> Version 3.4.3, &nbsp; 2016-May-14
</div>
<hr class="myhr1">
<br>
<div style="font-size:125%; line-height:130%; font-weight: bold">
DecisionTree.py<br>
Version:&nbsp;&nbsp;3.4.3<br>
Author:&nbsp;&nbsp;Avinash&nbsp;Kak&nbsp;(kak@purdue.edu)<br>
Date:&nbsp;&nbsp;2016-May-14<br>
</div>
<br>
<table>
<tr>
<th style="text-align:left vertical-align:top">
<div style="font-size:125%">
<b>Download Version 3.4.3:</b>&nbsp;&nbsp;&nbsp;&nbsp;    
<a HREF="https://engineering.purdue.edu/kak/distDT/DecisionTree-3.4.3.tar.gz?download">gztar</a> 
&nbsp;&nbsp;
<a HREF="https://engineering.purdue.edu/kak/distDT/DecisionTree-3.4.3.tar.bz2?download">bztar</a> 
</div>
<br>
<br>
<br>
</th>
<td style="text-align:center vertical-align:top padding:0">
<div style="text-align:center">
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
Total number of downloads (all versions) from this website: 
<?php   
    $file = fopen("HowManyCounts.txt", "r") or exit("Unable to open file!");
    echo fgets($file);
    fclose($file);
?>
<div style="color:red; font-size:80%">
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
This count is automatically updated at every rotation of
<br> 
&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;&nbsp;
the weblogs (normally once every two to four days)
<br>
&nbsp;&nbsp;&nbsp;&nbsp;  &nbsp;&nbsp;&nbsp;&nbsp;
Last updated:
<?php   
    $file = fopen("LastUpdated.txt", "r") or exit("Unable to open file!");
    echo fgets($file);
    fclose($file);
?>
</div>
</div>
</td>
</tr>
<tr>
<td>
<div style="color:red">
<a HREF="DecisionTree-3.4.3_CodeOnly.html">View the main module file in your browser</a> 
&nbsp;<br>
<a HREF="DecisionTreeWithBagging-3.4.3_CodeOnly.html">View the bagging code in your browser</a> 
&nbsp;<br>
<a HREF="BoostedDecisionTree-3.4.3_CodeOnly.html">View the boosting code in your browser</a> 
&nbsp;<br>
<a HREF="RandomizedTreesForBigData-3.4.3_CodeOnly.html">View the randomized trees code in your browser</a> 
&nbsp;<br>
<a HREF="RegressionTree-3.4.3_CodeOnly.html">View the regression tree code in your browser</a> 
&nbsp;<br>
</div>
</td>
<td>
</td>  
</tr>
</table>
<br>
<br>
<span style="color:red; font-size:150%"><strong>CONTENTS:</strong></span>
<br>
<br>
<div style="font-size:100%; line-height:180%; font-weight: bold">

&nbsp;&nbsp;<a href="#1">CHANGES</a><br>
&nbsp;&nbsp;<a href="#2">USAGE</a><br>
&nbsp;&nbsp;<a href="#3">INTRODUCTION</a><br>
&nbsp;&nbsp;<a href="#4">WHAT&nbsp;PRACTICAL&nbsp;PROBLEM&nbsp;IS&nbsp;SOLVED&nbsp;BY&nbsp;THIS&nbsp;MODULE?</a><br>
&nbsp;&nbsp;<a href="#5">SYMBOLIC&nbsp;FEATURES&nbsp;VERSUS&nbsp;NUMERIC&nbsp;FEATURES<br></a>
&nbsp;&nbsp;<a href="#6">FEATURES&nbsp;WITH&nbsp;NOT&nbsp;SO&nbsp;"NICE"&nbsp;STATISTICAL&nbsp;PROPERTIES<br></a>
&nbsp;&nbsp;<a href="#7">TESTING&nbsp;THE&nbsp;QUALITY&nbsp;OF&nbsp;YOUR&nbsp;TRAINING&nbsp;DATA<br></a>
&nbsp;&nbsp;<a href="#8">HOW&nbsp;TO&nbsp;MAKE&nbsp;THE&nbsp;BEST&nbsp;CHOICES&nbsp;FOR&nbsp;THE&nbsp;CONSTRUCTOR&nbsp;PARAMETERS<br></a>
&nbsp;&nbsp;<a href="#25">SOLVING&nbsp;NEEDLE-IN-A-HAYSTACK&nbsp;AND&nbsp;BIG&nbsp;DATA&nbsp;PROBLEMS<br></a>
&nbsp;&nbsp;<a href="#9">DECISION&nbsp;TREE&nbsp;INTROSPECTION<br></a>
&nbsp;&nbsp;<a href="#10">METHODS</a><br>
&nbsp;&nbsp;<a href="#11">THE&nbsp;INTROSPECTION&nbsp;API<br></a>
&nbsp;&nbsp;<a href="#12">BULK&nbsp;CLASSIFICATION&nbsp;OF&nbsp;DATA&nbsp;RECORDS<br></a>
&nbsp;&nbsp;<a href="#13">HOW&nbsp;THE&nbsp;CLASSIFICATION&nbsp;RESULTS&nbsp;ARE&nbsp;DISPLAYED<br></a>
&nbsp;&nbsp;<a href="#14">USING&nbsp;BAGGING<br></a>
&nbsp;&nbsp;<a href="#24">USING&nbsp;BOOSTING<br></a>
&nbsp;&nbsp;<a href="#26">USING&nbsp;RANDOMIZED&nbsp;DECISION&nbsp;TREES<br></a>
&nbsp;&nbsp;<a href="#28">CONSTRUCTING&nbsp;REGRESSION&nbsp;TREES<br></a>
&nbsp;&nbsp;<a href="#22">GENERATING&nbsp;SYNTHETIC&nbsp;TRAINING&nbsp;DATA<br></a>
&nbsp;&nbsp;<a href="#15">THE&nbsp;Examples&nbsp;DIRECTORY<br></a>
&nbsp;&nbsp;<a href="#16">THE&nbsp;ExamplesBagging&nbsp;DIRECTORY<br></a>
&nbsp;&nbsp;<a href="#23">THE&nbsp;ExamplesBoosting&nbsp;DIRECTORY<br></a>
&nbsp;&nbsp;<a href="#27">THE&nbsp;ExamplesRandomizedTrees&nbsp;DIRECTORY<br></a>
&nbsp;&nbsp;<a href="#29">THE&nbsp;ExamplesRegression&nbsp;DIRECTORY<br></a>
&nbsp;&nbsp;<a href="#17">INSTALLATION</a><br>
&nbsp;&nbsp;<a href="#18">BUGS</a><br>
&nbsp;&nbsp;<a href="#19">ACKNOWLEDGMENTS</a><br>
&nbsp;&nbsp;<a href="#20">ABOUT&nbsp;THE&nbsp;AUTHOR</a><br>
&nbsp;&nbsp;<a href="#21">COPYRIGHT</a></div>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="1">CHANGES:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.4.3<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;'csv_cleanup_needed'&nbsp;parameter&nbsp;in&nbsp;the&nbsp;module&nbsp;constructor&nbsp;is&nbsp;now<br>
&nbsp;&nbsp;&nbsp;&nbsp;optional&nbsp;in&nbsp;response&nbsp;to&nbsp;several&nbsp;requests&nbsp;received&nbsp;from&nbsp;the&nbsp;user<br>
&nbsp;&nbsp;&nbsp;&nbsp;community.&nbsp;&nbsp;The&nbsp;main&nbsp;point&nbsp;made&nbsp;by&nbsp;the&nbsp;users&nbsp;was&nbsp;that&nbsp;setting<br>
&nbsp;&nbsp;&nbsp;&nbsp;'csv_cleanup_needed'&nbsp;when&nbsp;there&nbsp;was&nbsp;no&nbsp;need&nbsp;for&nbsp;CSV&nbsp;clean-up&nbsp;extracted<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;performance&nbsp;penalty&nbsp;when&nbsp;ingesting&nbsp;large&nbsp;database&nbsp;files&nbsp;with&nbsp;tens&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;thousands&nbsp;of&nbsp;line&nbsp;records.&nbsp;&nbsp;In&nbsp;addition&nbsp;to&nbsp;making&nbsp;'csv_cleanup_needed'<br>
&nbsp;&nbsp;&nbsp;&nbsp;optional,&nbsp;I&nbsp;have&nbsp;also&nbsp;tweaked&nbsp;up&nbsp;the&nbsp;code&nbsp;in&nbsp;the&nbsp;'<a href="#-cleanup_csv">cleanup_csv</a>()'&nbsp;method<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;order&nbsp;to&nbsp;extract&nbsp;data&nbsp;from&nbsp;a&nbsp;larger&nbsp;range&nbsp;of&nbsp;messy&nbsp;CSV&nbsp;files.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.4.2<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;with&nbsp;the&nbsp;previous&nbsp;version,&nbsp;all&nbsp;the&nbsp;changes&nbsp;made&nbsp;are&nbsp;confined&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;part&nbsp;of&nbsp;the&nbsp;code&nbsp;that&nbsp;deals&nbsp;with&nbsp;the&nbsp;calculation&nbsp;of&nbsp;the&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;coefficients.&nbsp;&nbsp;Besides&nbsp;general&nbsp;code&nbsp;clean&nbsp;up,&nbsp;I&nbsp;have&nbsp;fixed&nbsp;a&nbsp;couple&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;bugs&nbsp;in&nbsp;this&nbsp;part&nbsp;of&nbsp;the&nbsp;code.&nbsp;&nbsp;With&nbsp;regard&nbsp;to&nbsp;the&nbsp;new&nbsp;constructor<br>
&nbsp;&nbsp;&nbsp;&nbsp;parameter&nbsp;'jacobian_choice'&nbsp;introduced&nbsp;in&nbsp;the&nbsp;previous&nbsp;version,&nbsp;setting<br>
&nbsp;&nbsp;&nbsp;&nbsp;it&nbsp;to&nbsp;0&nbsp;is&nbsp;the&nbsp;best&nbsp;choice&nbsp;for&nbsp;most&nbsp;cases,&nbsp;which&nbsp;causes&nbsp;the&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;coefficients&nbsp;to&nbsp;be&nbsp;estimated&nbsp;through&nbsp;linear&nbsp;least-squares&nbsp;minimization.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.4.1<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;All&nbsp;the&nbsp;changes&nbsp;made&nbsp;in&nbsp;this&nbsp;version&nbsp;relate&nbsp;to&nbsp;the&nbsp;construction&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;regression&nbsp;trees.&nbsp;&nbsp;I&nbsp;have&nbsp;improved&nbsp;the&nbsp;code&nbsp;that&nbsp;estimates&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;regression&nbsp;coefficients&nbsp;using&nbsp;a&nbsp;combination&nbsp;of&nbsp;linear&nbsp;least-squares&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;gradient&nbsp;descent.&nbsp;&nbsp;The&nbsp;RegressionTree&nbsp;class&nbsp;now&nbsp;has&nbsp;a&nbsp;new&nbsp;constructor<br>
&nbsp;&nbsp;&nbsp;&nbsp;parameter&nbsp;called&nbsp;'jacobian_choice'.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.4.0<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;In&nbsp;addition&nbsp;to&nbsp;constructing&nbsp;decision&nbsp;trees,&nbsp;this&nbsp;version&nbsp;of&nbsp;the&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;also&nbsp;allows&nbsp;you&nbsp;to&nbsp;construct&nbsp;regression&nbsp;trees.&nbsp;The&nbsp;regression&nbsp;tree<br>
&nbsp;&nbsp;&nbsp;&nbsp;capability&nbsp;has&nbsp;been&nbsp;packed&nbsp;into&nbsp;a&nbsp;separate&nbsp;subclass,&nbsp;named<br>
&nbsp;&nbsp;&nbsp;&nbsp;RegressionTree,&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class.&nbsp;&nbsp;The&nbsp;subdirectory<br>
&nbsp;&nbsp;&nbsp;&nbsp;ExamplesRegression&nbsp;in&nbsp;the&nbsp;main&nbsp;installation&nbsp;directory&nbsp;illustrates&nbsp;how<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;can&nbsp;use&nbsp;this&nbsp;new&nbsp;functionality&nbsp;of&nbsp;the&nbsp;module.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.3.2:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;fixes&nbsp;the&nbsp;problem&nbsp;encountered&nbsp;by&nbsp;people&nbsp;when&nbsp;using&nbsp;pickle<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;save&nbsp;a&nbsp;decision&nbsp;tree&nbsp;to&nbsp;a&nbsp;disk&nbsp;file.&nbsp;&nbsp;The&nbsp;problem&nbsp;was&nbsp;solved&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;moving&nbsp;the&nbsp;nested&nbsp;class&nbsp;<a href="#DTNode">DTNode</a>&nbsp;to&nbsp;the&nbsp;module&nbsp;level.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.3.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;removes&nbsp;certain&nbsp;inefficiencies&nbsp;that&nbsp;had&nbsp;crept&nbsp;into&nbsp;file<br>
&nbsp;&nbsp;&nbsp;&nbsp;I/O&nbsp;operations&nbsp;in&nbsp;Version&nbsp;3.3.0.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.3.0<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;incorporates&nbsp;four&nbsp;very&nbsp;significant&nbsp;upgrades/changes&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module:&nbsp;(1)&nbsp;The&nbsp;CSV&nbsp;cleanup&nbsp;is&nbsp;now&nbsp;the&nbsp;default.&nbsp;So&nbsp;you&nbsp;do<br>
&nbsp;&nbsp;&nbsp;&nbsp;not&nbsp;have&nbsp;to&nbsp;set&nbsp;any&nbsp;special&nbsp;parameters&nbsp;in&nbsp;the&nbsp;constructor&nbsp;calls&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;initiate&nbsp;CSV&nbsp;cleanup.&nbsp;(2)&nbsp;In&nbsp;the&nbsp;form&nbsp;of&nbsp;a&nbsp;new&nbsp;Python&nbsp;class&nbsp;named<br>
&nbsp;&nbsp;&nbsp;&nbsp;RandomizedTreesForBigData,&nbsp;this&nbsp;module&nbsp;provides&nbsp;you&nbsp;with&nbsp;an&nbsp;easy-to-use<br>
&nbsp;&nbsp;&nbsp;&nbsp;programming&nbsp;interface&nbsp;for&nbsp;attempting&nbsp;needle-in-a-haystack&nbsp;solutions&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;case&nbsp;when&nbsp;your&nbsp;training&nbsp;data&nbsp;is&nbsp;overwhelmingly&nbsp;dominated&nbsp;by&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;single&nbsp;class.&nbsp;&nbsp;You&nbsp;need&nbsp;to&nbsp;set&nbsp;the&nbsp;constructor&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;'looking_for_needles_in_haystack'&nbsp;to&nbsp;invoke&nbsp;the&nbsp;logic&nbsp;that&nbsp;constructs<br>
&nbsp;&nbsp;&nbsp;&nbsp;multiple&nbsp;decision&nbsp;trees,&nbsp;each&nbsp;using&nbsp;the&nbsp;minority&nbsp;class&nbsp;samples&nbsp;along<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;samples&nbsp;drawn&nbsp;randomly&nbsp;from&nbsp;the&nbsp;majority&nbsp;class.&nbsp;&nbsp;The&nbsp;final<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;is&nbsp;made&nbsp;through&nbsp;a&nbsp;majority&nbsp;vote&nbsp;from&nbsp;all&nbsp;the&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;trees.&nbsp;&nbsp;(3)&nbsp;Assuming&nbsp;you&nbsp;are&nbsp;faced&nbsp;with&nbsp;a&nbsp;big-data&nbsp;problem&nbsp;---&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;sense&nbsp;that&nbsp;you&nbsp;have&nbsp;been&nbsp;given&nbsp;a&nbsp;training&nbsp;database&nbsp;with&nbsp;a&nbsp;very&nbsp;large<br>
&nbsp;&nbsp;&nbsp;&nbsp;number&nbsp;of&nbsp;training&nbsp;records&nbsp;---&nbsp;the&nbsp;class&nbsp;RandomizedTreesForBigData&nbsp;will<br>
&nbsp;&nbsp;&nbsp;&nbsp;also&nbsp;let&nbsp;you&nbsp;construct&nbsp;multiple&nbsp;decision&nbsp;trees&nbsp;by&nbsp;pulling&nbsp;training&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;randomly&nbsp;from&nbsp;your&nbsp;training&nbsp;database&nbsp;(without&nbsp;paying&nbsp;attention&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;relative&nbsp;populations&nbsp;of&nbsp;the&nbsp;classes).&nbsp;&nbsp;The&nbsp;final&nbsp;classification<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;for&nbsp;a&nbsp;test&nbsp;sample&nbsp;is&nbsp;based&nbsp;on&nbsp;a&nbsp;majority&nbsp;vote&nbsp;from&nbsp;all&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;trees&nbsp;thus&nbsp;constructed.&nbsp;&nbsp;See&nbsp;the&nbsp;ExamplesRandomizedTrees<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;for&nbsp;how&nbsp;to&nbsp;use&nbsp;these&nbsp;new&nbsp;features&nbsp;of&nbsp;the&nbsp;module.&nbsp;And,<br>
&nbsp;&nbsp;&nbsp;&nbsp;finally,&nbsp;(4)&nbsp;Support&nbsp;for&nbsp;the&nbsp;old-style&nbsp;'.dat'&nbsp;training&nbsp;files&nbsp;has&nbsp;been<br>
&nbsp;&nbsp;&nbsp;&nbsp;dropped&nbsp;in&nbsp;this&nbsp;version.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.2.4<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;makes&nbsp;it&nbsp;easier&nbsp;to&nbsp;use&nbsp;a&nbsp;CSV&nbsp;training&nbsp;file&nbsp;that&nbsp;violates<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;assumption&nbsp;that&nbsp;a&nbsp;comma&nbsp;be&nbsp;used&nbsp;only&nbsp;to&nbsp;separate&nbsp;the&nbsp;different<br>
&nbsp;&nbsp;&nbsp;&nbsp;field&nbsp;values&nbsp;in&nbsp;a&nbsp;line&nbsp;record.&nbsp;&nbsp;Some&nbsp;large&nbsp;econometrics&nbsp;databases&nbsp;use<br>
&nbsp;&nbsp;&nbsp;&nbsp;double-quoted&nbsp;values&nbsp;for&nbsp;fields,&nbsp;and&nbsp;these&nbsp;values&nbsp;may&nbsp;contain&nbsp;commas<br>
&nbsp;&nbsp;&nbsp;&nbsp;(presumably&nbsp;for&nbsp;better&nbsp;readability).&nbsp;&nbsp;This&nbsp;version&nbsp;also&nbsp;allows&nbsp;you&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;specify&nbsp;the&nbsp;leftmost&nbsp;entry&nbsp;in&nbsp;the&nbsp;first&nbsp;CSV&nbsp;record&nbsp;that&nbsp;names&nbsp;all&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;fields.&nbsp;Previously,&nbsp;this&nbsp;entry&nbsp;was&nbsp;required&nbsp;to&nbsp;be&nbsp;an&nbsp;empty<br>
&nbsp;&nbsp;&nbsp;&nbsp;double-quoted&nbsp;string.&nbsp;&nbsp;I&nbsp;have&nbsp;also&nbsp;made&nbsp;some&nbsp;minor&nbsp;changes&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;'get_training_data_from_csv()'&nbsp;method&nbsp;to&nbsp;make&nbsp;it&nbsp;more&nbsp;user&nbsp;friendly&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;large&nbsp;training&nbsp;files&nbsp;that&nbsp;may&nbsp;contain&nbsp;tens&nbsp;of&nbsp;thousands&nbsp;of&nbsp;records.<br>
&nbsp;&nbsp;&nbsp;&nbsp;When&nbsp;pulling&nbsp;training&nbsp;data&nbsp;from&nbsp;such&nbsp;files,&nbsp;this&nbsp;method&nbsp;prints&nbsp;out&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;dot&nbsp;on&nbsp;the&nbsp;terminal&nbsp;screen&nbsp;for&nbsp;every&nbsp;10000&nbsp;records&nbsp;it&nbsp;has&nbsp;processed.<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;script&nbsp;'dt_example_involving_csv_cleanup.py'&nbsp;in&nbsp;the&nbsp;Examples<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;for&nbsp;how&nbsp;to&nbsp;invoke&nbsp;the&nbsp;added&nbsp;functionality&nbsp;for&nbsp;CSV&nbsp;files.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.2.3<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Cleanup&nbsp;of&nbsp;the&nbsp;HTML&nbsp;page&nbsp;for&nbsp;the&nbsp;module.&nbsp;&nbsp;The&nbsp;implementation&nbsp;code<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;the&nbsp;API&nbsp;remain&nbsp;unchanged.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.2.2<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Incorporates&nbsp;a&nbsp;fix&nbsp;for&nbsp;a&nbsp;minor&nbsp;bug&nbsp;related&nbsp;to&nbsp;exception&nbsp;handling&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;case&nbsp;when&nbsp;the&nbsp;training&nbsp;data&nbsp;file&nbsp;named&nbsp;in&nbsp;the&nbsp;constructor&nbsp;has&nbsp;an<br>
&nbsp;&nbsp;&nbsp;&nbsp;incorrect&nbsp;suffix.&nbsp;&nbsp;Also&nbsp;incorporated&nbsp;in&nbsp;this&nbsp;version&nbsp;is&nbsp;a&nbsp;general<br>
&nbsp;&nbsp;&nbsp;&nbsp;cleanup&nbsp;of&nbsp;the&nbsp;exception&nbsp;handling&nbsp;code.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.2.1<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Contains&nbsp;a&nbsp;bugfix&nbsp;for&nbsp;a&nbsp;probability&nbsp;calculator&nbsp;function.&nbsp;The&nbsp;bug&nbsp;was<br>
&nbsp;&nbsp;&nbsp;&nbsp;triggered&nbsp;when&nbsp;a&nbsp;feature&nbsp;did&nbsp;not&nbsp;take&nbsp;on&nbsp;any&nbsp;values&nbsp;whatsoever&nbsp;in&nbsp;all<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;for&nbsp;a&nbsp;class&nbsp;---&nbsp;a&nbsp;condition&nbsp;likely&nbsp;to&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;encountered&nbsp;only&nbsp;rarely,&nbsp;but&nbsp;nonetheless&nbsp;important.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.2.0<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;brings&nbsp;the&nbsp;boosting&nbsp;capability&nbsp;to&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.0.1<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;is&nbsp;a&nbsp;minor&nbsp;revision&nbsp;that&nbsp;smooths&nbsp;out&nbsp;the&nbsp;documentation&nbsp;at&nbsp;a&nbsp;couple<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;important&nbsp;places.&nbsp;&nbsp;I&nbsp;have&nbsp;also&nbsp;fixed&nbsp;the&nbsp;typos&nbsp;that&nbsp;I&nbsp;discovered<br>
&nbsp;&nbsp;&nbsp;&nbsp;after&nbsp;the&nbsp;previous&nbsp;version&nbsp;was&nbsp;released.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;3.0<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Version&nbsp;3.0&nbsp;adds&nbsp;bagging&nbsp;to&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.&nbsp;If&nbsp;your&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;dataset&nbsp;is&nbsp;large&nbsp;enough,&nbsp;you&nbsp;can&nbsp;ask&nbsp;the&nbsp;module&nbsp;to&nbsp;construct&nbsp;multiple<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;trees&nbsp;using&nbsp;data&nbsp;bags&nbsp;extracted&nbsp;from&nbsp;your&nbsp;dataset.&nbsp;&nbsp;The&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;can&nbsp;show&nbsp;you&nbsp;the&nbsp;results&nbsp;returned&nbsp;by&nbsp;the&nbsp;individual&nbsp;decision&nbsp;trees&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;also&nbsp;the&nbsp;results&nbsp;obtained&nbsp;by&nbsp;taking&nbsp;a&nbsp;majority&nbsp;vote&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decisions&nbsp;made&nbsp;by&nbsp;the&nbsp;trees.&nbsp;&nbsp;You&nbsp;can&nbsp;specify&nbsp;any<br>
&nbsp;&nbsp;&nbsp;&nbsp;arbitrary&nbsp;extent&nbsp;of&nbsp;overlap&nbsp;between&nbsp;the&nbsp;data&nbsp;bags.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.3.4<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;There&nbsp;was&nbsp;an&nbsp;error&nbsp;in&nbsp;the&nbsp;packaging&nbsp;of&nbsp;version&nbsp;2.3.3&nbsp;of&nbsp;this&nbsp;module.<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;error&nbsp;related&nbsp;to&nbsp;how&nbsp;the&nbsp;`packages'&nbsp;keyword&nbsp;was&nbsp;specified&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;setup.py.&nbsp;&nbsp;This&nbsp;version&nbsp;fixes&nbsp;that&nbsp;error.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.3.3:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;purpose&nbsp;of&nbsp;this&nbsp;version&nbsp;is&nbsp;merely&nbsp;to&nbsp;mention&nbsp;that&nbsp;you&nbsp;do&nbsp;NOT&nbsp;need<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;double-quote&nbsp;the&nbsp;entries&nbsp;in&nbsp;your&nbsp;CSV&nbsp;training&nbsp;files.&nbsp;The&nbsp;older<br>
&nbsp;&nbsp;&nbsp;&nbsp;versions&nbsp;of&nbsp;this&nbsp;module&nbsp;required&nbsp;the&nbsp;rows&nbsp;of&nbsp;a&nbsp;CSV&nbsp;file&nbsp;to&nbsp;be&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;following&nbsp;sort&nbsp;of&nbsp;a&nbsp;format:<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.3.2:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;introspection&nbsp;capability&nbsp;in&nbsp;this&nbsp;version&nbsp;packs&nbsp;more&nbsp;of&nbsp;a&nbsp;punch.<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;each&nbsp;training&nbsp;data&nbsp;sample,&nbsp;you&nbsp;can&nbsp;now&nbsp;figure&nbsp;out&nbsp;not&nbsp;only&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision-tree&nbsp;nodes&nbsp;that&nbsp;are&nbsp;affected&nbsp;directly&nbsp;by&nbsp;that&nbsp;sample,&nbsp;but&nbsp;also<br>
&nbsp;&nbsp;&nbsp;&nbsp;those&nbsp;nodes&nbsp;that&nbsp;are&nbsp;affected&nbsp;indirectly&nbsp;through&nbsp;the&nbsp;generalization<br>
&nbsp;&nbsp;&nbsp;&nbsp;achieved&nbsp;by&nbsp;the&nbsp;probabilistic&nbsp;modeling&nbsp;of&nbsp;the&nbsp;data.&nbsp;&nbsp;The&nbsp;Examples<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;of&nbsp;this&nbsp;version&nbsp;includes&nbsp;additional&nbsp;scripts&nbsp;that&nbsp;illustrate<br>
&nbsp;&nbsp;&nbsp;&nbsp;these&nbsp;enhancements&nbsp;to&nbsp;the&nbsp;introspection&nbsp;capability.&nbsp;&nbsp;See&nbsp;the&nbsp;section<br>
&nbsp;&nbsp;&nbsp;&nbsp;"The&nbsp;Introspection&nbsp;API"&nbsp;for&nbsp;a&nbsp;declaration&nbsp;of&nbsp;the&nbsp;introspection&nbsp;related<br>
&nbsp;&nbsp;&nbsp;&nbsp;methods,&nbsp;old&nbsp;and&nbsp;new.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.3.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;has&nbsp;a&nbsp;bug&nbsp;fix&nbsp;for&nbsp;the&nbsp;decision-tree&nbsp;introspection<br>
&nbsp;&nbsp;&nbsp;&nbsp;capability&nbsp;that&nbsp;was&nbsp;added&nbsp;to&nbsp;the&nbsp;module&nbsp;in&nbsp;Version&nbsp;2.3.&nbsp;Also&nbsp;changed&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;version&nbsp;are&nbsp;the&nbsp;names&nbsp;of&nbsp;the&nbsp;two&nbsp;scripts&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;illustrate&nbsp;introspection.&nbsp;&nbsp;The&nbsp;new&nbsp;names&nbsp;are&nbsp;"introspection_at_one<br>
&nbsp;&nbsp;&nbsp;&nbsp;_node.py"&nbsp;and&nbsp;"introspection_in_a_loop.py".<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.3:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;In&nbsp;response&nbsp;to&nbsp;requests&nbsp;from&nbsp;several&nbsp;users,&nbsp;this&nbsp;version&nbsp;includes&nbsp;a&nbsp;new<br>
&nbsp;&nbsp;&nbsp;&nbsp;capability:&nbsp;You&nbsp;can&nbsp;now&nbsp;ask&nbsp;the&nbsp;module&nbsp;to&nbsp;introspect&nbsp;about&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decisions&nbsp;returned&nbsp;by&nbsp;the&nbsp;decision&nbsp;tree.&nbsp;&nbsp;Toward&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;end,&nbsp;the&nbsp;module&nbsp;includes&nbsp;a&nbsp;new&nbsp;class&nbsp;named&nbsp;<a href="#DTIntrospection">DTIntrospection</a>.&nbsp;&nbsp;Perhaps<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;most&nbsp;important&nbsp;bit&nbsp;of&nbsp;information&nbsp;you&nbsp;are&nbsp;likely&nbsp;to&nbsp;seek&nbsp;through&nbsp;DT<br>
&nbsp;&nbsp;&nbsp;&nbsp;introspection&nbsp;is&nbsp;the&nbsp;list&nbsp;of&nbsp;the&nbsp;training&nbsp;samples&nbsp;that&nbsp;fall&nbsp;directly&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;is&nbsp;assigned&nbsp;to&nbsp;a&nbsp;node.&nbsp;&nbsp;CAVEAT:<br>
&nbsp;&nbsp;&nbsp;&nbsp;When&nbsp;training&nbsp;samples&nbsp;are&nbsp;non-uniformly&nbsp;distributed&nbsp;in&nbsp;the&nbsp;underlying<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;space,&nbsp;IT&nbsp;IS&nbsp;POSSIBLE&nbsp;FOR&nbsp;A&nbsp;NODE&nbsp;TO&nbsp;EXIST&nbsp;EVEN&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;WHEN&nbsp;NO&nbsp;TRAINING&nbsp;SAMPLES&nbsp;FALL&nbsp;IN&nbsp;THE&nbsp;PORTION&nbsp;OF&nbsp;THE&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;FEATURE&nbsp;SPACE&nbsp;ASSIGNED&nbsp;TO&nbsp;THE&nbsp;NODE.&nbsp;&nbsp;(This&nbsp;is&nbsp;the&nbsp;entire&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;point&nbsp;of&nbsp;the&nbsp;generalization&nbsp;achieved&nbsp;by&nbsp;probabilistic&nbsp;modeling&nbsp;of&nbsp;the&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data.)&nbsp;&nbsp;For&nbsp;additional&nbsp;information&nbsp;related&nbsp;to&nbsp;DT&nbsp;introspection,&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;see&nbsp;the&nbsp;section&nbsp;titled&nbsp;"DECISION&nbsp;TREE&nbsp;INTROSPECTION"&nbsp;in&nbsp;this&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;documentation&nbsp;page.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.6:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Removed&nbsp;a&nbsp;serious&nbsp;bug&nbsp;in&nbsp;the&nbsp;method&nbsp;get_training_data_from_dat()&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;used&nbsp;to&nbsp;read&nbsp;the&nbsp;training&nbsp;data&nbsp;from&nbsp;`.dat'&nbsp;files.&nbsp;&nbsp;The&nbsp;class&nbsp;naming<br>
&nbsp;&nbsp;&nbsp;&nbsp;convention&nbsp;internally&nbsp;in&nbsp;the&nbsp;code&nbsp;is&nbsp;that&nbsp;it&nbsp;is&nbsp;a&nbsp;concatenation&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;header&nbsp;of&nbsp;the&nbsp;column&nbsp;that&nbsp;contains&nbsp;the&nbsp;class&nbsp;labels&nbsp;and&nbsp;the&nbsp;actual<br>
&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;name&nbsp;as&nbsp;mentioned&nbsp;in&nbsp;each&nbsp;row&nbsp;of&nbsp;the&nbsp;training&nbsp;data.&nbsp;There&nbsp;was&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;problem&nbsp;with&nbsp;this&nbsp;concatenation.&nbsp;Another&nbsp;very&nbsp;important&nbsp;bug&nbsp;fix&nbsp;was&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;method&nbsp;probability_of_feature_value().&nbsp;The&nbsp;probability&nbsp;calculation<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;previous&nbsp;versions&nbsp;was&nbsp;erroneous&nbsp;for&nbsp;those&nbsp;features&nbsp;that&nbsp;acquired<br>
&nbsp;&nbsp;&nbsp;&nbsp;zero&nbsp;values.&nbsp;&nbsp;The&nbsp;users&nbsp;of&nbsp;this&nbsp;module&nbsp;may&nbsp;not&nbsp;have&nbsp;noticed&nbsp;this&nbsp;error<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;past&nbsp;if&nbsp;the&nbsp;zero&nbsp;values&nbsp;for&nbsp;the&nbsp;features&nbsp;occurred&nbsp;relatively<br>
&nbsp;&nbsp;&nbsp;&nbsp;infrequently.&nbsp;&nbsp;This&nbsp;error&nbsp;has&nbsp;now&nbsp;been&nbsp;fixed.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.5:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;are&nbsp;not&nbsp;using&nbsp;the&nbsp;synthetic&nbsp;data&nbsp;generation&nbsp;feature&nbsp;of&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;module,&nbsp;the&nbsp;changes&nbsp;made&nbsp;in&nbsp;this&nbsp;version&nbsp;do&nbsp;not&nbsp;affect&nbsp;you.&nbsp;The&nbsp;code<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;was&nbsp;changed&nbsp;is&nbsp;all&nbsp;in&nbsp;the&nbsp;class&nbsp;<a href="#TrainingDataGeneratorNumeric">TrainingDataGeneratorNumeric</a>.&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;changes&nbsp;to&nbsp;this&nbsp;class&nbsp;remove&nbsp;an&nbsp;important&nbsp;bug&nbsp;related&nbsp;to&nbsp;the&nbsp;ordering<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;feature&nbsp;names&nbsp;that&nbsp;are&nbsp;read&nbsp;from&nbsp;a&nbsp;user-supplied&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;file.&nbsp;The&nbsp;basic&nbsp;Decision&nbsp;Tree&nbsp;construction&nbsp;and&nbsp;classification&nbsp;code<br>
&nbsp;&nbsp;&nbsp;&nbsp;remains&nbsp;unchanged.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.4:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;should&nbsp;prove&nbsp;more&nbsp;robust&nbsp;when&nbsp;the&nbsp;probability&nbsp;distribution<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;the&nbsp;values&nbsp;of&nbsp;a&nbsp;feature&nbsp;is&nbsp;expected&nbsp;to&nbsp;be&nbsp;heavy-tailed;&nbsp;that&nbsp;is,<br>
&nbsp;&nbsp;&nbsp;&nbsp;when&nbsp;the&nbsp;supposedly&nbsp;rare&nbsp;observations&nbsp;can&nbsp;occur&nbsp;with&nbsp;significant<br>
&nbsp;&nbsp;&nbsp;&nbsp;probabilities.&nbsp;&nbsp;A&nbsp;new&nbsp;option&nbsp;in&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;constructor&nbsp;lets&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;user&nbsp;specify&nbsp;the&nbsp;precision&nbsp;with&nbsp;which&nbsp;the&nbsp;probability&nbsp;distributions<br>
&nbsp;&nbsp;&nbsp;&nbsp;are&nbsp;estimated&nbsp;for&nbsp;such&nbsp;features.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.3:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;fixes&nbsp;a&nbsp;bug&nbsp;that&nbsp;was&nbsp;caused&nbsp;by&nbsp;the&nbsp;explicitly&nbsp;set&nbsp;zero<br>
&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;for&nbsp;numerical&nbsp;features&nbsp;being&nbsp;misconstrued&nbsp;as&nbsp;"false"&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;conditional&nbsp;statements&nbsp;in&nbsp;some&nbsp;of&nbsp;the&nbsp;method&nbsp;definitions.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.2:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;In&nbsp;response&nbsp;to&nbsp;requests&nbsp;from&nbsp;users,&nbsp;this&nbsp;version&nbsp;includes&nbsp;scripts&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;that&nbsp;demonstrate&nbsp;how&nbsp;to&nbsp;carry&nbsp;out&nbsp;bulk<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;of&nbsp;all&nbsp;your&nbsp;test&nbsp;data&nbsp;records&nbsp;placed&nbsp;in&nbsp;a&nbsp;CSV&nbsp;file&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;one&nbsp;fell&nbsp;swoop.&nbsp;&nbsp;Also&nbsp;included&nbsp;are&nbsp;scripts&nbsp;that&nbsp;demonstrate&nbsp;the&nbsp;same<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;the&nbsp;data&nbsp;records&nbsp;placed&nbsp;in&nbsp;the&nbsp;old-style&nbsp;`.dat'&nbsp;files.&nbsp;&nbsp;The&nbsp;main<br>
&nbsp;&nbsp;&nbsp;&nbsp;module&nbsp;code&nbsp;remains&nbsp;unchanged.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;changes&nbsp;made&nbsp;are&nbsp;all&nbsp;in&nbsp;the&nbsp;part&nbsp;of&nbsp;the&nbsp;module&nbsp;that&nbsp;is&nbsp;used&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;evaluating&nbsp;the&nbsp;quality&nbsp;of&nbsp;training&nbsp;data&nbsp;through&nbsp;a&nbsp;10-fold&nbsp;cross<br>
&nbsp;&nbsp;&nbsp;&nbsp;validation&nbsp;test.&nbsp;&nbsp;The&nbsp;previous&nbsp;version&nbsp;used&nbsp;the&nbsp;default&nbsp;values&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;parameters&nbsp;when&nbsp;constructing&nbsp;the&nbsp;decision&nbsp;trees&nbsp;in&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;iteration&nbsp;of&nbsp;the&nbsp;test.&nbsp;The&nbsp;new&nbsp;version&nbsp;correctly&nbsp;uses&nbsp;the&nbsp;user-supplied<br>
&nbsp;&nbsp;&nbsp;&nbsp;values.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.2:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;fixes&nbsp;a&nbsp;bug&nbsp;discovered&nbsp;in&nbsp;the&nbsp;best&nbsp;feature&nbsp;calculator<br>
&nbsp;&nbsp;&nbsp;&nbsp;function.&nbsp;This&nbsp;bug&nbsp;was&nbsp;triggered&nbsp;by&nbsp;certain&nbsp;conditions&nbsp;related&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;distribution&nbsp;of&nbsp;values&nbsp;for&nbsp;the&nbsp;features&nbsp;in&nbsp;a&nbsp;training&nbsp;data&nbsp;file.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Additionally,&nbsp;and&nbsp;VERY&nbsp;IMPORTANTLY,&nbsp;Version&nbsp;2.2&nbsp;allows&nbsp;you&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;test&nbsp;the&nbsp;quality&nbsp;of&nbsp;your&nbsp;training&nbsp;data&nbsp;by&nbsp;running&nbsp;a&nbsp;10-fold<br>
&nbsp;&nbsp;&nbsp;&nbsp;cross-validation&nbsp;test&nbsp;on&nbsp;the&nbsp;data.&nbsp;&nbsp;This&nbsp;test&nbsp;divides&nbsp;all&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;into&nbsp;ten&nbsp;parts,&nbsp;with&nbsp;nine&nbsp;parts&nbsp;used&nbsp;for&nbsp;training&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree&nbsp;and&nbsp;one&nbsp;part&nbsp;used&nbsp;for&nbsp;testing&nbsp;its&nbsp;ability&nbsp;to&nbsp;classify<br>
&nbsp;&nbsp;&nbsp;&nbsp;correctly.&nbsp;This&nbsp;selection&nbsp;of&nbsp;nine&nbsp;parts&nbsp;for&nbsp;training&nbsp;and&nbsp;one&nbsp;part&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;testing&nbsp;is&nbsp;carried&nbsp;out&nbsp;in&nbsp;all&nbsp;of&nbsp;the&nbsp;ten&nbsp;different&nbsp;possible&nbsp;ways.&nbsp;&nbsp;This<br>
&nbsp;&nbsp;&nbsp;&nbsp;testing&nbsp;functionality&nbsp;in&nbsp;Version&nbsp;2.2&nbsp;can&nbsp;also&nbsp;be&nbsp;used&nbsp;to&nbsp;find&nbsp;the&nbsp;best<br>
&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;to&nbsp;use&nbsp;for&nbsp;the&nbsp;constructor&nbsp;parameters&nbsp;entropy_threshold,<br>
&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired,&nbsp;and&nbsp;symbolic_to_numeric_cardinality_threshold.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;is&nbsp;a&nbsp;cleaned&nbsp;up&nbsp;version&nbsp;of&nbsp;v.&nbsp;2.0&nbsp;of&nbsp;the&nbsp;module.&nbsp;Should&nbsp;run&nbsp;more<br>
&nbsp;&nbsp;&nbsp;&nbsp;efficiently&nbsp;for&nbsp;large&nbsp;training&nbsp;data&nbsp;files&nbsp;that&nbsp;contain&nbsp;both&nbsp;numeric&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;symbolic&nbsp;features.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;2.0:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;was&nbsp;a&nbsp;major&nbsp;rewrite&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.&nbsp;&nbsp;This&nbsp;revision&nbsp;was<br>
&nbsp;&nbsp;&nbsp;&nbsp;prompted&nbsp;by&nbsp;a&nbsp;number&nbsp;of&nbsp;users&nbsp;wanting&nbsp;to&nbsp;see&nbsp;numeric&nbsp;features<br>
&nbsp;&nbsp;&nbsp;&nbsp;incorporated&nbsp;in&nbsp;the&nbsp;construction&nbsp;of&nbsp;decision&nbsp;trees.&nbsp;&nbsp;So&nbsp;here&nbsp;it&nbsp;is!<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;allows&nbsp;you&nbsp;to&nbsp;use&nbsp;either&nbsp;purely&nbsp;symbolic&nbsp;features,&nbsp;or<br>
&nbsp;&nbsp;&nbsp;&nbsp;purely&nbsp;numeric&nbsp;features,&nbsp;or&nbsp;a&nbsp;mixture&nbsp;of&nbsp;the&nbsp;two.&nbsp;(A&nbsp;feature&nbsp;is&nbsp;numeric<br>
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;it&nbsp;can&nbsp;take&nbsp;any&nbsp;floating-point&nbsp;value&nbsp;over&nbsp;an&nbsp;interval.)<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.7.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;includes&nbsp;a&nbsp;fix&nbsp;for&nbsp;a&nbsp;bug&nbsp;that&nbsp;was&nbsp;triggered&nbsp;by&nbsp;certain<br>
&nbsp;&nbsp;&nbsp;&nbsp;comment&nbsp;words&nbsp;in&nbsp;a&nbsp;training&nbsp;data&nbsp;file.&nbsp;&nbsp;This&nbsp;version&nbsp;also&nbsp;includes<br>
&nbsp;&nbsp;&nbsp;&nbsp;additional&nbsp;safety&nbsp;checks&nbsp;that&nbsp;are&nbsp;useful&nbsp;for&nbsp;catching&nbsp;errors&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;inconsistencies&nbsp;in&nbsp;large&nbsp;training&nbsp;data&nbsp;files&nbsp;that&nbsp;do&nbsp;not&nbsp;lend<br>
&nbsp;&nbsp;&nbsp;&nbsp;themselves&nbsp;to&nbsp;manual&nbsp;checking&nbsp;for&nbsp;correctness.&nbsp;&nbsp;As&nbsp;an&nbsp;example,&nbsp;the&nbsp;new<br>
&nbsp;&nbsp;&nbsp;&nbsp;version&nbsp;makes&nbsp;sure&nbsp;that&nbsp;the&nbsp;number&nbsp;of&nbsp;values&nbsp;you&nbsp;declare&nbsp;in&nbsp;each&nbsp;sample<br>
&nbsp;&nbsp;&nbsp;&nbsp;record&nbsp;matches&nbsp;the&nbsp;number&nbsp;of&nbsp;features&nbsp;declared&nbsp;at&nbsp;the&nbsp;beginning&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;file.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.7:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;includes&nbsp;safety&nbsp;checks&nbsp;on&nbsp;the&nbsp;consistency&nbsp;of&nbsp;the&nbsp;data&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;place&nbsp;in&nbsp;your&nbsp;training&nbsp;data&nbsp;file.&nbsp;&nbsp;When&nbsp;a&nbsp;training&nbsp;data&nbsp;file&nbsp;contains<br>
&nbsp;&nbsp;&nbsp;&nbsp;thousands&nbsp;of&nbsp;records,&nbsp;it&nbsp;is&nbsp;difficult&nbsp;to&nbsp;manually&nbsp;check&nbsp;that&nbsp;you&nbsp;used<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;same&nbsp;class&nbsp;names&nbsp;in&nbsp;your&nbsp;sample&nbsp;records&nbsp;that&nbsp;you&nbsp;declared&nbsp;at&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;top&nbsp;of&nbsp;your&nbsp;training&nbsp;file&nbsp;or&nbsp;that&nbsp;the&nbsp;values&nbsp;you&nbsp;have&nbsp;for&nbsp;your&nbsp;features<br>
&nbsp;&nbsp;&nbsp;&nbsp;are&nbsp;legal&nbsp;vis-a-vis&nbsp;the&nbsp;earlier&nbsp;declarations&nbsp;regarding&nbsp;such&nbsp;values&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;training&nbsp;file.&nbsp;&nbsp;Another&nbsp;safety&nbsp;feature&nbsp;incorporated&nbsp;in&nbsp;this&nbsp;version<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;the&nbsp;non-consideration&nbsp;of&nbsp;classes&nbsp;that&nbsp;are&nbsp;declared&nbsp;at&nbsp;the&nbsp;top&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;file&nbsp;but&nbsp;that&nbsp;have&nbsp;no&nbsp;sample&nbsp;records&nbsp;in&nbsp;the&nbsp;file.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.6.1:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Fixed&nbsp;a&nbsp;bug&nbsp;in&nbsp;the&nbsp;method&nbsp;that&nbsp;generates&nbsp;synthetic&nbsp;test&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.6:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;includes&nbsp;several&nbsp;upgrades:&nbsp;The&nbsp;module&nbsp;now&nbsp;includes&nbsp;code<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;generating&nbsp;synthetic&nbsp;training&nbsp;and&nbsp;test&nbsp;data&nbsp;for&nbsp;experimenting&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;classifier.&nbsp;&nbsp;Another&nbsp;upgrade&nbsp;in&nbsp;the&nbsp;new&nbsp;version&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;that,&nbsp;after&nbsp;training,&nbsp;a&nbsp;decision&nbsp;tree&nbsp;can&nbsp;now&nbsp;be&nbsp;used&nbsp;in&nbsp;an&nbsp;interactive<br>
&nbsp;&nbsp;&nbsp;&nbsp;mode&nbsp;in&nbsp;which&nbsp;the&nbsp;user&nbsp;is&nbsp;asked&nbsp;to&nbsp;supply&nbsp;answers&nbsp;for&nbsp;the&nbsp;feature&nbsp;tests<br>
&nbsp;&nbsp;&nbsp;&nbsp;at&nbsp;the&nbsp;nodes&nbsp;as&nbsp;the&nbsp;classification&nbsp;process&nbsp;descends&nbsp;down&nbsp;the&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.5:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;is&nbsp;a&nbsp;Python&nbsp;3.x&nbsp;compliant&nbsp;version&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;version&nbsp;should&nbsp;work&nbsp;with&nbsp;both&nbsp;Python&nbsp;2.x&nbsp;and&nbsp;Python&nbsp;3.x.<br>
&nbsp;<br>
&nbsp;&nbsp;Version&nbsp;1.0:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;is&nbsp;a&nbsp;Python&nbsp;implementation&nbsp;of&nbsp;the&nbsp;author's&nbsp;Perl&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;Algorithm::<a href="#DecisionTree">DecisionTree</a>,&nbsp;Version&nbsp;1.41.&nbsp;&nbsp;The&nbsp;Python&nbsp;version&nbsp;should&nbsp;work<br>
&nbsp;&nbsp;&nbsp;&nbsp;faster&nbsp;for&nbsp;large&nbsp;decision&nbsp;trees&nbsp;since&nbsp;it&nbsp;uses&nbsp;probability&nbsp;and&nbsp;entropy<br>
&nbsp;&nbsp;&nbsp;&nbsp;caching&nbsp;much&nbsp;more&nbsp;extensively&nbsp;than&nbsp;Version&nbsp;1.41&nbsp;of&nbsp;the&nbsp;Perl&nbsp;module.<br>
&nbsp;&nbsp;&nbsp;&nbsp;(Note:&nbsp;I&nbsp;expect&nbsp;my&nbsp;next&nbsp;release&nbsp;of&nbsp;the&nbsp;Perl&nbsp;module&nbsp;to&nbsp;catch&nbsp;up&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;Python&nbsp;version&nbsp;in&nbsp;terms&nbsp;of&nbsp;performance.)<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="2">USAGE:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;your&nbsp;training&nbsp;data&nbsp;includes&nbsp;numeric&nbsp;features&nbsp;(a&nbsp;feature&nbsp;is&nbsp;numeric<br>
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;it&nbsp;can&nbsp;take&nbsp;any&nbsp;floating&nbsp;point&nbsp;value&nbsp;over&nbsp;an&nbsp;interval),&nbsp;you&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;expected&nbsp;to&nbsp;supply&nbsp;your&nbsp;training&nbsp;data&nbsp;through&nbsp;a&nbsp;CSV&nbsp;file&nbsp;and&nbsp;your&nbsp;call<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;constructing&nbsp;an&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;will&nbsp;look&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"stage3cancer.csv"<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt&nbsp;=&nbsp;<a href="#DecisionTree">DecisionTree</a>.<a href="#DecisionTree">DecisionTree</a>(&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;2,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[3,4,5,6,7,8],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;constructor&nbsp;option&nbsp;`csv_class_column_index'&nbsp;informs&nbsp;the&nbsp;module&nbsp;as<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;which&nbsp;column&nbsp;of&nbsp;your&nbsp;CSV&nbsp;file&nbsp;contains&nbsp;the&nbsp;class&nbsp;label.&nbsp;&nbsp;THE&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;COLUMN&nbsp;INDEXING&nbsp;IS&nbsp;ZERO&nbsp;BASED.&nbsp;&nbsp;The&nbsp;constructor&nbsp;option<br>
&nbsp;&nbsp;&nbsp;&nbsp;`csv_columns_for_features'&nbsp;specifies&nbsp;which&nbsp;columns&nbsp;are&nbsp;to&nbsp;be&nbsp;used&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;values.&nbsp;&nbsp;The&nbsp;first&nbsp;row&nbsp;of&nbsp;the&nbsp;CSV&nbsp;file&nbsp;must&nbsp;specify&nbsp;the&nbsp;names<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;features.&nbsp;&nbsp;See&nbsp;examples&nbsp;of&nbsp;CSV&nbsp;files&nbsp;in&nbsp;the&nbsp;`Examples'<br>
&nbsp;&nbsp;&nbsp;&nbsp;subdirectory.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;option&nbsp;`symbolic_to_numeric_cardinality_threshold'&nbsp;is&nbsp;also<br>
&nbsp;&nbsp;&nbsp;&nbsp;important.&nbsp;&nbsp;For&nbsp;the&nbsp;example&nbsp;shown&nbsp;above,&nbsp;if&nbsp;an&nbsp;ostensibly&nbsp;numeric<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;takes&nbsp;on&nbsp;only&nbsp;10&nbsp;or&nbsp;fewer&nbsp;different&nbsp;values&nbsp;in&nbsp;your&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;datafile,&nbsp;it&nbsp;will&nbsp;be&nbsp;treated&nbsp;like&nbsp;a&nbsp;symbolic&nbsp;feature.&nbsp;&nbsp;The&nbsp;option<br>
&nbsp;&nbsp;&nbsp;&nbsp;`entropy_threshold'&nbsp;determines&nbsp;the&nbsp;granularity&nbsp;with&nbsp;which&nbsp;the&nbsp;entropies<br>
&nbsp;&nbsp;&nbsp;&nbsp;are&nbsp;sampled&nbsp;for&nbsp;the&nbsp;purpose&nbsp;of&nbsp;calculating&nbsp;entropy&nbsp;gain&nbsp;with&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;particular&nbsp;choice&nbsp;of&nbsp;decision&nbsp;threshold&nbsp;for&nbsp;a&nbsp;numeric&nbsp;feature&nbsp;or&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;value&nbsp;for&nbsp;a&nbsp;symbolic&nbsp;feature.&nbsp;&nbsp;<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;option&nbsp;`csv_cleanup_needed'&nbsp;is&nbsp;by&nbsp;default&nbsp;set&nbsp;to&nbsp;0.&nbsp;&nbsp;If&nbsp;you&nbsp;set&nbsp;it<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;1,&nbsp;that&nbsp;would&nbsp;cause&nbsp;all&nbsp;line&nbsp;records&nbsp;in&nbsp;your&nbsp;CSV&nbsp;file&nbsp;to&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;"sanitized"&nbsp;before&nbsp;they&nbsp;are&nbsp;used&nbsp;for&nbsp;constructing&nbsp;a&nbsp;decision&nbsp;tree.&nbsp;&nbsp;You<br>
&nbsp;&nbsp;&nbsp;&nbsp;need&nbsp;this&nbsp;option&nbsp;if&nbsp;your&nbsp;CSV&nbsp;file&nbsp;uses&nbsp;double-quoted&nbsp;field&nbsp;names&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;field&nbsp;values&nbsp;in&nbsp;the&nbsp;line&nbsp;records&nbsp;and&nbsp;if&nbsp;such&nbsp;double-quoted&nbsp;strings&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;allowed&nbsp;to&nbsp;include&nbsp;commas&nbsp;for,&nbsp;presumably,&nbsp;better&nbsp;readability.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;After&nbsp;you&nbsp;have&nbsp;constructed&nbsp;an&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;as<br>
&nbsp;&nbsp;&nbsp;&nbsp;shown&nbsp;above,&nbsp;you&nbsp;read&nbsp;in&nbsp;the&nbsp;training&nbsp;data&nbsp;file&nbsp;and&nbsp;initialize&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;probability&nbsp;cache&nbsp;by&nbsp;calling:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.get_training_data()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_first_order_probabilities()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_class_priors()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Next&nbsp;you&nbsp;construct&nbsp;a&nbsp;decision&nbsp;tree&nbsp;for&nbsp;your&nbsp;training&nbsp;data&nbsp;by&nbsp;calling:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;root_node&nbsp;=&nbsp;dt.construct_decision_tree_classifier()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;where&nbsp;root_node&nbsp;is&nbsp;an&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DTNode">DTNode</a>&nbsp;class&nbsp;that&nbsp;is&nbsp;also&nbsp;defined<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;module&nbsp;file.&nbsp;&nbsp;Now&nbsp;you&nbsp;are&nbsp;ready&nbsp;to&nbsp;classify&nbsp;a&nbsp;new&nbsp;data&nbsp;record.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Let's&nbsp;say&nbsp;that&nbsp;your&nbsp;data&nbsp;record&nbsp;looks&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_sample&nbsp;&nbsp;=&nbsp;['g2&nbsp;=&nbsp;4.2',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'grade&nbsp;=&nbsp;2.3',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'gleason&nbsp;=&nbsp;4',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'eet&nbsp;=&nbsp;1.7',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'age&nbsp;=&nbsp;55.0',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'ploidy&nbsp;=&nbsp;diploid']<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;classify&nbsp;it&nbsp;by&nbsp;calling:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;=&nbsp;dt.classify(root_node,&nbsp;test_sample)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;call&nbsp;to&nbsp;`classify()'&nbsp;returns&nbsp;a&nbsp;reference&nbsp;to&nbsp;a&nbsp;hash&nbsp;whose&nbsp;keys&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;class&nbsp;names&nbsp;and&nbsp;the&nbsp;values&nbsp;the&nbsp;associated&nbsp;classification<br>
&nbsp;&nbsp;&nbsp;&nbsp;probabilities.&nbsp;&nbsp;This&nbsp;hash&nbsp;also&nbsp;includes&nbsp;another&nbsp;key-value&nbsp;pair&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;solution&nbsp;path&nbsp;from&nbsp;the&nbsp;root&nbsp;node&nbsp;to&nbsp;the&nbsp;leaf&nbsp;node&nbsp;at&nbsp;which&nbsp;the&nbsp;final<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;was&nbsp;carried&nbsp;out.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;A&nbsp;decision&nbsp;tree&nbsp;can&nbsp;quickly&nbsp;become&nbsp;much&nbsp;too&nbsp;large&nbsp;(and&nbsp;much&nbsp;too&nbsp;slow&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;construct&nbsp;and&nbsp;to&nbsp;yield&nbsp;classification&nbsp;results)&nbsp;if&nbsp;the&nbsp;total&nbsp;number&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;features&nbsp;is&nbsp;large&nbsp;and/or&nbsp;if&nbsp;the&nbsp;number&nbsp;of&nbsp;different&nbsp;possible&nbsp;values&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;symbolic&nbsp;features&nbsp;is&nbsp;large.&nbsp;&nbsp;You&nbsp;can&nbsp;control&nbsp;the&nbsp;size&nbsp;of&nbsp;the&nbsp;tree<br>
&nbsp;&nbsp;&nbsp;&nbsp;through&nbsp;the&nbsp;constructor&nbsp;options&nbsp;`entropy_threshold'&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;`max_depth_desired'.&nbsp;The&nbsp;latter&nbsp;option&nbsp;sets&nbsp;the&nbsp;maximum&nbsp;depth&nbsp;of&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree&nbsp;to&nbsp;max_depth_desired&nbsp;value.&nbsp;&nbsp;The&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;`entropy_threshold'&nbsp;sets&nbsp;the&nbsp;granularity&nbsp;with&nbsp;which&nbsp;the&nbsp;entropies&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;sampled.&nbsp;&nbsp;Its&nbsp;default&nbsp;value&nbsp;is&nbsp;0.001.&nbsp;&nbsp;The&nbsp;larger&nbsp;the&nbsp;value&nbsp;you&nbsp;choose<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;entropy_threshold,&nbsp;the&nbsp;smaller&nbsp;the&nbsp;tree.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="3">INTRODUCTION:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;is&nbsp;a&nbsp;Python&nbsp;module&nbsp;for&nbsp;constructing&nbsp;a&nbsp;decision&nbsp;tree&nbsp;from&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;file&nbsp;containing&nbsp;multidimensional&nbsp;data&nbsp;in&nbsp;the&nbsp;form&nbsp;of&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;table.&nbsp;In&nbsp;one&nbsp;form&nbsp;or&nbsp;another,&nbsp;decision&nbsp;trees&nbsp;have&nbsp;been&nbsp;around&nbsp;for&nbsp;over<br>
&nbsp;&nbsp;&nbsp;&nbsp;fifty&nbsp;years.&nbsp;From&nbsp;a&nbsp;statistical&nbsp;perspective,&nbsp;they&nbsp;are&nbsp;closely&nbsp;related<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;classification&nbsp;and&nbsp;regression&nbsp;by&nbsp;recursive&nbsp;partitioning&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;multidimensional&nbsp;data.&nbsp;Early&nbsp;work&nbsp;that&nbsp;demonstrated&nbsp;the&nbsp;usefulness&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;such&nbsp;partitioning&nbsp;of&nbsp;data&nbsp;for&nbsp;classification&nbsp;and&nbsp;regression&nbsp;can&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;traced&nbsp;to&nbsp;the&nbsp;work&nbsp;of&nbsp;Terry&nbsp;Therneau&nbsp;in&nbsp;the&nbsp;early&nbsp;1980's&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;statistics&nbsp;community,&nbsp;and&nbsp;to&nbsp;the&nbsp;work&nbsp;of&nbsp;Ross&nbsp;Quinlan&nbsp;in&nbsp;the&nbsp;mid&nbsp;1990's<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;machine&nbsp;learning&nbsp;community,<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;those&nbsp;not&nbsp;familiar&nbsp;with&nbsp;decision&nbsp;tree&nbsp;ideas,&nbsp;the&nbsp;traditional&nbsp;way&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;classify&nbsp;multidimensional&nbsp;data&nbsp;is&nbsp;to&nbsp;start&nbsp;with&nbsp;a&nbsp;feature&nbsp;space&nbsp;whose<br>
&nbsp;&nbsp;&nbsp;&nbsp;dimensionality&nbsp;is&nbsp;the&nbsp;same&nbsp;as&nbsp;that&nbsp;of&nbsp;the&nbsp;data.&nbsp;&nbsp;Each&nbsp;feature&nbsp;measures<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;specific&nbsp;attribute&nbsp;of&nbsp;an&nbsp;entity.&nbsp;&nbsp;You&nbsp;use&nbsp;the&nbsp;training&nbsp;data&nbsp;to&nbsp;carve<br>
&nbsp;&nbsp;&nbsp;&nbsp;up&nbsp;the&nbsp;feature&nbsp;space&nbsp;into&nbsp;different&nbsp;regions,&nbsp;each&nbsp;corresponding&nbsp;to&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;different&nbsp;class.&nbsp;&nbsp;Subsequently,&nbsp;when&nbsp;you&nbsp;try&nbsp;to&nbsp;classify&nbsp;a&nbsp;new&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;sample,&nbsp;you&nbsp;locate&nbsp;it&nbsp;in&nbsp;the&nbsp;feature&nbsp;space&nbsp;and&nbsp;find&nbsp;the&nbsp;class&nbsp;label&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;region&nbsp;to&nbsp;which&nbsp;it&nbsp;belongs.&nbsp;&nbsp;One&nbsp;can&nbsp;also&nbsp;give&nbsp;the&nbsp;data&nbsp;point&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;same&nbsp;class&nbsp;label&nbsp;as&nbsp;that&nbsp;of&nbsp;the&nbsp;nearest&nbsp;training&nbsp;sample.&nbsp;This&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;referred&nbsp;to&nbsp;as&nbsp;the&nbsp;nearest&nbsp;neighbor&nbsp;classification.&nbsp;There&nbsp;exist<br>
&nbsp;&nbsp;&nbsp;&nbsp;hundreds&nbsp;of&nbsp;variations&nbsp;of&nbsp;varying&nbsp;power&nbsp;on&nbsp;these&nbsp;two&nbsp;basic&nbsp;approaches<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;the&nbsp;classification&nbsp;of&nbsp;multidimensional&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;A&nbsp;decision&nbsp;tree&nbsp;classifier&nbsp;works&nbsp;differently.&nbsp;&nbsp;When&nbsp;you&nbsp;construct&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree,&nbsp;you&nbsp;select&nbsp;for&nbsp;the&nbsp;root&nbsp;node&nbsp;a&nbsp;feature&nbsp;test&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;partitions&nbsp;the&nbsp;training&nbsp;data&nbsp;in&nbsp;a&nbsp;way&nbsp;that&nbsp;causes&nbsp;maximal<br>
&nbsp;&nbsp;&nbsp;&nbsp;disambiguation&nbsp;of&nbsp;the&nbsp;class&nbsp;labels&nbsp;associated&nbsp;with&nbsp;the&nbsp;data.&nbsp;&nbsp;In&nbsp;terms<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;information&nbsp;content&nbsp;as&nbsp;measured&nbsp;by&nbsp;entropy,&nbsp;such&nbsp;a&nbsp;feature&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;would&nbsp;cause&nbsp;maximum&nbsp;reduction&nbsp;in&nbsp;class&nbsp;entropy&nbsp;in&nbsp;going&nbsp;from&nbsp;all&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;taken&nbsp;together&nbsp;to&nbsp;the&nbsp;data&nbsp;as&nbsp;partitioned&nbsp;by&nbsp;the&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;test.&nbsp;&nbsp;You&nbsp;then&nbsp;drop&nbsp;from&nbsp;the&nbsp;root&nbsp;node&nbsp;a&nbsp;set&nbsp;of&nbsp;child&nbsp;nodes,&nbsp;one&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;each&nbsp;partition&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;created&nbsp;by&nbsp;the&nbsp;feature&nbsp;test&nbsp;at&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;root&nbsp;node.&nbsp;When&nbsp;your&nbsp;features&nbsp;are&nbsp;purely&nbsp;symbolic,&nbsp;you'll&nbsp;have&nbsp;one<br>
&nbsp;&nbsp;&nbsp;&nbsp;child&nbsp;node&nbsp;for&nbsp;each&nbsp;value&nbsp;of&nbsp;the&nbsp;feature&nbsp;chosen&nbsp;for&nbsp;the&nbsp;feature&nbsp;test&nbsp;at<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;root.&nbsp;&nbsp;When&nbsp;the&nbsp;test&nbsp;at&nbsp;the&nbsp;root&nbsp;involves&nbsp;a&nbsp;numeric&nbsp;feature,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;find&nbsp;the&nbsp;decision&nbsp;threshold&nbsp;for&nbsp;the&nbsp;feature&nbsp;that&nbsp;best&nbsp;bipartitions&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;and&nbsp;you&nbsp;drop&nbsp;from&nbsp;the&nbsp;root&nbsp;node&nbsp;two&nbsp;child&nbsp;nodes,&nbsp;one&nbsp;for&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;partition.&nbsp;&nbsp;Now&nbsp;at&nbsp;each&nbsp;child&nbsp;node&nbsp;you&nbsp;pose&nbsp;the&nbsp;same&nbsp;question&nbsp;that&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;posed&nbsp;when&nbsp;you&nbsp;found&nbsp;the&nbsp;best&nbsp;feature&nbsp;to&nbsp;use&nbsp;at&nbsp;the&nbsp;root:&nbsp;Which&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;at&nbsp;the&nbsp;child&nbsp;node&nbsp;in&nbsp;question&nbsp;would&nbsp;maximally&nbsp;disambiguate&nbsp;the&nbsp;class<br>
&nbsp;&nbsp;&nbsp;&nbsp;labels&nbsp;associated&nbsp;with&nbsp;the&nbsp;training&nbsp;data&nbsp;corresponding&nbsp;to&nbsp;that&nbsp;child<br>
&nbsp;&nbsp;&nbsp;&nbsp;node?<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;the&nbsp;reader&nbsp;would&nbsp;expect,&nbsp;the&nbsp;two&nbsp;key&nbsp;steps&nbsp;in&nbsp;any&nbsp;approach&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision-tree&nbsp;based&nbsp;classification&nbsp;are&nbsp;the&nbsp;construction&nbsp;of&nbsp;the&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;tree&nbsp;itself&nbsp;from&nbsp;a&nbsp;file&nbsp;containing&nbsp;the&nbsp;training&nbsp;data,&nbsp;and&nbsp;then&nbsp;using<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;decision&nbsp;tree&nbsp;thus&nbsp;obtained&nbsp;for&nbsp;classifying&nbsp;new&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;What&nbsp;is&nbsp;cool&nbsp;about&nbsp;decision&nbsp;tree&nbsp;classification&nbsp;is&nbsp;that&nbsp;it&nbsp;gives&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;soft&nbsp;classification,&nbsp;meaning&nbsp;it&nbsp;may&nbsp;associate&nbsp;more&nbsp;than&nbsp;one&nbsp;class&nbsp;label<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;a&nbsp;given&nbsp;data&nbsp;record.&nbsp;&nbsp;When&nbsp;this&nbsp;happens,&nbsp;it&nbsp;may&nbsp;mean&nbsp;that&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;classes&nbsp;are&nbsp;indeed&nbsp;overlapping&nbsp;in&nbsp;the&nbsp;underlying&nbsp;feature&nbsp;space.&nbsp;&nbsp;It<br>
&nbsp;&nbsp;&nbsp;&nbsp;could&nbsp;also&nbsp;mean&nbsp;that&nbsp;you&nbsp;simply&nbsp;have&nbsp;not&nbsp;supplied&nbsp;sufficient&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;to&nbsp;the&nbsp;decision&nbsp;tree&nbsp;classifier.&nbsp;&nbsp;For&nbsp;a&nbsp;tutorial&nbsp;introduction&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;how&nbsp;a&nbsp;decision&nbsp;tree&nbsp;is&nbsp;constructed&nbsp;and&nbsp;used,&nbsp;see<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="https://engineering.purdue.edu/kak/Tutorials/DecisionTreeClassifiers.pdf">https://engineering.purdue.edu/kak/Tutorials/DecisionTreeClassifiers.pdf</a><br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="4">WHAT&nbsp;PRACTICAL&nbsp;PROBLEM&nbsp;IS&nbsp;SOLVED&nbsp;BY&nbsp;THIS&nbsp;MODULE?</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;are&nbsp;new&nbsp;to&nbsp;the&nbsp;concept&nbsp;of&nbsp;a&nbsp;decision&nbsp;tree,&nbsp;their&nbsp;practical<br>
&nbsp;&nbsp;&nbsp;&nbsp;utility&nbsp;is&nbsp;best&nbsp;understood&nbsp;with&nbsp;an&nbsp;example&nbsp;that&nbsp;only&nbsp;involves&nbsp;symbolic<br>
&nbsp;&nbsp;&nbsp;&nbsp;features.&nbsp;&nbsp;However,&nbsp;as&nbsp;mentioned&nbsp;earlier,&nbsp;versions&nbsp;2.0&nbsp;and&nbsp;higher&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;module&nbsp;handle&nbsp;both&nbsp;symbolic&nbsp;and&nbsp;numeric&nbsp;features.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Consider&nbsp;the&nbsp;following&nbsp;scenario:&nbsp;Let's&nbsp;say&nbsp;you&nbsp;are&nbsp;running&nbsp;a&nbsp;small<br>
&nbsp;&nbsp;&nbsp;&nbsp;investment&nbsp;company&nbsp;that&nbsp;employs&nbsp;a&nbsp;team&nbsp;of&nbsp;stockbrokers&nbsp;who&nbsp;make<br>
&nbsp;&nbsp;&nbsp;&nbsp;buy/sell&nbsp;decisions&nbsp;for&nbsp;the&nbsp;customers&nbsp;of&nbsp;your&nbsp;company.&nbsp;&nbsp;Assume&nbsp;that&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;company&nbsp;has&nbsp;asked&nbsp;the&nbsp;traders&nbsp;to&nbsp;make&nbsp;each&nbsp;investment&nbsp;decision&nbsp;on&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;basis&nbsp;of&nbsp;the&nbsp;following&nbsp;five&nbsp;criteria:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;price_to_earnings_ratio&nbsp;&nbsp;&nbsp;(P_to_E)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;price_to_sales_ratio&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(P_to_S)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return_on_equity&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(R_on_E)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;market_share&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(M_S)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sentiment&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;(S)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Since&nbsp;you&nbsp;are&nbsp;the&nbsp;boss,&nbsp;you&nbsp;keep&nbsp;track&nbsp;of&nbsp;the&nbsp;buy/sell&nbsp;decisions&nbsp;made<br>
&nbsp;&nbsp;&nbsp;&nbsp;by&nbsp;the&nbsp;individual&nbsp;traders.&nbsp;&nbsp;But&nbsp;one&nbsp;unfortunate&nbsp;day,&nbsp;all&nbsp;of&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;traders&nbsp;decide&nbsp;to&nbsp;quit&nbsp;because&nbsp;you&nbsp;did&nbsp;not&nbsp;pay&nbsp;them&nbsp;enough.&nbsp;&nbsp;So&nbsp;what<br>
&nbsp;&nbsp;&nbsp;&nbsp;are&nbsp;you&nbsp;to&nbsp;do?&nbsp;&nbsp;If&nbsp;you&nbsp;had&nbsp;a&nbsp;module&nbsp;like&nbsp;the&nbsp;one&nbsp;here,&nbsp;you&nbsp;could&nbsp;still<br>
&nbsp;&nbsp;&nbsp;&nbsp;run&nbsp;your&nbsp;company&nbsp;and&nbsp;do&nbsp;so&nbsp;in&nbsp;such&nbsp;a&nbsp;way&nbsp;that&nbsp;your&nbsp;company&nbsp;would,&nbsp;on<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;average,&nbsp;perform&nbsp;better&nbsp;than&nbsp;any&nbsp;of&nbsp;the&nbsp;individual&nbsp;traders&nbsp;who<br>
&nbsp;&nbsp;&nbsp;&nbsp;worked&nbsp;for&nbsp;you&nbsp;previously.&nbsp;&nbsp;This&nbsp;is&nbsp;what&nbsp;you&nbsp;would&nbsp;need&nbsp;to&nbsp;do:&nbsp;You<br>
&nbsp;&nbsp;&nbsp;&nbsp;would&nbsp;pool&nbsp;together&nbsp;the&nbsp;individual&nbsp;trader&nbsp;buy/sell&nbsp;decisions&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;accumulated&nbsp;during&nbsp;the&nbsp;last&nbsp;one&nbsp;year.&nbsp;&nbsp;This&nbsp;pooled&nbsp;information&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;likely&nbsp;to&nbsp;look&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;example&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;buy/sell&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;P_to_E&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;P_to_S&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;R_on_E&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;M_S&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;S<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;====================================================================<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;example_1&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;buy&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;high&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;medium&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;high<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;example_2&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;buy&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;medium&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;medium&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;medium<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;example_3&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sell&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;medium&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;low&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;high&nbsp;&nbsp;&nbsp;low<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;....<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;....<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;would&nbsp;constitute&nbsp;your&nbsp;training&nbsp;data.&nbsp;Assuming&nbsp;CSV&nbsp;formatting&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;data&nbsp;in&nbsp;a&nbsp;file&nbsp;called&nbsp;'training.csv',&nbsp;you&nbsp;would&nbsp;need&nbsp;to&nbsp;feed&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;file&nbsp;into&nbsp;the&nbsp;module&nbsp;by&nbsp;calling:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt&nbsp;=&nbsp;<a href="#DecisionTree">DecisionTree</a>(&nbsp;training_datafile&nbsp;=&nbsp;"training.csv",&nbsp;....&nbsp;)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.get_training_data()<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_first_order_probabilities()<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_class_priors()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Subsequently,&nbsp;you&nbsp;would&nbsp;construct&nbsp;a&nbsp;decision&nbsp;tree&nbsp;by&nbsp;calling:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;root_node&nbsp;=&nbsp;dt.construct_decision_tree_classifier()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Now&nbsp;you&nbsp;and&nbsp;your&nbsp;company&nbsp;(with&nbsp;practically&nbsp;no&nbsp;employees)&nbsp;are&nbsp;ready&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;service&nbsp;the&nbsp;customers&nbsp;again.&nbsp;Suppose&nbsp;your&nbsp;computer&nbsp;needs&nbsp;to&nbsp;make&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;buy/sell&nbsp;decision&nbsp;about&nbsp;an&nbsp;investment&nbsp;prospect&nbsp;that&nbsp;is&nbsp;best&nbsp;described<br>
&nbsp;&nbsp;&nbsp;&nbsp;by:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;price_to_earnings_ratio&nbsp;&nbsp;&nbsp;=&nbsp;&nbsp;low<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;price_to_sales_ratio&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;&nbsp;very_low<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return_on_equity&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;&nbsp;none<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;market_share&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;&nbsp;medium&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sentiment&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;&nbsp;low<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;All&nbsp;that&nbsp;your&nbsp;computer&nbsp;would&nbsp;need&nbsp;to&nbsp;do&nbsp;would&nbsp;be&nbsp;to&nbsp;construct&nbsp;a&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;record&nbsp;like<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_case&nbsp;=&nbsp;[&nbsp;'P_to_E=low',&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'P_to_S=very_low',&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'R_on_E=none',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'M_S=medium',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'S=low'&nbsp;&nbsp;]<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;call&nbsp;the&nbsp;decision&nbsp;tree&nbsp;classifier&nbsp;you&nbsp;just&nbsp;constructed&nbsp;by<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;=&nbsp;dt.classify(root_node,&nbsp;test_case)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print&nbsp;"Classification:&nbsp;",&nbsp;classification<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;answer&nbsp;returned&nbsp;will&nbsp;be&nbsp;'buy'&nbsp;and&nbsp;'sell',&nbsp;along&nbsp;with&nbsp;the&nbsp;associated<br>
&nbsp;&nbsp;&nbsp;&nbsp;probabilities.&nbsp;&nbsp;So&nbsp;if&nbsp;the&nbsp;probability&nbsp;of&nbsp;'buy'&nbsp;is&nbsp;considerably&nbsp;greater<br>
&nbsp;&nbsp;&nbsp;&nbsp;than&nbsp;the&nbsp;probability&nbsp;of&nbsp;'sell',&nbsp;that's&nbsp;what&nbsp;you&nbsp;should&nbsp;instruct&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;computer&nbsp;to&nbsp;do.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;chances&nbsp;are&nbsp;that,&nbsp;on&nbsp;the&nbsp;average,&nbsp;this&nbsp;approach&nbsp;would&nbsp;beat&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;performance&nbsp;of&nbsp;any&nbsp;of&nbsp;your&nbsp;individual&nbsp;traders&nbsp;who&nbsp;worked&nbsp;for&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;previously&nbsp;since&nbsp;the&nbsp;buy/sell&nbsp;decisions&nbsp;made&nbsp;by&nbsp;the&nbsp;computer&nbsp;would&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;based&nbsp;on&nbsp;the&nbsp;collective&nbsp;wisdom&nbsp;of&nbsp;all&nbsp;your&nbsp;previous&nbsp;traders.<br>
&nbsp;&nbsp;&nbsp;&nbsp;DISCLAIMER:&nbsp;There&nbsp;is&nbsp;obviously&nbsp;a&nbsp;lot&nbsp;more&nbsp;to&nbsp;good&nbsp;investing&nbsp;than&nbsp;what<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;captured&nbsp;by&nbsp;the&nbsp;silly&nbsp;little&nbsp;example&nbsp;here.&nbsp;However,&nbsp;it&nbsp;does&nbsp;convey<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;sense&nbsp;in&nbsp;which&nbsp;the&nbsp;current&nbsp;module&nbsp;can&nbsp;be&nbsp;used.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="5">SYMBOLIC&nbsp;FEATURES&nbsp;VERSUS&nbsp;NUMERIC&nbsp;FEATURES:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;A&nbsp;feature&nbsp;is&nbsp;symbolic&nbsp;when&nbsp;its&nbsp;values&nbsp;are&nbsp;compared&nbsp;using&nbsp;string<br>
&nbsp;&nbsp;&nbsp;&nbsp;comparison&nbsp;operators.&nbsp;&nbsp;By&nbsp;the&nbsp;same&nbsp;token,&nbsp;a&nbsp;feature&nbsp;is&nbsp;numeric&nbsp;when&nbsp;its<br>
&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;are&nbsp;compared&nbsp;using&nbsp;numeric&nbsp;comparison&nbsp;operators.&nbsp;&nbsp;Having&nbsp;said<br>
&nbsp;&nbsp;&nbsp;&nbsp;that,&nbsp;features&nbsp;that&nbsp;take&nbsp;only&nbsp;a&nbsp;small&nbsp;number&nbsp;of&nbsp;numeric&nbsp;values&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;can&nbsp;be&nbsp;treated&nbsp;symbolically&nbsp;provided&nbsp;you&nbsp;are&nbsp;careful<br>
&nbsp;&nbsp;&nbsp;&nbsp;about&nbsp;handling&nbsp;their&nbsp;values&nbsp;in&nbsp;the&nbsp;test&nbsp;data.&nbsp;&nbsp;At&nbsp;the&nbsp;least,&nbsp;you&nbsp;have<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;set&nbsp;the&nbsp;test&nbsp;data&nbsp;value&nbsp;for&nbsp;such&nbsp;a&nbsp;feature&nbsp;to&nbsp;its&nbsp;closest&nbsp;value&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;training&nbsp;data.&nbsp;&nbsp;For&nbsp;those&nbsp;numeric&nbsp;features&nbsp;that&nbsp;the&nbsp;module&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;allowed&nbsp;to&nbsp;treat&nbsp;symbolically,&nbsp;this&nbsp;snapping&nbsp;of&nbsp;the&nbsp;values&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;features&nbsp;in&nbsp;the&nbsp;test&nbsp;data&nbsp;to&nbsp;the&nbsp;small&nbsp;set&nbsp;of&nbsp;values&nbsp;in&nbsp;the&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;is&nbsp;carried&nbsp;out&nbsp;automatically&nbsp;by&nbsp;the&nbsp;module.&nbsp;&nbsp;That&nbsp;is,&nbsp;after&nbsp;a&nbsp;user<br>
&nbsp;&nbsp;&nbsp;&nbsp;has&nbsp;told&nbsp;the&nbsp;module&nbsp;which&nbsp;numeric&nbsp;features&nbsp;to&nbsp;treat&nbsp;symbolically,&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;user&nbsp;need&nbsp;not&nbsp;worry&nbsp;about&nbsp;how&nbsp;the&nbsp;feature&nbsp;values&nbsp;appear&nbsp;in&nbsp;the&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;constructor&nbsp;parameter&nbsp;symbolic_to_numeric_cardinality_threshold<br>
&nbsp;&nbsp;&nbsp;&nbsp;lets&nbsp;you&nbsp;tell&nbsp;the&nbsp;module&nbsp;when&nbsp;to&nbsp;consider&nbsp;an&nbsp;otherwise&nbsp;numeric&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;symbolically.&nbsp;Suppose&nbsp;you&nbsp;set&nbsp;this&nbsp;parameter&nbsp;to&nbsp;10,&nbsp;that&nbsp;means&nbsp;that&nbsp;all<br>
&nbsp;&nbsp;&nbsp;&nbsp;numeric&nbsp;looking&nbsp;features&nbsp;that&nbsp;take&nbsp;10&nbsp;or&nbsp;fewer&nbsp;different&nbsp;values&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;datafile&nbsp;will&nbsp;be&nbsp;considered&nbsp;to&nbsp;be&nbsp;symbolic&nbsp;features.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;tutorial&nbsp;at<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="https://engineering.purdue.edu/kak/Tutorials/DecisionTreeClassifiers.pdf">https://engineering.purdue.edu/kak/Tutorials/DecisionTreeClassifiers.pdf</a><br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;further&nbsp;information&nbsp;on&nbsp;the&nbsp;implementation&nbsp;issues&nbsp;related&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;symbolic&nbsp;and&nbsp;numeric&nbsp;features.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="6">FEATURES&nbsp;WITH&nbsp;NOT&nbsp;SO&nbsp;"NICE"&nbsp;STATISTICAL&nbsp;PROPERTIES:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;the&nbsp;purpose&nbsp;of&nbsp;estimating&nbsp;the&nbsp;probabilities,&nbsp;it&nbsp;is&nbsp;necessary&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;sample&nbsp;the&nbsp;range&nbsp;of&nbsp;values&nbsp;taken&nbsp;on&nbsp;by&nbsp;a&nbsp;numerical&nbsp;feature.&nbsp;For<br>
&nbsp;&nbsp;&nbsp;&nbsp;features&nbsp;with&nbsp;"nice"&nbsp;statistical&nbsp;properties,&nbsp;this&nbsp;sampling&nbsp;interval&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;set&nbsp;to&nbsp;the&nbsp;median&nbsp;of&nbsp;the&nbsp;differences&nbsp;between&nbsp;the&nbsp;successive&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;in&nbsp;the&nbsp;training&nbsp;data.&nbsp;&nbsp;(Obviously,&nbsp;as&nbsp;you&nbsp;would&nbsp;expect,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;first&nbsp;sort&nbsp;all&nbsp;the&nbsp;values&nbsp;for&nbsp;a&nbsp;feature&nbsp;before&nbsp;computing&nbsp;the&nbsp;successive<br>
&nbsp;&nbsp;&nbsp;&nbsp;differences.)&nbsp;&nbsp;This&nbsp;logic&nbsp;will&nbsp;not&nbsp;work&nbsp;for&nbsp;the&nbsp;sort&nbsp;of&nbsp;a&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;described&nbsp;below.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Consider&nbsp;a&nbsp;feature&nbsp;whose&nbsp;values&nbsp;are&nbsp;heavy-tailed,&nbsp;and,&nbsp;at&nbsp;the&nbsp;same<br>
&nbsp;&nbsp;&nbsp;&nbsp;time,&nbsp;the&nbsp;values&nbsp;span&nbsp;a&nbsp;million&nbsp;to&nbsp;one&nbsp;range.&nbsp;&nbsp;What&nbsp;I&nbsp;mean&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;heavy-tailed&nbsp;is&nbsp;that&nbsp;rare&nbsp;values&nbsp;can&nbsp;occur&nbsp;with&nbsp;significant<br>
&nbsp;&nbsp;&nbsp;&nbsp;probabilities.&nbsp;&nbsp;It&nbsp;could&nbsp;happen&nbsp;that&nbsp;most&nbsp;of&nbsp;the&nbsp;values&nbsp;for&nbsp;such&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;are&nbsp;clustered&nbsp;at&nbsp;one&nbsp;of&nbsp;the&nbsp;two&nbsp;ends&nbsp;of&nbsp;the&nbsp;range.&nbsp;At&nbsp;the&nbsp;same<br>
&nbsp;&nbsp;&nbsp;&nbsp;time,&nbsp;there&nbsp;may&nbsp;exist&nbsp;a&nbsp;significant&nbsp;number&nbsp;of&nbsp;values&nbsp;near&nbsp;the&nbsp;end&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;range&nbsp;that&nbsp;is&nbsp;less&nbsp;populated.&nbsp;&nbsp;(Typically,&nbsp;features&nbsp;related&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;human&nbsp;economic&nbsp;activities&nbsp;---&nbsp;such&nbsp;as&nbsp;wealth,&nbsp;incomes,&nbsp;etc.&nbsp;---&nbsp;are&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;type.)&nbsp;&nbsp;With&nbsp;the&nbsp;logic&nbsp;described&nbsp;in&nbsp;the&nbsp;previous&nbsp;paragraph,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;could&nbsp;end&nbsp;up&nbsp;with&nbsp;a&nbsp;sampling&nbsp;interval&nbsp;that&nbsp;is&nbsp;much&nbsp;too&nbsp;small,&nbsp;which<br>
&nbsp;&nbsp;&nbsp;&nbsp;could&nbsp;result&nbsp;in&nbsp;millions&nbsp;of&nbsp;sampling&nbsp;points&nbsp;for&nbsp;the&nbsp;feature&nbsp;if&nbsp;you&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;not&nbsp;careful.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Beginning&nbsp;with&nbsp;Version&nbsp;2.2.4,&nbsp;you&nbsp;have&nbsp;two&nbsp;options&nbsp;in&nbsp;dealing&nbsp;with&nbsp;such<br>
&nbsp;&nbsp;&nbsp;&nbsp;features.&nbsp;&nbsp;You&nbsp;can&nbsp;choose&nbsp;to&nbsp;go&nbsp;with&nbsp;the&nbsp;default&nbsp;behavior&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;module,&nbsp;which&nbsp;is&nbsp;to&nbsp;sample&nbsp;the&nbsp;value&nbsp;range&nbsp;for&nbsp;such&nbsp;a&nbsp;feature&nbsp;over&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;maximum&nbsp;of&nbsp;500&nbsp;points.&nbsp;&nbsp;Or,&nbsp;you&nbsp;can&nbsp;supply&nbsp;an&nbsp;additional&nbsp;option&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;that&nbsp;sets&nbsp;a&nbsp;user-defined&nbsp;value&nbsp;for&nbsp;the&nbsp;number&nbsp;of&nbsp;points&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;use.&nbsp;&nbsp;The&nbsp;name&nbsp;of&nbsp;the&nbsp;option&nbsp;is&nbsp;"number_of_histogram_bins".&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;following&nbsp;script<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_for_heavytailed.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;shows&nbsp;an&nbsp;example&nbsp;of&nbsp;how&nbsp;to&nbsp;call&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;of&nbsp;the&nbsp;module&nbsp;with&nbsp;the&nbsp;"number_of_histogram_bins"&nbsp;option.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="7">TESTING&nbsp;THE&nbsp;QUALITY&nbsp;OF&nbsp;YOUR&nbsp;TRAINING&nbsp;DATA:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Starting&nbsp;with&nbsp;version&nbsp;2.2,&nbsp;the&nbsp;module&nbsp;includes&nbsp;a&nbsp;new&nbsp;class&nbsp;named<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>,&nbsp;derived&nbsp;from&nbsp;the&nbsp;main&nbsp;class&nbsp;<a href="#DecisionTree">DecisionTree</a>,&nbsp;that&nbsp;runs&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;10-fold&nbsp;cross-validation&nbsp;test&nbsp;on&nbsp;your&nbsp;training&nbsp;data&nbsp;to&nbsp;test&nbsp;its&nbsp;ability<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;discriminate&nbsp;between&nbsp;the&nbsp;classes&nbsp;mentioned&nbsp;in&nbsp;the&nbsp;training&nbsp;file.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;10-fold&nbsp;cross-validation&nbsp;test&nbsp;divides&nbsp;all&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;into<br>
&nbsp;&nbsp;&nbsp;&nbsp;ten&nbsp;parts,&nbsp;with&nbsp;nine&nbsp;parts&nbsp;used&nbsp;for&nbsp;training&nbsp;a&nbsp;decision&nbsp;tree&nbsp;and&nbsp;one<br>
&nbsp;&nbsp;&nbsp;&nbsp;part&nbsp;used&nbsp;for&nbsp;testing&nbsp;its&nbsp;ability&nbsp;to&nbsp;classify&nbsp;correctly.&nbsp;This&nbsp;selection<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;nine&nbsp;parts&nbsp;for&nbsp;training&nbsp;and&nbsp;one&nbsp;part&nbsp;for&nbsp;testing&nbsp;is&nbsp;carried&nbsp;out&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;all&nbsp;of&nbsp;the&nbsp;ten&nbsp;different&nbsp;possible&nbsp;ways.&nbsp;&nbsp;<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;following&nbsp;code&nbsp;fragment&nbsp;illustrates&nbsp;how&nbsp;you&nbsp;invoke&nbsp;the&nbsp;testing<br>
&nbsp;&nbsp;&nbsp;&nbsp;function&nbsp;of&nbsp;the&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>&nbsp;class:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"training3.csv"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;eval_data&nbsp;=&nbsp;<a href="#DecisionTree">DecisionTree</a>.<a href="#EvalTrainingData">EvalTrainingData</a>(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[2,3],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;3,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;eval_data.get_training_data()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;eval_data.evaluate_training_data()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;last&nbsp;statement&nbsp;above&nbsp;prints&nbsp;out&nbsp;a&nbsp;Confusion&nbsp;Matrix&nbsp;and&nbsp;the&nbsp;value&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;Training&nbsp;Data&nbsp;Quality&nbsp;Index&nbsp;on&nbsp;a&nbsp;scale&nbsp;of&nbsp;100,&nbsp;with&nbsp;100&nbsp;designating<br>
&nbsp;&nbsp;&nbsp;&nbsp;perfect&nbsp;training&nbsp;data.&nbsp;&nbsp;The&nbsp;Confusion&nbsp;Matrix&nbsp;shows&nbsp;how&nbsp;the&nbsp;different<br>
&nbsp;&nbsp;&nbsp;&nbsp;classes&nbsp;were&nbsp;misidentified&nbsp;in&nbsp;the&nbsp;10-fold&nbsp;cross-validation&nbsp;test.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;testing&nbsp;functionality&nbsp;can&nbsp;also&nbsp;be&nbsp;used&nbsp;to&nbsp;find&nbsp;the&nbsp;best&nbsp;values&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;use&nbsp;for&nbsp;the&nbsp;constructor&nbsp;parameters&nbsp;entropy_threshold,<br>
&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired,&nbsp;and&nbsp;symbolic_to_numeric_cardinality_threshold.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;following&nbsp;two&nbsp;scripts&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;illustrate&nbsp;the&nbsp;use<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>&nbsp;class&nbsp;for&nbsp;testing&nbsp;the&nbsp;quality&nbsp;of&nbsp;your&nbsp;data:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;evaluate_training_data1.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;evaluate_training_data2.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;IMPORTANT:&nbsp;These&nbsp;data&nbsp;evaluation&nbsp;scripts&nbsp;produce&nbsp;reliable&nbsp;indicators&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;quality&nbsp;of&nbsp;your&nbsp;data&nbsp;only&nbsp;when&nbsp;there&nbsp;is&nbsp;a&nbsp;rough&nbsp;parity&nbsp;between&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;number&nbsp;of&nbsp;training&nbsp;samples&nbsp;available&nbsp;for&nbsp;the&nbsp;different&nbsp;data&nbsp;classes.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="8">HOW&nbsp;TO&nbsp;MAKE&nbsp;THE&nbsp;BEST&nbsp;CHOICES&nbsp;FOR&nbsp;THE&nbsp;CONSTRUCTOR&nbsp;PARAMETERS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Assuming&nbsp;your&nbsp;training&nbsp;data&nbsp;is&nbsp;good,&nbsp;the&nbsp;quality&nbsp;of&nbsp;the&nbsp;results&nbsp;you&nbsp;get<br>
&nbsp;&nbsp;&nbsp;&nbsp;from&nbsp;a&nbsp;decision&nbsp;tree&nbsp;would&nbsp;depend&nbsp;on&nbsp;the&nbsp;choices&nbsp;you&nbsp;make&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;parameters&nbsp;entropy_threshold,&nbsp;max_depth_desired,&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold.&nbsp;&nbsp;You&nbsp;can&nbsp;optimize&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;choices&nbsp;for&nbsp;these&nbsp;parameters&nbsp;by&nbsp;running&nbsp;the&nbsp;10-fold&nbsp;cross-validation<br>
&nbsp;&nbsp;&nbsp;&nbsp;test&nbsp;that&nbsp;is&nbsp;made&nbsp;available&nbsp;in&nbsp;Versions&nbsp;2.2&nbsp;and&nbsp;higher&nbsp;through&nbsp;the&nbsp;new<br>
&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>&nbsp;that&nbsp;is&nbsp;included&nbsp;in&nbsp;the&nbsp;module&nbsp;file.&nbsp;&nbsp;A<br>
&nbsp;&nbsp;&nbsp;&nbsp;description&nbsp;of&nbsp;how&nbsp;to&nbsp;run&nbsp;this&nbsp;test&nbsp;is&nbsp;in&nbsp;the&nbsp;section&nbsp;titled&nbsp;"TESTING<br>
&nbsp;&nbsp;&nbsp;&nbsp;THE&nbsp;QUALITY&nbsp;OF&nbsp;YOUR&nbsp;TRAINING&nbsp;DATA"&nbsp;of&nbsp;this&nbsp;document.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="25">SOLVING&nbsp;NEEDLE-IN-A-HAYSTACK&nbsp;AND&nbsp;BIG&nbsp;DATA&nbsp;PROBLEMS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Machine&nbsp;learning&nbsp;algorithms,&nbsp;in&nbsp;general,&nbsp;run&nbsp;into&nbsp;difficulties&nbsp;when<br>
&nbsp;&nbsp;&nbsp;&nbsp;there&nbsp;is&nbsp;gross&nbsp;imbalance&nbsp;in&nbsp;how&nbsp;many&nbsp;training&nbsp;samples&nbsp;are&nbsp;available&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;different&nbsp;data&nbsp;classes&nbsp;---&nbsp;especially&nbsp;when&nbsp;the&nbsp;different&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;classes&nbsp;are&nbsp;not&nbsp;linearly&nbsp;separable&nbsp;in&nbsp;the&nbsp;underlying&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;space.&nbsp;Starting&nbsp;with&nbsp;Version&nbsp;3.3.0&nbsp;of&nbsp;this&nbsp;module,&nbsp;you&nbsp;can&nbsp;try&nbsp;to&nbsp;use<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;new&nbsp;Python&nbsp;class&nbsp;RandomizedTreesForBigData&nbsp;for&nbsp;solving&nbsp;such<br>
&nbsp;&nbsp;&nbsp;&nbsp;problems&nbsp;provided&nbsp;you&nbsp;set&nbsp;the&nbsp;following&nbsp;two&nbsp;constructor&nbsp;parameters:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;looking_for_needles_in_haystack<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;At&nbsp;the&nbsp;moment,&nbsp;RandomizedTreesForBigData&nbsp;is&nbsp;programmed&nbsp;for&nbsp;just&nbsp;binary<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification.&nbsp;It&nbsp;first&nbsp;figures&nbsp;out&nbsp;the&nbsp;population&nbsp;imbalance&nbsp;between<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;majority&nbsp;data&nbsp;class&nbsp;and&nbsp;the&nbsp;minority&nbsp;data&nbsp;class&nbsp;in&nbsp;your&nbsp;dataset.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Subsequently,&nbsp;by&nbsp;mixing&nbsp;the&nbsp;minority&nbsp;training&nbsp;samples&nbsp;with&nbsp;randomly<br>
&nbsp;&nbsp;&nbsp;&nbsp;drawn&nbsp;samples&nbsp;from&nbsp;the&nbsp;majority&nbsp;data&nbsp;class,&nbsp;it&nbsp;constructs&nbsp;a&nbsp;collection<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;training&nbsp;datasets&nbsp;for&nbsp;'how_many_trees'&nbsp;number&nbsp;of&nbsp;decision&nbsp;trees.&nbsp;&nbsp;A<br>
&nbsp;&nbsp;&nbsp;&nbsp;new&nbsp;data&nbsp;sample&nbsp;to&nbsp;be&nbsp;classified&nbsp;is&nbsp;fed&nbsp;to&nbsp;each&nbsp;of&nbsp;these&nbsp;decision&nbsp;trees<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;the&nbsp;final&nbsp;classification&nbsp;based&nbsp;on&nbsp;majority&nbsp;voting&nbsp;by&nbsp;all&nbsp;the&nbsp;trees.<br>
&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;must&nbsp;set&nbsp;'looking_for_needles_in_haystack&nbsp;=&nbsp;1'&nbsp;in&nbsp;the&nbsp;constructor<br>
&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;for&nbsp;this&nbsp;logic&nbsp;to&nbsp;work.&nbsp;&nbsp;You'd&nbsp;also&nbsp;want&nbsp;to&nbsp;experiment&nbsp;with&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;option&nbsp;'how_many_trees'&nbsp;to&nbsp;figure&nbsp;out&nbsp;the&nbsp;best&nbsp;value&nbsp;for&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;parameter.&nbsp;&nbsp;Searching&nbsp;for&nbsp;a&nbsp;needle&nbsp;in&nbsp;a&nbsp;haystack&nbsp;is&nbsp;obviously&nbsp;a&nbsp;good<br>
&nbsp;&nbsp;&nbsp;&nbsp;metaphor&nbsp;for&nbsp;these&nbsp;types&nbsp;of&nbsp;data&nbsp;classification&nbsp;problems.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;RandomizedTreesForBigData&nbsp;class&nbsp;can&nbsp;also&nbsp;be&nbsp;used&nbsp;for&nbsp;solving&nbsp;big<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;problems&nbsp;if&nbsp;you&nbsp;have&nbsp;access&nbsp;to&nbsp;a&nbsp;very&nbsp;large&nbsp;training&nbsp;database.<br>
&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;solve&nbsp;such&nbsp;problems&nbsp;by&nbsp;constructing&nbsp;multiple&nbsp;decision&nbsp;trees,<br>
&nbsp;&nbsp;&nbsp;&nbsp;each&nbsp;based&nbsp;on&nbsp;a&nbsp;training&nbsp;dataset&nbsp;drawn&nbsp;randomly&nbsp;from&nbsp;the&nbsp;large&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;database&nbsp;(without&nbsp;paying&nbsp;attention&nbsp;to&nbsp;population&nbsp;imbalances).<br>
&nbsp;&nbsp;&nbsp;&nbsp;Subsequently,&nbsp;the&nbsp;final&nbsp;classification&nbsp;for&nbsp;a&nbsp;new&nbsp;data&nbsp;sample&nbsp;can&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;based&nbsp;on&nbsp;majority&nbsp;voting&nbsp;by&nbsp;all&nbsp;the&nbsp;trees.&nbsp;&nbsp;In&nbsp;order&nbsp;to&nbsp;use&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;functionality,&nbsp;you&nbsp;need&nbsp;to&nbsp;set&nbsp;the&nbsp;following&nbsp;two&nbsp;constructor&nbsp;parameters<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;this&nbsp;class:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_training_samples_per_tree<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees<br>
</div>&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="9">DECISION&nbsp;TREE&nbsp;INTROSPECTION:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Starting&nbsp;with&nbsp;Version&nbsp;2.3,&nbsp;you&nbsp;can&nbsp;ask&nbsp;the&nbsp;<a href="#DTIntrospection">DTIntrospection</a>&nbsp;class&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;module&nbsp;to&nbsp;explain&nbsp;the&nbsp;classification&nbsp;decisions&nbsp;made&nbsp;at&nbsp;the&nbsp;different<br>
&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Perhaps&nbsp;the&nbsp;most&nbsp;important&nbsp;bit&nbsp;of&nbsp;information&nbsp;you&nbsp;are&nbsp;likely&nbsp;to&nbsp;seek<br>
&nbsp;&nbsp;&nbsp;&nbsp;through&nbsp;DT&nbsp;introspection&nbsp;is&nbsp;the&nbsp;list&nbsp;of&nbsp;the&nbsp;training&nbsp;samples&nbsp;that&nbsp;fall<br>
&nbsp;&nbsp;&nbsp;&nbsp;directly&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;is&nbsp;assigned&nbsp;to&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;node.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;However,&nbsp;note&nbsp;that,&nbsp;when&nbsp;training&nbsp;samples&nbsp;are&nbsp;non-uniformly&nbsp;distributed<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;underlying&nbsp;feature&nbsp;space,&nbsp;it&nbsp;is&nbsp;possible&nbsp;for&nbsp;a&nbsp;node&nbsp;to&nbsp;exist<br>
&nbsp;&nbsp;&nbsp;&nbsp;even&nbsp;when&nbsp;there&nbsp;are&nbsp;no&nbsp;training&nbsp;samples&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;space&nbsp;assigned&nbsp;to&nbsp;the&nbsp;node.&nbsp;&nbsp;That&nbsp;is&nbsp;because&nbsp;the&nbsp;decision&nbsp;tree&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;from&nbsp;the&nbsp;probability&nbsp;densities&nbsp;estimated&nbsp;from&nbsp;the&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;data.&nbsp;&nbsp;When&nbsp;the&nbsp;training&nbsp;samples&nbsp;are&nbsp;non-uniformly&nbsp;distributed,&nbsp;it&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;entirely&nbsp;possible&nbsp;for&nbsp;the&nbsp;estimated&nbsp;probability&nbsp;densities&nbsp;to&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;non-zero&nbsp;in&nbsp;a&nbsp;small&nbsp;region&nbsp;around&nbsp;a&nbsp;point&nbsp;even&nbsp;when&nbsp;there&nbsp;are&nbsp;no<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;samples&nbsp;specifically&nbsp;in&nbsp;that&nbsp;region.&nbsp;&nbsp;(After&nbsp;you&nbsp;have&nbsp;created<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;statistical&nbsp;model&nbsp;for,&nbsp;say,&nbsp;the&nbsp;height&nbsp;distribution&nbsp;of&nbsp;people&nbsp;in&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;community,&nbsp;the&nbsp;model&nbsp;may&nbsp;return&nbsp;a&nbsp;non-zero&nbsp;probability&nbsp;for&nbsp;the&nbsp;height<br>
&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;in&nbsp;a&nbsp;small&nbsp;interval&nbsp;even&nbsp;if&nbsp;the&nbsp;community&nbsp;does&nbsp;not&nbsp;include&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;single&nbsp;individual&nbsp;whose&nbsp;height&nbsp;falls&nbsp;in&nbsp;that&nbsp;interval.)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;That&nbsp;a&nbsp;decision-tree&nbsp;node&nbsp;can&nbsp;exist&nbsp;even&nbsp;where&nbsp;there&nbsp;are&nbsp;no&nbsp;training&nbsp;samples&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;belongs&nbsp;to&nbsp;that&nbsp;node&nbsp;is&nbsp;an&nbsp;important<br>
&nbsp;&nbsp;&nbsp;&nbsp;indication&nbsp;of&nbsp;the&nbsp;generalization&nbsp;ability&nbsp;of&nbsp;a&nbsp;decision-tree&nbsp;based&nbsp;classifier.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;In&nbsp;light&nbsp;of&nbsp;the&nbsp;explanation&nbsp;provided&nbsp;above,&nbsp;before&nbsp;the&nbsp;<a href="#DTIntrospection">DTIntrospection</a><br>
&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;supplies&nbsp;any&nbsp;answers&nbsp;at&nbsp;all,&nbsp;it&nbsp;asks&nbsp;you&nbsp;to&nbsp;accept&nbsp;the&nbsp;fact&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;features&nbsp;can&nbsp;take&nbsp;on&nbsp;non-zero&nbsp;probabilities&nbsp;at&nbsp;a&nbsp;point&nbsp;in&nbsp;the&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;space&nbsp;even&nbsp;though&nbsp;there&nbsp;are&nbsp;zero&nbsp;training&nbsp;samples&nbsp;at&nbsp;that&nbsp;point&nbsp;(or&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;small&nbsp;region&nbsp;around&nbsp;that&nbsp;point).&nbsp;&nbsp;If&nbsp;you&nbsp;do&nbsp;not&nbsp;accept&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;rudimentary&nbsp;fact,&nbsp;the&nbsp;introspection&nbsp;class&nbsp;will&nbsp;not&nbsp;yield&nbsp;any&nbsp;answers<br>
&nbsp;&nbsp;&nbsp;&nbsp;(since&nbsp;you&nbsp;are&nbsp;not&nbsp;going&nbsp;to&nbsp;believe&nbsp;the&nbsp;answers&nbsp;anyway).<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;point&nbsp;made&nbsp;above&nbsp;implies&nbsp;that&nbsp;the&nbsp;path&nbsp;leading&nbsp;to&nbsp;a&nbsp;node&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree&nbsp;may&nbsp;test&nbsp;a&nbsp;feature&nbsp;for&nbsp;a&nbsp;certain&nbsp;value&nbsp;or&nbsp;threshold<br>
&nbsp;&nbsp;&nbsp;&nbsp;despite&nbsp;the&nbsp;fact&nbsp;that&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;assigned&nbsp;to&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;node&nbsp;is&nbsp;devoid&nbsp;of&nbsp;any&nbsp;training&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;following&nbsp;three&nbsp;scripts&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;for&nbsp;how&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;carry&nbsp;out&nbsp;DT&nbsp;introspection:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_in_a_loop_interactive.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_show_training_samples_at_all_nodes_direct_influence.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_show_training_samples_to_nodes_influence_propagation.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;script&nbsp;places&nbsp;you&nbsp;in&nbsp;an&nbsp;interactive&nbsp;session&nbsp;in&nbsp;which&nbsp;you&nbsp;will<br>
&nbsp;&nbsp;&nbsp;&nbsp;first&nbsp;be&nbsp;asked&nbsp;for&nbsp;the&nbsp;node&nbsp;number&nbsp;you&nbsp;are&nbsp;interested&nbsp;in.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Subsequently,&nbsp;you&nbsp;will&nbsp;be&nbsp;asked&nbsp;for&nbsp;whether&nbsp;or&nbsp;not&nbsp;you&nbsp;are&nbsp;interested<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;specific&nbsp;questions&nbsp;that&nbsp;the&nbsp;introspection&nbsp;can&nbsp;provide&nbsp;answers<br>
&nbsp;&nbsp;&nbsp;&nbsp;for.&nbsp;The&nbsp;second&nbsp;script&nbsp;descends&nbsp;down&nbsp;the&nbsp;decision&nbsp;tree&nbsp;and&nbsp;shows&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;each&nbsp;node&nbsp;the&nbsp;training&nbsp;samples&nbsp;that&nbsp;fall&nbsp;directly&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;space&nbsp;assigned&nbsp;to&nbsp;that&nbsp;node.&nbsp;&nbsp;The&nbsp;third&nbsp;script&nbsp;shows&nbsp;for&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;sample&nbsp;how&nbsp;it&nbsp;affects&nbsp;the&nbsp;decision-tree&nbsp;nodes&nbsp;either&nbsp;directly<br>
&nbsp;&nbsp;&nbsp;&nbsp;or&nbsp;indirectly&nbsp;through&nbsp;the&nbsp;generalization&nbsp;achieved&nbsp;by&nbsp;the&nbsp;probabilistic<br>
&nbsp;&nbsp;&nbsp;&nbsp;modeling&nbsp;of&nbsp;the&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;output&nbsp;of&nbsp;the&nbsp;script&nbsp;introspection_show_training_samples_at_all_<br>
&nbsp;&nbsp;&nbsp;&nbsp;nodes_direct_influence.py&nbsp;looks&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;0:&nbsp;the&nbsp;samples&nbsp;are:&nbsp;None<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;1:&nbsp;the&nbsp;samples&nbsp;are:&nbsp;['sample_46',&nbsp;'sample_58']<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;2:&nbsp;the&nbsp;samples&nbsp;are:&nbsp;['sample_1',&nbsp;'sample_4',&nbsp;'sample_7',&nbsp;.....]<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;3:&nbsp;the&nbsp;samples&nbsp;are:&nbsp;[]<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;4:&nbsp;the&nbsp;samples&nbsp;are:&nbsp;[]<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;...<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;...&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;nodes&nbsp;for&nbsp;which&nbsp;no&nbsp;samples&nbsp;are&nbsp;listed&nbsp;come&nbsp;into&nbsp;existence&nbsp;through<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;generalization&nbsp;achieved&nbsp;by&nbsp;the&nbsp;probabilistic&nbsp;modeling&nbsp;of&nbsp;the&nbsp;data.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;output&nbsp;produced&nbsp;by&nbsp;the&nbsp;script&nbsp;introspection_show_training_samples_<br>
&nbsp;&nbsp;&nbsp;&nbsp;to_nodes_influence_propagation.py&nbsp;looks&nbsp;like<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sample_1:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;affected&nbsp;directly:&nbsp;[2,&nbsp;5,&nbsp;19,&nbsp;23]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;affected&nbsp;through&nbsp;probabilistic&nbsp;generalization:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2=&gt;&nbsp;[3,&nbsp;4,&nbsp;25]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;25=&gt;&nbsp;[26]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;5=&gt;&nbsp;[6]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;6=&gt;&nbsp;[7,&nbsp;13]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7=&gt;&nbsp;[8,&nbsp;11]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8=&gt;&nbsp;[9,&nbsp;10]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11=&gt;&nbsp;[12]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;13=&gt;&nbsp;[14,&nbsp;18]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;14=&gt;&nbsp;[15,&nbsp;16]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;16=&gt;&nbsp;[17]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;19=&gt;&nbsp;[20]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;20=&gt;&nbsp;[21,&nbsp;22]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;23=&gt;&nbsp;[24]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sample_4:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;affected&nbsp;directly:&nbsp;[2,&nbsp;5,&nbsp;6,&nbsp;7,&nbsp;11]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;affected&nbsp;through&nbsp;probabilistic&nbsp;generalization:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;2=&gt;&nbsp;[3,&nbsp;4,&nbsp;25]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;25=&gt;&nbsp;[26]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;5=&gt;&nbsp;[19]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;19=&gt;&nbsp;[20,&nbsp;23]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;20=&gt;&nbsp;[21,&nbsp;22]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;23=&gt;&nbsp;[24]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;6=&gt;&nbsp;[13]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;13=&gt;&nbsp;[14,&nbsp;18]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;14=&gt;&nbsp;[15,&nbsp;16]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;16=&gt;&nbsp;[17]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;7=&gt;&nbsp;[8]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;8=&gt;&nbsp;[9,&nbsp;10]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;11=&gt;&nbsp;[12]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;...&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;...&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;...<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;each&nbsp;training&nbsp;sample,&nbsp;the&nbsp;display&nbsp;shown&nbsp;above&nbsp;first&nbsp;presents&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;list&nbsp;of&nbsp;nodes&nbsp;that&nbsp;are&nbsp;directly&nbsp;affected&nbsp;by&nbsp;the&nbsp;sample.&nbsp;&nbsp;A&nbsp;node&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;affected&nbsp;directly&nbsp;by&nbsp;a&nbsp;sample&nbsp;if&nbsp;the&nbsp;latter&nbsp;falls&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;space&nbsp;that&nbsp;belongs&nbsp;to&nbsp;the&nbsp;former.&nbsp;&nbsp;Subsequently,&nbsp;for&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;sample,&nbsp;the&nbsp;display&nbsp;shows&nbsp;a&nbsp;subtree&nbsp;of&nbsp;the&nbsp;nodes&nbsp;that&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;affected&nbsp;indirectly&nbsp;by&nbsp;the&nbsp;sample&nbsp;through&nbsp;the&nbsp;generalization&nbsp;achieved<br>
&nbsp;&nbsp;&nbsp;&nbsp;by&nbsp;the&nbsp;probabilistic&nbsp;modeling&nbsp;of&nbsp;the&nbsp;data.&nbsp;&nbsp;In&nbsp;general,&nbsp;a&nbsp;node&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;affected&nbsp;indirectly&nbsp;by&nbsp;a&nbsp;sample&nbsp;if&nbsp;it&nbsp;is&nbsp;a&nbsp;descendant&nbsp;of&nbsp;another&nbsp;node<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;is&nbsp;affected&nbsp;directly.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Also&nbsp;see&nbsp;the&nbsp;section&nbsp;titled&nbsp;"The&nbsp;Introspection&nbsp;API"&nbsp;regarding&nbsp;how&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;invoke&nbsp;the&nbsp;introspection&nbsp;capabilities&nbsp;of&nbsp;the&nbsp;module&nbsp;in&nbsp;your&nbsp;own&nbsp;code.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="10">METHODS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;module&nbsp;provides&nbsp;the&nbsp;following&nbsp;methods&nbsp;for&nbsp;constructing&nbsp;a&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;tree&nbsp;from&nbsp;training&nbsp;data&nbsp;in&nbsp;a&nbsp;disk&nbsp;file,&nbsp;and&nbsp;for&nbsp;data&nbsp;classification&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Constructing&nbsp;a&nbsp;decision&nbsp;tree:<br>
</strong></span>&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt&nbsp;=&nbsp;<a href="#DecisionTree">DecisionTree</a>(&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;2,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[3,4,5,6,7,8],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;yields&nbsp;a&nbsp;new&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class.&nbsp;&nbsp;For&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;to&nbsp;make&nbsp;sense,&nbsp;the&nbsp;training&nbsp;data&nbsp;in&nbsp;the&nbsp;training&nbsp;datafile&nbsp;must<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;conform&nbsp;to&nbsp;the&nbsp;traditional&nbsp;CSV&nbsp;format.&nbsp;&nbsp;For&nbsp;example,&nbsp;the&nbsp;first<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;record&nbsp;must&nbsp;list&nbsp;the&nbsp;features&nbsp;to&nbsp;be&nbsp;used&nbsp;for&nbsp;classification.&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;first&nbsp;column&nbsp;for&nbsp;all&nbsp;rows&nbsp;must&nbsp;carry&nbsp;a&nbsp;unique&nbsp;integer&nbsp;identifier<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;each&nbsp;data&nbsp;record.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;constructor&nbsp;option&nbsp;csv_class_column_index&nbsp;supplies&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;module&nbsp;zero-based&nbsp;index&nbsp;of&nbsp;the&nbsp;column&nbsp;that&nbsp;contains&nbsp;the&nbsp;class&nbsp;label<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;the&nbsp;training&nbsp;data&nbsp;records.&nbsp;In&nbsp;the&nbsp;example&nbsp;shown&nbsp;above,&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;labels&nbsp;are&nbsp;in&nbsp;the&nbsp;third&nbsp;column.&nbsp;&nbsp;The&nbsp;option<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;tells&nbsp;the&nbsp;module&nbsp;which&nbsp;of&nbsp;the&nbsp;features&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;supposed&nbsp;to&nbsp;be&nbsp;used&nbsp;for&nbsp;decision&nbsp;tree&nbsp;construction.&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;option&nbsp;max_depth_desired&nbsp;sets&nbsp;the&nbsp;maximum&nbsp;depth&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree.&nbsp;The&nbsp;parameter&nbsp;entropy_threshold&nbsp;sets&nbsp;the&nbsp;granularity<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;which&nbsp;the&nbsp;entropies&nbsp;are&nbsp;sampled.&nbsp;&nbsp;The&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;allows&nbsp;the&nbsp;module&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;treat&nbsp;an&nbsp;otherwise&nbsp;numeric&nbsp;feature&nbsp;symbolically&nbsp;if&nbsp;it&nbsp;only&nbsp;takes&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;small&nbsp;number&nbsp;of&nbsp;different&nbsp;values&nbsp;in&nbsp;the&nbsp;training&nbsp;data&nbsp;file.&nbsp;&nbsp;For<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;constructor&nbsp;call&nbsp;shown&nbsp;above,&nbsp;if&nbsp;a&nbsp;feature&nbsp;takes&nbsp;on&nbsp;only&nbsp;10&nbsp;or<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;fewer&nbsp;different&nbsp;values&nbsp;in&nbsp;the&nbsp;training&nbsp;data&nbsp;file,&nbsp;it&nbsp;will&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;treated&nbsp;like&nbsp;a&nbsp;symbolic&nbsp;feature.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;constructor&nbsp;parameters:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;parameter&nbsp;supplies&nbsp;the&nbsp;name&nbsp;of&nbsp;the&nbsp;file&nbsp;that&nbsp;contains&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data.&nbsp;&nbsp;This&nbsp;must&nbsp;be&nbsp;a&nbsp;CSV&nbsp;file&nbsp;if&nbsp;your&nbsp;training&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;includes&nbsp;both&nbsp;numeric&nbsp;and&nbsp;symbolic&nbsp;features.&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;When&nbsp;using&nbsp;a&nbsp;CSV&nbsp;file&nbsp;for&nbsp;your&nbsp;training&nbsp;data,&nbsp;this&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;supplies&nbsp;the&nbsp;zero-based&nbsp;column&nbsp;index&nbsp;for&nbsp;the&nbsp;column&nbsp;that&nbsp;contains<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;class&nbsp;label&nbsp;for&nbsp;each&nbsp;data&nbsp;record&nbsp;in&nbsp;the&nbsp;training&nbsp;file.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;need&nbsp;to&nbsp;set&nbsp;this&nbsp;parameter&nbsp;to&nbsp;1&nbsp;if&nbsp;your&nbsp;CSV&nbsp;file&nbsp;has&nbsp;double<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;quoted&nbsp;strings&nbsp;(which&nbsp;may&nbsp;include&nbsp;commas)&nbsp;as&nbsp;values&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;fields&nbsp;and&nbsp;if&nbsp;such&nbsp;values&nbsp;are&nbsp;allowed&nbsp;to&nbsp;include&nbsp;commas&nbsp;for,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;presumably,&nbsp;better&nbsp;readability.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;When&nbsp;using&nbsp;a&nbsp;CSV&nbsp;file&nbsp;for&nbsp;your&nbsp;training&nbsp;data,&nbsp;this&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;supplies&nbsp;a&nbsp;list&nbsp;of&nbsp;columns&nbsp;corresponding&nbsp;to&nbsp;the&nbsp;features&nbsp;you&nbsp;wish<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;use&nbsp;for&nbsp;decision&nbsp;tree&nbsp;construction.&nbsp;&nbsp;Each&nbsp;column&nbsp;is&nbsp;specified&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;its&nbsp;zero-based&nbsp;index.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;parameter&nbsp;sets&nbsp;the&nbsp;granularity&nbsp;with&nbsp;which&nbsp;the&nbsp;entropies&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sampled&nbsp;by&nbsp;the&nbsp;module.&nbsp;&nbsp;For&nbsp;example,&nbsp;a&nbsp;feature&nbsp;test&nbsp;at&nbsp;a&nbsp;node&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;decision&nbsp;tree&nbsp;is&nbsp;acceptable&nbsp;if&nbsp;the&nbsp;entropy&nbsp;gain&nbsp;achieved&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test&nbsp;exceeds&nbsp;this&nbsp;threshold.&nbsp;&nbsp;The&nbsp;larger&nbsp;the&nbsp;value&nbsp;you&nbsp;choose&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;parameter,&nbsp;the&nbsp;smaller&nbsp;the&nbsp;tree.&nbsp;&nbsp;Its&nbsp;default&nbsp;value&nbsp;is&nbsp;0.001.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;parameter&nbsp;sets&nbsp;the&nbsp;maximum&nbsp;depth&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree.&nbsp;&nbsp;For<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;obvious&nbsp;reasons,&nbsp;the&nbsp;smaller&nbsp;the&nbsp;value&nbsp;you&nbsp;choose&nbsp;for&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter,&nbsp;the&nbsp;smaller&nbsp;the&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;parameter&nbsp;allows&nbsp;the&nbsp;module&nbsp;to&nbsp;treat&nbsp;an&nbsp;otherwise&nbsp;numeric<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;symbolically&nbsp;if&nbsp;the&nbsp;number&nbsp;of&nbsp;different&nbsp;values&nbsp;the&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;takes&nbsp;in&nbsp;the&nbsp;training&nbsp;data&nbsp;file&nbsp;does&nbsp;not&nbsp;exceed&nbsp;the&nbsp;value&nbsp;of&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;number_of_histogram_bins:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;parameter&nbsp;gives&nbsp;the&nbsp;user&nbsp;the&nbsp;option&nbsp;to&nbsp;set&nbsp;the&nbsp;number&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;points&nbsp;at&nbsp;which&nbsp;the&nbsp;value&nbsp;range&nbsp;for&nbsp;a&nbsp;feature&nbsp;should&nbsp;be&nbsp;sampled<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;estimating&nbsp;the&nbsp;probabilities.&nbsp;&nbsp;This&nbsp;parameter&nbsp;is&nbsp;especially<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;effective&nbsp;for&nbsp;those&nbsp;features&nbsp;that&nbsp;occupy&nbsp;a&nbsp;large&nbsp;value&nbsp;range<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;whose&nbsp;probability&nbsp;distributions&nbsp;are&nbsp;heavy&nbsp;tailed.&nbsp;&nbsp;THIS<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PARAMETER&nbsp;IS&nbsp;ALSO&nbsp;IMPORTANT&nbsp;WHEN&nbsp;YOU&nbsp;HAVE&nbsp;A&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;VERY&nbsp;LARGE&nbsp;TRAINING&nbsp;DATASET:&nbsp;In&nbsp;general,&nbsp;the&nbsp;larger&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;dataset,&nbsp;the&nbsp;smaller&nbsp;the&nbsp;smallest&nbsp;difference&nbsp;between&nbsp;any<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;two&nbsp;values&nbsp;for&nbsp;a&nbsp;numeric&nbsp;feature&nbsp;in&nbsp;relation&nbsp;to&nbsp;the&nbsp;overall<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;range&nbsp;of&nbsp;values&nbsp;for&nbsp;that&nbsp;feature.&nbsp;In&nbsp;such&nbsp;cases,&nbsp;the&nbsp;module&nbsp;may<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;use&nbsp;too&nbsp;large&nbsp;a&nbsp;number&nbsp;of&nbsp;bins&nbsp;for&nbsp;estimating&nbsp;the&nbsp;probabilities<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;that&nbsp;may&nbsp;slow&nbsp;down&nbsp;the&nbsp;calculation&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;get&nbsp;around&nbsp;this&nbsp;difficulty&nbsp;by&nbsp;explicitly&nbsp;giving&nbsp;a&nbsp;value<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;the&nbsp;'number_of_histogram_bins'&nbsp;parameter.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;choose&nbsp;the&nbsp;best&nbsp;values&nbsp;to&nbsp;use&nbsp;for&nbsp;the&nbsp;constructor&nbsp;parameters&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;running&nbsp;a&nbsp;10-fold&nbsp;cross-validation&nbsp;test&nbsp;on&nbsp;your&nbsp;training&nbsp;data&nbsp;through<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;embedded&nbsp;class&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>&nbsp;that&nbsp;comes&nbsp;with&nbsp;Versions&nbsp;2.2&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;higher&nbsp;of&nbsp;this&nbsp;module.&nbsp;&nbsp;See&nbsp;the&nbsp;section&nbsp;"TESTING&nbsp;THE&nbsp;QUALITY&nbsp;OF&nbsp;YOUR<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;TRAINING&nbsp;DATA"&nbsp;of&nbsp;this&nbsp;document&nbsp;page.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Reading&nbsp;in&nbsp;the&nbsp;training&nbsp;data:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;After&nbsp;you&nbsp;have&nbsp;constructed&nbsp;a&nbsp;new&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;must&nbsp;now&nbsp;read&nbsp;in&nbsp;the&nbsp;training&nbsp;data&nbsp;that&nbsp;is&nbsp;contained&nbsp;in&nbsp;the&nbsp;file<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;named&nbsp;above.&nbsp;&nbsp;This&nbsp;you&nbsp;do&nbsp;by:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.get_training_data()<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;IMPORTANT:&nbsp;The&nbsp;training&nbsp;data&nbsp;file&nbsp;must&nbsp;be&nbsp;in&nbsp;a&nbsp;format&nbsp;that&nbsp;makes&nbsp;sense<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;the&nbsp;decision&nbsp;tree&nbsp;constructor.&nbsp;&nbsp;If&nbsp;you&nbsp;use&nbsp;numeric&nbsp;features,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;must&nbsp;use&nbsp;a&nbsp;CSV&nbsp;file&nbsp;for&nbsp;supplying&nbsp;the&nbsp;training&nbsp;data.&nbsp;&nbsp;The&nbsp;first&nbsp;row&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;such&nbsp;a&nbsp;file&nbsp;must&nbsp;name&nbsp;the&nbsp;features&nbsp;and&nbsp;it&nbsp;must&nbsp;begin&nbsp;with&nbsp;the&nbsp;empty<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;string&nbsp;`""'&nbsp;as&nbsp;shown&nbsp;in&nbsp;the&nbsp;`stage3cancer.csv'&nbsp;file&nbsp;in&nbsp;the&nbsp;Examples<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;subdirectory.&nbsp;&nbsp;The&nbsp;first&nbsp;column&nbsp;for&nbsp;all&nbsp;subsequent&nbsp;rows&nbsp;must&nbsp;carry&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;unique&nbsp;integer&nbsp;identifier&nbsp;for&nbsp;each&nbsp;training&nbsp;record.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Initializing&nbsp;the&nbsp;probability&nbsp;cache:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;After&nbsp;a&nbsp;call&nbsp;to&nbsp;the&nbsp;constructor&nbsp;and&nbsp;the&nbsp;get_training_data()&nbsp;method,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;must&nbsp;call&nbsp;the&nbsp;following&nbsp;methods&nbsp;for&nbsp;initializing&nbsp;the&nbsp;probabilities:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_first_order_probabilities()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.calculate_class_priors()<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Displaying&nbsp;the&nbsp;training&nbsp;data:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;wish&nbsp;to&nbsp;see&nbsp;the&nbsp;training&nbsp;data&nbsp;that&nbsp;was&nbsp;just&nbsp;digested&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;module,&nbsp;call<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.show_training_data()&nbsp;<br>
</div>&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Constructing&nbsp;a&nbsp;decision-tree&nbsp;classifier:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;After&nbsp;the&nbsp;training&nbsp;data&nbsp;is&nbsp;ingested,&nbsp;it&nbsp;is&nbsp;time&nbsp;to&nbsp;construct&nbsp;a&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tree&nbsp;classifier.&nbsp;&nbsp;This&nbsp;you&nbsp;do&nbsp;by<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;root_node&nbsp;=&nbsp;dt.construct_decision_tree_classifier()<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;call&nbsp;returns&nbsp;an&nbsp;instance&nbsp;of&nbsp;type&nbsp;<a href="#DTNode">DTNode</a>.&nbsp;&nbsp;The&nbsp;<a href="#DTNode">DTNode</a>&nbsp;class&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;defined&nbsp;within&nbsp;the&nbsp;main&nbsp;package&nbsp;file,&nbsp;at&nbsp;its&nbsp;end.&nbsp;&nbsp;So,&nbsp;don't&nbsp;forget,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;root_node&nbsp;in&nbsp;the&nbsp;above&nbsp;example&nbsp;call&nbsp;will&nbsp;be&nbsp;instantiated&nbsp;to&nbsp;an<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;instance&nbsp;of&nbsp;type&nbsp;<a href="#DTNode">DTNode</a>.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Displaying&nbsp;the&nbsp;decision&nbsp;tree:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;display&nbsp;a&nbsp;decision&nbsp;tree&nbsp;by&nbsp;calling<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;root_node.display_decision_tree("&nbsp;&nbsp;&nbsp;")<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;displays&nbsp;the&nbsp;decision&nbsp;tree&nbsp;in&nbsp;your&nbsp;terminal&nbsp;window&nbsp;by&nbsp;using&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;recursively&nbsp;determined&nbsp;offset&nbsp;for&nbsp;each&nbsp;node&nbsp;as&nbsp;the&nbsp;display&nbsp;routine<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;descends&nbsp;down&nbsp;the&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;I&nbsp;have&nbsp;intentionally&nbsp;left&nbsp;the&nbsp;syntax&nbsp;fragment&nbsp;root_node&nbsp;in&nbsp;the&nbsp;above<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;to&nbsp;remind&nbsp;the&nbsp;reader&nbsp;that&nbsp;display_decision_tree()&nbsp;is&nbsp;NOT&nbsp;called&nbsp;on<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;we&nbsp;constructed&nbsp;earlier,&nbsp;but&nbsp;on&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Node&nbsp;instance&nbsp;returned&nbsp;by&nbsp;the&nbsp;call&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_decision_tree_classifier().<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Classifying&nbsp;new&nbsp;data:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;classify&nbsp;new&nbsp;data&nbsp;by&nbsp;first&nbsp;constructing&nbsp;a&nbsp;new&nbsp;data&nbsp;record:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_sample&nbsp;&nbsp;=&nbsp;['g2&nbsp;=&nbsp;4.2',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'grade&nbsp;=&nbsp;2.3',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'gleason&nbsp;=&nbsp;4',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'eet&nbsp;=&nbsp;1.7',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'age&nbsp;=&nbsp;55.0',<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'ploidy&nbsp;=&nbsp;diploid']<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;calling&nbsp;the&nbsp;classify()&nbsp;method&nbsp;as&nbsp;follows:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;=&nbsp;dt.classify(root_node,&nbsp;test_sample)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;where,&nbsp;again,&nbsp;root_node&nbsp;is&nbsp;an&nbsp;instance&nbsp;of&nbsp;type&nbsp;Node&nbsp;that&nbsp;was&nbsp;returned<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;by&nbsp;calling&nbsp;construct_decision_tree_classifier().&nbsp;&nbsp;The&nbsp;variable<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;is&nbsp;a&nbsp;dictionary&nbsp;whose&nbsp;keys&nbsp;are&nbsp;the&nbsp;class&nbsp;labels&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;whose&nbsp;values&nbsp;the&nbsp;associated&nbsp;probabilities.&nbsp;&nbsp;You&nbsp;can&nbsp;print&nbsp;it&nbsp;out&nbsp;by<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;print&nbsp;"Classification:&nbsp;",&nbsp;classification<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Displaying&nbsp;the&nbsp;number&nbsp;of&nbsp;nodes&nbsp;created:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;print&nbsp;out&nbsp;the&nbsp;number&nbsp;of&nbsp;nodes&nbsp;in&nbsp;a&nbsp;decision&nbsp;tree&nbsp;by&nbsp;calling<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;root_node.how_many_nodes()<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Using&nbsp;the&nbsp;decision&nbsp;tree&nbsp;interactively:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Starting&nbsp;with&nbsp;Version&nbsp;1.6&nbsp;of&nbsp;the&nbsp;module,&nbsp;you&nbsp;can&nbsp;use&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a><br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classifier&nbsp;in&nbsp;an&nbsp;interactive&nbsp;mode.&nbsp;&nbsp;In&nbsp;this&nbsp;mode,&nbsp;after&nbsp;you&nbsp;have<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;the&nbsp;decision&nbsp;tree,&nbsp;the&nbsp;user&nbsp;is&nbsp;prompted&nbsp;for&nbsp;answers&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;questions&nbsp;regarding&nbsp;the&nbsp;feature&nbsp;tests&nbsp;at&nbsp;the&nbsp;nodes&nbsp;of&nbsp;the&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Depending&nbsp;on&nbsp;the&nbsp;answer&nbsp;supplied&nbsp;by&nbsp;the&nbsp;user&nbsp;at&nbsp;a&nbsp;node,&nbsp;the&nbsp;classifier<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;takes&nbsp;a&nbsp;path&nbsp;corresponding&nbsp;to&nbsp;the&nbsp;answer&nbsp;to&nbsp;descend&nbsp;down&nbsp;the&nbsp;tree&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;next&nbsp;node,&nbsp;and&nbsp;so&nbsp;on.&nbsp;&nbsp;The&nbsp;following&nbsp;method&nbsp;makes&nbsp;this&nbsp;mode<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;possible.&nbsp;&nbsp;Obviously,&nbsp;you&nbsp;can&nbsp;call&nbsp;this&nbsp;method&nbsp;only&nbsp;after&nbsp;you&nbsp;have<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;the&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dt.classify_by_asking_questions(root_node)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="11">THE&nbsp;INTROSPECTION&nbsp;API:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;To&nbsp;construct&nbsp;an&nbsp;instance&nbsp;of&nbsp;<a href="#DTIntrospection">DTIntrospection</a>,&nbsp;you&nbsp;call<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector&nbsp;=&nbsp;<a href="#DecisionTree">DecisionTree</a>.<a href="#DTIntrospection">DTIntrospection</a>(dt)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;where&nbsp;you&nbsp;supply&nbsp;the&nbsp;instance&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;you&nbsp;used&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructing&nbsp;the&nbsp;decision&nbsp;tree&nbsp;through&nbsp;the&nbsp;parameter&nbsp;dt.&nbsp;&nbsp;After&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;have&nbsp;constructed&nbsp;an&nbsp;instance&nbsp;of&nbsp;the&nbsp;introspection&nbsp;class,&nbsp;you&nbsp;must<br>
&nbsp;&nbsp;&nbsp;&nbsp;initialize&nbsp;it&nbsp;by<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector.initialize()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;on&nbsp;the&nbsp;introspector&nbsp;instance.&nbsp;Subsequently,&nbsp;you&nbsp;can&nbsp;invoke&nbsp;either&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;following&nbsp;methods:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector.explain_classification_at_one_node(node)<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector.explain_classifications_at_multiple_nodes_interactively()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;depending&nbsp;on&nbsp;whether&nbsp;you&nbsp;want&nbsp;introspection&nbsp;at&nbsp;a&nbsp;single&nbsp;specified&nbsp;node<br>
&nbsp;&nbsp;&nbsp;&nbsp;or&nbsp;inside&nbsp;an&nbsp;infinite&nbsp;loop&nbsp;for&nbsp;an&nbsp;arbitrary&nbsp;number&nbsp;of&nbsp;nodes.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;want&nbsp;to&nbsp;output&nbsp;a&nbsp;tabular&nbsp;display&nbsp;that&nbsp;shows&nbsp;for&nbsp;each&nbsp;node&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree&nbsp;all&nbsp;the&nbsp;training&nbsp;samples&nbsp;that&nbsp;fall&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;space&nbsp;that&nbsp;belongs&nbsp;to&nbsp;that&nbsp;node,&nbsp;call<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector.display_training_samples_at_all_nodes_direct_influence_only()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;want&nbsp;to&nbsp;output&nbsp;a&nbsp;tabular&nbsp;display&nbsp;that&nbsp;shows&nbsp;for&nbsp;each&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;sample&nbsp;a&nbsp;list&nbsp;of&nbsp;all&nbsp;the&nbsp;nodes&nbsp;that&nbsp;are&nbsp;affected&nbsp;directly&nbsp;AND<br>
&nbsp;&nbsp;&nbsp;&nbsp;indirectly&nbsp;by&nbsp;that&nbsp;sample,&nbsp;call<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspector.display_training_training_samples_to_nodes_influence_propagation()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;A&nbsp;training&nbsp;sample&nbsp;affects&nbsp;a&nbsp;node&nbsp;directly&nbsp;if&nbsp;the&nbsp;sample&nbsp;falls&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;portion&nbsp;of&nbsp;the&nbsp;features&nbsp;space&nbsp;assigned&nbsp;to&nbsp;that&nbsp;node.&nbsp;On&nbsp;the&nbsp;other&nbsp;hand,<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;training&nbsp;sample&nbsp;is&nbsp;considered&nbsp;to&nbsp;affect&nbsp;a&nbsp;node&nbsp;indirectly&nbsp;if&nbsp;the&nbsp;node<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;a&nbsp;descendant&nbsp;of&nbsp;a&nbsp;node&nbsp;that&nbsp;is&nbsp;affected&nbsp;directly&nbsp;by&nbsp;the&nbsp;sample.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="12">BULK&nbsp;CLASSIFICATION&nbsp;OF&nbsp;DATA&nbsp;RECORDS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;large&nbsp;test&nbsp;datasets,&nbsp;you&nbsp;would&nbsp;obviously&nbsp;want&nbsp;to&nbsp;process&nbsp;an&nbsp;entire<br>
&nbsp;&nbsp;&nbsp;&nbsp;file&nbsp;of&nbsp;test&nbsp;data&nbsp;at&nbsp;a&nbsp;time.&nbsp;The&nbsp;following&nbsp;scripts&nbsp;in&nbsp;the&nbsp;Examples<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;illustrate&nbsp;how&nbsp;you&nbsp;can&nbsp;do&nbsp;that:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_test_data_in_a_file_numeric.py&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_test_data_in_a_file_symbolic.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;These&nbsp;scripts&nbsp;require&nbsp;three&nbsp;command-line&nbsp;arguments,&nbsp;the&nbsp;first&nbsp;argument<br>
&nbsp;&nbsp;&nbsp;&nbsp;names&nbsp;the&nbsp;training&nbsp;datafile,&nbsp;the&nbsp;second&nbsp;the&nbsp;test&nbsp;datafile,&nbsp;and&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;third&nbsp;the&nbsp;file&nbsp;in&nbsp;which&nbsp;the&nbsp;classification&nbsp;results&nbsp;are&nbsp;to&nbsp;be&nbsp;deposited.<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;script&nbsp;above&nbsp;is&nbsp;for&nbsp;the&nbsp;case&nbsp;of&nbsp;numeric/symbolic&nbsp;features&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;second&nbsp;for&nbsp;the&nbsp;purely&nbsp;symbolic&nbsp;features.&nbsp;&nbsp;An&nbsp;important&nbsp;point&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;remember&nbsp;when&nbsp;using&nbsp;these&nbsp;scripts&nbsp;for&nbsp;bulk&nbsp;classification&nbsp;is&nbsp;that&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;test&nbsp;file&nbsp;must&nbsp;have&nbsp;a&nbsp;column&nbsp;for&nbsp;class&nbsp;labels.&nbsp;&nbsp;In&nbsp;real-life<br>
&nbsp;&nbsp;&nbsp;&nbsp;situations,&nbsp;obviously,&nbsp;the&nbsp;entries&nbsp;in&nbsp;that&nbsp;column&nbsp;in&nbsp;the&nbsp;test&nbsp;file&nbsp;will<br>
&nbsp;&nbsp;&nbsp;&nbsp;be&nbsp;just&nbsp;the&nbsp;empty&nbsp;string&nbsp;"".<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;other&nbsp;examples&nbsp;directories,&nbsp;ExamplesBagging,&nbsp;ExamplesBoosting,&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;ExamplesRandomizedTrees,&nbsp;also&nbsp;contain&nbsp;scripts&nbsp;that&nbsp;illustrate&nbsp;how&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;carry&nbsp;out&nbsp;bulk&nbsp;classification&nbsp;of&nbsp;data&nbsp;records&nbsp;when&nbsp;you&nbsp;wish&nbsp;to&nbsp;take<br>
&nbsp;&nbsp;&nbsp;&nbsp;advantage&nbsp;of&nbsp;bagging,&nbsp;boosting,&nbsp;or&nbsp;tree&nbsp;randomization.&nbsp;&nbsp;In&nbsp;their<br>
&nbsp;&nbsp;&nbsp;&nbsp;respective&nbsp;directories,&nbsp;these&nbsp;scripts&nbsp;are&nbsp;named:<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bagging_for_bulk_classification.pl&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosting_for_bulk_classification.pl&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_database_records.pl&nbsp;<br>
</div>&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="13">HOW&nbsp;THE&nbsp;CLASSIFICATION&nbsp;RESULTS&nbsp;ARE&nbsp;DISPLAYED:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;It&nbsp;depends&nbsp;on&nbsp;whether&nbsp;you&nbsp;apply&nbsp;the&nbsp;classifier&nbsp;at&nbsp;once&nbsp;to&nbsp;all&nbsp;the&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;records&nbsp;in&nbsp;a&nbsp;file,&nbsp;or&nbsp;whether&nbsp;you&nbsp;feed&nbsp;one&nbsp;data&nbsp;record&nbsp;at&nbsp;a&nbsp;time&nbsp;into<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;classifier.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;In&nbsp;general,&nbsp;the&nbsp;classifier&nbsp;returns&nbsp;soft&nbsp;classification&nbsp;for&nbsp;a&nbsp;test&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;record.&nbsp;&nbsp;What&nbsp;that&nbsp;means&nbsp;is&nbsp;that,&nbsp;in&nbsp;general,&nbsp;the&nbsp;classifier&nbsp;will&nbsp;list<br>
&nbsp;&nbsp;&nbsp;&nbsp;all&nbsp;the&nbsp;classes&nbsp;to&nbsp;which&nbsp;a&nbsp;given&nbsp;data&nbsp;record&nbsp;could&nbsp;belong&nbsp;and&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;probability&nbsp;of&nbsp;each&nbsp;such&nbsp;class&nbsp;label&nbsp;for&nbsp;the&nbsp;data&nbsp;record.&nbsp;Run&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;examples&nbsp;scripts&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;to&nbsp;see&nbsp;how&nbsp;the&nbsp;output&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;can&nbsp;be&nbsp;displayed.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;With&nbsp;regard&nbsp;to&nbsp;the&nbsp;soft&nbsp;classifications&nbsp;returned&nbsp;by&nbsp;this&nbsp;classifier,&nbsp;if<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;probability&nbsp;distributions&nbsp;for&nbsp;the&nbsp;different&nbsp;classes&nbsp;overlap&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;underlying&nbsp;feature&nbsp;space,&nbsp;you&nbsp;would&nbsp;want&nbsp;the&nbsp;classifier&nbsp;to&nbsp;return&nbsp;all<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;applicable&nbsp;class&nbsp;labels&nbsp;for&nbsp;a&nbsp;test&nbsp;data&nbsp;record&nbsp;along&nbsp;with&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;corresponding&nbsp;class&nbsp;probabilities.&nbsp;&nbsp;(However,&nbsp;keep&nbsp;in&nbsp;mind&nbsp;the&nbsp;fact<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;the&nbsp;decision&nbsp;tree&nbsp;classifier&nbsp;may&nbsp;associate&nbsp;significant<br>
&nbsp;&nbsp;&nbsp;&nbsp;probabilities&nbsp;with&nbsp;multiple&nbsp;class&nbsp;labels&nbsp;for&nbsp;a&nbsp;given&nbsp;test&nbsp;data&nbsp;record<br>
&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;the&nbsp;training&nbsp;file&nbsp;contains&nbsp;an&nbsp;inadequate&nbsp;number&nbsp;of&nbsp;training&nbsp;samples<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;one&nbsp;or&nbsp;more&nbsp;classes.)&nbsp;&nbsp;The&nbsp;good&nbsp;thing&nbsp;is&nbsp;that&nbsp;the&nbsp;classifier&nbsp;would<br>
&nbsp;&nbsp;&nbsp;&nbsp;not&nbsp;lie&nbsp;to&nbsp;you&nbsp;(unlike,&nbsp;say,&nbsp;a&nbsp;hard&nbsp;classification&nbsp;rule&nbsp;that&nbsp;would<br>
&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;a&nbsp;single&nbsp;class&nbsp;label&nbsp;corresponding&nbsp;to&nbsp;the&nbsp;partitioning&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;underlying&nbsp;feature&nbsp;space).&nbsp;&nbsp;The&nbsp;decision&nbsp;tree&nbsp;classifier&nbsp;will&nbsp;give&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;best&nbsp;classification&nbsp;that&nbsp;can&nbsp;be&nbsp;made&nbsp;given&nbsp;the&nbsp;training&nbsp;data&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;feed&nbsp;into&nbsp;it.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="14">USING&nbsp;BAGGING:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Starting&nbsp;with&nbsp;Version&nbsp;3.0,&nbsp;you&nbsp;can&nbsp;use&nbsp;the&nbsp;class<br>
&nbsp;&nbsp;&nbsp;&nbsp;DecisionTreeWithBagging&nbsp;that&nbsp;comes&nbsp;with&nbsp;the&nbsp;module&nbsp;to&nbsp;incorporate<br>
&nbsp;&nbsp;&nbsp;&nbsp;bagging&nbsp;in&nbsp;your&nbsp;decision&nbsp;tree&nbsp;based&nbsp;classification.&nbsp;&nbsp;Bagging&nbsp;means<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructing&nbsp;multiple&nbsp;decision&nbsp;trees&nbsp;for&nbsp;different&nbsp;(possibly<br>
&nbsp;&nbsp;&nbsp;&nbsp;overlapping)&nbsp;segments&nbsp;of&nbsp;the&nbsp;data&nbsp;extracted&nbsp;from&nbsp;your&nbsp;training&nbsp;dataset<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;then&nbsp;aggregating&nbsp;the&nbsp;decisions&nbsp;made&nbsp;by&nbsp;the&nbsp;individual&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;for&nbsp;the&nbsp;final&nbsp;classification.&nbsp;&nbsp;The&nbsp;aggregation&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decisions&nbsp;can&nbsp;average&nbsp;out&nbsp;the&nbsp;noise&nbsp;and&nbsp;bias&nbsp;that&nbsp;may<br>
&nbsp;&nbsp;&nbsp;&nbsp;otherwise&nbsp;affect&nbsp;the&nbsp;classification&nbsp;decision&nbsp;obtained&nbsp;from&nbsp;just&nbsp;one<br>
&nbsp;&nbsp;&nbsp;&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Whether&nbsp;or&nbsp;not&nbsp;you&nbsp;get&nbsp;any&nbsp;benefits&nbsp;from&nbsp;bagging&nbsp;depends&nbsp;on:&nbsp;(1)&nbsp;If<br>
&nbsp;&nbsp;&nbsp;&nbsp;your&nbsp;original&nbsp;training&nbsp;dataset&nbsp;is&nbsp;large&nbsp;enough&nbsp;and&nbsp;sufficiently&nbsp;varied<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;capture&nbsp;all&nbsp;of&nbsp;the&nbsp;real-world&nbsp;statistical&nbsp;variations&nbsp;within&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;between&nbsp;the&nbsp;classes;&nbsp;and&nbsp;(2)&nbsp;no&nbsp;single&nbsp;feature&nbsp;is&nbsp;too&nbsp;dominant&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;establishing&nbsp;inter-class&nbsp;discriminations.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Calling&nbsp;the&nbsp;bagging&nbsp;constructor:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;A&nbsp;typical&nbsp;call&nbsp;to&nbsp;the&nbsp;constructor&nbsp;for&nbsp;the&nbsp;DecisionTreeWithBagging<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;looks&nbsp;like:<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;DecisionTreeWithBagging<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dtbag&nbsp;=&nbsp;DecisionTreeWithBagging.DecisionTreeWithBagging(&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;2,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[3,4,5,6,7,8],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_bags&nbsp;=&nbsp;4,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag_overlap_fraction&nbsp;=&nbsp;0.20,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Note&nbsp;in&nbsp;particular&nbsp;the&nbsp;following&nbsp;two&nbsp;constructor&nbsp;parameters:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_bags<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag_overlap_fraction<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;where,&nbsp;as&nbsp;the&nbsp;name&nbsp;implies,&nbsp;the&nbsp;parameter&nbsp;how_many_bags&nbsp;controls<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how&nbsp;many&nbsp;bags&nbsp;(and,&nbsp;therefore,&nbsp;how&nbsp;many&nbsp;decision&nbsp;trees)&nbsp;will&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;from&nbsp;your&nbsp;training&nbsp;dataset;&nbsp;and&nbsp;where&nbsp;the&nbsp;parameter<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag_overlap_fraction&nbsp;controls&nbsp;the&nbsp;degree&nbsp;of&nbsp;overlap&nbsp;between&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bags.&nbsp;&nbsp;To&nbsp;understand&nbsp;what&nbsp;exactly&nbsp;is&nbsp;achieved&nbsp;by&nbsp;setting&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter&nbsp;bag_overlap_fraction&nbsp;to&nbsp;0.2&nbsp;in&nbsp;the&nbsp;above&nbsp;example,&nbsp;let's<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;say&nbsp;that&nbsp;the&nbsp;non-overlapping&nbsp;partitioning&nbsp;of&nbsp;the&nbsp;training&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;between&nbsp;the&nbsp;bags&nbsp;results&nbsp;in&nbsp;100&nbsp;training&nbsp;samples&nbsp;per&nbsp;bag.&nbsp;With<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag_overlap_fraction&nbsp;set&nbsp;to&nbsp;0.2,&nbsp;additional&nbsp;20&nbsp;samples&nbsp;drawn<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;randomly&nbsp;from&nbsp;the&nbsp;other&nbsp;bags&nbsp;will&nbsp;be&nbsp;added&nbsp;to&nbsp;the&nbsp;data&nbsp;in&nbsp;each&nbsp;bag.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;are&nbsp;the&nbsp;methods&nbsp;defined&nbsp;for&nbsp;the&nbsp;DecisionTreeWithBagging&nbsp;class;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_training_data_for_bagging():<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;method&nbsp;reads&nbsp;your&nbsp;training&nbsp;datafile,&nbsp;randomizes&nbsp;it,&nbsp;and&nbsp;then<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;partitions&nbsp;it&nbsp;into&nbsp;the&nbsp;specified&nbsp;number&nbsp;of&nbsp;bags.&nbsp;&nbsp;Subsequently,&nbsp;if<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;constructor&nbsp;parameter&nbsp;bag_overlap_fraction&nbsp;is&nbsp;non-zero,&nbsp;it&nbsp;adds<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;each&nbsp;bag&nbsp;additional&nbsp;samples&nbsp;drawn&nbsp;at&nbsp;random&nbsp;from&nbsp;the&nbsp;other&nbsp;bags.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;number&nbsp;of&nbsp;these&nbsp;additional&nbsp;samples&nbsp;added&nbsp;to&nbsp;each&nbsp;bag&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;controlled&nbsp;by&nbsp;the&nbsp;constructor&nbsp;parameter&nbsp;bag_overlap_fraction.&nbsp;&nbsp;If<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;parameter&nbsp;is&nbsp;set&nbsp;to,&nbsp;say,&nbsp;0.2,&nbsp;the&nbsp;size&nbsp;of&nbsp;each&nbsp;bag&nbsp;will&nbsp;grow<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;by&nbsp;20%&nbsp;with&nbsp;the&nbsp;samples&nbsp;drawn&nbsp;from&nbsp;the&nbsp;other&nbsp;bags.<br>
&nbsp;&nbsp;&nbsp;&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;show_training_data_in_bags()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Shows&nbsp;for&nbsp;each&nbsp;bag&nbsp;the&nbsp;names&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;in&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;calculate_first_order_probabilities()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;methods&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimate&nbsp;the&nbsp;first-order&nbsp;probabilities&nbsp;from&nbsp;the&nbsp;samples&nbsp;in&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;calculate_class_priors()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimate&nbsp;the&nbsp;class&nbsp;priors&nbsp;for&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;in&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;construct_decision_trees_for_bags()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct&nbsp;a&nbsp;decision&nbsp;tree&nbsp;from&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;in&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_decision_trees_for_bags()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;separately&nbsp;the&nbsp;decision&nbsp;tree&nbsp;for&nbsp;each&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;classify_with_bagging(&nbsp;test_sample&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;methods&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify&nbsp;the&nbsp;argument&nbsp;test&nbsp;sample.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_classification_results_for_each_bag()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;separately&nbsp;the&nbsp;classification&nbsp;decision&nbsp;made&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree&nbsp;constructed&nbsp;for&nbsp;each&nbsp;bag.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_majority_vote_classification()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Using&nbsp;majority&nbsp;voting,&nbsp;this&nbsp;method&nbsp;aggregates&nbsp;the&nbsp;classification<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;decisions&nbsp;made&nbsp;by&nbsp;the&nbsp;individual&nbsp;decision&nbsp;trees&nbsp;into&nbsp;a&nbsp;single<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;decision.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;example&nbsp;scripts&nbsp;in&nbsp;the&nbsp;ExamplesBagging&nbsp;directory&nbsp;for&nbsp;how&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;the&nbsp;methods&nbsp;listed&nbsp;above&nbsp;for&nbsp;classifying&nbsp;individual&nbsp;data&nbsp;samples<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;for&nbsp;bulk&nbsp;classification&nbsp;when&nbsp;you&nbsp;place&nbsp;all&nbsp;your&nbsp;test&nbsp;samples&nbsp;in&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;single&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="24">USING&nbsp;BOOSTING:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Starting&nbsp;with&nbsp;Version&nbsp;3.2.0,&nbsp;you&nbsp;can&nbsp;use&nbsp;the&nbsp;class&nbsp;BoostedDecisionTree<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;constructing&nbsp;a&nbsp;boosted&nbsp;decision-tree&nbsp;classifier.&nbsp;&nbsp;Boosting&nbsp;results<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;a&nbsp;cascade&nbsp;of&nbsp;decision&nbsp;trees&nbsp;in&nbsp;which&nbsp;each&nbsp;decision&nbsp;tree&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;with&nbsp;samples&nbsp;that&nbsp;are&nbsp;mostly&nbsp;those&nbsp;that&nbsp;are&nbsp;misclassified<br>
&nbsp;&nbsp;&nbsp;&nbsp;by&nbsp;the&nbsp;previous&nbsp;decision&nbsp;tree.&nbsp;&nbsp;To&nbsp;be&nbsp;precise,&nbsp;you&nbsp;create&nbsp;a&nbsp;probability<br>
&nbsp;&nbsp;&nbsp;&nbsp;distribution&nbsp;over&nbsp;the&nbsp;training&nbsp;samples&nbsp;for&nbsp;the&nbsp;selection&nbsp;of&nbsp;samples&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;each&nbsp;decision&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade.&nbsp;&nbsp;To&nbsp;start&nbsp;out,&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;distribution&nbsp;is&nbsp;uniform&nbsp;over&nbsp;all&nbsp;of&nbsp;the&nbsp;samples.&nbsp;Subsequently,&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;probability&nbsp;distribution&nbsp;changes&nbsp;according&nbsp;to&nbsp;the&nbsp;misclassifications&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;each&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade:&nbsp;if&nbsp;a&nbsp;sample&nbsp;is&nbsp;misclassified&nbsp;by&nbsp;a&nbsp;given&nbsp;tree<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;cascade,&nbsp;the&nbsp;probability&nbsp;of&nbsp;its&nbsp;being&nbsp;selected&nbsp;for&nbsp;training&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;next&nbsp;tree&nbsp;is&nbsp;increased&nbsp;significantly.&nbsp;&nbsp;You&nbsp;also&nbsp;associate&nbsp;a&nbsp;trust<br>
&nbsp;&nbsp;&nbsp;&nbsp;factor&nbsp;with&nbsp;each&nbsp;decision&nbsp;tree&nbsp;depending&nbsp;on&nbsp;its&nbsp;power&nbsp;to&nbsp;classify<br>
&nbsp;&nbsp;&nbsp;&nbsp;correctly&nbsp;all&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;samples.&nbsp;&nbsp;After&nbsp;a&nbsp;cascade&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;trees&nbsp;is&nbsp;constructed&nbsp;in&nbsp;this&nbsp;manner,&nbsp;you&nbsp;construct&nbsp;a&nbsp;final<br>
&nbsp;&nbsp;&nbsp;&nbsp;classifier&nbsp;that&nbsp;calculates&nbsp;the&nbsp;class&nbsp;label&nbsp;for&nbsp;a&nbsp;test&nbsp;data&nbsp;sample&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;taking&nbsp;into&nbsp;account&nbsp;the&nbsp;classification&nbsp;decisions&nbsp;made&nbsp;by&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;individual&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade,&nbsp;the&nbsp;decisions&nbsp;being&nbsp;weighted&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;trust&nbsp;factors&nbsp;associated&nbsp;with&nbsp;the&nbsp;individual&nbsp;classifiers.&nbsp;&nbsp;These<br>
&nbsp;&nbsp;&nbsp;&nbsp;boosting&nbsp;notions&nbsp;---&nbsp;generally&nbsp;referred&nbsp;to&nbsp;as&nbsp;the&nbsp;AdaBoost&nbsp;algorithm<br>
&nbsp;&nbsp;&nbsp;&nbsp;---&nbsp;are&nbsp;based&nbsp;on&nbsp;a&nbsp;now&nbsp;celebrated&nbsp;paper&nbsp;"A&nbsp;Decision-Theoretic<br>
&nbsp;&nbsp;&nbsp;&nbsp;Generalization&nbsp;of&nbsp;On-Line&nbsp;Learning&nbsp;and&nbsp;an&nbsp;Application&nbsp;to&nbsp;Boosting"&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;Yoav&nbsp;Freund&nbsp;and&nbsp;Robert&nbsp;Schapire&nbsp;that&nbsp;appeared&nbsp;in&nbsp;1995&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;Proceedings&nbsp;of&nbsp;the&nbsp;2nd&nbsp;European&nbsp;Conf.&nbsp;on&nbsp;Computational&nbsp;Learning&nbsp;Theory.<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;a&nbsp;tutorial&nbsp;introduction&nbsp;to&nbsp;AdaBoost,&nbsp;see<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="https://engineering.purdue.edu/kak/Tutorials/AdaBoost.pdf">https://engineering.purdue.edu/kak/Tutorials/AdaBoost.pdf</a><br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Keep&nbsp;in&nbsp;mind&nbsp;the&nbsp;fact&nbsp;that,&nbsp;ordinarily,&nbsp;the&nbsp;theoretical&nbsp;guarantees<br>
&nbsp;&nbsp;&nbsp;&nbsp;provided&nbsp;by&nbsp;boosting&nbsp;apply&nbsp;only&nbsp;to&nbsp;the&nbsp;case&nbsp;of&nbsp;binary&nbsp;classification.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Additionally,&nbsp;your&nbsp;training&nbsp;dataset&nbsp;must&nbsp;capture&nbsp;all&nbsp;of&nbsp;the&nbsp;significant<br>
&nbsp;&nbsp;&nbsp;&nbsp;statistical&nbsp;variations&nbsp;in&nbsp;the&nbsp;classes&nbsp;represented&nbsp;therein.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;Calling&nbsp;the&nbsp;BoostedDecisionTree&nbsp;constructor:<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you'd&nbsp;like&nbsp;to&nbsp;experiment&nbsp;with&nbsp;boosting,&nbsp;a&nbsp;typical&nbsp;call&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;for&nbsp;the&nbsp;BoostedDecisionTree&nbsp;class&nbsp;looks&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;BoostedDecisionTree<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"training6.csv"<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosted&nbsp;=&nbsp;BoostedDecisionTree.BoostedDecisionTree(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[2,3],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_stages&nbsp;=&nbsp;4,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Note&nbsp;in&nbsp;particular&nbsp;the&nbsp;constructor&nbsp;parameter:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_stages<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;its&nbsp;name&nbsp;implies,&nbsp;this&nbsp;parameter&nbsp;controls&nbsp;how&nbsp;many&nbsp;stages&nbsp;will<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;be&nbsp;used&nbsp;in&nbsp;the&nbsp;boosted&nbsp;decision&nbsp;tree&nbsp;classifier.&nbsp;&nbsp;As&nbsp;mentioned<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;above,&nbsp;a&nbsp;separate&nbsp;decision&nbsp;tree&nbsp;is&nbsp;constructed&nbsp;for&nbsp;each&nbsp;stage&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosting&nbsp;using&nbsp;a&nbsp;set&nbsp;of&nbsp;training&nbsp;samples&nbsp;that&nbsp;are&nbsp;drawn&nbsp;through&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;probability&nbsp;distribution&nbsp;maintained&nbsp;over&nbsp;the&nbsp;entire&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dataset.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_training_data_for_base_tree()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;method&nbsp;reads&nbsp;your&nbsp;training&nbsp;datafile,&nbsp;creates&nbsp;the&nbsp;data&nbsp;structures<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;from&nbsp;the&nbsp;data&nbsp;ingested&nbsp;for&nbsp;constructing&nbsp;the&nbsp;base&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;show_training_data_for_base_tree()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Writes&nbsp;to&nbsp;the&nbsp;standard&nbsp;output&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;and&nbsp;also<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;some&nbsp;relevant&nbsp;properties&nbsp;of&nbsp;the&nbsp;features&nbsp;used&nbsp;in&nbsp;the&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dataset.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;calculate_first_order_probabilities_and_class_priors()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;methods&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimate&nbsp;the&nbsp;first-order&nbsp;probabilities&nbsp;and&nbsp;the&nbsp;class&nbsp;priors.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;construct_base_decision_tree()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct&nbsp;the&nbsp;base&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_base_decision_tree()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;the&nbsp;base&nbsp;decision&nbsp;tree&nbsp;in&nbsp;your&nbsp;terminal&nbsp;window.&nbsp;(The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;textual&nbsp;form&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;is&nbsp;written&nbsp;out&nbsp;to&nbsp;the&nbsp;standard<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output.)<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;construct_cascade_of_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Uses&nbsp;the&nbsp;AdaBoost&nbsp;algorithm&nbsp;to&nbsp;construct&nbsp;a&nbsp;cascade&nbsp;of&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;trees.&nbsp;&nbsp;As&nbsp;mentioned&nbsp;earlier,&nbsp;the&nbsp;training&nbsp;samples&nbsp;for&nbsp;each&nbsp;tree&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;cascade&nbsp;are&nbsp;drawn&nbsp;using&nbsp;a&nbsp;probability&nbsp;distribution&nbsp;over&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entire&nbsp;training&nbsp;dataset.&nbsp;This&nbsp;probability&nbsp;distribution&nbsp;for&nbsp;any<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;given&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade&nbsp;is&nbsp;heavily&nbsp;influenced&nbsp;by&nbsp;which&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;samples&nbsp;are&nbsp;misclassified&nbsp;by&nbsp;the&nbsp;previous&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_decision_trees_for_different_stages()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;separately&nbsp;in&nbsp;your&nbsp;terminal&nbsp;window&nbsp;the&nbsp;decision&nbsp;tree<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;constructed&nbsp;for&nbsp;each&nbsp;stage&nbsp;of&nbsp;the&nbsp;cascade.&nbsp;(The&nbsp;textual&nbsp;form&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;is&nbsp;written&nbsp;out&nbsp;to&nbsp;the&nbsp;standard&nbsp;output.)<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;classify_with_boosting(&nbsp;test_sample&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;each&nbsp;decision&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade&nbsp;to&nbsp;classify&nbsp;the&nbsp;argument<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test&nbsp;sample.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_classification_results_for_each_stage()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;call&nbsp;this&nbsp;method&nbsp;to&nbsp;display&nbsp;in&nbsp;your&nbsp;terminal&nbsp;window&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decision&nbsp;made&nbsp;by&nbsp;each&nbsp;decision&nbsp;tree&nbsp;in&nbsp;the&nbsp;cascade.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;method&nbsp;also&nbsp;prints&nbsp;out&nbsp;the&nbsp;trust&nbsp;factor&nbsp;associated&nbsp;with&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree.&nbsp;&nbsp;It&nbsp;is&nbsp;important&nbsp;to&nbsp;look&nbsp;simultaneously&nbsp;at&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decision&nbsp;and&nbsp;the&nbsp;trust&nbsp;factor&nbsp;for&nbsp;each&nbsp;tree&nbsp;---<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;since&nbsp;a&nbsp;classification&nbsp;decision&nbsp;made&nbsp;by&nbsp;a&nbsp;specific&nbsp;tree&nbsp;may&nbsp;appear<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bizarre&nbsp;for&nbsp;a&nbsp;given&nbsp;test&nbsp;sample.&nbsp;&nbsp;This&nbsp;method&nbsp;is&nbsp;useful&nbsp;primarily<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;debugging&nbsp;purposes.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;show_class_labels_for_misclassified_samples_in_stage(&nbsp;stage_index&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;with&nbsp;the&nbsp;previous&nbsp;method,&nbsp;this&nbsp;method&nbsp;is&nbsp;useful&nbsp;mostly&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;debugging.&nbsp;It&nbsp;returns&nbsp;class&nbsp;labels&nbsp;for&nbsp;the&nbsp;samples&nbsp;misclassified&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;stage&nbsp;whose&nbsp;integer&nbsp;index&nbsp;is&nbsp;supplied&nbsp;as&nbsp;an&nbsp;argument&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;method.&nbsp;&nbsp;Say&nbsp;you&nbsp;have&nbsp;10&nbsp;stages&nbsp;in&nbsp;your&nbsp;cascade.&nbsp;&nbsp;The&nbsp;value&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;argument&nbsp;stage_index&nbsp;would&nbsp;go&nbsp;from&nbsp;0&nbsp;to&nbsp;9,&nbsp;with&nbsp;0&nbsp;corresponding&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;base&nbsp;tree.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;trust_weighted_majority_vote_classifier()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Uses&nbsp;the&nbsp;"final&nbsp;classifier"&nbsp;formula&nbsp;of&nbsp;the&nbsp;AdaBoost&nbsp;algorithm&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pool&nbsp;together&nbsp;the&nbsp;classification&nbsp;decisions&nbsp;made&nbsp;by&nbsp;the&nbsp;individual<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;while&nbsp;taking&nbsp;into&nbsp;account&nbsp;the&nbsp;trust&nbsp;factors&nbsp;associated&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;trees.&nbsp;&nbsp;As&nbsp;mentioned&nbsp;earlier,&nbsp;we&nbsp;associate&nbsp;with&nbsp;each&nbsp;tree&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;cascade&nbsp;a&nbsp;trust&nbsp;factor&nbsp;that&nbsp;depends&nbsp;on&nbsp;the&nbsp;overall<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;misclassification&nbsp;rate&nbsp;associated&nbsp;with&nbsp;that&nbsp;tree.<br>
&nbsp;<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;example&nbsp;scripts&nbsp;in&nbsp;the&nbsp;ExamplesBoosting&nbsp;subdirectory&nbsp;for&nbsp;how&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;the&nbsp;methods&nbsp;listed&nbsp;above&nbsp;for&nbsp;classifying&nbsp;individual&nbsp;data&nbsp;samples<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;boosting&nbsp;and&nbsp;for&nbsp;bulk&nbsp;classification&nbsp;when&nbsp;you&nbsp;place&nbsp;all&nbsp;your&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;samples&nbsp;in&nbsp;a&nbsp;single&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="26">USING&nbsp;RANDOMIZED&nbsp;DECISION&nbsp;TREES:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;mentioned&nbsp;earlier,&nbsp;the&nbsp;new&nbsp;RandomizedTreesForBigData&nbsp;class&nbsp;allows<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;to&nbsp;solve&nbsp;the&nbsp;following&nbsp;two&nbsp;problems:&nbsp;(1)&nbsp;Data&nbsp;classification&nbsp;using<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;needle-in-a-haystack&nbsp;metaphor,&nbsp;that&nbsp;is,&nbsp;when&nbsp;a&nbsp;vast&nbsp;majority&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;your&nbsp;training&nbsp;samples&nbsp;belong&nbsp;to&nbsp;just&nbsp;one&nbsp;class.&nbsp;&nbsp;And&nbsp;(2)&nbsp;You&nbsp;have<br>
&nbsp;&nbsp;&nbsp;&nbsp;access&nbsp;to&nbsp;a&nbsp;very&nbsp;large&nbsp;database&nbsp;of&nbsp;training&nbsp;samples&nbsp;and&nbsp;you&nbsp;wish&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;construct&nbsp;an&nbsp;ensemble&nbsp;of&nbsp;decision&nbsp;trees&nbsp;for&nbsp;classification.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;is&nbsp;how&nbsp;you'd&nbsp;call&nbsp;the&nbsp;RandomizedTreesForBigData&nbsp;constructor&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;needle-in-a-haystack&nbsp;classification:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;RandomizedTreesForBigData<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"MyLargeDatabase.csv"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;rt&nbsp;=&nbsp;RandomizedTreesForBigData.RandomizedTreesForBigData(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;48,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[39,40,41,42],&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;looking_for_needles_in_haystack&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees&nbsp;=&nbsp;5,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Note&nbsp;in&nbsp;particular&nbsp;the&nbsp;constructor&nbsp;parameters:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;looking_for_needles_in_haystack<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;of&nbsp;these&nbsp;parameters,&nbsp;looking_for_needles_in_haystack,&nbsp;invokes<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;logic&nbsp;for&nbsp;constructing&nbsp;an&nbsp;ensemble&nbsp;of&nbsp;decision&nbsp;trees,&nbsp;each&nbsp;based&nbsp;on<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;training&nbsp;dataset&nbsp;that&nbsp;uses&nbsp;all&nbsp;of&nbsp;the&nbsp;minority&nbsp;class&nbsp;samples,&nbsp;and&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;random&nbsp;drawing&nbsp;from&nbsp;the&nbsp;majority&nbsp;class&nbsp;samples.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;is&nbsp;how&nbsp;you'd&nbsp;call&nbsp;the&nbsp;RandomizedTreesForBigData&nbsp;constructor&nbsp;for&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;more&nbsp;general&nbsp;attempt&nbsp;at&nbsp;constructing&nbsp;an&nbsp;ensemble&nbsp;of&nbsp;decision&nbsp;trees,<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;each&nbsp;tree&nbsp;trained&nbsp;with&nbsp;randomly&nbsp;drawn&nbsp;samples&nbsp;from&nbsp;a&nbsp;large<br>
&nbsp;&nbsp;&nbsp;&nbsp;database&nbsp;of&nbsp;training&nbsp;data:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;RandomizedTreesForBigData<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"MyLargeDatabase.csv"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;rt&nbsp;=&nbsp;RandomizedTreesForBigData.RandomizedTreesForBigData(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_class_column_index&nbsp;=&nbsp;48,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_columns_for_features&nbsp;=&nbsp;[39,40,41,42],&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;entropy_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;8,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;symbolic_to_numeric_cardinality_threshold&nbsp;=&nbsp;10,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_training_samples_per_tree&nbsp;=&nbsp;150,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees&nbsp;=&nbsp;5,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Note&nbsp;in&nbsp;particular&nbsp;the&nbsp;constructor&nbsp;parameters:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_training_samples_per_tree<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;how_many_trees<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;NOTE:&nbsp;When&nbsp;you&nbsp;set&nbsp;the&nbsp;'how_many_training_samples_per_tree'&nbsp;parameter,<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;are&nbsp;not&nbsp;allowed&nbsp;to&nbsp;also&nbsp;set&nbsp;the&nbsp;'looking_for_needles_in_haystack'<br>
&nbsp;&nbsp;&nbsp;&nbsp;parameter,&nbsp;and&nbsp;vice&nbsp;versa.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;is&nbsp;a&nbsp;list&nbsp;of&nbsp;the&nbsp;methods&nbsp;defined&nbsp;for&nbsp;the&nbsp;RandomizedTreesForBigData<br>
&nbsp;&nbsp;&nbsp;&nbsp;class&nbsp;that&nbsp;you&nbsp;can&nbsp;call&nbsp;in&nbsp;your&nbsp;own&nbsp;scripts:<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_training_data_for_N_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;What&nbsp;this&nbsp;method&nbsp;does&nbsp;depends&nbsp;on&nbsp;which&nbsp;of&nbsp;the&nbsp;two&nbsp;constructor<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameters&nbsp;---&nbsp;'looking_for_needles_in_haystack'&nbsp;or<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'how_many_training_samples_per_tree'&nbsp;---&nbsp;is&nbsp;set.&nbsp;&nbsp;When&nbsp;the&nbsp;former<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;set,&nbsp;it&nbsp;creates&nbsp;a&nbsp;collection&nbsp;of&nbsp;training&nbsp;datasets&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'how_many_trees'&nbsp;number&nbsp;of&nbsp;decision&nbsp;trees,&nbsp;with&nbsp;each&nbsp;dataset&nbsp;being<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;mixture&nbsp;of&nbsp;the&nbsp;minority&nbsp;class&nbsp;and&nbsp;sample&nbsp;drawn&nbsp;randomly&nbsp;from&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;majority&nbsp;class.&nbsp;&nbsp;However,&nbsp;when&nbsp;the&nbsp;latter&nbsp;option&nbsp;is&nbsp;set,&nbsp;all&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;datasets&nbsp;are&nbsp;drawn&nbsp;randomly&nbsp;from&nbsp;the&nbsp;training&nbsp;database&nbsp;with&nbsp;no<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;particular&nbsp;attention&nbsp;given&nbsp;to&nbsp;the&nbsp;relative&nbsp;populations&nbsp;of&nbsp;the&nbsp;two<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classes.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;show_training_data_for_all_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;the&nbsp;name&nbsp;implies,&nbsp;this&nbsp;method&nbsp;shows&nbsp;the&nbsp;training&nbsp;data&nbsp;being<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;used&nbsp;for&nbsp;all&nbsp;the&nbsp;decision&nbsp;trees.&nbsp;&nbsp;This&nbsp;method&nbsp;is&nbsp;useful&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;debugging&nbsp;purposes&nbsp;using&nbsp;small&nbsp;datasets.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;calculate_first_order_probabilities()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimate&nbsp;the&nbsp;first-order&nbsp;probabilities&nbsp;for&nbsp;the&nbsp;training&nbsp;dataset&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;be&nbsp;used&nbsp;for&nbsp;each&nbsp;decision&nbsp;tree.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;calculate_class_priors()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimate&nbsp;the&nbsp;class&nbsp;priors&nbsp;for&nbsp;the&nbsp;training&nbsp;dataset&nbsp;to&nbsp;be&nbsp;used&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;each&nbsp;decision&nbsp;tree.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;construct_all_decision_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Calls&nbsp;on&nbsp;the&nbsp;appropriate&nbsp;method&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct&nbsp;the&nbsp;decision&nbsp;trees.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_all_decision_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;all&nbsp;the&nbsp;decision&nbsp;trees&nbsp;in&nbsp;your&nbsp;terminal&nbsp;window.&nbsp;(The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;textual&nbsp;form&nbsp;of&nbsp;the&nbsp;decision&nbsp;trees&nbsp;is&nbsp;written&nbsp;out&nbsp;to&nbsp;the&nbsp;standard<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output.)<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;classify_with_all_trees(&nbsp;test_sample&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;test_sample&nbsp;is&nbsp;sent&nbsp;to&nbsp;each&nbsp;decision&nbsp;tree&nbsp;for&nbsp;classification.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_classification_results_for_all_trees()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;classification&nbsp;decisions&nbsp;returned&nbsp;by&nbsp;the&nbsp;individual&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;are&nbsp;written&nbsp;out&nbsp;to&nbsp;the&nbsp;standard&nbsp;output.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_majority_vote_classification()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;method&nbsp;aggregates&nbsp;the&nbsp;classification&nbsp;results&nbsp;returned&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;individual&nbsp;decision&nbsp;trees&nbsp;and&nbsp;returns&nbsp;the&nbsp;majority&nbsp;decision.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="28">CONSTRUCTING&nbsp;REGRESSION&nbsp;TREES:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Decision&nbsp;tree&nbsp;based&nbsp;modeling&nbsp;requires&nbsp;that&nbsp;the&nbsp;class&nbsp;labels&nbsp;be<br>
&nbsp;&nbsp;&nbsp;&nbsp;distinct.&nbsp;&nbsp;That&nbsp;is,&nbsp;the&nbsp;training&nbsp;dataset&nbsp;must&nbsp;contain&nbsp;a&nbsp;relatively<br>
&nbsp;&nbsp;&nbsp;&nbsp;small&nbsp;number&nbsp;of&nbsp;discrete&nbsp;class&nbsp;labels&nbsp;for&nbsp;all&nbsp;of&nbsp;your&nbsp;data&nbsp;records&nbsp;if<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;want&nbsp;to&nbsp;model&nbsp;the&nbsp;data&nbsp;with&nbsp;one&nbsp;or&nbsp;more&nbsp;decision&nbsp;trees.&nbsp;&nbsp;However,<br>
&nbsp;&nbsp;&nbsp;&nbsp;when&nbsp;one&nbsp;is&nbsp;trying&nbsp;to&nbsp;understand&nbsp;all&nbsp;of&nbsp;the&nbsp;associational<br>
&nbsp;&nbsp;&nbsp;&nbsp;relationships&nbsp;that&nbsp;exist&nbsp;in&nbsp;a&nbsp;large&nbsp;database,&nbsp;one&nbsp;often&nbsp;runs&nbsp;into<br>
&nbsp;&nbsp;&nbsp;&nbsp;situations&nbsp;where,&nbsp;instead&nbsp;of&nbsp;discrete&nbsp;class&nbsp;labels,&nbsp;you&nbsp;have&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;continuously&nbsp;valued&nbsp;variable&nbsp;as&nbsp;a&nbsp;dependent&nbsp;variable&nbsp;whose&nbsp;values&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;predicated&nbsp;on&nbsp;a&nbsp;set&nbsp;of&nbsp;feature&nbsp;values.&nbsp;&nbsp;It&nbsp;is&nbsp;for&nbsp;such&nbsp;situations&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;will&nbsp;find&nbsp;useful&nbsp;the&nbsp;new&nbsp;class&nbsp;RegressionTree&nbsp;that&nbsp;is&nbsp;now&nbsp;a&nbsp;part&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.&nbsp;&nbsp;The&nbsp;RegressionTree&nbsp;class&nbsp;has&nbsp;been&nbsp;programmed<br>
&nbsp;&nbsp;&nbsp;&nbsp;as&nbsp;a&nbsp;subclass&nbsp;of&nbsp;the&nbsp;main&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;can&nbsp;think&nbsp;of&nbsp;regression&nbsp;with&nbsp;a&nbsp;regression&nbsp;tree&nbsp;as&nbsp;a&nbsp;powerful<br>
&nbsp;&nbsp;&nbsp;&nbsp;generalization&nbsp;of&nbsp;the&nbsp;very&nbsp;commonly&nbsp;used&nbsp;Linear&nbsp;Regression&nbsp;algorithms.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Although&nbsp;you&nbsp;can&nbsp;certainly&nbsp;carry&nbsp;out&nbsp;polynomial&nbsp;regression&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;run-of-the-mill&nbsp;Linear&nbsp;Regression&nbsp;algorithms&nbsp;for&nbsp;modeling<br>
&nbsp;&nbsp;&nbsp;&nbsp;nonlinearities&nbsp;between&nbsp;the&nbsp;predictor&nbsp;variables&nbsp;and&nbsp;the&nbsp;dependent<br>
&nbsp;&nbsp;&nbsp;&nbsp;variable,&nbsp;specifying&nbsp;the&nbsp;degree&nbsp;of&nbsp;the&nbsp;polynomial&nbsp;is&nbsp;often&nbsp;tricky.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Additionally,&nbsp;a&nbsp;polynomial&nbsp;can&nbsp;inject&nbsp;continuities&nbsp;between&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;predictor&nbsp;and&nbsp;the&nbsp;predicted&nbsp;variables&nbsp;that&nbsp;may&nbsp;not&nbsp;really&nbsp;exist&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;real&nbsp;data.&nbsp;&nbsp;Regression&nbsp;trees,&nbsp;on&nbsp;the&nbsp;other&nbsp;hand,&nbsp;give&nbsp;you&nbsp;a&nbsp;piecewise<br>
&nbsp;&nbsp;&nbsp;&nbsp;linear&nbsp;relationship&nbsp;between&nbsp;the&nbsp;predictor&nbsp;and&nbsp;the&nbsp;predicted&nbsp;variables<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;is&nbsp;freed&nbsp;from&nbsp;the&nbsp;constraints&nbsp;of&nbsp;superimposed&nbsp;continuities&nbsp;at&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;joins&nbsp;between&nbsp;the&nbsp;different&nbsp;segments.&nbsp;&nbsp;See&nbsp;the&nbsp;following&nbsp;tutorial&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;further&nbsp;information&nbsp;regarding&nbsp;the&nbsp;standard&nbsp;linear&nbsp;regression&nbsp;approach<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;the&nbsp;regression&nbsp;that&nbsp;can&nbsp;be&nbsp;achieved&nbsp;with&nbsp;the&nbsp;RegressionTree&nbsp;class<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;this&nbsp;module:<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="https://engineering.purdue.edu/kak/Tutorials/RegressionTree.pdf">https://engineering.purdue.edu/kak/Tutorials/RegressionTree.pdf</a><br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;RegressionTree&nbsp;class&nbsp;in&nbsp;the&nbsp;current&nbsp;version&nbsp;of&nbsp;the&nbsp;module&nbsp;assumes<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;all&nbsp;of&nbsp;your&nbsp;data&nbsp;is&nbsp;numerical.&nbsp;&nbsp;That&nbsp;is,&nbsp;unlike&nbsp;what&nbsp;is&nbsp;possible<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;(and&nbsp;the&nbsp;other&nbsp;more&nbsp;closely&nbsp;related&nbsp;classes<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;this&nbsp;module)&nbsp;that&nbsp;allow&nbsp;your&nbsp;training&nbsp;file&nbsp;to&nbsp;contain&nbsp;a&nbsp;mixture&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;numerical&nbsp;and&nbsp;symbolic&nbsp;data,&nbsp;the&nbsp;RegressionTree&nbsp;class&nbsp;requires&nbsp;that&nbsp;ALL<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;your&nbsp;data&nbsp;be&nbsp;numerical.&nbsp;&nbsp;I&nbsp;hope&nbsp;to&nbsp;relax&nbsp;this&nbsp;constraint&nbsp;in&nbsp;future<br>
&nbsp;&nbsp;&nbsp;&nbsp;versions&nbsp;of&nbsp;this&nbsp;module.&nbsp;&nbsp;Obviously,&nbsp;the&nbsp;dependent&nbsp;variable&nbsp;will&nbsp;always<br>
&nbsp;&nbsp;&nbsp;&nbsp;be&nbsp;numerical&nbsp;for&nbsp;regression.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;example&nbsp;scripts&nbsp;in&nbsp;the&nbsp;directory&nbsp;ExamplesRegression&nbsp;if&nbsp;you&nbsp;wish<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;become&nbsp;more&nbsp;familiar&nbsp;with&nbsp;the&nbsp;regression&nbsp;capabilities&nbsp;of&nbsp;the&nbsp;module.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;is&nbsp;how&nbsp;you'd&nbsp;call&nbsp;the&nbsp;RegressionTree&nbsp;constructor:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;RegressionTree<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;"gendata6.csv"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;rt&nbsp;=&nbsp;RegressionTree.RegressionTree(&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_datafile&nbsp;=&nbsp;training_datafile,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dependent_variable_column&nbsp;=&nbsp;3,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;predictor_columns&nbsp;=&nbsp;[1,2],<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mse_threshold&nbsp;=&nbsp;0.01,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;max_depth_desired&nbsp;=&nbsp;2,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;jacobian_choice&nbsp;=&nbsp;0,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;csv_cleanup_needed&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Note&nbsp;in&nbsp;particular&nbsp;the&nbsp;constructor&nbsp;parameters:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;dependent_variable<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;predictor_columns<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;mse_threshold<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;jacobian_choice<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;of&nbsp;these&nbsp;parameters,&nbsp;dependent_variable,&nbsp;is&nbsp;set&nbsp;to&nbsp;the&nbsp;column<br>
&nbsp;&nbsp;&nbsp;&nbsp;index&nbsp;in&nbsp;the&nbsp;CSV&nbsp;file&nbsp;for&nbsp;the&nbsp;dependent&nbsp;variable.&nbsp;&nbsp;The&nbsp;second<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;parameter,&nbsp;predictor_columns,&nbsp;tells&nbsp;the&nbsp;system&nbsp;as&nbsp;to&nbsp;which<br>
&nbsp;&nbsp;&nbsp;&nbsp;columns&nbsp;contain&nbsp;values&nbsp;for&nbsp;the&nbsp;predictor&nbsp;variables.&nbsp;&nbsp;The&nbsp;third<br>
&nbsp;&nbsp;&nbsp;&nbsp;parameter,&nbsp;mse_threshold,&nbsp;is&nbsp;for&nbsp;deciding&nbsp;when&nbsp;to&nbsp;partition&nbsp;the&nbsp;data&nbsp;at<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;node&nbsp;into&nbsp;two&nbsp;child&nbsp;nodes&nbsp;as&nbsp;a&nbsp;regression&nbsp;tree&nbsp;is&nbsp;being&nbsp;constructed.<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;the&nbsp;minmax&nbsp;of&nbsp;MSE&nbsp;(Mean&nbsp;Squared&nbsp;Error)&nbsp;that&nbsp;can&nbsp;be&nbsp;achieved&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;partitioning&nbsp;any&nbsp;of&nbsp;the&nbsp;features&nbsp;at&nbsp;a&nbsp;node&nbsp;is&nbsp;smaller&nbsp;than<br>
&nbsp;&nbsp;&nbsp;&nbsp;mse_threshold,&nbsp;that&nbsp;node&nbsp;becomes&nbsp;a&nbsp;leaf&nbsp;node&nbsp;of&nbsp;the&nbsp;regression&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;last&nbsp;parameter,&nbsp;jacobian_choice,&nbsp;must&nbsp;be&nbsp;set&nbsp;to&nbsp;either&nbsp;0&nbsp;or&nbsp;1&nbsp;or&nbsp;2.<br>
&nbsp;&nbsp;&nbsp;&nbsp;Its&nbsp;default&nbsp;value&nbsp;is&nbsp;0.&nbsp;When&nbsp;this&nbsp;parameter&nbsp;equals&nbsp;0,&nbsp;the&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;coefficients&nbsp;are&nbsp;calculated&nbsp;using&nbsp;the&nbsp;linear&nbsp;least-squares&nbsp;method&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;no&nbsp;further&nbsp;"refinement"&nbsp;of&nbsp;the&nbsp;coefficients&nbsp;is&nbsp;carried&nbsp;out&nbsp;using<br>
&nbsp;&nbsp;&nbsp;&nbsp;gradient&nbsp;descent.&nbsp;&nbsp;This&nbsp;is&nbsp;the&nbsp;fastest&nbsp;way&nbsp;to&nbsp;calculate&nbsp;the&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;coefficients.&nbsp;&nbsp;When&nbsp;jacobian_choice&nbsp;is&nbsp;set&nbsp;to&nbsp;1,&nbsp;you&nbsp;get&nbsp;a&nbsp;weak&nbsp;version<br>
&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;gradient&nbsp;descent&nbsp;in&nbsp;which&nbsp;the&nbsp;Jacobian&nbsp;is&nbsp;set&nbsp;to&nbsp;the&nbsp;"design&nbsp;matrix"<br>
&nbsp;&nbsp;&nbsp;&nbsp;itself.&nbsp;Choosing&nbsp;2&nbsp;for&nbsp;jacobian_choice&nbsp;results&nbsp;in&nbsp;a&nbsp;more&nbsp;reasonable<br>
&nbsp;&nbsp;&nbsp;&nbsp;approximation&nbsp;to&nbsp;the&nbsp;Jacobian.&nbsp;&nbsp;That,&nbsp;however,&nbsp;is&nbsp;at&nbsp;a&nbsp;cost&nbsp;of&nbsp;much<br>
&nbsp;&nbsp;&nbsp;&nbsp;longer&nbsp;computation&nbsp;time.&nbsp;&nbsp;NOTE:&nbsp;For&nbsp;most&nbsp;cases,&nbsp;using&nbsp;0&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;jacobian_choice&nbsp;is&nbsp;the&nbsp;best&nbsp;choice.&nbsp;&nbsp;See&nbsp;my&nbsp;tutorial&nbsp;"Linear&nbsp;Regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;Regression&nbsp;Trees"&nbsp;for&nbsp;why&nbsp;that&nbsp;is&nbsp;the&nbsp;case.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Here&nbsp;is&nbsp;a&nbsp;list&nbsp;of&nbsp;the&nbsp;methods&nbsp;defined&nbsp;for&nbsp;the&nbsp;RegressionTree&nbsp;class&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;can&nbsp;call&nbsp;in&nbsp;your&nbsp;own&nbsp;scripts:<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;get_training_data_for_regression()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Only&nbsp;CSV&nbsp;training&nbsp;datafiles&nbsp;are&nbsp;allowed.&nbsp;Additionally,&nbsp;the&nbsp;first<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;record&nbsp;in&nbsp;the&nbsp;file&nbsp;must&nbsp;list&nbsp;the&nbsp;names&nbsp;of&nbsp;the&nbsp;fields,&nbsp;and&nbsp;the&nbsp;first<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;column&nbsp;must&nbsp;contain&nbsp;an&nbsp;integer&nbsp;ID&nbsp;for&nbsp;each&nbsp;record.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;construct_regression_tree()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;the&nbsp;name&nbsp;implies,&nbsp;this&nbsp;is&nbsp;the&nbsp;method&nbsp;that&nbsp;construct&nbsp;a&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;tree.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_regression_tree("&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;")<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Displays&nbsp;the&nbsp;regression&nbsp;tree,&nbsp;as&nbsp;the&nbsp;name&nbsp;implies.&nbsp;&nbsp;The&nbsp;white-space<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;string&nbsp;argument&nbsp;specifies&nbsp;the&nbsp;offset&nbsp;to&nbsp;use&nbsp;in&nbsp;displaying&nbsp;the&nbsp;child<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;in&nbsp;relation&nbsp;to&nbsp;a&nbsp;parent&nbsp;node.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;prediction_for_single_data_point(&nbsp;root_node,&nbsp;test_sample&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;You&nbsp;call&nbsp;this&nbsp;method&nbsp;after&nbsp;you&nbsp;have&nbsp;constructed&nbsp;a&nbsp;regression&nbsp;tree<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;if&nbsp;you&nbsp;want&nbsp;to&nbsp;calculate&nbsp;the&nbsp;prediction&nbsp;for&nbsp;one&nbsp;sample.&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter&nbsp;root_node&nbsp;is&nbsp;what&nbsp;is&nbsp;returned&nbsp;by&nbsp;the&nbsp;call<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_regression_tree().&nbsp;&nbsp;The&nbsp;formatting&nbsp;of&nbsp;the&nbsp;argument&nbsp;bound<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;the&nbsp;test_sample&nbsp;parameter&nbsp;is&nbsp;important.&nbsp;&nbsp;To&nbsp;elaborate,&nbsp;let's&nbsp;say<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;are&nbsp;using&nbsp;two&nbsp;variables&nbsp;named&nbsp;xvar1&nbsp;and&nbsp;xvar2&nbsp;as&nbsp;your&nbsp;predictor<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;variables.&nbsp;In&nbsp;this&nbsp;case,&nbsp;the&nbsp;test_sample&nbsp;parameter&nbsp;will&nbsp;be&nbsp;bound&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;Python&nbsp;list&nbsp;that&nbsp;will&nbsp;look&nbsp;like&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;['xvar1&nbsp;=&nbsp;23.4',&nbsp;'xvar2&nbsp;=&nbsp;12.9']&nbsp;<br>
</div>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Arbitrary&nbsp;amount&nbsp;of&nbsp;white&nbsp;space,&nbsp;including&nbsp;none,&nbsp;on&nbsp;the&nbsp;two&nbsp;sides<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;equality&nbsp;symbol&nbsp;is&nbsp;allowed&nbsp;in&nbsp;the&nbsp;construct&nbsp;shown&nbsp;above.&nbsp;&nbsp;A<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;call&nbsp;to&nbsp;this&nbsp;method&nbsp;returns&nbsp;a&nbsp;dictionary&nbsp;with&nbsp;two&nbsp;key-value&nbsp;pairs.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;One&nbsp;of&nbsp;the&nbsp;keys&nbsp;is&nbsp;called&nbsp;'solution_path'&nbsp;and&nbsp;the&nbsp;other<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'prediction'.&nbsp;&nbsp;The&nbsp;value&nbsp;associated&nbsp;with&nbsp;key&nbsp;'solution_path'&nbsp;is&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;path&nbsp;in&nbsp;the&nbsp;regression&nbsp;tree&nbsp;to&nbsp;the&nbsp;leaf&nbsp;node&nbsp;that&nbsp;yielded&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;prediction.&nbsp;&nbsp;And&nbsp;the&nbsp;value&nbsp;associated&nbsp;with&nbsp;the&nbsp;key&nbsp;'prediction'&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;answer&nbsp;you&nbsp;are&nbsp;looking&nbsp;for.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;predictions_for_all_data_used_for_regression_estimation(&nbsp;root_node&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;call&nbsp;calculates&nbsp;the&nbsp;predictions&nbsp;for&nbsp;all&nbsp;of&nbsp;the&nbsp;predictor<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;variables&nbsp;data&nbsp;in&nbsp;your&nbsp;training&nbsp;file.&nbsp;&nbsp;The&nbsp;parameter&nbsp;root_node&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;what&nbsp;is&nbsp;returned&nbsp;by&nbsp;the&nbsp;call&nbsp;to&nbsp;construct_regression_tree().&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;values&nbsp;for&nbsp;the&nbsp;dependent&nbsp;variable&nbsp;thus&nbsp;predicted&nbsp;can&nbsp;be&nbsp;seen&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;calling&nbsp;display_all_plots(),&nbsp;which&nbsp;is&nbsp;the&nbsp;method&nbsp;mentioned&nbsp;below.<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;display_all_plots()<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;method&nbsp;displays&nbsp;the&nbsp;results&nbsp;obtained&nbsp;by&nbsp;calling&nbsp;the&nbsp;prediction<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;method&nbsp;of&nbsp;the&nbsp;previous&nbsp;entry.&nbsp;&nbsp;This&nbsp;method&nbsp;also&nbsp;creates&nbsp;a&nbsp;hardcopy<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;plots&nbsp;and&nbsp;saves&nbsp;it&nbsp;as&nbsp;a&nbsp;'.png'&nbsp;disk&nbsp;file.&nbsp;The&nbsp;name&nbsp;of&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output&nbsp;file&nbsp;is&nbsp;always&nbsp;"regression_plots.png".<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;mse_for_tree_regression_for_all_training_samples(&nbsp;root_node&nbsp;)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;This&nbsp;method&nbsp;carries&nbsp;out&nbsp;an&nbsp;error&nbsp;analysis&nbsp;of&nbsp;the&nbsp;predictions&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;samples&nbsp;in&nbsp;your&nbsp;training&nbsp;datafile.&nbsp;&nbsp;It&nbsp;shows&nbsp;you&nbsp;the&nbsp;overall<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;MSE&nbsp;(Mean&nbsp;Squared&nbsp;Error)&nbsp;with&nbsp;tree-based&nbsp;regression,&nbsp;the&nbsp;MSE&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;data&nbsp;samples&nbsp;at&nbsp;each&nbsp;of&nbsp;the&nbsp;leaf&nbsp;nodes&nbsp;of&nbsp;the&nbsp;regression&nbsp;tree,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;the&nbsp;MSE&nbsp;for&nbsp;the&nbsp;plain&nbsp;old&nbsp;Linear&nbsp;Regression&nbsp;as&nbsp;applied&nbsp;to&nbsp;all<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;of&nbsp;the&nbsp;data.&nbsp;&nbsp;The&nbsp;parameter&nbsp;root_node&nbsp;in&nbsp;the&nbsp;call&nbsp;syntax&nbsp;is&nbsp;what&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;returned&nbsp;by&nbsp;the&nbsp;call&nbsp;to&nbsp;construct_regression_tree().<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong>&nbsp;&nbsp;&nbsp;&nbsp;bulk_predictions_for_data_in_a_csv_file(root_node,&nbsp;filename,&nbsp;columns)<br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Call&nbsp;this&nbsp;method&nbsp;if&nbsp;you&nbsp;want&nbsp;to&nbsp;apply&nbsp;the&nbsp;regression&nbsp;tree&nbsp;to&nbsp;all<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;your&nbsp;test&nbsp;data&nbsp;in&nbsp;a&nbsp;disk&nbsp;file.&nbsp;&nbsp;The&nbsp;predictions&nbsp;for&nbsp;all&nbsp;of&nbsp;the&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;samples&nbsp;in&nbsp;the&nbsp;disk&nbsp;file&nbsp;are&nbsp;written&nbsp;out&nbsp;to&nbsp;another&nbsp;file&nbsp;whose&nbsp;name<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;the&nbsp;same&nbsp;as&nbsp;that&nbsp;of&nbsp;the&nbsp;test&nbsp;file&nbsp;except&nbsp;for&nbsp;the&nbsp;addition&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;'_output'&nbsp;in&nbsp;the&nbsp;name&nbsp;of&nbsp;the&nbsp;file.&nbsp;&nbsp;The&nbsp;parameter&nbsp;'filename'&nbsp;is&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;name&nbsp;of&nbsp;the&nbsp;disk&nbsp;file&nbsp;that&nbsp;contains&nbsp;the&nbsp;test&nbsp;data.&nbsp;And&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter&nbsp;'columns'&nbsp;is&nbsp;a&nbsp;Python&nbsp;list&nbsp;of&nbsp;the&nbsp;column&nbsp;indices&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;predictor&nbsp;variables&nbsp;in&nbsp;the&nbsp;test&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="22">GENERATING&nbsp;SYNTHETIC&nbsp;TRAINING&nbsp;DATA:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;To&nbsp;generate&nbsp;synthetic&nbsp;training&nbsp;data,&nbsp;you&nbsp;first&nbsp;construct&nbsp;an&nbsp;instance&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;class&nbsp;TrainingDataGenerator&nbsp;that&nbsp;is&nbsp;incorporated&nbsp;in&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module.&nbsp;&nbsp;A&nbsp;call&nbsp;to&nbsp;the&nbsp;constructor&nbsp;of&nbsp;this&nbsp;class&nbsp;will&nbsp;look<br>
&nbsp;&nbsp;&nbsp;&nbsp;like:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter_file&nbsp;=&nbsp;"param_numeric.txt"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output_csv_file&nbsp;=&nbsp;"training.csv";<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen&nbsp;=&nbsp;<a href="#TrainingDataGeneratorNumeric">TrainingDataGeneratorNumeric</a>(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output_csv_file&nbsp;&nbsp;&nbsp;=&nbsp;output_csv_file,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter_file&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;parameter_file,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;number_of_samples_per_class&nbsp;=&nbsp;some_number,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen.read_parameter_file_numeric()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen.gen_numeric_training_data_and_write_to_csv()<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;training&nbsp;data&nbsp;that&nbsp;is&nbsp;generated&nbsp;is&nbsp;according&nbsp;to&nbsp;the&nbsp;specifications<br>
&nbsp;&nbsp;&nbsp;&nbsp;described&nbsp;in&nbsp;the&nbsp;parameter&nbsp;file.&nbsp;&nbsp;The&nbsp;structure&nbsp;of&nbsp;this&nbsp;file&nbsp;must&nbsp;be&nbsp;as<br>
&nbsp;&nbsp;&nbsp;&nbsp;shown&nbsp;in&nbsp;the&nbsp;file&nbsp;`param_numeric.txt'&nbsp;for&nbsp;the&nbsp;numeric&nbsp;training&nbsp;data&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;as&nbsp;shown&nbsp;in&nbsp;`param_symbolic.txt'&nbsp;for&nbsp;the&nbsp;case&nbsp;of&nbsp;symbolic&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;data.&nbsp;&nbsp;Both&nbsp;these&nbsp;example&nbsp;parameter&nbsp;files&nbsp;are&nbsp;in&nbsp;the&nbsp;'Examples'<br>
&nbsp;&nbsp;&nbsp;&nbsp;subdirectory.&nbsp;&nbsp;The&nbsp;parameter&nbsp;file&nbsp;names&nbsp;the&nbsp;classes,&nbsp;the&nbsp;features&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;classes,&nbsp;and&nbsp;the&nbsp;possible&nbsp;values&nbsp;for&nbsp;the&nbsp;features.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;want&nbsp;to&nbsp;generate&nbsp;purely&nbsp;symbolic&nbsp;training&nbsp;data,&nbsp;here&nbsp;is&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructor&nbsp;call&nbsp;to&nbsp;make:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter_file&nbsp;=&nbsp;"param_symbolic.txt"<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output_data_file&nbsp;=&nbsp;"training_symbolic2.csv";<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen&nbsp;=&nbsp;<a href="#TrainingDataGeneratorSymbolic">TrainingDataGeneratorSymbolic</a>(<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;output_datafile&nbsp;&nbsp;&nbsp;=&nbsp;output_data_file,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;parameter_file&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;parameter_file,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;write_to_file&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;=&nbsp;1,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;number_of_training_samples&nbsp;=&nbsp;some_number,<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen.read_parameter_file_symbolic()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen.gen_symbolic_training_data()<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;training_data_gen.write_training_data_to_file()<br>
</div>&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="15">THE&nbsp;Examples&nbsp;DIRECTORY:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;See&nbsp;the&nbsp;'Examples'&nbsp;directory&nbsp;in&nbsp;the&nbsp;distribution&nbsp;for&nbsp;how&nbsp;to&nbsp;construct&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;decision&nbsp;tree,&nbsp;and&nbsp;how&nbsp;to&nbsp;then&nbsp;classify&nbsp;new&nbsp;data&nbsp;using&nbsp;the&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;tree.&nbsp;&nbsp;To&nbsp;become&nbsp;more&nbsp;familiar&nbsp;with&nbsp;the&nbsp;module,&nbsp;run&nbsp;the&nbsp;scripts<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_and_classify_one_sample_case1.py<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_and_classify_one_sample_case2.py<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_and_classify_one_sample_case3.py<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_and_classify_one_sample_case4.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;script&nbsp;is&nbsp;for&nbsp;the&nbsp;purely&nbsp;symbolic&nbsp;case,&nbsp;the&nbsp;second&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;case&nbsp;that&nbsp;involves&nbsp;both&nbsp;numeric&nbsp;and&nbsp;symbolic&nbsp;features,&nbsp;the&nbsp;third&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;case&nbsp;of&nbsp;purely&nbsp;numeric&nbsp;features,&nbsp;and&nbsp;the&nbsp;last&nbsp;for&nbsp;the&nbsp;case&nbsp;when&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;data&nbsp;is&nbsp;synthetically&nbsp;generated&nbsp;by&nbsp;the&nbsp;script<br>
&nbsp;&nbsp;&nbsp;&nbsp;generate_training_data_numeric.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Next,&nbsp;run&nbsp;the&nbsp;following&nbsp;script&nbsp;as&nbsp;it&nbsp;is&nbsp;for&nbsp;bulk&nbsp;classification&nbsp;of&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;records&nbsp;placed&nbsp;in&nbsp;a&nbsp;CSV&nbsp;file:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_test_data_in_a_file.py&nbsp;&nbsp;training4.csv&nbsp;&nbsp;test4.csv&nbsp;&nbsp;out4.csv<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;script&nbsp;first&nbsp;constructs&nbsp;a&nbsp;decision&nbsp;tree&nbsp;using&nbsp;the&nbsp;training&nbsp;data&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;first-argument&nbsp;file,&nbsp;`training4.csv'.&nbsp;&nbsp;Subsequently,&nbsp;the&nbsp;script<br>
&nbsp;&nbsp;&nbsp;&nbsp;calculates&nbsp;the&nbsp;class&nbsp;labels&nbsp;for&nbsp;each&nbsp;of&nbsp;the&nbsp;test&nbsp;records&nbsp;in&nbsp;the&nbsp;file<br>
&nbsp;&nbsp;&nbsp;&nbsp;`test4.csv'.&nbsp;&nbsp;The&nbsp;class&nbsp;labels&nbsp;are&nbsp;written&nbsp;out&nbsp;the&nbsp;file&nbsp;`out4.csv'.&nbsp;&nbsp;An<br>
&nbsp;&nbsp;&nbsp;&nbsp;important&nbsp;thing&nbsp;to&nbsp;note&nbsp;here&nbsp;that&nbsp;your&nbsp;test&nbsp;file&nbsp;---&nbsp;in&nbsp;this&nbsp;case<br>
&nbsp;&nbsp;&nbsp;&nbsp;`test4.csv'&nbsp;---&nbsp;must&nbsp;have&nbsp;a&nbsp;column&nbsp;for&nbsp;the&nbsp;class&nbsp;labels.&nbsp;&nbsp;Obviously,&nbsp;in<br>
&nbsp;&nbsp;&nbsp;&nbsp;real-life&nbsp;situations,&nbsp;there&nbsp;will&nbsp;be&nbsp;no&nbsp;class&nbsp;labels&nbsp;in&nbsp;this&nbsp;column.<br>
&nbsp;&nbsp;&nbsp;&nbsp;When&nbsp;that&nbsp;is&nbsp;the&nbsp;case,&nbsp;you&nbsp;can&nbsp;place&nbsp;the&nbsp;empty&nbsp;string&nbsp;""&nbsp;for&nbsp;each&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;record&nbsp;in&nbsp;this&nbsp;column.&nbsp;&nbsp;A&nbsp;demonstration&nbsp;of&nbsp;that&nbsp;is&nbsp;give&nbsp;by&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;following&nbsp;variation&nbsp;of&nbsp;the&nbsp;above&nbsp;call:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_test_data_in_a_file.py&nbsp;&nbsp;training4.csv&nbsp;&nbsp;test4_no_class_labels.csv&nbsp;&nbsp;out4.csv&nbsp;<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;following&nbsp;script&nbsp;in&nbsp;the&nbsp;'Examples'&nbsp;directory&nbsp;<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_by_asking_questions.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;shows&nbsp;how&nbsp;you&nbsp;can&nbsp;use&nbsp;a&nbsp;decision-tree&nbsp;classifier&nbsp;interactively.&nbsp;&nbsp;In<br>
&nbsp;&nbsp;&nbsp;&nbsp;this&nbsp;mode,&nbsp;you&nbsp;first&nbsp;construct&nbsp;the&nbsp;decision&nbsp;tree&nbsp;from&nbsp;the&nbsp;training&nbsp;data<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;then&nbsp;the&nbsp;user&nbsp;is&nbsp;prompted&nbsp;for&nbsp;answers&nbsp;to&nbsp;the&nbsp;feature&nbsp;tests&nbsp;at&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;nodes&nbsp;of&nbsp;the&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;your&nbsp;training&nbsp;data&nbsp;has&nbsp;a&nbsp;feature&nbsp;whose&nbsp;values&nbsp;span&nbsp;a&nbsp;large&nbsp;range<br>
&nbsp;&nbsp;&nbsp;&nbsp;and,&nbsp;at&nbsp;the&nbsp;same&nbsp;time,&nbsp;are&nbsp;characterized&nbsp;by&nbsp;a&nbsp;heavy-tail&nbsp;distribution,<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;should&nbsp;look&nbsp;at&nbsp;the&nbsp;script&nbsp;<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;construct_dt_for_heavytailed.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;to&nbsp;see&nbsp;how&nbsp;to&nbsp;use&nbsp;the&nbsp;option&nbsp;number_of_histogram_bins&nbsp;in&nbsp;the&nbsp;call&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;constructor.&nbsp;&nbsp;This&nbsp;option&nbsp;was&nbsp;introduced&nbsp;in&nbsp;Version&nbsp;2.2.4&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;dealing&nbsp;with&nbsp;such&nbsp;features.&nbsp;&nbsp;If&nbsp;you&nbsp;do&nbsp;not&nbsp;set&nbsp;this&nbsp;option,&nbsp;the&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;will&nbsp;use&nbsp;the&nbsp;default&nbsp;value&nbsp;of&nbsp;500&nbsp;for&nbsp;the&nbsp;number&nbsp;of&nbsp;points&nbsp;at&nbsp;which&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;sample&nbsp;the&nbsp;value&nbsp;range&nbsp;for&nbsp;such&nbsp;a&nbsp;feature.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;'Examples'&nbsp;directory&nbsp;also&nbsp;contains&nbsp;the&nbsp;following&nbsp;scripts:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;generate_training_data_numeric.py<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;generate_training_data_symbolic.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;show&nbsp;how&nbsp;you&nbsp;can&nbsp;use&nbsp;the&nbsp;module&nbsp;to&nbsp;generate&nbsp;synthetic&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;data.&nbsp;&nbsp;Synthetic&nbsp;training&nbsp;and&nbsp;test&nbsp;data&nbsp;are&nbsp;generated&nbsp;according&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;specifications&nbsp;laid&nbsp;out&nbsp;in&nbsp;a&nbsp;parameter&nbsp;file.&nbsp;&nbsp;There&nbsp;are&nbsp;constraints&nbsp;on<br>
&nbsp;&nbsp;&nbsp;&nbsp;how&nbsp;the&nbsp;information&nbsp;is&nbsp;laid&nbsp;out&nbsp;in&nbsp;the&nbsp;parameter&nbsp;file.&nbsp;&nbsp;See&nbsp;the&nbsp;files<br>
&nbsp;&nbsp;&nbsp;&nbsp;`param_numeric.txt'&nbsp;and&nbsp;`param_symbolic.txt'&nbsp;in&nbsp;the&nbsp;'Examples'<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;for&nbsp;how&nbsp;to&nbsp;structure&nbsp;these&nbsp;files.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;Examples&nbsp;directory&nbsp;of&nbsp;Versions&nbsp;2.2&nbsp;and&nbsp;higher&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a><br>
&nbsp;&nbsp;&nbsp;&nbsp;module&nbsp;also&nbsp;contains&nbsp;the&nbsp;following&nbsp;two&nbsp;scripts:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;evaluate_training_data1.py<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;evaluate_training_data2.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;illustrate&nbsp;how&nbsp;the&nbsp;Python&nbsp;class&nbsp;<a href="#EvalTrainingData">EvalTrainingData</a>&nbsp;can&nbsp;be&nbsp;used&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;evaluate&nbsp;the&nbsp;quality&nbsp;of&nbsp;your&nbsp;training&nbsp;data&nbsp;(as&nbsp;long&nbsp;as&nbsp;it&nbsp;resides&nbsp;in&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;`.csv'&nbsp;file.)&nbsp;&nbsp;This&nbsp;new&nbsp;class&nbsp;is&nbsp;a&nbsp;subclass&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;the&nbsp;module&nbsp;file.&nbsp;&nbsp;See&nbsp;the&nbsp;README&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;for<br>
&nbsp;&nbsp;&nbsp;&nbsp;further&nbsp;information&nbsp;regarding&nbsp;these&nbsp;two&nbsp;scripts.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;Examples&nbsp;directory&nbsp;of&nbsp;Versions&nbsp;2.3.2&nbsp;and&nbsp;higher&nbsp;of&nbsp;the&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;contains&nbsp;the&nbsp;following&nbsp;three&nbsp;scripts:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_in_a_loop_interactive.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_show_training_samples_at_all_nodes_direct_influence.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;introspection_show_training_samples_to_nodes_influence_propagation.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;script&nbsp;illustrates&nbsp;how&nbsp;to&nbsp;use&nbsp;the&nbsp;<a href="#DTIntrospection">DTIntrospection</a>&nbsp;class&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;module&nbsp;interactively&nbsp;for&nbsp;generating&nbsp;explanations&nbsp;for&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;decisions&nbsp;made&nbsp;at&nbsp;the&nbsp;nodes&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree.&nbsp;&nbsp;In<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;interactive&nbsp;session&nbsp;you&nbsp;are&nbsp;first&nbsp;asked&nbsp;for&nbsp;the&nbsp;node&nbsp;number&nbsp;you&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;interested&nbsp;in.&nbsp;&nbsp;Subsequently,&nbsp;you&nbsp;are&nbsp;asked&nbsp;for&nbsp;whether&nbsp;or&nbsp;not&nbsp;you&nbsp;are<br>
&nbsp;&nbsp;&nbsp;&nbsp;interested&nbsp;in&nbsp;specific&nbsp;questions&nbsp;that&nbsp;the&nbsp;introspector&nbsp;can&nbsp;provide<br>
&nbsp;&nbsp;&nbsp;&nbsp;answers&nbsp;for.&nbsp;The&nbsp;second&nbsp;script&nbsp;generates&nbsp;a&nbsp;tabular&nbsp;display&nbsp;that&nbsp;shows<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;each&nbsp;node&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;a&nbsp;list&nbsp;of&nbsp;the&nbsp;training&nbsp;samples&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;fall&nbsp;directly&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;assigned&nbsp;that&nbsp;node.<br>
&nbsp;&nbsp;&nbsp;&nbsp;(As&nbsp;mentioned&nbsp;elsewhere&nbsp;in&nbsp;this&nbsp;documentation,&nbsp;when&nbsp;this&nbsp;list&nbsp;is&nbsp;empty<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;a&nbsp;node,&nbsp;that&nbsp;means&nbsp;the&nbsp;node&nbsp;is&nbsp;a&nbsp;result&nbsp;of&nbsp;the&nbsp;generalization<br>
&nbsp;&nbsp;&nbsp;&nbsp;achieved&nbsp;by&nbsp;probabilistic&nbsp;modeling&nbsp;of&nbsp;the&nbsp;data.&nbsp;&nbsp;Note&nbsp;that&nbsp;this&nbsp;module<br>
&nbsp;&nbsp;&nbsp;&nbsp;constructs&nbsp;a&nbsp;decision&nbsp;tree&nbsp;NOT&nbsp;by&nbsp;partitioning&nbsp;the&nbsp;set&nbsp;of&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;samples,&nbsp;BUT&nbsp;by&nbsp;partitioning&nbsp;the&nbsp;domains&nbsp;of&nbsp;the&nbsp;probability&nbsp;density<br>
&nbsp;&nbsp;&nbsp;&nbsp;functions.)&nbsp;&nbsp;The&nbsp;third&nbsp;script&nbsp;listed&nbsp;above&nbsp;also&nbsp;generates&nbsp;a&nbsp;tabular<br>
&nbsp;&nbsp;&nbsp;&nbsp;display,&nbsp;but&nbsp;one&nbsp;that&nbsp;shows&nbsp;how&nbsp;the&nbsp;influence&nbsp;of&nbsp;each&nbsp;training&nbsp;sample<br>
&nbsp;&nbsp;&nbsp;&nbsp;propagates&nbsp;in&nbsp;the&nbsp;tree.&nbsp;&nbsp;This&nbsp;display&nbsp;first&nbsp;shows&nbsp;the&nbsp;list&nbsp;of&nbsp;nodes<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;are&nbsp;affected&nbsp;directly&nbsp;by&nbsp;the&nbsp;data&nbsp;in&nbsp;a&nbsp;training&nbsp;sample.&nbsp;This&nbsp;list<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;followed&nbsp;by&nbsp;an&nbsp;indented&nbsp;display&nbsp;of&nbsp;the&nbsp;nodes&nbsp;that&nbsp;are&nbsp;affected<br>
&nbsp;&nbsp;&nbsp;&nbsp;indirectly&nbsp;by&nbsp;the&nbsp;training&nbsp;sample.&nbsp;&nbsp;A&nbsp;training&nbsp;sample&nbsp;affects&nbsp;a&nbsp;node<br>
&nbsp;&nbsp;&nbsp;&nbsp;indirectly&nbsp;if&nbsp;the&nbsp;node&nbsp;is&nbsp;a&nbsp;descendant&nbsp;of&nbsp;one&nbsp;of&nbsp;the&nbsp;nodes&nbsp;affected<br>
&nbsp;&nbsp;&nbsp;&nbsp;directly.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;latest&nbsp;addition&nbsp;to&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;is&nbsp;the&nbsp;script:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;get_indexes_associated_with_fields.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;to&nbsp;why&nbsp;you&nbsp;may&nbsp;find&nbsp;this&nbsp;script&nbsp;useful,&nbsp;note&nbsp;that&nbsp;large&nbsp;database<br>
&nbsp;&nbsp;&nbsp;&nbsp;files&nbsp;may&nbsp;have&nbsp;hundreds&nbsp;of&nbsp;fields&nbsp;and&nbsp;it&nbsp;is&nbsp;not&nbsp;always&nbsp;easy&nbsp;to&nbsp;figure<br>
&nbsp;&nbsp;&nbsp;&nbsp;out&nbsp;what&nbsp;numerical&nbsp;index&nbsp;is&nbsp;associated&nbsp;with&nbsp;a&nbsp;given&nbsp;field.&nbsp;&nbsp;At&nbsp;the&nbsp;same<br>
&nbsp;&nbsp;&nbsp;&nbsp;time,&nbsp;the&nbsp;constructor&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module&nbsp;requires&nbsp;that&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;field&nbsp;that&nbsp;holds&nbsp;the&nbsp;class&nbsp;label&nbsp;and&nbsp;the&nbsp;fields&nbsp;that&nbsp;contain&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;feature&nbsp;values&nbsp;be&nbsp;specified&nbsp;by&nbsp;their&nbsp;numerical&nbsp;zero-based&nbsp;indexes.&nbsp;&nbsp;If<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;have&nbsp;a&nbsp;very&nbsp;large&nbsp;database&nbsp;and&nbsp;you&nbsp;are&nbsp;faced&nbsp;with&nbsp;such&nbsp;a&nbsp;problem,<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;can&nbsp;run&nbsp;this&nbsp;script&nbsp;to&nbsp;see&nbsp;the&nbsp;zero-based&nbsp;numerical&nbsp;index&nbsp;values<br>
&nbsp;&nbsp;&nbsp;&nbsp;associated&nbsp;with&nbsp;the&nbsp;different&nbsp;columns&nbsp;of&nbsp;your&nbsp;CSV&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="16">THE&nbsp;ExamplesBagging&nbsp;DIRECTORY:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;ExamplesBagging&nbsp;subdirectory&nbsp;in&nbsp;the&nbsp;main&nbsp;installation&nbsp;directory<br>
&nbsp;&nbsp;&nbsp;&nbsp;contains&nbsp;the&nbsp;following&nbsp;scripts:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bagging_for_classifying_one_test_sample.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;bagging_for_bulk_classification.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;the&nbsp;names&nbsp;of&nbsp;the&nbsp;scripts&nbsp;imply,&nbsp;the&nbsp;first&nbsp;shows&nbsp;how&nbsp;to&nbsp;call&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;different&nbsp;methods&nbsp;of&nbsp;the&nbsp;DecisionTreeWithBagging&nbsp;class&nbsp;for&nbsp;classifying<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;single&nbsp;test&nbsp;sample.&nbsp;&nbsp;When&nbsp;you&nbsp;are&nbsp;classifying&nbsp;a&nbsp;single&nbsp;test&nbsp;sample,<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;can&nbsp;also&nbsp;see&nbsp;how&nbsp;each&nbsp;bag&nbsp;is&nbsp;classifying&nbsp;the&nbsp;test&nbsp;sample.&nbsp;&nbsp;You&nbsp;can,<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;example,&nbsp;display&nbsp;the&nbsp;training&nbsp;data&nbsp;used&nbsp;in&nbsp;each&nbsp;bag,&nbsp;the&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;tree&nbsp;constructed&nbsp;for&nbsp;each&nbsp;bag,&nbsp;etc.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;second&nbsp;script&nbsp;is&nbsp;for&nbsp;the&nbsp;case&nbsp;when&nbsp;you&nbsp;place&nbsp;all&nbsp;of&nbsp;the&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;samples&nbsp;in&nbsp;a&nbsp;single&nbsp;file.&nbsp;&nbsp;The&nbsp;demonstration&nbsp;script&nbsp;displays&nbsp;for&nbsp;each<br>
&nbsp;&nbsp;&nbsp;&nbsp;test&nbsp;sample&nbsp;a&nbsp;single&nbsp;aggregate&nbsp;classification&nbsp;decision&nbsp;that&nbsp;is&nbsp;obtained<br>
&nbsp;&nbsp;&nbsp;&nbsp;through&nbsp;majority&nbsp;voting&nbsp;by&nbsp;all&nbsp;the&nbsp;decision&nbsp;trees.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="23">THE&nbsp;ExamplesBoosting&nbsp;DIRECTORY:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;ExamplesBoosting&nbsp;subdirectory&nbsp;in&nbsp;the&nbsp;main&nbsp;installation&nbsp;directory<br>
&nbsp;&nbsp;&nbsp;&nbsp;contains&nbsp;the&nbsp;following&nbsp;three&nbsp;scripts:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosting_for_classifying_one_test_sample_1.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosting_for_classifying_one_test_sample_2.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;boosting_for_bulk_classification.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;As&nbsp;the&nbsp;names&nbsp;of&nbsp;the&nbsp;first&nbsp;two&nbsp;scripts&nbsp;imply,&nbsp;these&nbsp;show&nbsp;how&nbsp;to&nbsp;call&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;different&nbsp;methods&nbsp;of&nbsp;the&nbsp;BoostedDecisionTree&nbsp;class&nbsp;for&nbsp;classifying&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;single&nbsp;test&nbsp;sample.&nbsp;&nbsp;When&nbsp;you&nbsp;are&nbsp;classifying&nbsp;a&nbsp;single&nbsp;test&nbsp;sample,&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;can&nbsp;see&nbsp;how&nbsp;each&nbsp;stage&nbsp;of&nbsp;the&nbsp;cascade&nbsp;of&nbsp;decision&nbsp;trees&nbsp;is&nbsp;classifying<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;test&nbsp;sample.&nbsp;&nbsp;You&nbsp;can&nbsp;also&nbsp;view&nbsp;each&nbsp;decision&nbsp;tree&nbsp;separately&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;also&nbsp;see&nbsp;the&nbsp;trust&nbsp;factor&nbsp;associated&nbsp;with&nbsp;the&nbsp;tree.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;third&nbsp;script&nbsp;is&nbsp;for&nbsp;the&nbsp;case&nbsp;when&nbsp;you&nbsp;place&nbsp;all&nbsp;of&nbsp;the&nbsp;test&nbsp;samples<br>
&nbsp;&nbsp;&nbsp;&nbsp;in&nbsp;a&nbsp;single&nbsp;file.&nbsp;&nbsp;The&nbsp;demonstration&nbsp;script&nbsp;outputs&nbsp;for&nbsp;each&nbsp;test<br>
&nbsp;&nbsp;&nbsp;&nbsp;sample&nbsp;a&nbsp;single&nbsp;aggregate&nbsp;classification&nbsp;decision&nbsp;that&nbsp;is&nbsp;obtained<br>
&nbsp;&nbsp;&nbsp;&nbsp;through&nbsp;trust-factor&nbsp;weighted&nbsp;majority&nbsp;voting&nbsp;by&nbsp;all&nbsp;the&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;trees.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="27">THE&nbsp;ExamplesRandomizedTrees&nbsp;DIRECTORY:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;ExamplesRandomizedTrees&nbsp;subdirectory&nbsp;in&nbsp;the&nbsp;main&nbsp;installation<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;shows&nbsp;example&nbsp;scripts&nbsp;that&nbsp;you&nbsp;can&nbsp;use&nbsp;to&nbsp;become&nbsp;more<br>
&nbsp;&nbsp;&nbsp;&nbsp;familiar&nbsp;with&nbsp;the&nbsp;RandomizedTreesForBigData&nbsp;class&nbsp;for&nbsp;solving<br>
&nbsp;&nbsp;&nbsp;&nbsp;needle-in-a-haystack&nbsp;and&nbsp;big-data&nbsp;data&nbsp;classification&nbsp;problems.&nbsp;These<br>
&nbsp;&nbsp;&nbsp;&nbsp;scripts&nbsp;are:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;randomized_trees_for_classifying_one_test_sample_1.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;randomized_trees_for_classifying_one_test_sample_2.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;classify_database_records.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;first&nbsp;script&nbsp;shows&nbsp;the&nbsp;constructor&nbsp;options&nbsp;to&nbsp;use&nbsp;for&nbsp;solving&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;needle-in-a-haystack&nbsp;problem&nbsp;---&nbsp;that&nbsp;is,&nbsp;a&nbsp;problem&nbsp;in&nbsp;which&nbsp;a&nbsp;vast<br>
&nbsp;&nbsp;&nbsp;&nbsp;majority&nbsp;of&nbsp;the&nbsp;training&nbsp;data&nbsp;belongs&nbsp;to&nbsp;just&nbsp;one&nbsp;class.&nbsp;&nbsp;The&nbsp;second<br>
&nbsp;&nbsp;&nbsp;&nbsp;script&nbsp;shows&nbsp;the&nbsp;constructor&nbsp;options&nbsp;for&nbsp;using&nbsp;randomized&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;for&nbsp;the&nbsp;case&nbsp;when&nbsp;you&nbsp;have&nbsp;access&nbsp;to&nbsp;a&nbsp;very&nbsp;large&nbsp;database&nbsp;of<br>
&nbsp;&nbsp;&nbsp;&nbsp;training&nbsp;samples&nbsp;and&nbsp;you'd&nbsp;like&nbsp;to&nbsp;construct&nbsp;an&nbsp;ensemble&nbsp;of&nbsp;decision<br>
&nbsp;&nbsp;&nbsp;&nbsp;trees&nbsp;using&nbsp;training&nbsp;samples&nbsp;pulled&nbsp;randomly&nbsp;from&nbsp;the&nbsp;training<br>
&nbsp;&nbsp;&nbsp;&nbsp;database.&nbsp;&nbsp;The&nbsp;last&nbsp;script&nbsp;illustrates&nbsp;how&nbsp;you&nbsp;can&nbsp;evaluate&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;classification&nbsp;power&nbsp;of&nbsp;an&nbsp;ensemble&nbsp;of&nbsp;decision&nbsp;trees&nbsp;as&nbsp;constructed&nbsp;by<br>
&nbsp;&nbsp;&nbsp;&nbsp;RandomizedTreesForBigData&nbsp;by&nbsp;classifying&nbsp;a&nbsp;large&nbsp;number&nbsp;of&nbsp;test&nbsp;samples<br>
&nbsp;&nbsp;&nbsp;&nbsp;extracted&nbsp;randomly&nbsp;from&nbsp;the&nbsp;training&nbsp;database.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="29">THE&nbsp;ExamplesRegression&nbsp;DIRECTORY:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;ExamplesRegression&nbsp;subdirectory&nbsp;in&nbsp;the&nbsp;main&nbsp;installation&nbsp;directory<br>
&nbsp;&nbsp;&nbsp;&nbsp;shows&nbsp;example&nbsp;scripts&nbsp;that&nbsp;you&nbsp;can&nbsp;use&nbsp;to&nbsp;become&nbsp;familiar&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;regression&nbsp;trees&nbsp;and&nbsp;how&nbsp;they&nbsp;can&nbsp;be&nbsp;used&nbsp;for&nbsp;nonlinear&nbsp;regression.&nbsp;&nbsp;If<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;are&nbsp;new&nbsp;to&nbsp;the&nbsp;concept&nbsp;of&nbsp;regression&nbsp;trees,&nbsp;start&nbsp;by&nbsp;executing&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;following&nbsp;scripts&nbsp;without&nbsp;changing&nbsp;them&nbsp;and&nbsp;see&nbsp;what&nbsp;sort&nbsp;of&nbsp;output&nbsp;is<br>
&nbsp;&nbsp;&nbsp;&nbsp;produced&nbsp;by&nbsp;them:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;regression4.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;regression5.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;regression6.py<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;regression8.py<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;With&nbsp;all&nbsp;these&nbsp;scripts,&nbsp;you&nbsp;may&nbsp;wish&nbsp;to&nbsp;try&nbsp;all&nbsp;three&nbsp;values,&nbsp;0,&nbsp;1,&nbsp;or<br>
&nbsp;&nbsp;&nbsp;&nbsp;2,&nbsp;for&nbsp;the&nbsp;constructor&nbsp;parameter&nbsp;jacobian_choice&nbsp;to&nbsp;see&nbsp;the&nbsp;difference<br>
&nbsp;&nbsp;&nbsp;&nbsp;made&nbsp;by&nbsp;including&nbsp;gradient&nbsp;descent&nbsp;in&nbsp;the&nbsp;calculation&nbsp;of&nbsp;the&nbsp;regression<br>
&nbsp;&nbsp;&nbsp;&nbsp;coefficients.&nbsp;&nbsp;Recall,&nbsp;when&nbsp;jacobian_choice&nbsp;is&nbsp;0,&nbsp;which&nbsp;is&nbsp;the&nbsp;default,<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;get&nbsp;no&nbsp;gradient&nbsp;descent.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;'regression4.py'&nbsp;script&nbsp;involves&nbsp;only&nbsp;one&nbsp;predictor&nbsp;variable&nbsp;and<br>
&nbsp;&nbsp;&nbsp;&nbsp;one&nbsp;dependent&nbsp;variable.&nbsp;The&nbsp;training&nbsp;data&nbsp;for&nbsp;this&nbsp;exercise&nbsp;is&nbsp;drawn<br>
&nbsp;&nbsp;&nbsp;&nbsp;from&nbsp;the&nbsp;file&nbsp;'gendata4.csv'.&nbsp;&nbsp;This&nbsp;data&nbsp;file&nbsp;contains&nbsp;strongly<br>
&nbsp;&nbsp;&nbsp;&nbsp;nonlinear&nbsp;data.&nbsp;&nbsp;When&nbsp;you&nbsp;run&nbsp;the&nbsp;script&nbsp;regression4.py,&nbsp;you&nbsp;will&nbsp;see<br>
&nbsp;&nbsp;&nbsp;&nbsp;how&nbsp;much&nbsp;better&nbsp;the&nbsp;result&nbsp;from&nbsp;tree&nbsp;regression&nbsp;is&nbsp;compared&nbsp;to&nbsp;what&nbsp;you<br>
&nbsp;&nbsp;&nbsp;&nbsp;can&nbsp;get&nbsp;with&nbsp;linear&nbsp;regression.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;'regression5.py'&nbsp;script&nbsp;is&nbsp;essentially&nbsp;the&nbsp;same&nbsp;as&nbsp;the&nbsp;previous<br>
&nbsp;&nbsp;&nbsp;&nbsp;script&nbsp;except&nbsp;for&nbsp;the&nbsp;fact&nbsp;that&nbsp;the&nbsp;training&nbsp;datafile&nbsp;used&nbsp;in&nbsp;this<br>
&nbsp;&nbsp;&nbsp;&nbsp;case,&nbsp;'gendata5.csv',&nbsp;consists&nbsp;of&nbsp;three&nbsp;noisy&nbsp;segments,&nbsp;as&nbsp;opposed&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;just&nbsp;two&nbsp;in&nbsp;the&nbsp;previous&nbsp;case.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;script&nbsp;'regression6.py'&nbsp;deals&nbsp;with&nbsp;the&nbsp;case&nbsp;when&nbsp;we&nbsp;have&nbsp;two<br>
&nbsp;&nbsp;&nbsp;&nbsp;predictor&nbsp;variables&nbsp;and&nbsp;one&nbsp;dependent&nbsp;variable.&nbsp;&nbsp;You&nbsp;can&nbsp;think&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;as&nbsp;consisting&nbsp;of&nbsp;noisy&nbsp;height&nbsp;values&nbsp;over&nbsp;an&nbsp;(x1,x2)&nbsp;plane.&nbsp;&nbsp;The<br>
&nbsp;&nbsp;&nbsp;&nbsp;data&nbsp;used&nbsp;in&nbsp;this&nbsp;script&nbsp;is&nbsp;drawn&nbsp;from&nbsp;the&nbsp;csv&nbsp;file&nbsp;'gen3Ddata1.csv'<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Finally,&nbsp;the&nbsp;script&nbsp;'regression8.py'&nbsp;shows&nbsp;how&nbsp;you&nbsp;can&nbsp;carry&nbsp;out&nbsp;bulk<br>
&nbsp;&nbsp;&nbsp;&nbsp;prediction&nbsp;for&nbsp;all&nbsp;your&nbsp;test&nbsp;data&nbsp;records&nbsp;in&nbsp;a&nbsp;disk&nbsp;file.&nbsp;&nbsp;The&nbsp;script<br>
&nbsp;&nbsp;&nbsp;&nbsp;writes&nbsp;all&nbsp;the&nbsp;calculated&nbsp;predictions&nbsp;into&nbsp;another&nbsp;disk&nbsp;file&nbsp;whose&nbsp;name<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;derived&nbsp;from&nbsp;the&nbsp;name&nbsp;of&nbsp;the&nbsp;test&nbsp;data&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="17">INSTALLATION:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class&nbsp;was&nbsp;packaged&nbsp;using&nbsp;setuptools.&nbsp;&nbsp;For<br>
&nbsp;&nbsp;&nbsp;&nbsp;installation,&nbsp;execute&nbsp;the&nbsp;following&nbsp;command-line&nbsp;in&nbsp;the&nbsp;source<br>
&nbsp;&nbsp;&nbsp;&nbsp;directory&nbsp;(this&nbsp;is&nbsp;the&nbsp;directory&nbsp;that&nbsp;contains&nbsp;the&nbsp;setup.py&nbsp;file&nbsp;after<br>
&nbsp;&nbsp;&nbsp;&nbsp;you&nbsp;have&nbsp;downloaded&nbsp;and&nbsp;uncompressed&nbsp;the&nbsp;package):<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sudo&nbsp;python&nbsp;setup.py&nbsp;install<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;and/or<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sudo&nbsp;python3&nbsp;setup.py&nbsp;install<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;On&nbsp;Linux&nbsp;distributions,&nbsp;this&nbsp;will&nbsp;install&nbsp;the&nbsp;module&nbsp;file&nbsp;at&nbsp;a&nbsp;location<br>
&nbsp;&nbsp;&nbsp;&nbsp;that&nbsp;looks&nbsp;like<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;/usr/local/lib/python2.7/dist-packages/<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;for&nbsp;Python3&nbsp;at&nbsp;a&nbsp;location&nbsp;like<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;/usr/local/lib/python3.4/dist-packages/<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;do&nbsp;not&nbsp;have&nbsp;root&nbsp;access,&nbsp;you&nbsp;have&nbsp;the&nbsp;option&nbsp;of&nbsp;working&nbsp;directly<br>
&nbsp;&nbsp;&nbsp;&nbsp;off&nbsp;the&nbsp;directory&nbsp;in&nbsp;which&nbsp;you&nbsp;downloaded&nbsp;the&nbsp;software&nbsp;by&nbsp;simply<br>
&nbsp;&nbsp;&nbsp;&nbsp;placing&nbsp;the&nbsp;following&nbsp;statements&nbsp;at&nbsp;the&nbsp;top&nbsp;of&nbsp;your&nbsp;scripts&nbsp;that&nbsp;use<br>
&nbsp;&nbsp;&nbsp;&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;class:<br>
&nbsp;<br>
<div style="font-family:Courier; font-size:80%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;import&nbsp;sys<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sys.path.append(&nbsp;"pathname_to_DecisionTree_directory"&nbsp;)<br>
</div>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;To&nbsp;uninstall&nbsp;the&nbsp;module,&nbsp;simply&nbsp;delete&nbsp;the&nbsp;source&nbsp;directory,&nbsp;locate<br>
&nbsp;&nbsp;&nbsp;&nbsp;where&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a>&nbsp;module&nbsp;was&nbsp;installed&nbsp;with&nbsp;"locate&nbsp;<a href="#DecisionTree">DecisionTree</a>"<br>
&nbsp;&nbsp;&nbsp;&nbsp;and&nbsp;delete&nbsp;those&nbsp;files.&nbsp;&nbsp;As&nbsp;mentioned&nbsp;above,&nbsp;the&nbsp;full&nbsp;pathname&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;installed&nbsp;version&nbsp;is&nbsp;likely&nbsp;to&nbsp;look&nbsp;like<br>
&nbsp;&nbsp;&nbsp;&nbsp;/usr/local/lib/python2.7/dist-packages/<a href="#DecisionTree">DecisionTree</a>*<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;want&nbsp;to&nbsp;carry&nbsp;out&nbsp;a&nbsp;non-standard&nbsp;install&nbsp;of&nbsp;the&nbsp;<a href="#DecisionTree">DecisionTree</a><br>
&nbsp;&nbsp;&nbsp;&nbsp;module,&nbsp;look&nbsp;up&nbsp;the&nbsp;on-line&nbsp;information&nbsp;on&nbsp;Disutils&nbsp;by&nbsp;pointing&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;browser&nbsp;to<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="http://docs.python.org/dist/dist.html">http://docs.python.org/dist/dist.html</a><br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="18">BUGS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Please&nbsp;notify&nbsp;the&nbsp;author&nbsp;if&nbsp;you&nbsp;encounter&nbsp;any&nbsp;bugs.&nbsp;&nbsp;When&nbsp;sending<br>
&nbsp;&nbsp;&nbsp;&nbsp;email,&nbsp;please&nbsp;place&nbsp;the&nbsp;string&nbsp;'<a href="#DecisionTree">DecisionTree</a>'&nbsp;in&nbsp;the&nbsp;subject&nbsp;line.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="19">ACKNOWLEDGMENTS:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;importance&nbsp;of&nbsp;the&nbsp;'sentiment'&nbsp;feature&nbsp;in&nbsp;the&nbsp;"What&nbsp;Practical&nbsp;Problem<br>
&nbsp;&nbsp;&nbsp;&nbsp;is&nbsp;Solved&nbsp;by&nbsp;this&nbsp;Module"&nbsp;section&nbsp;was&nbsp;mentioned&nbsp;to&nbsp;the&nbsp;author&nbsp;by&nbsp;John<br>
&nbsp;&nbsp;&nbsp;&nbsp;Gorup.&nbsp;&nbsp;Thanks&nbsp;John.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Thanks&nbsp;go&nbsp;to&nbsp;Wenshuai&nbsp;Hou&nbsp;for&nbsp;discovering&nbsp;and&nbsp;reporting&nbsp;the&nbsp;bug&nbsp;that<br>
&nbsp;&nbsp;&nbsp;&nbsp;resulted&nbsp;in&nbsp;Version&nbsp;2.2.3.&nbsp;&nbsp;I&nbsp;should&nbsp;also&nbsp;thank&nbsp;Wenshuai&nbsp;for&nbsp;sending&nbsp;me<br>
&nbsp;&nbsp;&nbsp;&nbsp;a&nbsp;training&nbsp;data&nbsp;file&nbsp;with&nbsp;heavy-tailed&nbsp;values&nbsp;for&nbsp;one&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;features.&nbsp;This&nbsp;datafile&nbsp;became&nbsp;the&nbsp;reason&nbsp;for&nbsp;the&nbsp;modifications&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;code&nbsp;that&nbsp;are&nbsp;incorporated&nbsp;in&nbsp;Version&nbsp;2.2.4.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;I&nbsp;owe&nbsp;many&nbsp;thanks&nbsp;to&nbsp;Eugene&nbsp;Kolotinsky&nbsp;for&nbsp;the&nbsp;bug&nbsp;discovery&nbsp;whose&nbsp;fix<br>
&nbsp;&nbsp;&nbsp;&nbsp;was&nbsp;the&nbsp;primary&nbsp;reason&nbsp;for&nbsp;Version&nbsp;2.2.6.&nbsp;&nbsp;This&nbsp;bug&nbsp;related&nbsp;to&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;erroneous&nbsp;calculation&nbsp;of&nbsp;the&nbsp;probability&nbsp;of&nbsp;a&nbsp;feature&nbsp;acquiring&nbsp;a<br>
&nbsp;&nbsp;&nbsp;&nbsp;certain&nbsp;value&nbsp;if&nbsp;the&nbsp;training&nbsp;data&nbsp;contained&nbsp;zeros&nbsp;for&nbsp;the&nbsp;feature<br>
&nbsp;&nbsp;&nbsp;&nbsp;values.<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;bug&nbsp;whose&nbsp;fix&nbsp;led&nbsp;to&nbsp;Version&nbsp;3.2.2&nbsp;was&nbsp;reported&nbsp;by&nbsp;Erez&nbsp;Segal.&nbsp;He<br>
&nbsp;&nbsp;&nbsp;&nbsp;noticed&nbsp;that&nbsp;I&nbsp;had&nbsp;left&nbsp;out&nbsp;the&nbsp;keyword&nbsp;"raise"&nbsp;in&nbsp;the&nbsp;"else"&nbsp;clause<br>
&nbsp;&nbsp;&nbsp;&nbsp;when&nbsp;checking&nbsp;for&nbsp;the&nbsp;allowed&nbsp;suffixes&nbsp;in&nbsp;the&nbsp;name&nbsp;of&nbsp;the<br>
&nbsp;&nbsp;&nbsp;&nbsp;user-specified&nbsp;training&nbsp;data&nbsp;file.&nbsp;Thanks,&nbsp;Erez!<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;With&nbsp;regard&nbsp;to&nbsp;Version&nbsp;3.3.2,&nbsp;I&nbsp;wish&nbsp;to&nbsp;thank&nbsp;Alexandre&nbsp;Drouin-Picaro<br>
&nbsp;&nbsp;&nbsp;&nbsp;for&nbsp;bringing&nbsp;to&nbsp;my&nbsp;attention&nbsp;the&nbsp;problem&nbsp;created&nbsp;by&nbsp;the&nbsp;nested&nbsp;class<br>
&nbsp;&nbsp;&nbsp;&nbsp;<a href="#DTNode">DTNode</a>&nbsp;when&nbsp;using&nbsp;pickle&nbsp;to&nbsp;save&nbsp;a&nbsp;decision&nbsp;tree&nbsp;to&nbsp;a&nbsp;disk&nbsp;file.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="20">ABOUT&nbsp;THE&nbsp;AUTHOR:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;The&nbsp;author,&nbsp;Avinash&nbsp;Kak,&nbsp;recently&nbsp;finished&nbsp;a&nbsp;17-year&nbsp;long&nbsp;"Objects<br>
&nbsp;&nbsp;&nbsp;&nbsp;Trilogy&nbsp;Project"&nbsp;with&nbsp;the&nbsp;publication&nbsp;of&nbsp;the&nbsp;book&nbsp;"Designing&nbsp;with<br>
&nbsp;&nbsp;&nbsp;&nbsp;Objects"&nbsp;by&nbsp;John-Wiley.&nbsp;If&nbsp;interested,&nbsp;visit&nbsp;his&nbsp;web&nbsp;page&nbsp;at&nbsp;Purdue&nbsp;to<br>
&nbsp;&nbsp;&nbsp;&nbsp;find&nbsp;out&nbsp;what&nbsp;this&nbsp;project&nbsp;was&nbsp;all&nbsp;about.&nbsp;You&nbsp;might&nbsp;like&nbsp;"Designing<br>
&nbsp;&nbsp;&nbsp;&nbsp;with&nbsp;Objects"&nbsp;especially&nbsp;if&nbsp;you&nbsp;enjoyed&nbsp;reading&nbsp;Harry&nbsp;Potter&nbsp;as&nbsp;a&nbsp;kid<br>
&nbsp;&nbsp;&nbsp;&nbsp;(or&nbsp;even&nbsp;as&nbsp;an&nbsp;adult,&nbsp;for&nbsp;that&nbsp;matter).<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;For&nbsp;all&nbsp;issues&nbsp;related&nbsp;to&nbsp;this&nbsp;module,&nbsp;contact&nbsp;the&nbsp;author&nbsp;at<br>
&nbsp;&nbsp;&nbsp;&nbsp;kak@purdue.edu<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;If&nbsp;you&nbsp;send&nbsp;email,&nbsp;please&nbsp;place&nbsp;the&nbsp;string&nbsp;"<a href="#DecisionTree">DecisionTree</a>"&nbsp;in&nbsp;your<br>
&nbsp;&nbsp;&nbsp;&nbsp;subject&nbsp;line&nbsp;to&nbsp;get&nbsp;past&nbsp;the&nbsp;author's&nbsp;spam&nbsp;filter.<br>
&nbsp;<br>
&nbsp;<br>
<span style="color:red; font-size:150%"><strong><a id="21">COPYRIGHT:</a><br>
</strong></span>&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Python&nbsp;Software&nbsp;Foundation&nbsp;License<br>
&nbsp;<br>
&nbsp;&nbsp;&nbsp;&nbsp;Copyright&nbsp;2016&nbsp;Avinash&nbsp;Kak<br>
&nbsp;<br>
@endofdocs
<p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#aa55cc">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#ffffff" face="helvetica, arial"><big><strong>Imported Modules</strong></big></font></td></tr>
    
<tr><td bgcolor="#aa55cc"><tt>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</tt></td><td>&nbsp;</td>
<td width="100%"><table width="100%" summary="list"><tr><td width="25%" valign=top><a href="functools.html">functools</a><br>
<a href="itertools.html">itertools</a><br>
</td><td width="25%" valign=top><a href="math.html">math</a><br>
<a href="operator.html">operator</a><br>
</td><td width="25%" valign=top><a href="os.html">os</a><br>
<a href="re.html">re</a><br>
</td><td width="25%" valign=top><a href="string.html">string</a><br>
<a href="sys.html">sys</a><br>
</td></tr></table></td></tr></table><p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ee77aa">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#ffffff" face="helvetica, arial"><big><strong>Classes</strong></big></font></td></tr>
    
<tr><td bgcolor="#ee77aa"><tt>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</tt></td><td>&nbsp;</td>
<td width="100%"><dl>
<dt><font face="helvetica, arial"><a href="__builtin__.html#object">__builtin__.object</a>
</font></dt><dd>
<dl>
<dt><font face="helvetica, arial"><a href="DecisionTree.html#DTIntrospection">DTIntrospection</a>
</font></dt><dt><font face="helvetica, arial"><a href="DecisionTree.html#DTNode">DTNode</a>
</font></dt><dt><font face="helvetica, arial"><a href="DecisionTree.html#DecisionTree">DecisionTree</a>
</font></dt><dd>
<dl>
<dt><font face="helvetica, arial"><a href="DecisionTree.html#EvalTrainingData">EvalTrainingData</a>
</font></dt></dl>
</dd>
<dt><font face="helvetica, arial"><a href="DecisionTree.html#TrainingDataGeneratorNumeric">TrainingDataGeneratorNumeric</a>
</font></dt><dt><font face="helvetica, arial"><a href="DecisionTree.html#TrainingDataGeneratorSymbolic">TrainingDataGeneratorSymbolic</a>
</font></dt></dl>
</dd>
</dl>
 <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="DTIntrospection">class <strong>DTIntrospection</strong></a>(<a href="__builtin__.html#object">__builtin__.object</a>)</font></td></tr>
    
<tr bgcolor="#ffc8d8"><td rowspan=2><tt>&nbsp;&nbsp;&nbsp;</tt></td>
<td colspan=2><tt>Instances&nbsp;constructed&nbsp;from&nbsp;this&nbsp;class&nbsp;can&nbsp;provide&nbsp;explanations&nbsp;for&nbsp;the<br>
classification&nbsp;decisions&nbsp;at&nbsp;the&nbsp;nodes&nbsp;of&nbsp;a&nbsp;decision&nbsp;tree.&nbsp;&nbsp;<br>
&nbsp;<br>
When&nbsp;used&nbsp;in&nbsp;the&nbsp;interactive&nbsp;mode,&nbsp;the&nbsp;decision-tree&nbsp;introspection&nbsp;made&nbsp;possible<br>
by&nbsp;this&nbsp;class&nbsp;provides&nbsp;answers&nbsp;to&nbsp;the&nbsp;following&nbsp;three&nbsp;questions:&nbsp;(1)&nbsp;List&nbsp;of&nbsp;the<br>
training&nbsp;samples&nbsp;that&nbsp;fall&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;corresponds<br>
to&nbsp;a&nbsp;node&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree;&nbsp;(2)&nbsp;The&nbsp;probabilities&nbsp;associated&nbsp;with&nbsp;the&nbsp;last<br>
feature&nbsp;test&nbsp;that&nbsp;led&nbsp;to&nbsp;the&nbsp;node;&nbsp;and&nbsp;(3)&nbsp;The&nbsp;class&nbsp;probabilities&nbsp;predicated&nbsp;on<br>
just&nbsp;the&nbsp;last&nbsp;feature&nbsp;test&nbsp;on&nbsp;the&nbsp;path&nbsp;to&nbsp;that&nbsp;node.<br>
&nbsp;<br>
CAVEAT:&nbsp;It&nbsp;is&nbsp;possible&nbsp;for&nbsp;a&nbsp;node&nbsp;to&nbsp;exist&nbsp;even&nbsp;when&nbsp;there&nbsp;are&nbsp;no&nbsp;training<br>
samples&nbsp;in&nbsp;the&nbsp;portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;corresponds&nbsp;to&nbsp;the&nbsp;node.&nbsp;&nbsp;That<br>
is&nbsp;because&nbsp;a&nbsp;decision&nbsp;tree&nbsp;is&nbsp;based&nbsp;on&nbsp;the&nbsp;probability&nbsp;densities&nbsp;estimated&nbsp;from<br>
the&nbsp;training&nbsp;data.&nbsp;When&nbsp;training&nbsp;data&nbsp;is&nbsp;non-uniformly&nbsp;distributed,&nbsp;it&nbsp;is<br>
possible&nbsp;for&nbsp;the&nbsp;probability&nbsp;associated&nbsp;with&nbsp;a&nbsp;point&nbsp;in&nbsp;the&nbsp;feature&nbsp;space&nbsp;to&nbsp;be<br>
non-zero&nbsp;even&nbsp;when&nbsp;there&nbsp;are&nbsp;no&nbsp;training&nbsp;samples&nbsp;at&nbsp;or&nbsp;in&nbsp;the&nbsp;vicinity&nbsp;of&nbsp;that<br>
point.<br>
&nbsp;<br>
For&nbsp;a&nbsp;node&nbsp;to&nbsp;exist&nbsp;even&nbsp;where&nbsp;there&nbsp;are&nbsp;no&nbsp;training&nbsp;samples&nbsp;in&nbsp;the&nbsp;portion&nbsp;of<br>
the&nbsp;feature&nbsp;space&nbsp;that&nbsp;belongs&nbsp;to&nbsp;the&nbsp;node&nbsp;is&nbsp;an&nbsp;indication&nbsp;of&nbsp;the&nbsp;generalization<br>
ability&nbsp;of&nbsp;decision-tree&nbsp;based&nbsp;classification.<br>
&nbsp;<br>
When&nbsp;used&nbsp;in&nbsp;a&nbsp;non-interactive&nbsp;mode,&nbsp;an&nbsp;instance&nbsp;of&nbsp;this&nbsp;class&nbsp;can&nbsp;be&nbsp;used&nbsp;to<br>
create&nbsp;a&nbsp;tabular&nbsp;display&nbsp;that&nbsp;shows&nbsp;what&nbsp;training&nbsp;samples&nbsp;belong&nbsp;directly&nbsp;to&nbsp;the<br>
portion&nbsp;of&nbsp;the&nbsp;feature&nbsp;space&nbsp;that&nbsp;corresponds&nbsp;to&nbsp;each&nbsp;node&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree.<br>
An&nbsp;instance&nbsp;of&nbsp;this&nbsp;class&nbsp;can&nbsp;also&nbsp;construct&nbsp;a&nbsp;tabular&nbsp;display&nbsp;that&nbsp;shows&nbsp;how&nbsp;the<br>
influence&nbsp;of&nbsp;each&nbsp;training&nbsp;sample&nbsp;propagates&nbsp;in&nbsp;the&nbsp;decision&nbsp;tree.&nbsp;&nbsp;For&nbsp;each<br>
training&nbsp;sample,&nbsp;this&nbsp;display&nbsp;first&nbsp;shows&nbsp;the&nbsp;list&nbsp;of&nbsp;nodes&nbsp;that&nbsp;came&nbsp;into<br>
existence&nbsp;through&nbsp;feature&nbsp;test(s)&nbsp;that&nbsp;used&nbsp;the&nbsp;data&nbsp;provided&nbsp;by&nbsp;that&nbsp;sample.<br>
This&nbsp;list&nbsp;for&nbsp;each&nbsp;training&nbsp;sample&nbsp;is&nbsp;followed&nbsp;by&nbsp;a&nbsp;subtree&nbsp;of&nbsp;the&nbsp;nodes&nbsp;that&nbsp;owe<br>
their&nbsp;existence&nbsp;indirectly&nbsp;to&nbsp;the&nbsp;training&nbsp;sample.&nbsp;A&nbsp;training&nbsp;sample&nbsp;influences&nbsp;a<br>
node&nbsp;indirectly&nbsp;if&nbsp;the&nbsp;node&nbsp;is&nbsp;a&nbsp;descendant&nbsp;of&nbsp;another&nbsp;node&nbsp;that&nbsp;is&nbsp;affected<br>
directly&nbsp;by&nbsp;the&nbsp;training&nbsp;sample.<br>&nbsp;</tt></td></tr>
<tr><td>&nbsp;</td>
<td width="100%">Methods defined here:<br>
<dl><dt><a name="DTIntrospection-__init__"><strong>__init__</strong></a>(self, dt)</dt></dl>

<dl><dt><a name="DTIntrospection-display_training_samples_at_all_nodes_direct_influence_only"><strong>display_training_samples_at_all_nodes_direct_influence_only</strong></a>(self)</dt></dl>

<dl><dt><a name="DTIntrospection-display_training_samples_to_nodes_influence_propagation"><strong>display_training_samples_to_nodes_influence_propagation</strong></a>(self)</dt></dl>

<dl><dt><a name="DTIntrospection-explain_classification_at_one_node"><strong>explain_classification_at_one_node</strong></a>(self, node_id)</dt></dl>

<dl><dt><a name="DTIntrospection-explain_classifications_at_multiple_nodes_interactively"><strong>explain_classifications_at_multiple_nodes_interactively</strong></a>(self)</dt></dl>

<dl><dt><a name="DTIntrospection-extract_feature_op_val"><strong>extract_feature_op_val</strong></a>(self, feature_value_combo)</dt></dl>

<dl><dt><a name="DTIntrospection-get_samples_for_feature_value_combo"><strong>get_samples_for_feature_value_combo</strong></a>(self, feature_value_combo)</dt></dl>

<dl><dt><a name="DTIntrospection-initialize"><strong>initialize</strong></a>(self)</dt></dl>

<dl><dt><a name="DTIntrospection-recursive_descent"><strong>recursive_descent</strong></a>(self, node)</dt></dl>

<dl><dt><a name="DTIntrospection-recursive_descent_for_sample_to_node_influence"><strong>recursive_descent_for_sample_to_node_influence</strong></a>(self, node_serial_num, nodes_already_accounted_for, offset)</dt></dl>

<dl><dt><a name="DTIntrospection-recursive_descent_for_showing_samples_at_a_node"><strong>recursive_descent_for_showing_samples_at_a_node</strong></a>(self, node)</dt></dl>

<hr>
Data descriptors defined here:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table> <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="DTNode">class <strong>DTNode</strong></a>(<a href="__builtin__.html#object">__builtin__.object</a>)</font></td></tr>
    
<tr bgcolor="#ffc8d8"><td rowspan=2><tt>&nbsp;&nbsp;&nbsp;</tt></td>
<td colspan=2><tt>The&nbsp;nodes&nbsp;of&nbsp;a&nbsp;decision&nbsp;tree&nbsp;are&nbsp;instances&nbsp;of&nbsp;this&nbsp;class:<br>&nbsp;</tt></td></tr>
<tr><td>&nbsp;</td>
<td width="100%">Methods defined here:<br>
<dl><dt><a name="DTNode-__init__"><strong>__init__</strong></a>(self, feature, entropy, class_probabilities, branch_features_and_values_or_thresholds, dt, root_or_not<font color="#909090">=None</font>)</dt></dl>

<dl><dt><a name="DTNode-add_child_link"><strong>add_child_link</strong></a>(self, new_node)</dt></dl>

<dl><dt><a name="DTNode-delete_all_links"><strong>delete_all_links</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-display_decision_tree"><strong>display_decision_tree</strong></a>(self, offset)</dt></dl>

<dl><dt><a name="DTNode-display_node"><strong>display_node</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_branch_features_and_values_or_thresholds"><strong>get_branch_features_and_values_or_thresholds</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_children"><strong>get_children</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_class_names"><strong>get_class_names</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_class_probabilities"><strong>get_class_probabilities</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_feature"><strong>get_feature</strong></a>(self)</dt><dd><tt>Returns&nbsp;the&nbsp;feature&nbsp;test&nbsp;at&nbsp;the&nbsp;current&nbsp;node</tt></dd></dl>

<dl><dt><a name="DTNode-get_next_serial_num"><strong>get_next_serial_num</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_node_entropy"><strong>get_node_entropy</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-get_serial_num"><strong>get_serial_num</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-how_many_nodes"><strong>how_many_nodes</strong></a>(self)</dt></dl>

<dl><dt><a name="DTNode-set_class_names"><strong>set_class_names</strong></a>(self, class_names_list)</dt></dl>

<dl><dt><a name="DTNode-set_feature"><strong>set_feature</strong></a>(self, feature)</dt></dl>

<dl><dt><a name="DTNode-set_node_creation_entropy"><strong>set_node_creation_entropy</strong></a>(self, entropy)</dt></dl>

<hr>
Data descriptors defined here:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table> <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="DecisionTree">class <strong>DecisionTree</strong></a>(<a href="__builtin__.html#object">__builtin__.object</a>)</font></td></tr>
    
<tr><td bgcolor="#ffc8d8"><tt>&nbsp;&nbsp;&nbsp;</tt></td><td>&nbsp;</td>
<td width="100%">Methods defined here:<br>
<dl><dt><a name="DecisionTree-__init__"><strong>__init__</strong></a>(self, *args, **kwargs)</dt></dl>

<dl><dt><a name="DecisionTree-best_feature_calculator"><strong>best_feature_calculator</strong></a>(self, features_and_values_or_thresholds_on_branch, existing_node_entropy)</dt><dd><tt>This&nbsp;is&nbsp;the&nbsp;heart&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;constructor.&nbsp;&nbsp;Its&nbsp;main&nbsp;job&nbsp;is&nbsp;to&nbsp;figure<br>
out&nbsp;the&nbsp;best&nbsp;feature&nbsp;to&nbsp;use&nbsp;for&nbsp;partitioning&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;that<br>
correspond&nbsp;to&nbsp;the&nbsp;current&nbsp;node.&nbsp;&nbsp;The&nbsp;search&nbsp;for&nbsp;the&nbsp;best&nbsp;feature&nbsp;is&nbsp;carried<br>
out&nbsp;differently&nbsp;for&nbsp;symbolic&nbsp;features&nbsp;and&nbsp;for&nbsp;numeric&nbsp;features.&nbsp;&nbsp;For&nbsp;a<br>
symbolic&nbsp;feature,&nbsp;the&nbsp;method&nbsp;estimates&nbsp;the&nbsp;entropy&nbsp;for&nbsp;each&nbsp;value&nbsp;of&nbsp;the<br>
feature&nbsp;and&nbsp;then&nbsp;averages&nbsp;out&nbsp;these&nbsp;entropies&nbsp;as&nbsp;a&nbsp;measure&nbsp;of&nbsp;the<br>
discriminatory&nbsp;power&nbsp;of&nbsp;that&nbsp;features.&nbsp;&nbsp;For&nbsp;a&nbsp;numeric&nbsp;feature,&nbsp;on&nbsp;the&nbsp;other<br>
hand,&nbsp;it&nbsp;estimates&nbsp;the&nbsp;entropy&nbsp;reduction&nbsp;that&nbsp;can&nbsp;be&nbsp;achieved&nbsp;if&nbsp;we&nbsp;were&nbsp;to<br>
partition&nbsp;the&nbsp;set&nbsp;of&nbsp;training&nbsp;samples&nbsp;at&nbsp;each&nbsp;possible&nbsp;threshold&nbsp;for&nbsp;that<br>
numeric&nbsp;feature.&nbsp;&nbsp;For&nbsp;a&nbsp;numeric&nbsp;feature,&nbsp;all&nbsp;possible&nbsp;sampling&nbsp;points<br>
relevant&nbsp;to&nbsp;the&nbsp;node&nbsp;in&nbsp;question&nbsp;are&nbsp;considered&nbsp;as&nbsp;candidates&nbsp;for&nbsp;thresholds.</tt></dd></dl>

<dl><dt><a name="DecisionTree-calculate_class_priors"><strong>calculate_class_priors</strong></a>(self)</dt></dl>

<dl><dt><a name="DecisionTree-calculate_first_order_probabilities"><strong>calculate_first_order_probabilities</strong></a>(self)</dt></dl>

<dl><dt><a name="DecisionTree-class_entropy_for_a_given_sequence_of_features_and_values_or_thresholds"><strong>class_entropy_for_a_given_sequence_of_features_and_values_or_thresholds</strong></a>(self, array_of_features_and_values_or_thresholds)</dt></dl>

<dl><dt><a name="DecisionTree-class_entropy_for_greater_than_threshold_for_feature"><strong>class_entropy_for_greater_than_threshold_for_feature</strong></a>(self, array_of_features_and_values_or_thresholds, feature, threshold)</dt></dl>

<dl><dt><a name="DecisionTree-class_entropy_for_less_than_threshold_for_feature"><strong>class_entropy_for_less_than_threshold_for_feature</strong></a>(self, array_of_features_and_values_or_thresholds, feature, threshold)</dt></dl>

<dl><dt><a name="DecisionTree-class_entropy_on_priors"><strong>class_entropy_on_priors</strong></a>(self)</dt></dl>

<dl><dt><a name="DecisionTree-classify"><strong>classify</strong></a>(self, root_node, features_and_values)</dt><dd><tt>Classifies&nbsp;one&nbsp;test&nbsp;sample&nbsp;at&nbsp;a&nbsp;time&nbsp;using&nbsp;the&nbsp;decision&nbsp;tree&nbsp;constructed&nbsp;from<br>
your&nbsp;training&nbsp;file.&nbsp;&nbsp;The&nbsp;data&nbsp;record&nbsp;for&nbsp;the&nbsp;test&nbsp;sample&nbsp;must&nbsp;be&nbsp;supplied&nbsp;as<br>
shown&nbsp;in&nbsp;the&nbsp;scripts&nbsp;in&nbsp;the&nbsp;`Examples'&nbsp;subdirectory.&nbsp;&nbsp;See&nbsp;the&nbsp;scripts<br>
construct_dt_and_classify_one_sample_caseX.py&nbsp;in&nbsp;that&nbsp;subdirectory.</tt></dd></dl>

<dl><dt><a name="DecisionTree-classify_by_asking_questions"><strong>classify_by_asking_questions</strong></a>(self, root_node)</dt><dd><tt>If&nbsp;you&nbsp;want&nbsp;classification&nbsp;to&nbsp;be&nbsp;carried&nbsp;out&nbsp;by&nbsp;engaging&nbsp;a&nbsp;human&nbsp;user&nbsp;in&nbsp;a<br>
question-answer&nbsp;session,&nbsp;this&nbsp;is&nbsp;the&nbsp;method&nbsp;to&nbsp;use&nbsp;for&nbsp;that&nbsp;purpose.&nbsp;&nbsp;See&nbsp;the<br>
script&nbsp;classify_by_asking_questions.py&nbsp;in&nbsp;the&nbsp;Examples&nbsp;subdirectory&nbsp;for&nbsp;an<br>
illustration&nbsp;of&nbsp;how&nbsp;to&nbsp;do&nbsp;that.</tt></dd></dl>

<dl><dt><a name="DecisionTree-construct_decision_tree_classifier"><strong>construct_decision_tree_classifier</strong></a>(self)</dt><dd><tt>Construct&nbsp;the&nbsp;root&nbsp;node&nbsp;<a href="__builtin__.html#object">object</a>&nbsp;and&nbsp;set&nbsp;its&nbsp;entropy&nbsp;value&nbsp;as&nbsp;derived&nbsp;from&nbsp;the&nbsp;priors<br>
associated&nbsp;with&nbsp;the&nbsp;different&nbsp;classes.</tt></dd></dl>

<dl><dt><a name="DecisionTree-determine_data_condition"><strong>determine_data_condition</strong></a>(self)</dt><dd><tt>This&nbsp;method&nbsp;estimates&nbsp;the&nbsp;worst-case&nbsp;fan-out&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;taking&nbsp;into<br>
account&nbsp;the&nbsp;number&nbsp;of&nbsp;values&nbsp;(and&nbsp;therefore&nbsp;the&nbsp;number&nbsp;of&nbsp;branches&nbsp;emanating<br>
from&nbsp;a&nbsp;node)&nbsp;for&nbsp;the&nbsp;symbolic&nbsp;features.</tt></dd></dl>

<dl><dt><a name="DecisionTree-entropy_scanner_for_a_numeric_feature"><strong>entropy_scanner_for_a_numeric_feature</strong></a>(self, feature)</dt></dl>

<dl><dt><a name="DecisionTree-find_bounded_intervals_for_numeric_features"><strong>find_bounded_intervals_for_numeric_features</strong></a>(self, arr)</dt><dd><tt>Given&nbsp;a&nbsp;list&nbsp;of&nbsp;branch&nbsp;attributes&nbsp;for&nbsp;the&nbsp;numeric&nbsp;features&nbsp;of&nbsp;the&nbsp;form,&nbsp;say,<br>
['g2&lt;1','g2&lt;2','g2&lt;3','age&gt;34','age&gt;36','age&gt;37'],&nbsp;this&nbsp;method&nbsp;returns&nbsp;the<br>
smallest&nbsp;list&nbsp;that&nbsp;is&nbsp;relevant&nbsp;for&nbsp;the&nbsp;purpose&nbsp;of&nbsp;calculating&nbsp;the<br>
probabilities.&nbsp;&nbsp;To&nbsp;explain,&nbsp;the&nbsp;probability&nbsp;that&nbsp;the&nbsp;feature&nbsp;`g2'&nbsp;is&nbsp;less<br>
than&nbsp;1&nbsp;AND,&nbsp;at&nbsp;the&nbsp;same&nbsp;time,&nbsp;less&nbsp;than&nbsp;2,&nbsp;AND,&nbsp;at&nbsp;the&nbsp;same&nbsp;time,&nbsp;less&nbsp;than<br>
3,&nbsp;is&nbsp;the&nbsp;same&nbsp;as&nbsp;the&nbsp;probability&nbsp;that&nbsp;the&nbsp;feature&nbsp;less&nbsp;than&nbsp;1.&nbsp;Similarly,<br>
the&nbsp;probability&nbsp;that&nbsp;'age'&nbsp;is&nbsp;greater&nbsp;than&nbsp;34&nbsp;and&nbsp;also&nbsp;greater&nbsp;than&nbsp;37&nbsp;is&nbsp;the<br>
same&nbsp;as&nbsp;`age'&nbsp;being&nbsp;greater&nbsp;than&nbsp;37.</tt></dd></dl>

<dl><dt><a name="DecisionTree-get_class_names"><strong>get_class_names</strong></a>(self)</dt></dl>

<dl><dt><a name="DecisionTree-get_training_data"><strong>get_training_data</strong></a>(self)</dt></dl>

<dl><dt><a name="DecisionTree-interactive_recursive_descent_for_classification"><strong>interactive_recursive_descent_for_classification</strong></a>(self, node, answer, scratchpad_for_numerics)</dt></dl>

<dl><dt><a name="DecisionTree-prior_probability_for_class"><strong>prior_probability_for_class</strong></a>(self, class_name)</dt></dl>

<dl><dt><a name="DecisionTree-probability_of_a_class_given_sequence_of_features_and_values_or_thresholds"><strong>probability_of_a_class_given_sequence_of_features_and_values_or_thresholds</strong></a>(self, class_name, array_of_features_and_values_or_thresholds)</dt></dl>

<dl><dt><a name="DecisionTree-probability_of_a_sequence_of_features_and_values_or_thresholds"><strong>probability_of_a_sequence_of_features_and_values_or_thresholds</strong></a>(self, array_of_features_and_values_or_thresholds)</dt><dd><tt>This&nbsp;method&nbsp;requires&nbsp;that&nbsp;all&nbsp;truly&nbsp;numeric&nbsp;types&nbsp;only&nbsp;be&nbsp;expressed&nbsp;as&nbsp;'&lt;'&nbsp;or&nbsp;'&gt;'<br>
constructs&nbsp;in&nbsp;the&nbsp;array&nbsp;of&nbsp;branch&nbsp;features&nbsp;and&nbsp;thresholds</tt></dd></dl>

<dl><dt><a name="DecisionTree-probability_of_a_sequence_of_features_and_values_or_thresholds_given_class"><strong>probability_of_a_sequence_of_features_and_values_or_thresholds_given_class</strong></a>(self, array_of_features_and_values_or_thresholds, class_name)</dt><dd><tt>This&nbsp;method&nbsp;requires&nbsp;that&nbsp;all&nbsp;truly&nbsp;numeric&nbsp;types&nbsp;only&nbsp;be&nbsp;expressed&nbsp;as&nbsp;'&lt;'&nbsp;or&nbsp;'&gt;'<br>
constructs&nbsp;in&nbsp;the&nbsp;array&nbsp;of&nbsp;branch&nbsp;features&nbsp;and&nbsp;thresholds</tt></dd></dl>

<dl><dt><a name="DecisionTree-probability_of_feature_less_than_threshold"><strong>probability_of_feature_less_than_threshold</strong></a>(self, feature_name, threshold)</dt></dl>

<dl><dt><a name="DecisionTree-probability_of_feature_less_than_threshold_given_class"><strong>probability_of_feature_less_than_threshold_given_class</strong></a>(self, feature_name, threshold, class_name)</dt></dl>

<dl><dt><a name="DecisionTree-probability_of_feature_value"><strong>probability_of_feature_value</strong></a>(self, feature_name, value)</dt></dl>

<dl><dt><a name="DecisionTree-probability_of_feature_value_given_class"><strong>probability_of_feature_value_given_class</strong></a>(self, feature_name, feature_value, class_name)</dt></dl>

<dl><dt><a name="DecisionTree-recursive_descent"><strong>recursive_descent</strong></a>(self, node)</dt><dd><tt>After&nbsp;the&nbsp;root&nbsp;node&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;is&nbsp;constructed&nbsp;by&nbsp;the&nbsp;previous&nbsp;method,&nbsp;we<br>
find&nbsp;&nbsp;at&nbsp;that&nbsp;node&nbsp;the&nbsp;feature&nbsp;that&nbsp;yields&nbsp;the&nbsp;greatest&nbsp;reduction&nbsp;in&nbsp;class&nbsp;entropy<br>
from&nbsp;the&nbsp;entropy&nbsp;based&nbsp;on&nbsp;just&nbsp;the&nbsp;class&nbsp;priors.&nbsp;The&nbsp;logic&nbsp;for&nbsp;finding&nbsp;this<br>
feature&nbsp;is&nbsp;different&nbsp;for&nbsp;symbolic&nbsp;features&nbsp;and&nbsp;for&nbsp;numeric&nbsp;features&nbsp;(that&nbsp;logic&nbsp;is<br>
built&nbsp;into&nbsp;the&nbsp;best&nbsp;feature&nbsp;calculator).&nbsp;We&nbsp;then&nbsp;invoke&nbsp;this&nbsp;method&nbsp;recursively&nbsp;to&nbsp;<br>
create&nbsp;the&nbsp;rest&nbsp;of&nbsp;the&nbsp;tree.</tt></dd></dl>

<dl><dt><a name="DecisionTree-recursive_descent_for_classification"><strong>recursive_descent_for_classification</strong></a>(self, node, feature_and_values, answer)</dt></dl>

<dl><dt><a name="DecisionTree-show_training_data"><strong>show_training_data</strong></a>(self)</dt></dl>

<hr>
Data descriptors defined here:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table> <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="EvalTrainingData">class <strong>EvalTrainingData</strong></a>(<a href="DecisionTree.html#DecisionTree">DecisionTree</a>)</font></td></tr>
    
<tr><td bgcolor="#ffc8d8"><tt>&nbsp;&nbsp;&nbsp;</tt></td><td>&nbsp;</td>
<td width="100%"><dl><dt>Method resolution order:</dt>
<dd><a href="DecisionTree.html#EvalTrainingData">EvalTrainingData</a></dd>
<dd><a href="DecisionTree.html#DecisionTree">DecisionTree</a></dd>
<dd><a href="__builtin__.html#object">__builtin__.object</a></dd>
</dl>
<hr>
Methods defined here:<br>
<dl><dt><a name="EvalTrainingData-__init__"><strong>__init__</strong></a>(self, *args, **kwargs)</dt></dl>

<dl><dt><a name="EvalTrainingData-evaluate_training_data"><strong>evaluate_training_data</strong></a>(self)</dt></dl>

<hr>
Methods inherited from <a href="DecisionTree.html#DecisionTree">DecisionTree</a>:<br>
<dl><dt><a name="EvalTrainingData-best_feature_calculator"><strong>best_feature_calculator</strong></a>(self, features_and_values_or_thresholds_on_branch, existing_node_entropy)</dt><dd><tt>This&nbsp;is&nbsp;the&nbsp;heart&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;constructor.&nbsp;&nbsp;Its&nbsp;main&nbsp;job&nbsp;is&nbsp;to&nbsp;figure<br>
out&nbsp;the&nbsp;best&nbsp;feature&nbsp;to&nbsp;use&nbsp;for&nbsp;partitioning&nbsp;the&nbsp;training&nbsp;data&nbsp;samples&nbsp;that<br>
correspond&nbsp;to&nbsp;the&nbsp;current&nbsp;node.&nbsp;&nbsp;The&nbsp;search&nbsp;for&nbsp;the&nbsp;best&nbsp;feature&nbsp;is&nbsp;carried<br>
out&nbsp;differently&nbsp;for&nbsp;symbolic&nbsp;features&nbsp;and&nbsp;for&nbsp;numeric&nbsp;features.&nbsp;&nbsp;For&nbsp;a<br>
symbolic&nbsp;feature,&nbsp;the&nbsp;method&nbsp;estimates&nbsp;the&nbsp;entropy&nbsp;for&nbsp;each&nbsp;value&nbsp;of&nbsp;the<br>
feature&nbsp;and&nbsp;then&nbsp;averages&nbsp;out&nbsp;these&nbsp;entropies&nbsp;as&nbsp;a&nbsp;measure&nbsp;of&nbsp;the<br>
discriminatory&nbsp;power&nbsp;of&nbsp;that&nbsp;features.&nbsp;&nbsp;For&nbsp;a&nbsp;numeric&nbsp;feature,&nbsp;on&nbsp;the&nbsp;other<br>
hand,&nbsp;it&nbsp;estimates&nbsp;the&nbsp;entropy&nbsp;reduction&nbsp;that&nbsp;can&nbsp;be&nbsp;achieved&nbsp;if&nbsp;we&nbsp;were&nbsp;to<br>
partition&nbsp;the&nbsp;set&nbsp;of&nbsp;training&nbsp;samples&nbsp;at&nbsp;each&nbsp;possible&nbsp;threshold&nbsp;for&nbsp;that<br>
numeric&nbsp;feature.&nbsp;&nbsp;For&nbsp;a&nbsp;numeric&nbsp;feature,&nbsp;all&nbsp;possible&nbsp;sampling&nbsp;points<br>
relevant&nbsp;to&nbsp;the&nbsp;node&nbsp;in&nbsp;question&nbsp;are&nbsp;considered&nbsp;as&nbsp;candidates&nbsp;for&nbsp;thresholds.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-calculate_class_priors"><strong>calculate_class_priors</strong></a>(self)</dt></dl>

<dl><dt><a name="EvalTrainingData-calculate_first_order_probabilities"><strong>calculate_first_order_probabilities</strong></a>(self)</dt></dl>

<dl><dt><a name="EvalTrainingData-class_entropy_for_a_given_sequence_of_features_and_values_or_thresholds"><strong>class_entropy_for_a_given_sequence_of_features_and_values_or_thresholds</strong></a>(self, array_of_features_and_values_or_thresholds)</dt></dl>

<dl><dt><a name="EvalTrainingData-class_entropy_for_greater_than_threshold_for_feature"><strong>class_entropy_for_greater_than_threshold_for_feature</strong></a>(self, array_of_features_and_values_or_thresholds, feature, threshold)</dt></dl>

<dl><dt><a name="EvalTrainingData-class_entropy_for_less_than_threshold_for_feature"><strong>class_entropy_for_less_than_threshold_for_feature</strong></a>(self, array_of_features_and_values_or_thresholds, feature, threshold)</dt></dl>

<dl><dt><a name="EvalTrainingData-class_entropy_on_priors"><strong>class_entropy_on_priors</strong></a>(self)</dt></dl>

<dl><dt><a name="EvalTrainingData-classify"><strong>classify</strong></a>(self, root_node, features_and_values)</dt><dd><tt>Classifies&nbsp;one&nbsp;test&nbsp;sample&nbsp;at&nbsp;a&nbsp;time&nbsp;using&nbsp;the&nbsp;decision&nbsp;tree&nbsp;constructed&nbsp;from<br>
your&nbsp;training&nbsp;file.&nbsp;&nbsp;The&nbsp;data&nbsp;record&nbsp;for&nbsp;the&nbsp;test&nbsp;sample&nbsp;must&nbsp;be&nbsp;supplied&nbsp;as<br>
shown&nbsp;in&nbsp;the&nbsp;scripts&nbsp;in&nbsp;the&nbsp;`Examples'&nbsp;subdirectory.&nbsp;&nbsp;See&nbsp;the&nbsp;scripts<br>
construct_dt_and_classify_one_sample_caseX.py&nbsp;in&nbsp;that&nbsp;subdirectory.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-classify_by_asking_questions"><strong>classify_by_asking_questions</strong></a>(self, root_node)</dt><dd><tt>If&nbsp;you&nbsp;want&nbsp;classification&nbsp;to&nbsp;be&nbsp;carried&nbsp;out&nbsp;by&nbsp;engaging&nbsp;a&nbsp;human&nbsp;user&nbsp;in&nbsp;a<br>
question-answer&nbsp;session,&nbsp;this&nbsp;is&nbsp;the&nbsp;method&nbsp;to&nbsp;use&nbsp;for&nbsp;that&nbsp;purpose.&nbsp;&nbsp;See&nbsp;the<br>
script&nbsp;classify_by_asking_questions.py&nbsp;in&nbsp;the&nbsp;Examples&nbsp;subdirectory&nbsp;for&nbsp;an<br>
illustration&nbsp;of&nbsp;how&nbsp;to&nbsp;do&nbsp;that.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-construct_decision_tree_classifier"><strong>construct_decision_tree_classifier</strong></a>(self)</dt><dd><tt>Construct&nbsp;the&nbsp;root&nbsp;node&nbsp;<a href="__builtin__.html#object">object</a>&nbsp;and&nbsp;set&nbsp;its&nbsp;entropy&nbsp;value&nbsp;as&nbsp;derived&nbsp;from&nbsp;the&nbsp;priors<br>
associated&nbsp;with&nbsp;the&nbsp;different&nbsp;classes.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-determine_data_condition"><strong>determine_data_condition</strong></a>(self)</dt><dd><tt>This&nbsp;method&nbsp;estimates&nbsp;the&nbsp;worst-case&nbsp;fan-out&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;taking&nbsp;into<br>
account&nbsp;the&nbsp;number&nbsp;of&nbsp;values&nbsp;(and&nbsp;therefore&nbsp;the&nbsp;number&nbsp;of&nbsp;branches&nbsp;emanating<br>
from&nbsp;a&nbsp;node)&nbsp;for&nbsp;the&nbsp;symbolic&nbsp;features.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-entropy_scanner_for_a_numeric_feature"><strong>entropy_scanner_for_a_numeric_feature</strong></a>(self, feature)</dt></dl>

<dl><dt><a name="EvalTrainingData-find_bounded_intervals_for_numeric_features"><strong>find_bounded_intervals_for_numeric_features</strong></a>(self, arr)</dt><dd><tt>Given&nbsp;a&nbsp;list&nbsp;of&nbsp;branch&nbsp;attributes&nbsp;for&nbsp;the&nbsp;numeric&nbsp;features&nbsp;of&nbsp;the&nbsp;form,&nbsp;say,<br>
['g2&lt;1','g2&lt;2','g2&lt;3','age&gt;34','age&gt;36','age&gt;37'],&nbsp;this&nbsp;method&nbsp;returns&nbsp;the<br>
smallest&nbsp;list&nbsp;that&nbsp;is&nbsp;relevant&nbsp;for&nbsp;the&nbsp;purpose&nbsp;of&nbsp;calculating&nbsp;the<br>
probabilities.&nbsp;&nbsp;To&nbsp;explain,&nbsp;the&nbsp;probability&nbsp;that&nbsp;the&nbsp;feature&nbsp;`g2'&nbsp;is&nbsp;less<br>
than&nbsp;1&nbsp;AND,&nbsp;at&nbsp;the&nbsp;same&nbsp;time,&nbsp;less&nbsp;than&nbsp;2,&nbsp;AND,&nbsp;at&nbsp;the&nbsp;same&nbsp;time,&nbsp;less&nbsp;than<br>
3,&nbsp;is&nbsp;the&nbsp;same&nbsp;as&nbsp;the&nbsp;probability&nbsp;that&nbsp;the&nbsp;feature&nbsp;less&nbsp;than&nbsp;1.&nbsp;Similarly,<br>
the&nbsp;probability&nbsp;that&nbsp;'age'&nbsp;is&nbsp;greater&nbsp;than&nbsp;34&nbsp;and&nbsp;also&nbsp;greater&nbsp;than&nbsp;37&nbsp;is&nbsp;the<br>
same&nbsp;as&nbsp;`age'&nbsp;being&nbsp;greater&nbsp;than&nbsp;37.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-get_class_names"><strong>get_class_names</strong></a>(self)</dt></dl>

<dl><dt><a name="EvalTrainingData-get_training_data"><strong>get_training_data</strong></a>(self)</dt></dl>

<dl><dt><a name="EvalTrainingData-interactive_recursive_descent_for_classification"><strong>interactive_recursive_descent_for_classification</strong></a>(self, node, answer, scratchpad_for_numerics)</dt></dl>

<dl><dt><a name="EvalTrainingData-prior_probability_for_class"><strong>prior_probability_for_class</strong></a>(self, class_name)</dt></dl>

<dl><dt><a name="EvalTrainingData-probability_of_a_class_given_sequence_of_features_and_values_or_thresholds"><strong>probability_of_a_class_given_sequence_of_features_and_values_or_thresholds</strong></a>(self, class_name, array_of_features_and_values_or_thresholds)</dt></dl>

<dl><dt><a name="EvalTrainingData-probability_of_a_sequence_of_features_and_values_or_thresholds"><strong>probability_of_a_sequence_of_features_and_values_or_thresholds</strong></a>(self, array_of_features_and_values_or_thresholds)</dt><dd><tt>This&nbsp;method&nbsp;requires&nbsp;that&nbsp;all&nbsp;truly&nbsp;numeric&nbsp;types&nbsp;only&nbsp;be&nbsp;expressed&nbsp;as&nbsp;'&lt;'&nbsp;or&nbsp;'&gt;'<br>
constructs&nbsp;in&nbsp;the&nbsp;array&nbsp;of&nbsp;branch&nbsp;features&nbsp;and&nbsp;thresholds</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-probability_of_a_sequence_of_features_and_values_or_thresholds_given_class"><strong>probability_of_a_sequence_of_features_and_values_or_thresholds_given_class</strong></a>(self, array_of_features_and_values_or_thresholds, class_name)</dt><dd><tt>This&nbsp;method&nbsp;requires&nbsp;that&nbsp;all&nbsp;truly&nbsp;numeric&nbsp;types&nbsp;only&nbsp;be&nbsp;expressed&nbsp;as&nbsp;'&lt;'&nbsp;or&nbsp;'&gt;'<br>
constructs&nbsp;in&nbsp;the&nbsp;array&nbsp;of&nbsp;branch&nbsp;features&nbsp;and&nbsp;thresholds</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-probability_of_feature_less_than_threshold"><strong>probability_of_feature_less_than_threshold</strong></a>(self, feature_name, threshold)</dt></dl>

<dl><dt><a name="EvalTrainingData-probability_of_feature_less_than_threshold_given_class"><strong>probability_of_feature_less_than_threshold_given_class</strong></a>(self, feature_name, threshold, class_name)</dt></dl>

<dl><dt><a name="EvalTrainingData-probability_of_feature_value"><strong>probability_of_feature_value</strong></a>(self, feature_name, value)</dt></dl>

<dl><dt><a name="EvalTrainingData-probability_of_feature_value_given_class"><strong>probability_of_feature_value_given_class</strong></a>(self, feature_name, feature_value, class_name)</dt></dl>

<dl><dt><a name="EvalTrainingData-recursive_descent"><strong>recursive_descent</strong></a>(self, node)</dt><dd><tt>After&nbsp;the&nbsp;root&nbsp;node&nbsp;of&nbsp;the&nbsp;decision&nbsp;tree&nbsp;is&nbsp;constructed&nbsp;by&nbsp;the&nbsp;previous&nbsp;method,&nbsp;we<br>
find&nbsp;&nbsp;at&nbsp;that&nbsp;node&nbsp;the&nbsp;feature&nbsp;that&nbsp;yields&nbsp;the&nbsp;greatest&nbsp;reduction&nbsp;in&nbsp;class&nbsp;entropy<br>
from&nbsp;the&nbsp;entropy&nbsp;based&nbsp;on&nbsp;just&nbsp;the&nbsp;class&nbsp;priors.&nbsp;The&nbsp;logic&nbsp;for&nbsp;finding&nbsp;this<br>
feature&nbsp;is&nbsp;different&nbsp;for&nbsp;symbolic&nbsp;features&nbsp;and&nbsp;for&nbsp;numeric&nbsp;features&nbsp;(that&nbsp;logic&nbsp;is<br>
built&nbsp;into&nbsp;the&nbsp;best&nbsp;feature&nbsp;calculator).&nbsp;We&nbsp;then&nbsp;invoke&nbsp;this&nbsp;method&nbsp;recursively&nbsp;to&nbsp;<br>
create&nbsp;the&nbsp;rest&nbsp;of&nbsp;the&nbsp;tree.</tt></dd></dl>

<dl><dt><a name="EvalTrainingData-recursive_descent_for_classification"><strong>recursive_descent_for_classification</strong></a>(self, node, feature_and_values, answer)</dt></dl>

<dl><dt><a name="EvalTrainingData-show_training_data"><strong>show_training_data</strong></a>(self)</dt></dl>

<hr>
Data descriptors inherited from <a href="DecisionTree.html#DecisionTree">DecisionTree</a>:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table> <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="TrainingDataGeneratorNumeric">class <strong>TrainingDataGeneratorNumeric</strong></a>(<a href="__builtin__.html#object">__builtin__.object</a>)</font></td></tr>
    
<tr bgcolor="#ffc8d8"><td rowspan=2><tt>&nbsp;&nbsp;&nbsp;</tt></td>
<td colspan=2><tt>See&nbsp;the&nbsp;example&nbsp;script&nbsp;generate_training_data_numeric.py&nbsp;on&nbsp;how&nbsp;to&nbsp;use&nbsp;this&nbsp;class<br>
for&nbsp;generating&nbsp;your&nbsp;numeric&nbsp;training&nbsp;data.&nbsp;&nbsp;The&nbsp;training&nbsp;data&nbsp;is&nbsp;generator&nbsp;in<br>
accordance&nbsp;with&nbsp;the&nbsp;specifications&nbsp;you&nbsp;place&nbsp;in&nbsp;a&nbsp;parameter&nbsp;file.<br>&nbsp;</tt></td></tr>
<tr><td>&nbsp;</td>
<td width="100%">Methods defined here:<br>
<dl><dt><a name="TrainingDataGeneratorNumeric-__init__"><strong>__init__</strong></a>(self, *args, **kwargs)</dt></dl>

<dl><dt><a name="TrainingDataGeneratorNumeric-gen_numeric_training_data_and_write_to_csv"><strong>gen_numeric_training_data_and_write_to_csv</strong></a>(self)</dt><dd><tt>After&nbsp;the&nbsp;parameter&nbsp;file&nbsp;is&nbsp;parsed&nbsp;by&nbsp;the&nbsp;previous&nbsp;method,&nbsp;this&nbsp;method&nbsp;calls<br>
on&nbsp;`numpy.random.multivariate_normal()'&nbsp;to&nbsp;generate&nbsp;the&nbsp;training&nbsp;data<br>
samples.&nbsp;Your&nbsp;training&nbsp;data&nbsp;can&nbsp;be&nbsp;of&nbsp;any&nbsp;number&nbsp;of&nbsp;of&nbsp;dimensions,&nbsp;can&nbsp;have<br>
any&nbsp;mean,&nbsp;and&nbsp;any&nbsp;covariance.</tt></dd></dl>

<dl><dt><a name="TrainingDataGeneratorNumeric-read_parameter_file_numeric"><strong>read_parameter_file_numeric</strong></a>(self)</dt><dd><tt>The&nbsp;training&nbsp;data&nbsp;generated&nbsp;by&nbsp;an&nbsp;instance&nbsp;of&nbsp;the&nbsp;class<br>
<a href="#TrainingDataGeneratorNumeric">TrainingDataGeneratorNumeric</a>&nbsp;is&nbsp;based&nbsp;on&nbsp;the&nbsp;specs&nbsp;you&nbsp;place&nbsp;in&nbsp;a&nbsp;parameter<br>
that&nbsp;you&nbsp;supply&nbsp;to&nbsp;the&nbsp;class&nbsp;constructor&nbsp;through&nbsp;a&nbsp;constructor&nbsp;variable<br>
called&nbsp;`parameter_file.&nbsp;&nbsp;This&nbsp;method&nbsp;is&nbsp;for&nbsp;parsing&nbsp;the&nbsp;parameter&nbsp;file&nbsp;in<br>
order&nbsp;to&nbsp;order&nbsp;to&nbsp;determine&nbsp;the&nbsp;names&nbsp;to&nbsp;be&nbsp;used&nbsp;for&nbsp;the&nbsp;different&nbsp;data<br>
classes,&nbsp;their&nbsp;means,&nbsp;and&nbsp;their&nbsp;variances.</tt></dd></dl>

<hr>
Data descriptors defined here:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table> <p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#ffc8d8">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#000000" face="helvetica, arial"><a name="TrainingDataGeneratorSymbolic">class <strong>TrainingDataGeneratorSymbolic</strong></a>(<a href="__builtin__.html#object">__builtin__.object</a>)</font></td></tr>
    
<tr bgcolor="#ffc8d8"><td rowspan=2><tt>&nbsp;&nbsp;&nbsp;</tt></td>
<td colspan=2><tt>See&nbsp;the&nbsp;sample&nbsp;script&nbsp;generate_training_data_symbolic.py&nbsp;for&nbsp;how&nbsp;to&nbsp;use&nbsp;this<br>
class&nbsp;for&nbsp;generating&nbsp;symbolic&nbsp;training&nbsp;data.&nbsp;&nbsp;The&nbsp;data&nbsp;is&nbsp;generated&nbsp;according&nbsp;to<br>
the&nbsp;specifications&nbsp;you&nbsp;place&nbsp;in&nbsp;a&nbsp;parameter&nbsp;file.<br>&nbsp;</tt></td></tr>
<tr><td>&nbsp;</td>
<td width="100%">Methods defined here:<br>
<dl><dt><a name="TrainingDataGeneratorSymbolic-__init__"><strong>__init__</strong></a>(self, *args, **kwargs)</dt></dl>

<dl><dt><a name="TrainingDataGeneratorSymbolic-gen_symbolic_training_data"><strong>gen_symbolic_training_data</strong></a>(self)</dt><dd><tt>This&nbsp;method&nbsp;generates&nbsp;training&nbsp;data&nbsp;according&nbsp;to&nbsp;the&nbsp;specifications<br>
placed&nbsp;in&nbsp;a&nbsp;parameter&nbsp;file&nbsp;that&nbsp;is&nbsp;read&nbsp;by&nbsp;the&nbsp;previous&nbsp;method.</tt></dd></dl>

<dl><dt><a name="TrainingDataGeneratorSymbolic-read_parameter_file_symbolic"><strong>read_parameter_file_symbolic</strong></a>(self)</dt><dd><tt>Read&nbsp;a&nbsp;parameter&nbsp;file&nbsp;for&nbsp;generating&nbsp;symbolic&nbsp;training&nbsp;data.&nbsp;See&nbsp;the&nbsp;script<br>
generate_training_data_symbolic.py&nbsp;in&nbsp;the&nbsp;Examples&nbsp;directory&nbsp;for&nbsp;how&nbsp;to&nbsp;pass<br>
the&nbsp;name&nbsp;of&nbsp;the&nbsp;parameter&nbsp;file&nbsp;to&nbsp;the&nbsp;constructor&nbsp;of&nbsp;the<br>
<a href="#TrainingDataGeneratorSymbolic">TrainingDataGeneratorSymbolic</a>&nbsp;class.</tt></dd></dl>

<dl><dt><a name="TrainingDataGeneratorSymbolic-write_training_data_to_file"><strong>write_training_data_to_file</strong></a>(self)</dt></dl>

<hr>
Data descriptors defined here:<br>
<dl><dt><strong>__dict__</strong></dt>
<dd><tt>dictionary&nbsp;for&nbsp;instance&nbsp;variables&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
<dl><dt><strong>__weakref__</strong></dt>
<dd><tt>list&nbsp;of&nbsp;weak&nbsp;references&nbsp;to&nbsp;the&nbsp;object&nbsp;(if&nbsp;defined)</tt></dd>
</dl>
</td></tr></table></td></tr></table><p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#eeaa77">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#ffffff" face="helvetica, arial"><big><strong>Functions</strong></big></font></td></tr>
    
<tr><td bgcolor="#eeaa77"><tt>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</tt></td><td>&nbsp;</td>
<td width="100%"><dl><dt><a name="-cleanup_csv"><strong>cleanup_csv</strong></a>(line)</dt></dl>
 <dl><dt><a name="-closest_sampling_point"><strong>closest_sampling_point</strong></a>(value, arr)</dt></dl>
 <dl><dt><a name="-convert"><strong>convert</strong></a>(value)</dt></dl>
 <dl><dt><a name="-deep_copy_array"><strong>deep_copy_array</strong></a>(array_in)</dt><dd><tt>Meant&nbsp;only&nbsp;for&nbsp;an&nbsp;array&nbsp;of&nbsp;scalars&nbsp;(no&nbsp;nesting):</tt></dd></dl>
 <dl><dt><a name="-minimum"><strong>minimum</strong></a>(arr)</dt><dd><tt>Returns&nbsp;simultaneously&nbsp;the&nbsp;minimum&nbsp;value&nbsp;and&nbsp;its&nbsp;positional&nbsp;index&nbsp;in&nbsp;an<br>
array.&nbsp;[Could&nbsp;also&nbsp;have&nbsp;used&nbsp;min()&nbsp;and&nbsp;index()&nbsp;defined&nbsp;for&nbsp;Python's<br>
sequence&nbsp;types.]</tt></dd></dl>
 <dl><dt><a name="-sample_index"><strong>sample_index</strong></a>(sample_name)</dt><dd><tt>When&nbsp;the&nbsp;training&nbsp;data&nbsp;is&nbsp;read&nbsp;from&nbsp;a&nbsp;CSV&nbsp;file,&nbsp;we&nbsp;assume&nbsp;that&nbsp;the&nbsp;first&nbsp;column<br>
of&nbsp;each&nbsp;data&nbsp;record&nbsp;contains&nbsp;a&nbsp;unique&nbsp;integer&nbsp;identifier&nbsp;for&nbsp;the&nbsp;record&nbsp;in&nbsp;that<br>
row.&nbsp;This&nbsp;training&nbsp;data&nbsp;is&nbsp;stored&nbsp;in&nbsp;a&nbsp;dictionary&nbsp;whose&nbsp;keys&nbsp;are&nbsp;the&nbsp;prefix<br>
'sample_'&nbsp;followed&nbsp;by&nbsp;the&nbsp;identifying&nbsp;integers.&nbsp;The&nbsp;purpose&nbsp;of&nbsp;this&nbsp;function&nbsp;is&nbsp;to<br>
return&nbsp;the&nbsp;identifying&nbsp;integer&nbsp;associated&nbsp;with&nbsp;a&nbsp;data&nbsp;record.</tt></dd></dl>
</td></tr></table><p>
<table width="100%" cellspacing=0 cellpadding=2 border=0 summary="section">
<tr bgcolor="#55aa55">
<td colspan=3 valign=bottom>&nbsp;<br>
<font color="#ffffff" face="helvetica, arial"><big><strong>Data</strong></big></font></td></tr>
    
<tr><td style="bgcolor:#55aa55;"></td><td>&nbsp;</td>
<td style="width:100%;"><strong>__author__</strong> = 'Avinash Kak (kak@purdue.edu)'<br>
<strong>__copyright__</strong> = '(C) 2016 Avinash Kak. Python Software Foundation.'<br>
<strong>__date__</strong> = '2016-May-14'<br>
<strong>__url__</strong> = 'https://engineering.purdue.edu/kak/distDT/DecisionTree-3.4.3.html'<br>
<strong>__version__</strong> = '3.4.3'</td></tr></table>
<table style="width:100%; border-collapse:collapse; border-spacking:0; padding:2; border:0;">
<tr style="bgcolor:#7799ee;">
<td style="colspan:3; vertical-align:bottom;">&nbsp;<br>
<span style="color:#ffffff; font-family:helvetica, arial; font-size:large;"><strong>Author</strong></big></span></td></tr>
<tr><td style="bgcolor:#7799ee;"></td><td>&nbsp;</td>
<td style="width:100%;">Avinash&nbsp;Kak&nbsp;(kak@purdue.edu)</td></tr></table>
</body></html>