Hi there,<br><br><div>I will give a talk on our group meeting this wednesday. I would like to introduce my work on "List Extraction" and current status of this project.<br></div><div><br></div><div>Here is the abstract:</div>
List data is an important source of structured data on the web. This paper is concerned with “top-k list” pages, which are web pages that describe a list of k instances of a particular topic or concept. Examples include “the 10 tallest persons in the world” and “the 50 hits of 2010 you don’t want to miss”. We present an efficient algorithm that extracts the target lists with high accuracy even when the input pages contain other non-target lists of the same size or errors. The extraction of such lists can help enrich existing knowledge bases about general concepts, or act as a proprocessing step to produce facts for a fact answering engine.<br>
<br>You are welcome to visit our wiki site for further information:<br><a href="http://www.cs.sjtu.edu.cn/~kzhu/wiki/index.php5/Top_K_List_Extraction">http://www.cs.sjtu.edu.cn/~kzhu/wiki/index.php5/Top_K_List_Extraction</a><br>
<div><br></div><div>Thanks,</div><div>Zhixian</div>
<br><br>