|
多語種文本生成系統
項目持有者:曾慶輝 聯系方式:E-mail:zqhmail@yahoo.com 項目介紹: 自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。它可以分成語言理解和語言生成兩個互逆的過程。自然語言生成是一種從大量數據、深層語言結構到表層結構的轉換。經過多年的研究,工程化的自然語言處理--語言技術(Language Technology) 已經使復雜的人類語言處理技術從實驗室走向市場成為可能。 項目申請人在上海交通大學和德國人工智能研究中心在這方面從事了多年的研究和開發(fā),積累的豐富的經驗。所開發(fā)的多語種文本生成系統采用淺層生成(Shallow Approach)和深層生成(Deep Approach) 。淺層生成采用面向任務基於模板的格式化生成,可移植性強,開發(fā)周期短而且成本低。深層生成采用流水線式結構(即由內容規(guī)劃器、句子規(guī)劃器和表層生成器組成)。在內容規(guī)劃階段采用Schema方法,較好地解決了文本結構和內容的靈活組織問題。在句子規(guī)劃階段,采用了語句優(yōu)化和資源類映射技術,消除了語句的冗余部分,并可用形式化方法表述不同語種以及各語種的不同語句結構。使同一內容生成的語句呈現多樣化形式。在表層生成階段,完善了FB-LTAG(基于特征的詞匯樹連接文法),解決了生成中構造句法樹的“組合爆炸”問題,并在選詞時做到恰如其份。針對不同客戶和應用可以分別和組合使用這兩種方法。潛在的應用領域包括: 旅游: 航班信息的實時文本匯報 氣象信息的文本預報 體育: 上報國際體育組織的各種實時報表或簡報; 供中外媒體(報刊、電臺、電視臺、網站等)使用的成績報表和簡報; 供裁判使用的運動員歷史成績等情況介紹; 自動綜合每天的各項比賽情況(報表); 實時文字報導運動員比賽情況; 企業(yè): 公司客戶電子郵件問訊回復自動生成
|